Harilik lineaarne regressioonmudel

2. Tinglik keskväärtus ja regressioonmudel

Regressioonmudelini jõudmiseks tuleb kõigepalt tutvuda sellise suurusega nagu tinglik keskväärtus.

Eesti meeste keskmine pikkus on 179 cm. Selle võib kirja panna nii: E[PIKKUS] = 179 cm. See on tingimusteta keskväärtus (unconditional mean). On arusaadav, et Eesti meeste pikkused varieeruvad ümber selle keskväärtuse. Ühe konkreetse mehe korral PIKKUS= 179 + u , kus u on juhuslik komponent. Konkreetse mehe pikkus sõltub paljudest teguritest, mida see juhuslik tegur arvestab.

Poisslapse pikkus aga sõltub vanusest ning lisaks paljudest muudest teguritest. Näiteks 2-16 aastase poisslapse keskmine pikkus sentimeetrites

\({\rm{E}}\left[ {{\rm{PIKKUS}}\left| {{\rm{VANUS}}} \right.} \right] = 80,4 + 6 \cdot {\rm{VANUS}}\)

See on tinglik keskväärtus (conditional mean): keskväärtus sõltub vanusest. Ühe konkreetse kindla vanusega poisslapse pikkus

\({\rm{PIKKUS}} = 80,4 + 6 \cdot {\rm{VANUS}} + u\)

Seega, kui juhusliku suuruse Y keskväärtus sõltub juhusliku suuruse X väärtustest, on tegemist tingliku keskväärtusega, mida üldiselt tähistatakse

\({\rm{E}}\left[ {Y\left| X \right.} \right]\)

Konkreetse poisslapse pikkuse avaldises on kaks osa

deterministlik komponent 80,4 + 6 · VANUS, mis on üheselt määratud vanusega
juhuslik komponent u

Seda näidet üldistades: regressioonmudel koosneb deterministlikust ja juhuslikust komponendist:

y = deterministlik komponent + juhuslik komponent

Tinglik keskväärtus on deterministlik komponent ning regressioonmudeli üldkuju võime kirja panna ka nii

\(y{\rm{ = E}}\left[ {Y\left| X \right.} \right] + u\)

Deterministlik komponent on mingi konkreetne matemaatiline funktsioon. Näiteks lineaarse regressioonmudeli y=ax+b+u korral ax+b on deterministlik komponent ehk tinglik keskväärtus ja u juhuslik komponent. Algul vaatlemegi lineaarset mudelit, mis on kõige lihtsam. Teema lõpus tutvume ka mõningate mittelineaarsete mudelitega.

Regressioonanalüüs uurib juhuslike suuruste vahelist sõltuvust ja võimalusi selle funktsionaalseks kirjeldamiseks etteantud valemi põhjal. See tähendab, et mudeli kuju (lineaarne, ruutfunktsioon , logaritmiline, ....) tuleb analüüsi teostajal ette anda. Regressioonanalüüsi käigus leitakse regressioonmudeli deterministlik komponent, st leitakse vastava matemaatilise funktsiooni parameetrite hinnangud. Juhuslikku komponenti leida ei saa, kuid me teame, et see eksisteerib ja seepärast tuleb see kindlasti regressioonmudelisse lisada. Kui me seda mudelisse kirja ei pane, siis näiteks poisslaste pikkuse korral tähendaks see, et kõik samas vanuses poisslapsed on sama pikkusega, mis on vale.

Kuidas siis leida regressioonmudelit, mis kirjeldab elektrienergia tarbimise sõltvuvust tarbija sissetulekust? Kasutame lineaarset mudelit y= ax+b+u , kus x on keskmine sissetulek (GBP asstas) ja y tarbimine (kWh aastas). Meil tuleb olemasoleva valimi põhjal leida mudeli parameetrite a ja b hinnangud, kasutades sobivat hindamismeetodit. Neid on mitmeid.

Olulisemad regressioonmudeli parameetrite hindamismeetodid.

Vähimruutude meetod

kõige tuntum
minimeeritakse hälvete ruutude summat
jaguneb

harilik vähimruutude meetod OLS (Ordinary Least Squares) lineaarse mudeli korral;
mittelineaarne vähimruutude meetod NLS (Nonlinear Least Squares);
üldistatud vähimruutude meetod GLS (Generalized Least Squares).

Suurima tõepära meetod MLE (Maximum Likelihood Estimation)

leitakse parameetrite hinnangud, mille korral antud valimi tõenäosus on kõige suurem;
kasutatakse peamiselt tõenäosusmudelite korral.