Harilik lineaarne regressioonmudel

6. Parameetrite testimine

Uurime, kas võib eksisteerida seos riigi peaministri nime ja riigi SKP vahel. Kasutades 2012. a andmeid  7 riigi kohta (Eesti, Läti, Leedu, Soome, Rootsi, Taani, Norra), saame mudeliks

\(\widehat {SKP} = 15n - 54,7\)

kus SKP on miljardites eurodes ja n peaministri täisnimes olevate tähtede arv. Andmeid võib vaadata Statistika õpikust (Sauga) lk 465 näide 9.14.


Kas me võime saadud mudeli põhjal väita, et kui riigi peaministri nimi on pikem, on ka riigi SKP suurem? Et iga täht peaministri nimes suurendab riigi SKP-d ligikaudu 15 mld euro võrra? Vaevalt selline järeldus usaldusväärne on.

Siit tuleb vajadus testida parameetrite statistilist olulisust. Vähimruutude metodil saab leida parima sirge läbi suvalise punktiparve. Ka siis, kui need punktid on juhuslikult hajunud ning seos X  ja Y vahel puudub. Usaldada võime ainult neid parameetrite hinnanguid, mis on statistiliselt olulised. Kõige sagedamini on regressioonmudeli korral vaja testida, kas tunnused Y ja X on omavahel seotud, st kas tõusuparameeter a erineb oluliselt nullist.

Testimiseks kasutatakse t-statistikut, mis on parameetri hinnangu ja standardvea suhe:

\(t = \frac{{\hat a - 0}}{{se(\hat a)}} = \frac{{\hat a}}{{se(\hat a)}}\)

Tegemist on kahepoolse hüpoteesiga.

Nullhüpotees H0   \(a=0\)

Sisukas hüpotees H1   \(a \neq 0\)

Kriitiline piirkond (vastu võtta H1): \(|t| > t_{\alpha/2}(\nu )\) ehk p < α

See on parameetrite statistilise olulisuse testimine. Kui nullhüpotees on ümber lükatud (võetakse vastu sisukas hüpotees), on parameeter oluliselt nullist erinev, järelikult seos on olemas. Kui tuleb vastu võtta nullhüpotees, siis pole seose olemasolu tõestatud.

Järgmises demos saad harjutada regressioonmudeli  parameetri statistilise olulisuse testimist ning näed, kuidas tulemust mõjutab valimi maht, parameetri punkthinnang, parameetri standardviga ja ette võetud olulisuse nivoo α.


Demos nägid, kuidas mõjutavad hüpoteesi testimise tulemust erinevad näitajad.
Testi ennast, kas said demost õigesti aru.




Regressioonmudeli aruandes kuvatakse iga parameetri jaoks nii t-statistiku väärtus kui ka sellele vastav olulisuse tõenäosus p. Otsuse vastuvõtmiseks on kõige lihtsam võrrelda olulisuse tõenäosust p olulisuse nivooga α (tavaliselt 0,05).
  • Kui>α, võtta vastu nullhüpotees, st parameeter pole statistiliselt oluline.
  • Kui p < α, võtta vastu sisukas hüpotees, st parameeter on statistiliselt oluline.

Riigi SKP ja peaministri nimes olevate tähtede arvu n vahelise seose hindamise aruanne on järgmine


Veerus t-ratio on t-statistikud. Näiteks n kordaja t-statistiku arvutus on
\(t=\frac{14,9553}{21,3950}=0,699\)

Veerus p-value on neile t-statistikutele vastavad olulisuse tõenäosused, mis on leitud t-jaotusest. Nagu näeme, on mõlemad oluliselt suuremad kui 0,05, seega mõlemad parameetrid on statistiliselt mitteolulised ja seda mudelit usaldada ei saa.

Kui me aga vaatame elektrienergia tarbimise mudeli aruannet, siis näeme, et sissetuleku X ees oleva kordaja olulisuse tõenäosus on 3,2·10-9 < 0,05 ning võtame vastu sisuka hüpoteesi. On tõestatud, et sissetuleku X ja elektrienergia tarbimise Y vahel on seos.



Seega enne, kui me hakkame vaatama parameetrite hinnanguid (veerg coefficient), tuleb vaadata olulisuse tõenäosusi veerus p-value, et teha kindlaks, kas parameetrite hinnangud on usaldusväärsed. Kui parameetrid on statistiliselt olulised, alles siis on mõtet vaadata hinnangute arvväärtusi, tõlgendada neid ja mudelit tervikuna.

Regressioonmudeli aruandes kuvatakse automaatselt info parameetri statistilise olulisuse testimise kohta, st testitakse, kas parameeter erineb oluliselt nullist. Aga mõnikord on statistiliselt olulise parameetri korral lisaks vaja testida, kas parameetri hinnang on oluliselt erinev mõnest muust arvust.

Näiteks finantsvarade hindamise mudeli CAPM (Capital Asset Pricing Model) üldkuju on järgmine
 INVβ TP + u
Siin
INV = R - RF
TP = RM - RF
kus R on investeeringu oodatav tulumäär, RF riskivaba tulumäär antud turul (näiteks riigi võlakirjade tulusus) ja RM turuportfelli tulusus. Turuportfell esindab kõiki turul ringlevaid väärtpabereid.
Kordaja β on investeeringu süstemaatilise riski mõõt ehk beetakordaja. CAPM mudeli hindamisel kasutatakse tulumäärade aegridu ja leitakse beetakordaja. Kui β > 1, on tegemist  agressiivse investeeringuga: investeeringu tulumäära liikumine on suurem kui turuportfellil, investeeringu risk on turu keskmisest kõrgem. Seega CAPM mudeli beetakordajat peab võrdlema arvuga 1 ja tuleb testida hüpoteesipaari
H0: β ≤ 1
H1: β > 1
Sellisel testimisel tuleb mudeli aruande põhjal arvutada teststatistik ja võrrelda seda kriitilisega. Teststatistiku valem üldjuhul

\(t = \frac{{\hat a - {a_0}}}{{se(\hat a)}}\),

kus \(\hat a\) on parameetri hinnang, \(a_0\) nullhüpoteesile vastav parameetri väärtus ja \(se(\hat a)\) parameetri hinnangu standardviga. Parameetri hinnang ja selle standardviga võetakse mudeli hindamise aruandest.
   Kahepoolne         Ühepoolne
Nullhüpotees H0         a=a0  a ≤ a0         ≥ a0
Sisukas hüpotees H1        aa0  a a0          aa0
Kriitiline piirkond (võtta vastu H1)      |t|> tα/2 (υ)
      p < α 
    |t|> tα (υ)
    p < 2α 

Vabadusastmete arv υ= n -k, kus n on valimi maht ja k mudeli parameetrite arv.