Sissejuhatus

3. Hinnangud ja nende omadused

Uuritav objekt on üldkogum, aga enamasti kasutatakse ökonomeetrias valimvaatlustel saadud andmeid. Seega andmebaasis on valimi andmed. Järeldusi soovime teha aga üldkogumi kohta. Üldkogumiks võib olla Eesti elanikkond, kelle kohta soovime informatsiooni ja teha järeldusi. Aga kasutada on meil valimi andmed. Näiteks Eesti elanike finantskirjaoskuse ehk rahatarkuse uuring 2019, mille viis läbi Turu-uuringute AS. Valim oli 1005 isikut vanuses 18–80 eluaastat.

Valimi parameetrite põhjal leitakse üldkogumi parameerite hinnangud.

Järgnevas interaktiivses demos saad moodustada juhuvalimeid ja veenduda, et erinevad juhuvalimid annavad erineva keskmise. Juhuvalimi keskmine on üldkogumi keskmise punkthinnang. Pildile klikkides laetakse alla demo fail, demo avamiseks peab arvutisse olema installeeritud Wolfram Player.

Valim on juhuvalim, järelikult hinnang on juhuslik suurus.

Ökonomeetrilise mudeli hindamisel on samuti tegemist valimiga ning valimi põhjal leiame mudeli parameetrite hinnangud.
Olgu näiteks tegelik mudel

Error converting from MathML to accessible text.

. Valimvaatlusest saadud andmete põhjal leiame, et

Error converting from MathML to accessible text.

hinnang on

Error converting from MathML to accessible text.

Error converting from MathML to accessible text.

hinnang on

Error converting from MathML to accessible text.

. Parameetrite hinnanguid tähistatakse tavaliselt katusega ^ eristamaks neid parameetrite tegelikest väärtustest ja rõhutamaks, et tegemist on hinnangutega.

Matemaatilise statistika üheks põhieesmärgiks on valimi andmeid kasutades hinnata mingit üldkogumi parameetrit või parameetrite hulka β.

Punkthinnang (point estimate) on statistik, mis annab parameetrile ühese väärtuse.

Näiteks valimi aritmeetiline keskmine on punkthinnang kogumi keskväärtusele.

Intervallhinnang (interval estimate) on lõik, mis sisaldab parameetri tegelikku väärtust mingi etteantud tõenäosusega. Seda tõenäosust nimetatakse usaldatavuseks ning intervallhinnangut ka usaldusvahemikuks (confidence interval).

Järgmises demos saad uurida, kuidas erinevate juhuvalimite põhjal leitud usaldusvahemikud katavad parameetri tegeliku väärtuse (kogumi keskväärtuse). Mitu valimit 20-st annavad sellised usalduspiirid, kuhu kogumi keskväärtus langeb, kui usaldatavus on 0,75? Aga kui usaldatavus on 0,99? Mis juhtub usaldusvahemikega, kui me suurendame usaldatavust?

Eelnevates demodes oli tegemist üpris lihtsa statistiku hindamisega - hindasime kogumi keskväärtust ja selle hinnanguks oli valimi aritmeetiline keskmine. Aga kui tuleb hinnata mingeid muid parameetreid?

Hinnangfunktsioon (estimator) on reegel üldkogumi parameetri(te) hinnangu(te) leidmiseks.

Ühe ja sama parameetri hindamiseks võib kasutada erinevaid hinnangfunktsioone. Mõned sobivad paremini, mõned halvemini. Järgnevalt vaatamegi, mille alusel valida sobivat hinnangfunktsiooni.

Üldkogumi keskväärtuse hindamiseks võib kasutada näiteks

valimi aritmeetilist keskmist;
valimi mediaani;
valimi minimaalse ja maksimaalse elemendi aritmeetilist keskmist.

Need on kolm võimalikku hinnangfunktsiooni valimi keskväärtuse hindamiseks. Järgnevas demos saad proovida, kas need hinnangfunktsioonid annavad keskmiselt erinevad hinnangud ja kas eristub selgelt üks, mis on teistest parem. Kogumist võetakse suur hulk juhuvalimeid. Iga valimi põhjal leitakse vastavalt valitud hinnangfunktsioonile kas valimi keskmine, mediaan või minimaalse ja maksimaalse elemendi aritmeetiline keskmine. Seejärel leitakse nende hinnangute keskmine, mis kuvatakse tabeli alumises osas. Kui hinnangute keskmine langeb tegeliku väärtusega kokku, siis võib seda hinnangfunktsiooni kasutada.

Ökonomeetrilise mudeli parameetrite hindamiseks on samuti mitmeid hinnangfunktsioone:

harilik vähimruutude meetod (Ordinal Least Squares, OLS);
suurima tõepära meetod (Maximum Likelihood, ML);
kaalutud vähimruutude meetod (Weighted Least Squares, WLS);
kaheastmeline vähimruutude meetod (Two-Stage Least Squares, 2SLS);
üldistatud vähimruutude meetod (Generalized Least Squares GLS).

Käesolevas kursuses kasutame põhiliselt harilikku vähimruutude meetodit OLS. Kursuse lõpus aegridade modelleerimisel on kasutusel ka suurima tõepära meetod ML ning paneelandmete korral üldistatud vähimruutude meetod GLS.

Milliseid näitajaid kasutatakse siis hinnangfunktsioonide iseloomustamiseks?

Hinnangu nihe (bias) võrdub parameetri hinnangu $Error converting from MathML to accessible text.$ keskväärtuse $Error converting from MathML to accessible text.$ ning parameetri tegeliku väärtuse $Error converting from MathML to accessible text.$ vahega: $Error converting from MathML to accessible text.$ . Parameetri hinnang on nihketa (unbiased), kui
$E[ \hat \theta ] = \theta$.

On selge, et kahest hinnangfunktsioonist on parem see, mis on nihketa. Järgmises demos on kogumi keskväärtuse hindamiseks kasutatud kaht erinevat hinnangfunktsiooni. Üks on nihketa ja teine nihkega.

Võib ju küsida, miks peaks kasutama kogumi keskväärtuse hindamiseks valimi geomeetrilist keskmist, on ju loomulik kasutada valimi aritmeetilist keskmist. Aga alati selline loogika ei tööta. Näiteks võib tuua kogumi dispersiooni hindamise. Kasutades valimi korral sama valemit, mida kasutatakse kogumi dispersiooni leidmisel, saame nihkega hinnangu. Seda võib näha järgmises demos.

Erinevate hinnangfunktsioonide omadusi ei analüüsita ainult arvutisimulatsioonide abil. Seda, kas mingi parameetri jaoks valitud hinnangfunktsioon on nihkega või nihketa, saab paljudel juhtudel uurida anlüütiliselt, kasutades matemaatilist statistikat. Sellisel juhul arvutisimulatsioonid lihtsalt illustreerivad ja kinnitavad teoreetilist analüüsi. Näiteks seda, et kogumi dispersiooni nihketa hinnanguks on valimi dispersioon $s^2 = \frac {1}{n-1} \sum (x_i - \bar x ) ^2$, on näidatud A. Sauga "Statistika õpik majanduseriala üliõpilastele" lisas A.7. Valimi dispersiooni valemi tuletamine.

Aga nihketa hinnangfunktsioone võib olla mitmeid. Näiteks sümmeetrilise jaotuse korral on üldkogumi mediaani nihketa hinnanguteks nii valimi mediaan kui ka valimi aritmeetiline keskmine. Kas võib kasutada mõlemat või on üks neist siiski parem? Otsustamiseks tuleks uurida järgmist demot. Mille poolest need hinnangfunktsioonid erinevad?

Järelikult teine näitaja, mille alusel hinnangfunktsioone võrrelda, on hinnangu efektiivsus, mis iseloomustab hinnangute hajuvust. Parameetri θ nihketa hinnang $Error converting from MathML to accessible text.$ on efektiivsem kui nihketa hinnang $Error converting from MathML to accessible text.$ , kui hinnangu $Error converting from MathML to accessible text.$ dispersioon on väiksem kui hinnangu $Error converting from MathML to accessible text.$ dispersioon:

${{\rm var}} \left[ {{{\hat \theta }_1}} \right] < {{\rm var}} \left[ {{{\hat \theta }_2}} \right]$

Hinnangute dispersioone tasub võrrelda vaid nihketa hinnangute korral, kuna hinnangu väike dispersioon ei ole eesmärk omaette. Esmalt peab olema täidetud tingimus, et hinnang on hihketa.

Efektiivne hinnang on vähima dispersiooniga hinnang kõigi nihketa hinnangute seas.

Hinnangu nihet ja efektiivsust võib illustreerida järgmise joonise abil, kus me püüame tabada märklaua keskpunkti, mis on parameetri tegelik väärtus. Neli märklauda kujutavad nelja erineva hinnangfunktsiooni kasutamist. Sinised punktid tähistavad kasutatava hinnangfunktsiooni abil saadud punkthinnanguid.

Kolmas hinnanguid iseloomustav näitaja on hinnangu mõjusus. Olgu meil valimi maht n ning selle põhjal saadud parameetri θ hinnang $\hat \theta _n$. Hinnang $\hat \theta _n$ on mõjus (consistent), kui ta koondub tõenäosuse järgi parameetri tegelikuks väärtuseks:
$ \lim \limits_{n \to \infty } \rm P \left( \left| \hat \theta _n - \theta \right| < \varepsilon \right) = 1$ iga $\varepsilon >0$ korral.
See avaldis tähendab, et mõjusa hinnangu korral valimi mahu n kasvades tõenäosus P, et hinnangu ja parameetri tegeliku väärtuse erinevus oleks väiksem kui mistahes positiivne arv, läheneb ühele.

Hinnangu mõjusus on asümptootiline omadus, st see omadus avaldub valimi mahu lähenemisel lõpmatusele. Mõjusust tähistatakse tihti ka nii:
$ \rm{plim} \left( \hat \theta _n \right) = \theta $
Tähistus plim tuleb terminist probability limit.

Hinnangu mõjusust demonstreerib järgmine demo, kus kogumi keskväärtuse hindamiseks on moodustatud üha suurema mahuga juhuvalimid ning on näha, et suuremate valimite korral hinnang läheneb tegelikule väärtusele.

Neljas hinnaguid iseloomustav näitaja on hinnangu asümptootiline jaotus. Asümptootiline jaotus näitab, millisele klassikalisele jaotusele läheneb hinnangu valimjaotus valimi mahu kasvamisel.

Hinnang on asümptootiliselt normaaljaotusega, kui hinnangu valimjaotus läheneb valimi mahu kasvamisel normaaljaotusele.

Näiteks valimite keskmiste jaotus läheneb valimite mahu n kasvades normaaljaotusele keskväärtusega μ ja dispersiooniga σ² /n, kus μ ja σ² on vastavalt kogumi keskväärtus ja dispersioon. Seda võib näha järgmises demos, kus 10 000 arvu sisaldavast kogumist võetakse 5000 valimit ja vaadeldakse nende keskmiste jaotust.

Hinnangu asümptootilist jaotust kasutatakse parameetrite usalduspiiride leidmisel, parameetrite testimisel. Hüpoteeside testimise korral leitakse sealt teststatistiku kriitilised väärtused ning olulisuse tõenäosus.

Viimane ja viies omadus on hinnangu asümptootiline efektiivsus. Mõjusat hinnangut nimetatakse asümptootiliselt efektiivseks (asymptotically efficient), kui selle asümptootilise jaotuse dispersioon on väiksem suvalise mõjusa asümptootiliselt normaaljaotusega hinnangu dispersioonist. Asümptootiline efektiivsus erineb eespool vaadeldud efektiivsusest lõpliku valimi korral selle poolest, et see omadus eksisteerib valimi mahu lähenemisel lõpmatusele. Asümptootiliselt efektiivsed on näiteks mõningad suurima tõepära meetodil leitud hinnangud.

Hinnangute omadused kokkuvõtlikult

Lõplike valimite korral (small-sample properties).

Nihe. Iseloomustab süstemaatilist viga.
Efektiivsus. Iseloomustab hinnangute hajuvust.

Asümptootilised omadused, suurte valimite korral (large-sample properties).

Mõjusus. Iseloomustab koondumist suurte valimite korral.
Asümptootiline jaotus.

Asümptootiline efektiivsus.