Harilik lineaarne regressioonmudel

9. Erindi mõju

Erindiks nimetatakse sellist vaatlust, mis asub teistest väga kaugel. Üks erind võib oluliselt mõjutada regressioonmudeli parameetreid. 

Järgnevas demos saad ühe vaatluse teistest eemaldada ja vaadata, kuidas muutub regressioonjoone asend.


Kõige lihtsam meetod erindi(te) avastamiseks on uurida hajumisdiagrammi. Erindite avastamisel tuleb kaaluda mudeli hindamist ilma erinditeta. Neljanda teema juures tutvume ka ebaharilike vaatluste avastamisega sobivate kvantitatiivsete näitajate abil.

Kui seletava tunnuse x väärtused on väga suure asümmeetriaga, siis ka see näitab, et eksisteerib ekstreemseid väärtusi. Sellisel juhul tavaliselt seda tunnust logaritmitakse, et vähendada ekstreemsete väärtuste mõju. Logaritmimisel muutub jaotus sümmeetrilisemaks.

Näiteks õpikus Wooldrige, (2002) "Introductory Econometrics: A Modern Approach" analüüsiti 209 ettevõtte andmeid aastal 1990. Andmed võeti ajalehest "Businessweek". Üheks näitajaks oli ettevõtte müügikäive (sales) aastas (mln $). Vasakpoolsel joonisel on käibe jaotushistogramm. Nagu näha, esineb väike arv ettevõtteid, mille käive on teistega võrreldes väga suur. 95% ettevõtetest jäi käive alla 21 mld dollari, aga 10 ettevõttel oli see suurem. Ühel ettevõttel lausa 98 mld $. Asümmeetriakordaja on 5.


Parempoolsel diagrammil on aga logaritmitud käive, st on leitud käibe naturaallogaritm. Nagu näha, on jaotus üsna sümmeetriline. Asümmeetriakordaja on  0,1. Seega regressioonmudelisse tuleks panna logaritmitud käive.