Harilik lineaarne regressioonmudel

4. Lineaarse mudeli tõlgendamine

Eelmises peatükis jõudsime mudelini, mis kirjeldab elektrienergia tarbimise sõltuvust elanike sissetulekust  Suurbritannia linnades. Seda mudelit võime nüüd kasutada arvutusteks. Näiteks mingis linnas oli elanike keskmine sissetulek 800 GBP aastas. Kui suur oli seal keskmine elektrienergia tarbimine pere kohta?

Mudeliks saime \({\hat y_i} = 274 + 1,68{x_i}\), kus y on elektrienergia tarbimine (kWh aastas) ja x elanike sissetulek (GBP aastas). Kui meid huvitab keskmine tarbimine linnas, kus keskmine sissetulek on 800 GBP, paneme arvu 800 mudelisse ja arvutame välja:

\({\hat y_i} = 274 + 1,68 \cdot 800 = 1618\) kWh aastas.

See on silutud väärtus ehk mudelväärtus


Mingi konkreetse pere tegelik tarbimine on  

\({y_i} = 274 + 1,68 \cdot 800 + {u_i} = 1618 + {u_i}\) kWh aastas.
Kasutades tingliku keskväärtuse mõistet, siis 1618 kWh on kõigi selliste perede, kellel sissetulek 800 GBP, elektritarbimise keskväärtus.

Nii võime mudelit kasutada prognooside tegemiseks. Aga palju olulisem on osata tõlgendada mudeli parameetreid. Need pole lihtsalt arvud, vaid neil on oma majanduslik sisu.

Tuletame kõigepealt meelde lineaarse mudeli
y=ax+b
parameetrite tõlgenduse üldjuhul.
Mudelist on näha, et kui x=0, siis y = b. Seega  vabaliige b näitab y väärtust, kui x=0. See on puht matemaatiline tõlgendus. Reaalseid majandusprotsesse kirjeldavate mudelite korral pole see tõlgendus alati realistlik.

Olulisem on sirge tõusu ehk parameetri  a tõlgendus. Kuidas selleni jõuda? Olgu meil mingi x väärtus x1 . Sellele vastav y väärtus on 
y1 = a x1 + b
Mis juhtub, kui x1 suureneb 1 võrra? Milline on uus y väärtus?
y2  = a (x1 +1)+ b =  a x1 +a + b =  a x+b + a =y1 +a
Näeme, et y muutub a võrra. Järelikult kordaja a näitab, kui palju muutub y, kui x suureneb ühiku võrra. 



Mudelist \({\hat y_i} = 274 + 1,68{x_i}\) näeme, et kui sissetulek on ühiku ehk 1 GBP võrra suurem, siis elektrienergia tabimine on 1,68 kWh suurem.
Järelikult, kui sissetulek on 100 GBP võrra suurem, on tarbimine aastas 168 kWh võrra suurem.

Parameetri b ehk vabaliikme tõlgendus selle mudeli korral: kui sissetulek on 0, on tarbimine 274 kWh.  Tõsi, see ei pruugi olla õige hinnang, sest sissetuleku väärtuse 0 lähedal meil andmed puuduvad ja seal võib mudeli kuju olla teistsugune.

Järgmises näites võrdleme tõusuparameetreid erinevate tarbimismudelite korral. Tarbimismudel näitab, kuidas majapidamise kulud mingile hüvisele sõltuvad kogukuludest. Kasutame Eesti leibkonnaeelarve uuringu andmeid aastast 2012. 
X kulud kokku pereliikme kohta aastas (eurot).

Y kulud teatud hüvise (toit, transport, side) tarbimisele, pereliikme kohta aastas (eurot).

Toit:  y = 434 + 0,13x + u

Transport: y= -464 +0,247x+u

Side: y= 97 + 0,0277x + u

Näeme, et kõige kiiremini kasvavad kulud transpordile. Kui kulud kokku suurenevad 1 euro võrra aastas, siis kulud transpordile suurenevad 0,247 eurot aastas. Ehk, kui kulud kokku suurenevad 1000 eurot aastas, siis kulud transpordile suurenevad 247 eurot aastas. See tähendab, et 24,7% kogukulude suurenemisest läheb transpordikulude suurendamisele.

Kuidas aga tõlgendada trasnpordikulude mudelis olevat negatiivset vabaliiget? Kulud ei saa ju olla negatiivsed! Ei olegi. Esitame lihtsalt küsimuse: millal tekivad kulud transpordile? Siis, kui kogukulud pereliikme kohta on ca 1880 eurot aastas. Kuidas selleni jõuti?

Paneme kirja transpordikulude mudelväärtuse 
\(\hat y =  - 464 + 0,247x\)
Nüüd leiame, millise x väärtuse korral \(\hat y =0\), st lahendame võrrandi.
$$\begin{array}{rl}0 &=  - 464 + 0,247x\\ - 0,247x &=  - 464\\0,247x &= 464\\x &= \frac{{464}}{{0,247}} = 1878,54 \approx 1880\end{array}$$

Nii tõlgendatakse negatiivset vabaliiget, kui sõltuv tunnus y ei saa omada negatiivseid väärtusi: leitakse x selline väärtus, millest alates on y positiivne.

Testi ennast, kas oskad lineaarset mudelit tõlgendada.