Iseseisev töö hõlmab omavalitud andmestiku
analüüsi. Tulemused tuleb esitada IPythoni
märkmikuna (notebook). Iseseisvat tööd
hinnatakse vastavalt õpiväljunditele 50 punkti
skaalal.
Leida ja viia sobivale kujule piisava suurusega andmestik. Dokumenteerida see: lisada atribuutide, objektide ja klasside kirjeldused. Sobiv suurus tähendab vähemalt 100 rida ja 4 atribuuti. Erandiks on tekstianalüüs, kus võib olla üks vaba teksti atribuut, aga see peab kindlasti olema vaba tekst, mida hiljem saab näiteks hulgaks terminisageduste atribuutideks teisendada, mitte klass või kategooria.
Andmed võiksid olla originaalandmed, võivad olla ka netist omal käel kokku kogutud (veebispider) või paluda vastava ülesande raames endale andmestik saata. Klassikalisi UCI ja Kaggle andmestikke võib häda korral analüüsida tingimusel, et olemasolevatele ja netist kättesaadavatele analüüsidele/märkmikele on midagi originaalset lisatud.
Iseseisev töö peab sisaldama CRISP DM protsessi kõiki etappe peale viimase (deployment):
- Äri / valdkonna mõistmine (business understanding): millisest valdkonnast andmed pärinevad ja mis on sisuline uurimisküsimus või hüpotees, millele üritame vastata. Analüüsi tehniliseks eesmärgiks peab olema kas üks või mitu järgnevat: klassi ennustamine, pideva muutuja ennustamine, andmestiku struktuuri kirjeldamine (dimensionaalsuse vähendamine, klasterdamine). Sisuline uurimisküsimus peab tehnilist eesmärki põhjendama: miks on vaja seda klassi ennustada, miks on andmete sisemine struktuur huvitav jne.
- Andmete mõistmine (data understanding): Millised andmed on meie käsutuses? Mis on atribuutide sisuline tähendus ja andmetüüp? Kas andmed võimaldavad uurimisküsimusele vastata ja hüpoteesi kontrollida? Koostada esialgne uurimuslik andmeanalüüs: atribuutide keskmised, standarhälbed, histogrammid, pairplot, korrelatsioonimaatriks jne. Kas me mõistame valdkonda piisavalt, et andmetest aru saada?
- Andmete eeltöötlus (data preprocessing) Vajadusel teisendada ja standardiseerida andmestik.
- Modelleerimine (modelling). Valida uuritava probleemi lahendamiseks sobivad meetodid/mudelid (närvivõrk, otsustuspuu, k-keskmiste klasterdamine, PCA jne) ja treenida/kohandada need andmetele. Kas eeltöötlus on mudelite jaoks piisav või vajaks mõni mudel eraldi eeltöötlust?
- Kui tegemist on ennustava mudeliga, siis hinnata selle headust (cross validation jms). Kui tegemist on kirjeldava mudeliga, siis hinnata selle sobivust, klastrite arvu ja katet. Milliseid järeldusi on võimalik uurimisküsimuse/hüpoteesi osas teha? Kas ennustav mudel on (äri)eesmärkide täitmiseks piisavalt täpne? Millist uut teadmist annab meile andmete sisemise struktuuri kirjeldus (PCA dimensioonid, klastrid jne)?
- Evitus (deployment). See etapp jääb ära, aga kui mudel on töökohal või mujal kasulik, siis miks mitte.
Soovitavalt esitada iseseisev töö .ipynb märkmikuna, aga on lubatud kasutada ka muid andmeanalüüsi vahendeid (Weka jms). Kaitsmine on samuti märkmiku baasil, slaide vaja pole. Aega arvestada maksimaalselt 15 minutit.
Iseseisvat tööd on võimalik kaitsta semestri viimasel nädalal ja sessi ajal. Sessi ajal tulles on vajalik registreeruda ÕISis eksamile (eksam=iseseisva töö kaitsmine).