Kursus: IDN1605 Andmekaeve suurandmetest

Üldist

Ahenda kõik Laienda kõik

NB! Eeldusaine asemel on täiesti piisav Pythoni tundmine baastasemel. Sobib ka üldine programmeerimisoskus baastasemel, aga see eeldab teatud lisatööd.
Andmekaeve (data mining): masinõppe tehnikate rakendamine kasulike mustrite leidmiseks suurtest andmehulkadest.
Masinõpe (machine learning): arvuti (pool)iseseisev õppimine, vastandina õpitava programmeerimisele.
Masinõpe jaguneb:
Juhendatud õpe (supervised learning): klassifitseerimine, pidevate muutujate ennustamine.
Juhendamata õpe (unsupervised learning): klasterdamine, dimensionaalsuse vähendamine
Stiimulõpe (reinforcement learning): interaktiivne õpe pideva tagasiside alusel.
Mõned masinõppe meetodid on valge kasti meetodid, kus õpitu on inimesele lihtsalt mõistetav (valem, reegel, otsustuspuu), mõned on musta kasti meetodid, kus õpitu pole lihtsalt mõistetav (tehisnärvivõrgud jms). Andmekaeveks sobivad rohkem valge kasti meetodid.
Sissejuhatus kursusesse Lehekülg
Ainekava (ÕIS) URL
Laiendatud ainekava Fail
Hindamiskriteeriumid (NB! semestri töö ja iseseisev projekt peavad mõlemad saama minimaalselt 25p) Fail

PDF-dokument
O'Reilly Safari andmebaas (vaadatav S. Raschka Machine Learning in Python) URL
Õppejõu teavitused Foorum
Kursusel osaleja foorum (küsi nõu õppejõult või teistelt osalejatelt)
Praktikumid jaotuvad klasside ja Teamsi vahel edaspidi järgnevalt:
E 17:45 toimuv praktikum jääb klassi SOC-408
N 14:00 ja 16:00 toimuvad praktikumid kolivad MS Teamsi, sinna lisan vastavad kanalid.
R 10:00 toimuva praktikumi pean osalejate vähesuse tõttu kinni panema.
Millisel ajal soovite osaleda on teie valida.

Konsultatsioonid toimuvad neljapäeviti kell 13:00 Teamsis. Palun konsulteerimine kokku leppida vähemalt kaks päeva varem saates meili ants.torim@taltech.ee. Vastasel korral ei pruugi mind kohal olla või selgub, et konsultatsioon on täis või ei õnnestu kuuenda korruse uksest sisse pääseda.
Ülesannete esitamine toimub vastava märkmiku jagamisel ja seletamisel praktikumis klassis või läbi MS Teamsi, faile üles laadida pole mõtet. Ülesanded on soovitav esitada ülesande andmisele järgneval nädalal, aga võivad ka teatud määral hilineda. Kõik ülesanded tuleb esitada vastavalt graafikule, mis on Moodles. Iseseisev töö tuleb esitada ja kaitsta eksamil. Oma originaalse andmestiku viimine ülesande 9. käigus üldkasutatavale, dokumenteeritud ja vajadusel anonümiseeritud isikuandmetega kujule ja ülejäänud kursusele kättesaadavaks tegemine (muudeks ülesanneteks, iseseisvaks projektiks) annab lisapunkte. On väga hea kui see andmestik on seotud esitaja baka- või magistritööga.

(16. nädala praktikumid on mõeldud eeskätt iseseisva töö kaitsmiseks. Kaitsmiseks tulevad võimalused ka eksamisessiooni sees.)
Kood aine MS Teamsi (https://www.microsoft.com/en-us/microsoft-365/microsoft-teams/download-app) töörühmaga liitumiseks:
aqkuhxa
Link ka:
https://teams.microsoft.com/l/team/19%3ac9902b01d0ea45c0b2cea3af355a3a00%40thread.tacv2/conversations?groupId=4f1c690a-c078-48a6-a5fc-fe3ccba80f59&tenantId=3efd4d88-9b88-4fc9-b6c0-c7ca50f1db57
Ülesannete esitamise graafik Fail
Announcements Foorum

CRISP-DM: CRoss Industry Standard Process for Data Mining

CRISP-DM protsess Lightbox Gallery

Boonusülesanded

Pole saadaval

Loengusalvestused

Loengusalvestused Echos 2024 Väline tööriist

Interaktiivne programmeerimine. Python Jupyteri märkmikus.

Python URL
Pythoni ametlik juhend URL
Google's Python course URL
Tartu Ülikooli programmeerimisõpik Pythoni baasil URL
Anaconda distributsioon URL
Anaconda distributsiooni uuendamiseks avada Anaconda Powershell administraatorina ja siis käsurealt:
conda update conda seejärel conda update anaconda
Google Colab: Jupyteri laadne keskkond netis URL
Loeng 1: Millised on Teie taustateadmised programmeerimise alal? Test
Jupyteri märkmikud (staatiline html) Fail
Jupyteri märkmikud (interaktiivne ipynb) Fail
Näide iiriste klassifitseerimise kohta Fail
Näide iiriste klassifitseerimise kohta (html) Fail
Teema 1. Aritmeetika ja if-laused (interaktiivne ipynb). Fail

Andmed, failid ja tsüklid.

Teaduslik Python: SciPy stäkk.

Andmekaeve. Sissejuhatus scikit-learn moodulisse ja klassifitseerimisse.

Andmete eeltöötlus.

Andmete dimensionaalsuse vähendamine.

scikit-learn: Dimensionality Reduction URL
Teema ja ülesanded 6: andmete dimensionaalsuse vähendamine Fail
Teema ja ülesanne 6.: andmete dimensionaalsuse vähendamine (html) Fail
Test loengule 6: Andmete dimensionaalsuse vähendamine
standardiseeritud_zoo.csv Fail

Saadaval üksnes kui: Olete saanud nõutava punktisumma tegevuses Kategooria kokku.

Mudelite hindamine ja hüperparameetrite tuunimine.

Ansambelõpe.

Rakendus: sentimendianalüüs.

Teema_9_Sentimendianalüüs: andmetöötlus (ajamahukas) Fail
movie_data.csv Fail

Saadaval üksnes kui: Olete saanud nõutava punktisumma tegevuses Kategooria kokku.
Teema ja ülesanded 9.: sentimendianalüüs Fail
Teema ja ülesanded 9.: sentimendianalüüs (html) Fail
Boonusülesanne 9.

Pidevate muutujate ennustamine regressioonanalüüsi abil.

Klasteranalüüs.

Ülesanne 12.: iseseisva töö esimene etapp

Ülesanne 12.:
Rakendage oma iseseisva töö andmestikule ühte seni vaadeldud andmekaeve meetodit: logistiline regressioon, närvivõrk, otsustuspuu, lineaarne regressioon, peakomponentanalüüs või klasterdamine. Kui oskate kasutada mõnda muud sobivat meetodit, siis läheb ka see kirja. Valitud meetod peab sobima andmestiku ja ülesandega: klassifitseerimine, pideva muutuja ennustamine või andmete sisemise struktuuri kirjeldamine.
Vajadusel standardiseerige või normaliseerige andmed enne meetodi rakendamist. Hinnata sobival viisil treenitud mudeli headust (täpsus, F1 skoor, R2 skoor, siluetimeetod jne.).
Lõplikus iseseisvas töös tuleb rakendada mitut meetodit ja tulemusi võrrelda.
Ülesanne_12.
Iseseisva töö näide Iiriste andmestiku põhjal Fail

Tekstifail
Iseseisva töö näide Iiriste andmestiku põhjal (html) Fail
Iseseisva töö näide: pideva muutuja ennustamine Fail

HTML-dokument
Iseseisva töö näide: pideva muutuja ennustamine (html) Fail
Iseseisva töö näide: sentimendianalüüs Fail

Saadaval üksnes kui: Olete saanud nõutava punktisumma tegevuses Kategooria kokku.
Iseseisva töö näide: sentimendianalüüs (html) Fail

Saadaval üksnes kui: Teil on hinne tegevuses Kategooria kokku
Andmestiku küsimine iseseisvaks tööks Ülesanne

Iseseisev töö

Iseseisev töö hõlmab omavalitud andmestiku analüüsi. Tulemused tuleb esitada IPythoni märkmikuna (notebook). Iseseisvat tööd hinnatakse vastavalt õpiväljunditele 50 punkti skaalal.
Leida ja viia sobivale kujule piisava suurusega andmestik. Dokumenteerida see: lisada atribuutide, objektide ja klasside kirjeldused. Sobiv suurus tähendab vähemalt 100 rida ja 4 atribuuti. Erandiks on tekstianalüüs, kus võib olla üks vaba teksti atribuut, aga see peab kindlasti olema vaba tekst, mida hiljem saab näiteks hulgaks terminisageduste atribuutideks teisendada, mitte klass või kategooria.
Andmed võiksid olla originaalandmed, võivad olla ka netist omal käel kokku kogutud (veebispider) või paluda vastava ülesande raames endale andmestik saata. Klassikalisi UCI ja Kaggle andmestikke võib häda korral analüüsida tingimusel, et olemasolevatele ja netist kättesaadavatele analüüsidele/märkmikele on midagi originaalset lisatud.
Iseseisev töö peab sisaldama CRISP DM protsessi kõiki etappe peale viimase (deployment):
Äri / valdkonna mõistmine (business understanding): millisest valdkonnast andmed pärinevad ja mis on sisuline uurimisküsimus või hüpotees, millele üritame vastata. Analüüsi tehniliseks eesmärgiks peab olema kas üks või mitu järgnevat: klassi ennustamine, pideva muutuja ennustamine, andmestiku struktuuri kirjeldamine (dimensionaalsuse vähendamine, klasterdamine). Sisuline uurimisküsimus peab tehnilist eesmärki põhjendama: miks on vaja seda klassi ennustada, miks on andmete sisemine struktuur huvitav jne.
Andmete mõistmine (data understanding): Millised andmed on meie käsutuses? Mis on atribuutide sisuline tähendus ja andmetüüp? Kas andmed võimaldavad uurimisküsimusele vastata ja hüpoteesi kontrollida? Koostada esialgne uurimuslik andmeanalüüs: atribuutide keskmised, standarhälbed, histogrammid, pairplot, korrelatsioonimaatriks jne. Kas me mõistame valdkonda piisavalt, et andmetest aru saada?
Andmete eeltöötlus (data preprocessing) Vajadusel teisendada ja standardiseerida andmestik.
Modelleerimine (modelling). Valida uuritava probleemi lahendamiseks sobivad meetodid/mudelid (närvivõrk, otsustuspuu, k-keskmiste klasterdamine, PCA jne) ja treenida/kohandada need andmetele. Kas eeltöötlus on mudelite jaoks piisav või vajaks mõni mudel eraldi eeltöötlust?
Kui tegemist on ennustava mudeliga, siis hinnata selle headust (cross validation jms). Kui tegemist on kirjeldava mudeliga, siis hinnata selle sobivust, klastrite arvu ja katet. Milliseid järeldusi on võimalik uurimisküsimuse/hüpoteesi osas teha? Kas ennustav mudel on (äri)eesmärkide täitmiseks piisavalt täpne? Millist uut teadmist annab meile andmete sisemise struktuuri kirjeldus (PCA dimensioonid, klastrid jne)?
Evitus (deployment). See etapp jääb ära, aga kui mudel on töökohal või mujal kasulik, siis miks mitte.
Soovitavalt esitada iseseisev töö .ipynb märkmikuna, aga on lubatud kasutada ka muid andmeanalüüsi vahendeid (Weka jms). Kaitsmine on samuti märkmiku baasil, slaide vaja pole. Aega arvestada maksimaalselt 15 minutit.

Iseseisvat tööd on võimalik kaitsta semestri viimasel nädalal ja sessi ajal. Sessi ajal tulles on vajalik registreeruda ÕISis eksamile (eksam=iseseisva töö kaitsmine).
Failide saatmine iseseisva töö ettekandeks Ülesanne

Andmestikud iseseisvaks tööks

Pole saadaval

Suurandmed: keerukusteooria.

Suurandmed: riist- ja tarkvara ning paralleliseerimine.

Arvutiklastrid, pilved, hajusarvutus
Hadoop URL
HDFS URL
Hadoop MapReduce URL
Spark URL
Kubernetes URL
Containers URL
APOLLO: APplication Orchestration and runtime framework for Leveraging the edge-cLoud cOntinuum URL
Graafikakaardid (GPU)
CUDA URL
Pythoni spetsiifiline
Dask URL
Deploying clusters URL
Tensorflow URL
Keras URL
Keras: distributed training URL
S. Raschka: Parallelizing Neural Network Training with Theano (vananenud) URL
Taltechi teadusarvutuste keskus URL
Google Colab URL

IDN1605 Andmekaeve suurandmetest

Kursuse/teemade ülevaade

Üldist

CRISP-DM: CRoss Industry Standard Process for Data Mining

Boonusülesanded

Loengusalvestused

Interaktiivne programmeerimine. Python Jupyteri märkmikus.

Andmed, failid ja tsüklid.

Teaduslik Python: SciPy stäkk.

Andmekaeve. Sissejuhatus scikit-learn moodulisse ja klassifitseerimisse.

Andmete eeltöötlus.

Andmete dimensionaalsuse vähendamine.

Mudelite hindamine ja hüperparameetrite tuunimine.

Ansambelõpe.

Rakendus: sentimendianalüüs.

Pidevate muutujate ennustamine regressioonanalüüsi abil.

Klasteranalüüs.

Ülesanne 12.: iseseisva töö esimene etapp

Iseseisev töö

Andmestikud iseseisvaks tööks

Suurandmed: keerukusteooria.

Suurandmed: riist- ja tarkvara ning paralleliseerimine.

Mitmekihilised närvivõrgud Tensorflowga