Corso di
ANALISI INTELLIGENTE DEI DATI
Laurea Specialistica in Sistemi per il trattamento dell'informazione
Anno accademico: 2005-2006
Docente:
Rosa MEO
Numero di ore:
44 (in aula) + 14 (in laboratorio)
Numero di CFU (Crediti Formativi Universitari):
5 (in aula) + 1 (in laboratorio)
INDICE
-
Obiettivi del corso
-
Competenze attese e propedeuticità
-
Come si svolgono le lezioni (supporti alla didattica in uso alla docenza)
-
Programma/contenuti
-
Materiale didattico di supporto (a cura del docente)
-
Bibliografia (libri, articoli, documenti on-line,...)
-
Controllo dell'appprendimento (durante il corso)
-
Verifica (modalità d'esame)
-
Avvisi
1. Obiettivi del corso
Il corso copre le basi per comprendere e affrontare i problemi del
Data Mining e più in generale le problematiche relative al
processo di estrazione della conoscenza da basi di dati (KDD).
Oltre all'esposizione delle principali tematiche che
caratterizzano il Data Mining (regole di associazione, pattern
sequenziali, classificazione, clustering) si vuole fornire allo
studente una base di conoscenza di statistica e teoria dell'informazione
necessari per capire e utilizzare i fondamenti teorici di questi approcci.
Inoltre, si vogliono proporre alcune tecniche per affrontare l'analisi
dei dati su grandi volumi di dati, quali le tecniche di pre-processing
(pulizia dei dati, il campionamento, selezione delle dimensioni) e la
validazione sui dati dei risultati dell'analisi e la loro interpretazione.
Infine si vuole proporre allo studente uno strumento di data mining e OLAP
(On Line Analytical Processing), quale ad esempio Intelligent Miner di IBM e disponibile per Oracle, o SAS Enterprise Miner e alcune esperienze pratiche.
In particolare si sperimenteranno alcuni algoritmi di analisi dei dati
e apprendimento automatico disponibili pubblicamente e già
implementati in Java (Suite di algoritmi WEKA).
2. Competenze attese e propedeuticità
-
Competenze attese in ingresso (richieste all'inizio del corso).
Conoscenze elementari di probabilità e statistica, algoritmi, sistemi informativi e basi di dati.
-
Eventuali corsi propedeutici
(forniscono le "competenze attese in ingresso").
Sistemi intelligenti (laurea triennale), Basi di dati (laurea triennale: corso di Basi dati e Sperimentazioni, e il corso mutuato da Laboratorio Avanzato di Basi di Dati).
Inoltre gli studenti che hanno seguito il corso di Intelligenza Artificiale e Apprendimento Automatico troveranno in questo corso un completamento
alle tecniche di rappresentazione della conoscenza e apprendimento
automatico studiate in quel corso.
-
Competenze attese in uscita (acquisite durante il corso).
- Conoscenze di statistica di base per l'analisi dei dati, quali analisi di serie storiche, test di indipendenza
- Analisi di un algoritmo di data mining
- Scelta della tecnica di analisi da adottare per un certo
insieme di dati
- Interpretazione e validazione dei risultati dell'analisi
- Acquisizione delle modalità in cui avviene il processo di KDD,
e relativa scelta delle tecniche da adottare in ciascuna fase del processo.
3. Come si svolgono le lezioni (supporti alla didattica in uso alla docenza)
Le lezioni in aula sono svolte principalmente con
l'ausilio del calcolatore (proiezione di lucidi animati).
Le esercitazioni in Laboratorio saranno svolte ad un calcolatore
su cui è stato installato il software da sperimentare e sul cui
utilizzo lo studente verrà anche valutato in sede di esame.
4. Programma/contenuti
Introduzione |
(2 ore) | |
Il processo di Knowledge Discovery dai Dati (KDD) |
(2 ore) | |
Primitive di Data Mining, linguaggi, e architettura dei sistemi. Standard (CRISP-DM, SQL/MM e PMML) |
(2 ore) | |
Data Warehouse e Tecnologia OLAP per il Data Mining |
(4 ore) | |
Tecniche di preparazione dei dati: riduzione delle dimensioni, campionamento |
(2 ore) | |
Principi di statistica: distribuzione delle statistiche campionarie,
statistica inferenziale, stima parametrica, test di indipendenza |
(4 ore) | |
Algoritmi di selezione delle dimensioni |
(2 ore) | |
Descrizione dei concetti: caratterizzazione e classificazione |
(2 ore) | |
Mining di Regole di Associazione da grandi basi di dati |
(2 ore) | |
Algoritmi di estrazione di regole di associazione: Apriori, Partition,
FP-Growth, con campionamento, su architetture parallele |
(4 ore) | |
Sperimentazione con un sistema reale di analisi dei dati: Intelligent Miner o SAS Enterprise Miner |
(8 ore) | |
Principi di statistica: analisi di serie storiche |
(2 ore) | |
Analisi di sequenze temporali: scoperta di similarità, scoperta di sotto-sequenze, scoperta di episodi |
(4 ore) | |
Analisi dei dati tramite Clustering |
(2 ore) | |
Algoritmi di clustering: K-means, K-medoids, K-NN, density-based |
(4 ore) | |
Validazione e verifica dei risultati sui dati |
(2 ore) | |
Sperimentazione di algoritmi su vari data set con WEKA |
(8 ore) | |
Nota:
L'ordine degli argomenti e le tempistiche sono indicativi.
5. Materiale didattico di supporto (a cura del docente)
Registro e materiale delle lezioni
Slides del libro Data Mining - Concepts and Techniques, di J.Han e M.Kamber.
Slides del libro Data Mining - Practical Machine Learning Tools and Techniques with Java Implementations, di I.Witten e E.Frank.
IBM Intelligent Miner
SAS Enterprise Miner
WEKA
UCI KDD Archive (repository di data set per vari task di analisi dei dati).
Risorse sul WEB
6. Bibliografia (libri, articoli, documenti on-line,...)
-
Data Mining - Concepts and Techniques Jiawei Han, Micheline Kamber, Morgan Kaufmann, 2001.
Libri di consultazione:
-
Data Mining - Practical Machine Learning Tools and Techniques with Java Implementations, Ian H. Witten, Eibe Frank, Morgan Kaufmann, 2000.
-
Introduzione al Data Mining Richard J. Roiger, Michael W. Geatz, Mc-Graw Hill, 2003.
-
Predictive Data Mining: A Practical Guide Sholom M. Weiss , Nitin Indurkhya, Morgan Kaufmann, 1998.
-
Data Mining: Concepts, Models, Methods, and Algorithms Mehmed Kantardzic, IEEE Press, John Wiley & Sons, 2002.
-
Probability and Statistics for Engineering and the Science Jay L. Devore, Duxbury, 2004, 6th edition.
7. Controllo dell'apprendimento (durante il corso)
Il controllo dell'apprendimento è basato sulle domande che
gli studenti fanno sia durante le ore di lezione ed esercitazione che
durante i ricevimenti.
8. Verifica (modalità d'esame)
Colloquio orale in cui si verifica l'apprendimento dei contenuti teorici
del corso e la sperimentazione sui sistemi e gli algoritmi.
Qui sono elencate a titolo d'esempio alcune domande che l'anno scorso si
facevano durante il colloquio.
Descrivere le principali tecniche per la pulizia dei dati.
Descrivere in che cosa differiscono le varie tipologie di data warehouse.
Confrontare e descrivere le varie tecniche utilizzate per il calcolo e il mantenimento degli aggregati in una data warehouse.
Illustrare la selezione delle dimensioni (attributi) in base alla rilevanza.
Illustrare la tecnica di Attribute Oriented Induction.
Illustrare in che cosa consiste la caratterizzazione di una classe.
Descrivere gli utilizzi e la struttura di una tavola di contingenza.
Descrivere le tecniche di validazione del processo di classificazione.
Descrivere l'utilizzo delle statistiche campionarie nella statistica inferenziale.
Descrivere il significato e l'utilizzo della statistica del Chi-square.
Descrivere i principali test delle ipotesi discussi durante il corso.
Illustrare il significato intuitivo di una regola di associazione.
Descrivere lo spazio di ricerca dei large itemset.
Descrivere l'algoritmo e il principio di Apriori.
Illustrare uno degli esercizi svolti in laboratorio con gli Analysis Services di SQLServer o con Weka.
9. Avvisi
Stage: Il CSI Piemonte promuove stage su attività con uso di SAS. Ad esmpio, per la pulizia dei dati e algoritmi di classificazione. Ecco alcuni dettagli.
|