DIPARTIMENTO   DI   INFORMATICA
Università di Torino

Corso di ANALISI INTELLIGENTE DEI DATI

Laurea Specialistica in Sistemi per il trattamento dell'informazione

Anno accademico: 2006-2007

Docente: Rosa MEO

Numero di ore: 44 (in aula) + 14 (in laboratorio)
Numero di CFU (Crediti Formativi Universitari): 5 (in aula) + 1 (in laboratorio)


INDICE

  1. Obiettivi del corso
  2. Competenze attese e propedeuticità
  3. Come si svolgono le lezioni (supporti alla didattica in uso alla docenza)
  4. Programma/contenuti
  5. Materiale didattico di supporto (a cura del docente)
  6. Bibliografia (libri, articoli, documenti on-line,...)
  7. Controllo dell'appprendimento (durante il corso)
  8. Verifica (modalità d'esame)
  9. Avvisi


1. Obiettivi del corso

Il corso copre le basi per comprendere e affrontare i problemi del Data Mining e più in generale le problematiche relative al processo di estrazione della conoscenza da basi di dati (KDD).

Oltre all'esposizione delle principali tematiche che caratterizzano il Data Mining (regole di associazione, pattern sequenziali, classificazione, clustering) si vuole fornire allo studente una base di conoscenza di statistica e teoria dell'informazione necessari per capire e utilizzare i fondamenti teorici di questi approcci.

Inoltre, si vogliono proporre alcune tecniche per affrontare l'analisi dei dati su grandi volumi di dati, quali le tecniche di pre-processing (pulizia dei dati, il campionamento, selezione delle dimensioni) e la validazione sui dati dei risultati dell'analisi e la loro interpretazione.

Infine si vuole proporre allo studente uno strumento di data mining e OLAP (On Line Analytical Processing), quale ad esempio Intelligent Miner di IBM e disponibile per Oracle, o SAS Enterprise Miner e alcune esperienze pratiche. In particolare si sperimenteranno alcuni algoritmi di analisi dei dati e apprendimento automatico disponibili pubblicamente e già implementati in Java (Suite di algoritmi WEKA).


2. Competenze attese e propedeuticità

  • Competenze attese in ingresso (richieste all'inizio del corso).
    Conoscenze elementari di probabilità e statistica, algoritmi, sistemi informativi e basi di dati.
  • Eventuali corsi propedeutici (forniscono le "competenze attese in ingresso").
    Sistemi intelligenti (laurea triennale), Basi di dati (laurea triennale: corso di Basi dati e Sperimentazioni, e il corso mutuato da Laboratorio Avanzato di Basi di Dati).
    Inoltre gli studenti che hanno seguito il corso di Intelligenza Artificiale e Apprendimento Automatico troveranno in questo corso un completamento alle tecniche di rappresentazione della conoscenza e apprendimento automatico studiate in quel corso.

  • Competenze attese in uscita (acquisite durante il corso).
  • Conoscenze di statistica di base per l'analisi dei dati, quali analisi di serie storiche, test di indipendenza
  • Analisi di un algoritmo di data mining
  • Scelta della tecnica di analisi da adottare per un certo insieme di dati
  • Interpretazione e validazione dei risultati dell'analisi
  • Acquisizione delle modalità in cui avviene il processo di KDD, e relativa scelta delle tecniche da adottare in ciascuna fase del processo.

3. Come si svolgono le lezioni (supporti alla didattica in uso alla docenza)

Le lezioni in aula sono svolte principalmente con l'ausilio del calcolatore (proiezione di lucidi animati).
Le esercitazioni in Laboratorio saranno svolte ad un calcolatore su cui è stato installato il software da sperimentare e sul cui utilizzo lo studente verrà anche valutato in sede di esame.

4. Programma/contenuti

  • Introduzione
  • (2 ore)
  • Il processo di Knowledge Discovery dai Dati (KDD)
  • (2 ore)
  • Primitive di Data Mining, linguaggi, e architettura dei sistemi. Standard (CRISP-DM, SQL/MM e PMML)
  • (2 ore)
  • Data Warehouse e Tecnologia OLAP per il Data Mining
  • (4 ore)
  • Tecniche di preparazione dei dati: riduzione delle dimensioni, campionamento
  • (2 ore)
  • Principi di statistica: distribuzione delle statistiche campionarie, statistica inferenziale, stima parametrica, test di indipendenza
  • (4 ore)
  • Algoritmi di selezione delle dimensioni
  • (2 ore)
  • Descrizione dei concetti: caratterizzazione e classificazione
  • (2 ore)
  • Mining di Regole di Associazione da grandi basi di dati
  • (2 ore)
  • Algoritmi di estrazione di regole di associazione: Apriori, Partition, FP-Growth, con campionamento, su architetture parallele
  • (4 ore)
  • Sperimentazione con un sistema reale di analisi dei dati: Intelligent Miner o SAS Enterprise Miner
  • (8 ore)
  • Principi di statistica: analisi di serie storiche
  • (2 ore)
  • Analisi di sequenze temporali: scoperta di similarità, scoperta di sotto-sequenze, scoperta di episodi
  • (4 ore)
  • Analisi dei dati tramite Clustering
  • (2 ore)
  • Algoritmi di clustering: K-means, K-medoids, K-NN, density-based
  • (4 ore)
  • Validazione e verifica dei risultati sui dati
  • (2 ore)
  • Sperimentazione di algoritmi su vari data set con WEKA
  • (8 ore)

    Nota:
    L'ordine degli argomenti e le tempistiche sono indicativi.


    5. Materiale didattico di supporto (a cura del docente)

  • Il materiale didattico di supporto (lucidi, link, esempi di testo di esami ed altro) è disponibile presso il supporto on-line ai corsi I-learn.
  • Slides del libro Data Mining - Concepts and Techniques, di J.Han e M.Kamber.
  • Slides del libro Introduction to Data Mining, di Pang-Ning Tan, Michael Steinbach e Vipin Kumar.
  • IBM Intelligent Miner
  • SAS Enterprise Miner
  • WEKA
  • UCI KDD Archive (repository di data set per vari task di analisi dei dati).
  • Risorse sul WEB


    6. Bibliografia (libri, articoli, documenti on-line,...)

    7. Controllo dell'apprendimento (durante il corso)

    Il controllo dell'apprendimento è basato sulle domande che gli studenti fanno sia durante le ore di lezione ed esercitazione che durante i ricevimenti.

    8. Verifica (modalità d'esame)

    Colloquio orale in cui si verifica l'apprendimento dei contenuti teorici del corso e la sperimentazione sui sistemi e gli algoritmi.

    Qui sono elencate a titolo d'esempio alcune domande che l'anno scorso si facevano durante il colloquio.
  • Descrivere le principali tecniche per la pulizia dei dati.
  • Descrivere in che cosa differiscono le varie tipologie di data warehouse.
  • Confrontare e descrivere le varie tecniche utilizzate per il calcolo e il mantenimento degli aggregati in una data warehouse.
  • Illustrare la selezione delle dimensioni (attributi) in base alla rilevanza.
  • Illustrare la tecnica di Attribute Oriented Induction.
  • Illustrare in che cosa consiste la caratterizzazione di una classe.
  • Descrivere gli utilizzi e la struttura di una tavola di contingenza.
  • Descrivere le tecniche di validazione del processo di classificazione.
  • Descrivere l'utilizzo delle statistiche campionarie nella statistica inferenziale.
  • Descrivere il significato e l'utilizzo della statistica del Chi-square.
  • Descrivere i principali test delle ipotesi discussi durante il corso.
  • Illustrare il significato intuitivo di una regola di associazione.
  • Descrivere lo spazio di ricerca dei large itemset.
  • Descrivere l'algoritmo e il principio di Apriori.
  • Illustrare uno degli esercizi svolti in laboratorio con gli Analysis Services di SQLServer o con Weka.

  • 9. Avvisi

    Stage: Il CSI Piemonte promuove stage su attività con uso di SAS. Ad esmpio, per la pulizia dei dati e algoritmi di classificazione. Ecco alcuni dettagli.



    [Corso di Studi di Informatica]

    Last update: Jun 28, 2007