DIPARTIMENTO   DI   INFORMATICA
Università di Torino

Corso di: ANALISI INTELLIGENTE DEI DATI (anno Accademico 2004-2005)

Docente: Rosa MEO


Registro e materiale delle lezioni

ARGOMENTO CONTENUTI MATERIALE DATA
  • Introduzione
  • Presentazione del corso. Motivazioni, origini, eredità culturale multidisciplinare del data mining. Applicazioni. slides (pdf)13-01-05
  • Il processo di Knowledge Discovery dai Dati (KDD)
  • Descrizione del processo di KDD, e riassunto delle varie fasi e tecniche utilizzate; la piramide della Business Intelligence; architettura di un tipico sistema di Data Mining.
    14-01-05
  • Introduzione al pre-processing
  • Introduzione alle varie tecniche per fare pre-processing dei dati: pulizia dei dati (per dati mancanti o per la rimozione del rumore), clustering, trasformazione dei dati, riduzione delle dimensioni e dei volumi con varie tecniche come Feature Selection, Principal Component Analysis, e compressione con le trasformate di Wavelets. slides 19-01-05
  • Ancora sul pre-processing
  • Cenni all'utilizzo di tecniche basate sull'Entropia e Information Gain per fare riduzione delle dimensioni e discretizzazione. Vari tipi di campionamento (con o senza rimpiazzamento). Riduzione della numerosità dei valori tramite regressione, costruzione di istogrammi e di gerarchie di generalizzazione e discretizzazione automatica, basata sulla cardinalità del dominio delle variabili e sulla regola del 2-3-5.
    20-01-05
  • Data Warehouse
  • Applicazioni e motivazioni. Caratteristiche e progettazione. Differenze tra OLTP e OLAP. Modello dei dati multi-dimensionale. Spazio di ricerca dei cuboidi (lattice). slides 21-01-05
  • Ancora su Data Warehouse
  • Schema dei dati a stella e a costellazione. Esempi di schemi e loro definizione. Proprietà delle misure (distributive, algebriche e olistiche). Gerarchie dei concetti per una dimensione. Tipi di operazioni OLAP. Architetture dei sistemi e processo di costruzione e migrazione dai DB operazionali al DW.
    26-01-05
  • Ancora su Data Warehouse
  • Implementazione delle data warehouse. Strategie per gli algoritmi con approccio ROLAP. Minimum Spanning Tree. Approccio MOLAP: algoritmo di multi-way array aggregation; determinazione delle modalità di attraversamento del cubo in dipendenza delle cardinalità delle dimensioni. Calcolo degli aggregati con Iceberg queries e algoritmo BUC. Apriori trick. ROLAP algo Multi-way array algo BUC array algo Multi-way Array Agg. (slides) 27-01-05
  • Analisi esplorativa dei dati
  • Introduzione all'analisi esplorativa dei dati. Analisi esplorativa di un cubo guidata dalla scoperta di conoscenza. Introduzione agli strumenti grafici (istogrammi, diagramma a torta, diagramma di Pareto) per modellare la distribuzione dei dati con variabili categoriche o numeriche. Discovery-driven analysis slides 28-01-05
  • Statistica descrittiva
  • Diagrammi ramo-foglia e a scatola e baffi. Tavola di contingenza. Diagrammi di verifica di una distribuzione normale. Introduzione agli indicatori di posizione e variabilità dei dati.
    02-02-05
  • Concetti di probabilità per problemi di classificazione
  • Ripasso sulle definizioni di Probabilità . Teorema di Bayes. Uso delle tavole di contingenza per problemi di diagnosi medica e di classificazione. Definizione di sensitività e specificità. Diagrammi per la misurazione dell'accuratezza di un classificatore. slides 03-02-05
  • Esercitazione in Laboratorio con Analysis Services
  • Sperimentazione dell'esplorazione dei dati in una data warehouse con SQL Server e Analysis Services. Costruzione di cubi e sperimentazione di operazioni OLAP. Esecuzione e analisi del risultato di alcuni algoritmi di data mining (classificazione, clustering e reti Bayesiane). Esercizi 04-02-05
  • Concetti di probabilità e introduzione alla statistica inferenziale
  • Variabili casuali. Alcune delle principali distribuzioni di probabilità. Stimatori dei parametri di una popolazione. Stimatori puntuali. Metodo dei momenti. Metodo di Massima Verosimiglianza. Il teorema del limite centrale e le distribuzioni campionarie. slides 16-02-05
  • Intervalli di confidenza
  • Descrizione dei concetti relativi alla costruzione e alla stima parametrica tramite intervalli di confidenza. Distribuzione Z e T di Student. Esempi di loro utilizzo. Discussione dell'errore e dimensione del campione. Tabulato di Z Tabulato di T 17-02-05
  • Introduzione ai Test delle Ipotesi
  • Intervalli di confidenza (CI) per la stima di distribuzioni generalizzate. CI per la proporzione e per la varianza. Distribuzione del Chi-Square. Esempi di loro utilizzo. Errore e dimensione del campione. Introduzione al test delle ipotesi.
    18-02-05
  • Test delle Ipotesi
  • Esempi di Test delle Ipotesi e confronto con gli Intervalli di Confidenza. Uso del p-value. Errore di tipo I e II. Discussione sulla scelta del livello di significatività e sulla potenza del test. Riduzione dei due tipi di errore. slides 23-02-05
  • Test delle Ipotesi su 2 campioni
  • Test T (e intervalli di confidenza) per le ipotesi su due campioni. Esempio con campioni indipendenti e con campioni appaiati. Applicazione del test T per confrontare l'errore standard di due classificatori o metodi di regressione. Introduzione all'ANOVA (ANalysis Of VAriance) a 1 fattore. slides 24-02-05
  • ANOVA e il Test di Indipendenza
  • Metodo dell'Analisi della Varianza a 1 Fattore. Test su due popolazioni che differiscono per osservazioni di tipo qualitativo (con uso della Tavola di Contingenza). Test Z sulla differenza delle proporzioni e Test del Chi-Square. Test di indipendenza di due variabili. Schema Riassuntivo 25-02-05
  • Itemset e Regole di Associazione
  • Introduzione, descrizione, definizione, proprietà e applicazioni delle regole di associazione (AR). Definizione del problema di estrazione delle AR e ricerca degli itemset frequenti. Lo spazio di ricerca e pruning basato sul vincolo di frequenza. slides 03-03-05
  • Algoritmi per Itemset e Regole di Associazione
  • Descrizione di alcuni algoritmi significativi con le loro strutture di rappresentazione e di ricerca dei dati (item-trie). Algoritmi che percorrono in ampiezza il lattice. Apriori.
    04-03-05
  • Itemset e Regole di Associazione
  • Algoritmo DIC che cambia dinamicamente l'insieme degli itemset candidati e ordina gli item nell'item-trie rispetto alla loro frequenza di occorrenza (crescente); DHP con l'uso di una Hash Table che funge da filtro sugli itemset e ridimensionamento ed eliminazione delle transazioni; Partition, che fa partizionamento della base dati.
    09-03-05
  • Algoritmi sugli Itemset
  • Descrizione di un algoritmo con campionamento. Calcolo dell'ampiezza del campione e della frequenza di soglia abbassata per ridurre la probabilità di errore. Descrizione di algoritmi paralleli e confronto tra diverse strategie di partizionamento del problema e di sincronizzazione tra processori: algoritmi Count, Data e Candidate. Algo con campionamento (ps.gz) 10-03-05
  • Algoritmi sugli Itemset
  • Descrizione di un algoritmo incrementale, ossia che permette la manutenzione degli itemset all'aggiornare della base dati. Descrizione di un algoritmo con navigazione in profondità del lattice: FP-Growth. Questo algoritmo non segue lo schema generate and test dei candidati. Uso del coefficiente di correlazione e del Chi-square per verificare la dipendenza degli item in un itemset.
    11-03-05
  • Vincoli su itemset e regole di associazione
  • Introduzione di vincoli. Varie tipologie di vincoli. Meta query su itemsets e regole di associazione. Proprietà dei vincoli monotononi e antimonotoni. Vincoli convertibili e loro uso in FP-Growth. AR non ridondanti 16-03-05
  • Closed Itemset, regole e vincoli
  • Estrazione di itemset condensati (closed) e massimali. Estrazione di regole di associazione da itemset closed con eliminazione delle ridondanze. Galois connection. Descrizione dell'algoritmo DualMiner che generalizza il controllo di molteplici vincoli sul lattice. Dual Miner 17-03-05
  • Clustering
  • Introduzione al clustering. Descrizione di diverse misure di similarità e distanza a seconda della tipologia dei dati (categorici, booleani, discreti, continui, ordinali). Applicazioni. Panoramica dei diversi approcci al clustering: con partizionamento, gerarchico, basato su densità, basato su modelli, statistico. Noi vederemo alcuni algoritmi rappresentativi: K-means (partizionamento), gerarchico (divisivo e agglomerativo). slides 18-03-05
  • Caso di studio di bioinformatica
  • Introduzione al caso di studio relativo alla analisi di microarray su cellule tumorali. Le slides sono a cura di Francesca Cordero (PhD student). slides 23-03-05
  • Caso di studio di bioinformatica
  • Analisi esplorativa sul caso di studio relativo alla analisi di microarray su cellule tumorali. Preprocessing e analisi con WEKA, SAS e R
    24-03-05
  • Slides aggiuntive
  • Grazie al contributo di Luigi Di Caro (che ringrazio vivamente!) abbiamo completato le slides con l'animazione dell'algoritmo di Multi-way array aggregation. Multi-way Array Aggregation (slides) 31-03-05


    Corso AID



    [Corso di Studi di Informatica]

    Last update: Mar 31, 2005