ARGOMENTO | CONTENUTI | MATERIALE | DATA |
Introduzione |
Presentazione del corso. Motivazioni, origini, eredità culturale multidisciplinare del data mining. Applicazioni. | slides (pdf) | 13-01-05 |
Il processo di Knowledge Discovery dai Dati (KDD) |
Descrizione del processo di KDD, e riassunto delle varie fasi e tecniche utilizzate; la piramide della Business Intelligence; architettura di un tipico sistema di Data Mining. |
|
14-01-05 |
Introduzione al pre-processing |
Introduzione alle varie tecniche per fare pre-processing dei dati: pulizia dei dati (per dati mancanti o per la rimozione del rumore), clustering,
trasformazione dei dati, riduzione delle dimensioni e dei volumi con varie tecniche come Feature Selection, Principal Component Analysis, e compressione con
le trasformate di Wavelets.
|
slides |
19-01-05 |
Ancora sul pre-processing |
Cenni all'utilizzo di tecniche basate sull'Entropia e Information Gain per fare riduzione delle dimensioni e discretizzazione.
Vari tipi di campionamento (con o senza rimpiazzamento). Riduzione della
numerosità dei valori tramite regressione, costruzione di istogrammi e
di gerarchie di generalizzazione e discretizzazione automatica,
basata sulla cardinalità del dominio delle variabili e sulla
regola del 2-3-5.
|
|
20-01-05 |
Data Warehouse |
Applicazioni e motivazioni.
Caratteristiche e progettazione. Differenze tra OLTP e OLAP. Modello dei dati multi-dimensionale. Spazio di ricerca dei cuboidi (lattice).
|
slides |
21-01-05 |
Ancora su Data Warehouse |
Schema dei dati a stella e a costellazione. Esempi di schemi e loro definizione. Proprietà delle misure (distributive, algebriche e olistiche). Gerarchie dei concetti per una dimensione. Tipi di operazioni OLAP. Architetture dei sistemi e processo di costruzione e migrazione dai DB operazionali al DW.
|
|
26-01-05 |
Ancora su Data Warehouse |
Implementazione delle data warehouse. Strategie per gli algoritmi con approccio ROLAP.
Minimum Spanning Tree. Approccio MOLAP: algoritmo di multi-way array
aggregation; determinazione delle modalità di attraversamento del
cubo in dipendenza delle cardinalità delle dimensioni. Calcolo degli aggregati con Iceberg queries e algoritmo BUC. Apriori trick.
|
ROLAP algo
Multi-way array algo
BUC array algo
Multi-way Array Agg. (slides)
|
27-01-05 |
Analisi esplorativa dei dati |
Introduzione all'analisi esplorativa dei dati. Analisi esplorativa di un cubo guidata dalla scoperta di conoscenza. Introduzione agli strumenti grafici (istogrammi, diagramma a torta, diagramma di Pareto) per modellare la distribuzione dei dati con variabili categoriche o numeriche.
|
Discovery-driven analysis
slides
|
28-01-05 |
Statistica descrittiva |
Diagrammi ramo-foglia e a scatola e baffi. Tavola di contingenza. Diagrammi di verifica di una distribuzione normale. Introduzione agli indicatori di posizione e variabilità dei dati.
|
|
02-02-05 |
Concetti di probabilità per problemi di classificazione |
Ripasso sulle definizioni di Probabilità .
Teorema di Bayes. Uso delle tavole di contingenza per problemi di
diagnosi medica e di classificazione. Definizione di sensitività e specificità. Diagrammi per la misurazione dell'accuratezza di un classificatore. |
slides |
03-02-05 |
Esercitazione in Laboratorio con Analysis Services |
Sperimentazione dell'esplorazione dei dati in una data warehouse con SQL Server e Analysis Services. Costruzione di cubi e sperimentazione di operazioni OLAP. Esecuzione e analisi del risultato di alcuni algoritmi di data mining (classificazione, clustering e reti Bayesiane). |
Esercizi |
04-02-05 |
Concetti di probabilità e introduzione alla statistica inferenziale |
Variabili casuali. Alcune delle principali distribuzioni di probabilità. Stimatori dei parametri di una popolazione. Stimatori puntuali. Metodo dei momenti. Metodo di Massima Verosimiglianza. Il teorema del limite centrale e le distribuzioni campionarie. |
slides |
16-02-05 |
Intervalli di confidenza |
Descrizione dei concetti relativi alla costruzione
e alla stima parametrica tramite intervalli di confidenza. Distribuzione Z e T di Student. Esempi di loro utilizzo.
Discussione dell'errore e dimensione del campione. |
Tabulato di Z Tabulato di T |
17-02-05 |
Introduzione ai Test delle Ipotesi |
Intervalli di confidenza (CI) per la stima di
distribuzioni generalizzate. CI per la proporzione e per la varianza. Distribuzione del Chi-Square. Esempi di loro utilizzo.
Errore e dimensione del campione. Introduzione al test delle ipotesi. |
|
18-02-05 |
Test delle Ipotesi |
Esempi di Test delle Ipotesi e confronto con gli Intervalli
di Confidenza. Uso del p-value. Errore di tipo I e II. Discussione sulla scelta del livello di significatività e sulla potenza del test. Riduzione dei due tipi di errore. |
slides |
23-02-05 |
Test delle Ipotesi su 2 campioni |
Test T (e intervalli di confidenza) per le
ipotesi su due campioni. Esempio con campioni indipendenti e con campioni appaiati. Applicazione del test T per confrontare l'errore standard di due classificatori o metodi di regressione. Introduzione all'ANOVA (ANalysis Of VAriance) a 1 fattore. |
slides |
24-02-05 |
ANOVA e il Test di Indipendenza |
Metodo dell'Analisi della Varianza a 1 Fattore.
Test su due popolazioni che differiscono per osservazioni di tipo qualitativo (con uso della Tavola di Contingenza). Test Z sulla differenza delle proporzioni e Test del Chi-Square. Test di indipendenza di due variabili. |
Schema Riassuntivo |
25-02-05 |
Itemset e Regole di Associazione |
Introduzione, descrizione, definizione,
proprietà e applicazioni delle regole di associazione (AR).
Definizione del problema di estrazione delle AR e ricerca degli itemset
frequenti. Lo spazio di ricerca e pruning basato sul vincolo di
frequenza. |
slides |
03-03-05 |
Algoritmi per Itemset e Regole di Associazione |
Descrizione di alcuni algoritmi
significativi con le loro strutture di rappresentazione e di ricerca
dei dati (item-trie). Algoritmi che percorrono in ampiezza il lattice. Apriori. |
|
04-03-05 |
Itemset e Regole di Associazione |
Algoritmo DIC che cambia dinamicamente l'insieme degli itemset candidati e ordina gli item nell'item-trie rispetto alla loro frequenza di occorrenza (crescente); DHP con l'uso di una Hash Table che funge da filtro sugli itemset e ridimensionamento ed eliminazione delle transazioni;
Partition, che fa partizionamento della base dati. |
|
09-03-05 |
Algoritmi sugli Itemset |
Descrizione di un algoritmo con campionamento. Calcolo dell'ampiezza del campione e della frequenza di soglia abbassata per ridurre la probabilità di errore. Descrizione di algoritmi paralleli e confronto tra diverse strategie di partizionamento del problema e di sincronizzazione tra processori: algoritmi Count, Data e Candidate. |
Algo con campionamento (ps.gz) |
10-03-05 |
Algoritmi sugli Itemset |
Descrizione di un algoritmo incrementale, ossia
che permette la manutenzione degli itemset all'aggiornare della base dati.
Descrizione di un algoritmo con navigazione in profondità del lattice: FP-Growth. Questo algoritmo non segue lo schema generate and test dei candidati. Uso del coefficiente di correlazione e del Chi-square per verificare la dipendenza degli item in un itemset. |
|
11-03-05 |
Vincoli su itemset e regole di associazione |
Introduzione di vincoli. Varie tipologie di vincoli.
Meta query su itemsets e regole di associazione.
Proprietà dei vincoli monotononi e antimonotoni. Vincoli convertibili e loro uso in FP-Growth. |
AR non ridondanti |
16-03-05 |
Closed Itemset, regole e vincoli |
Estrazione di itemset condensati (closed) e massimali.
Estrazione di regole di associazione da itemset closed con eliminazione
delle ridondanze. Galois connection.
Descrizione dell'algoritmo DualMiner che
generalizza il controllo di molteplici vincoli sul lattice. |
Dual Miner |
17-03-05 |
Clustering |
Introduzione al clustering. Descrizione di diverse
misure di similarità e distanza a seconda della tipologia dei dati (categorici, booleani, discreti, continui, ordinali).
Applicazioni. Panoramica dei diversi approcci al clustering:
con partizionamento, gerarchico, basato su densità, basato su modelli, statistico.
Noi vederemo alcuni algoritmi rappresentativi: K-means (partizionamento), gerarchico (divisivo e agglomerativo). |
slides |
18-03-05 |
Caso di studio di bioinformatica |
Introduzione al caso di studio relativo
alla analisi di microarray su cellule tumorali. Le slides sono a cura
di Francesca Cordero (PhD student).
|
slides |
23-03-05 |
Caso di studio di bioinformatica |
Analisi esplorativa sul caso di studio relativo
alla analisi di microarray su cellule tumorali.
Preprocessing e analisi con WEKA, SAS e R |
|
24-03-05 |
Slides aggiuntive |
Grazie al contributo di Luigi Di Caro (che ringrazio
vivamente!) abbiamo completato le slides con l'animazione dell'algoritmo di
Multi-way array aggregation. |
Multi-way Array Aggregation (slides) |
31-03-05 |