DIPARTIMENTO DI
INFORMATICA Università di Torino | |
Corso di:
ANALISI INTELLIGENTE DEI DATI
(anno Accademico 2005-2006)
|
ARGOMENTO | CONTENUTI | MATERIALE | DATA |
Presentazione del corso. Motivazioni, origini, eredità culturale multidisciplinare del data mining. Applicazioni. | slides (pdf) | 10-01-06 | |
La piramide della Business Intelligence. Classificazione del data mining secondo molteplici punti di vista: funzionalità , tipologia dei dati, tecniche utilizzate. Esempi introduttivi. Architettura di un tipico sistema di Data Mining. | | 12-01-06 | |
Applicazioni e motivazioni. Caratteristiche e progettazione. Differenze tra OLTP e OLAP. Modello dei dati multi-dimensionale. Spazio di ricerca dei cuboidi (lattice). | slides | 13-01-06 | |
Architettura e componenti di un sistema di data warehousing. Implementazione delle data warehouse. Operazioni OLAP e CUBE BY. Strategie per gli algoritmi con approccio ROLAP: costruzione del piano di esecuzione di CUBE BY guidato dai costi di ordinamento. Minimum (Cost) Spanning Tree. | ROLAP algo slides | 17-01-06 | |
Approccio MOLAP: algoritmo di multi-way array aggregation; determinazione delle modalità di attraversamento del cubo in dipendenza delle cardinalità delle dimensioni. Calcolo degli aggregati con Iceberg queries e algoritmo BUC. Apriori trick. |
Multi-way array algo Multi-way Array Agg. (slides) BUC algo |
19-01-06 | |
Analisi esplorativa in un cubo guidata dalle osservazioni che si discostano significativamente dalle attese. Indici e strutture dati per l'accesso ai dati nelle data warehosue. | Discovery-driven analysis in a CUBE | 20-01-06 | |
Sperimentazione dell'esplorazione dei dati in una data warehouse con SQL Server e Analysis Services. Costruzione di cubi e sperimentazione di operazioni OLAP. | Esercizi | 24-01-06 | |
Sperimentazione dell'esplorazione dei dati in una data warehouse con SQL Server e Analysis Services e costruzione di cubi. | |
26-01-06 | |
Introduzione alla comprensione delle caratteristiche dei dati e alle operazioni possibili. Introduzione alle varie tecniche per fare pre-processing dei dati: pulizia dei dati (per dati mancanti o per la rimozione del rumore). Problematiche legate alla scarsa qualità dei dati. | slides | 27-01-06 | |
Aggregazione, campionamento (con o senza rimpiazzamento, e con stratificazione), riduzione della dimensionalità e selezione delle feature. In particolare si analizzerà la tecnica di PCA (Principal Component Analysis) e SVD (Singular Value Decomposition). | 31-01-06 | ||
Selezione delle feature. Uso di algoritmi di tipo greedy (forward o backward) o di tipo branch and bound con valutazione dell'insieme di feature. Algoritmi wrapper, finalizzati al task di data mining. Compressione dei dati con le trasformate di Fourier e Wavelets. Discretizzazione e binning. Uso dell'entropia per trovare la discretizzazione ottimale ai fini della classificazione. | 02-02-06 | ||
Il concetto di prossimità è un concetto che deve essere definito con cautela e dipende sia dal tipo di dato che dall'applicazione. Definizione di similarità e dissimilarità . Trasformazioni che permettono il passaggio da una all'altra. Esempi di funzioni: distanza, SMC, Jaccard, coseno, jaccard esteso, correlazione, ecc. Proprietà e metriche. Proposta di discussione in aula di un esercizio che sfrutta le proprietà della distanza metrica per ridurre il numero di calcoli di distanza tra i punti di un data set. | Esercizio | 03-02-06 | |
Introduzione alla statistica descrittiva. Introduzione agli indicatori di posizione e variabilità dei dati. Analisi esplorativa di un data set con vari strumenti visivi: istogrammi, diagrammi scatter plot, diagrammi di distribuzione di probabilità (percentili, cumulativa, normale), diagrammi ramo-foglia, a scatola e baffi. | slides | 07-02-06 | |
Introduzione alle regole di associazione |
Visualizzazione di dati spazio-temporali, di matrici, con un diagramma a coordinate parallele o a stella, con faccette di Chernoff. Esempio finale di costruzione di un cubo con il data set Iris. Introduzione all'estrazione di itemset frequenti e alle regole di associazione. |
slides | 09-02-06 |
Fattori che influenzano la complessità computazionale. Estrazione degli itemset frequenti. Algoritmi che operano secondo uno schema generate and test. Algoritmo Apriori. Alcune strutture dati: Hash tables e item trie. | 28-02-06 | ||
Rappresentazioni compresse degli itemset frequenti: itemset massimali e condensati (closed). Bordi. Operatore di Galois sul lattice. Applicazioni all'analisi di correlazioni di geni con i microarray di bioinformatica. | 02-03-06 | ||
Navigazione del lattice in ampiezza e in profondità . Algoritmo FP-Growth (senza generazione dei candidati). Uso di contatori della frequenza e di TID-list. Algoritmo ECLAT. Critica alle misure basate sulla frequenza. | 03-03-06 | ||
Le lezioni riprenderanno la settimana prossima (14 marzo). | 07-03-06 | ||
Uso di misure di interesse per selezionare gli itemset. Proprietà antimonotone e monotone e pushing dei constraint nell'algoritmo con pruning positivo e negativo del lattice. Critica al supporto e alla confidenza con un esempio (in presenza di itemset molto frequenti). Uso del Chi-Square per valutare gli itemset dipendenti. | slides | 14-03-06 | |
Confronto del ranking delle regole ottenuto con l'uso di alcune misure di valutazione. Studio delle proprietà delle misure. Effetti della selezione degli itemset basata sul supporto minimo. | 16-03-06 | ||
Introduzione ai diversi criteri per fare clustering. Algoritmo k-means. Criticità dovute alla scelta del parametro k e dell'inizializzazione dei centroidi. Algoritmo bi-secting K-means. Vantaggi (computazionali) e svantaggi (limiti dovuti alla forma globulare dei cluster e alla dimensione). | slides | 17-03-06 | |
Clustering gerarchico con varie misure di similarità tra cluster. Approccio agglomerativo e divisivo. Clustering basato sulla densità: algoritmo DBSCAN e inizializzazione dei parametri. Valutazione dei cluster non supervisionata e supervisionata: problematiche e misure. | 21-03-06 | ||
Valutazione dei cluster non supervisionata e supervisionata: problematiche e misure. Uso della funzione obiettivo (come la SSE) per la valutazione del numero dei cluster. Test statistici per la valutazione della tendenza di un data-set al clustering. Clustering basato su modelli e clustering probabilistico (mixture models). Algoritmo EM | 23-03-06 | ||
Sperimentazione del processo di Knowledge Discovery con Orange. Analisi di alcuni data-set tra cui il data-set fornito da CSI composto da meta-dati ai fini della valutazione della qualità dei dati. | Esercizi Campione data-set CSI Descrizione | 24-03-06 | |
Preprocessing del data-set fornito dal CSI in modo da poter sfruttare appieno tutte le informazioni "nascoste" con la codifica di alcuni campi descrittivi come la presenza (in tutte le sue componenti) della sede legale dell'azienda. | CSI data-set completo (zip) | 28-03-06 | |
Preprocessing del data-set con generazione semi-automatica dell'etichetta di classe in base all'albero di decisione fornito dal CSI. Questo albero è stato generato manualmente per il problema dell'identificazione dell'azienda. Join della tabella coi meta-dati e della fonte di provenienza dei dati. | Albero decisione identificazione aziende (jpg) Data-set CSI fonte (zip) | 30-03-06 | |
Generazione di modelli di classificazione alternativi all'albero di classificazione generato da CSI e modelli di clustering. | 31-03-06 | ||
![]() ![]() |
Tra i risultati del primo gruppo di laboratorio, abbiamo una nuova versione del data-set integrata con l'informazione della fonte del dato, ripulita in seguito alla fase di pre-processing ed etichettata con la classe. L'etichetta di classe è uno score del livello di qualità del record, ottenuto usando l'albero di classificazione fornito da CSI ai fini dell'identificazione dell'azienda. | ![]() | 28-04-06 |
[Corso di Studi di Informatica] |
Last update: Dec 01, 2006 | |