Rappresentazione grafica delle informazioni Michele Giacobazzi 9-10-07 Ben Shneiderman Departmente of Computer Science, Human-Computer Interaction Laboratory,  Institute for Advanced Computer Studies, and Institute for Systems Research University of Maryland Inventing Discovery Tools: Combining Information Visualization  with Data Mining
Statistical algorithm vs. visual data presentation I metodi statistici permettono di riassumere i dati e di rilevare correlazioni tra le variabili A volte però un semplice grafico permette più facilmente di evidenziare un trend In particolare con i metodi statistici è più difficile tener conto di relazioni non lineari o discontinue Dal grafico si può notare facilmente la correlazione tra energia ionizzante e elettronegatività, e la presenza di due outliers (valori estranei al trend): radon e elio.
Hypothesis testing vs. exploratory data analysis Esperimenti controllati per verificare un’ipotesi  Viene limitato il numero di variabili dipendenti da misurare  La raccolta di dati è più mirata Si rischia di tralasciare variabili importanti Partire da un’ipotesi può portare a “falsare” i risultati e ignorare fenomeni interessanti non legati a ciò che si vuole dimostrare Il modello ipotetico-deduttivo: Raccogliere grossi volumi di dati e cercare all’interno eventuali pattern Si sfruttano metodi statistici e machine learning Ricerche non “limitate” da ipotesi di partenza Risultati derivano da un caso speciale, possiamo generalizzarli? Bastano forti relazioni statistiche per identificare rapporti causa-effetto? Exploratory data analysis:
The new paradigms L’avvento del computer permette: Metodi statistici più raffinati e complessi Visualizzazioni complesse ed animate, esplorabili in tempo reale variandone parametri Di processare e rappresentare dataset di dimensioni molto grosse Con la giusta visualizzazione l’uomo è in grado di individuare pattern in breve tempo Come combinare i due approcci: Si può partire dalla raccolta e l’osservazione dei dati Trarne ipotesi in base ai trend individuati Cercare di confermarle tramite esperimenti mirati Si può partire da ipotesi precise Osservare eventuali anomalie durante gli esperimenti Trarne nuove ipotesi da verificare La combinazione tra metodi statistici e strumenti per la visualizzazione è invece più lontana e solo di recente sono stati adottati approcci visuali interattivi al data mining
Case studies Un modo di combinare information visualization e data mining è la creazione di tool di supporto che utilizzino entrambe le componenti.  L’utente esplora i dati manipolando l’interfaccia, e può applicare analisi statistiche quando trova qualcosa di interessante. Spotfire View Tip TimeFinder
Conclusion and Recommendations I ricercatori nel campo di data mining e machine learning puntano all’identificazione automatica di pattern interessanti, senza intervento umano. Gli studiosi dell’information visualization si basano sull’intuitività umana di fronte a rappresentazioni grafiche adeguatamente manipolabili. Entrambi i gruppi però enfatizzano l’utilizzo di analisi esploratorie. I due approcci vanno integrati per costruire “strumenti di scoperta” Permettere all’utente di specificare cosa cerca e cosa ritiene interessante (tenendo una storia delle azioni) Considerare che gli utenti sono situati in un contesto sociale, permettere scambi e confronti di dati Rispettare la responsabilità umana del disegnare i tools: non devon essere troppo complessi o imprevedibili Le rappresentazioni e i metodi statistici devon essere comprensibili e trasparenti per l’utente.

Inventing Discovery Tools

  • 1.
    Rappresentazione grafica delleinformazioni Michele Giacobazzi 9-10-07 Ben Shneiderman Departmente of Computer Science, Human-Computer Interaction Laboratory, Institute for Advanced Computer Studies, and Institute for Systems Research University of Maryland Inventing Discovery Tools: Combining Information Visualization with Data Mining
  • 2.
    Statistical algorithm vs.visual data presentation I metodi statistici permettono di riassumere i dati e di rilevare correlazioni tra le variabili A volte però un semplice grafico permette più facilmente di evidenziare un trend In particolare con i metodi statistici è più difficile tener conto di relazioni non lineari o discontinue Dal grafico si può notare facilmente la correlazione tra energia ionizzante e elettronegatività, e la presenza di due outliers (valori estranei al trend): radon e elio.
  • 3.
    Hypothesis testing vs.exploratory data analysis Esperimenti controllati per verificare un’ipotesi Viene limitato il numero di variabili dipendenti da misurare La raccolta di dati è più mirata Si rischia di tralasciare variabili importanti Partire da un’ipotesi può portare a “falsare” i risultati e ignorare fenomeni interessanti non legati a ciò che si vuole dimostrare Il modello ipotetico-deduttivo: Raccogliere grossi volumi di dati e cercare all’interno eventuali pattern Si sfruttano metodi statistici e machine learning Ricerche non “limitate” da ipotesi di partenza Risultati derivano da un caso speciale, possiamo generalizzarli? Bastano forti relazioni statistiche per identificare rapporti causa-effetto? Exploratory data analysis:
  • 4.
    The new paradigmsL’avvento del computer permette: Metodi statistici più raffinati e complessi Visualizzazioni complesse ed animate, esplorabili in tempo reale variandone parametri Di processare e rappresentare dataset di dimensioni molto grosse Con la giusta visualizzazione l’uomo è in grado di individuare pattern in breve tempo Come combinare i due approcci: Si può partire dalla raccolta e l’osservazione dei dati Trarne ipotesi in base ai trend individuati Cercare di confermarle tramite esperimenti mirati Si può partire da ipotesi precise Osservare eventuali anomalie durante gli esperimenti Trarne nuove ipotesi da verificare La combinazione tra metodi statistici e strumenti per la visualizzazione è invece più lontana e solo di recente sono stati adottati approcci visuali interattivi al data mining
  • 5.
    Case studies Unmodo di combinare information visualization e data mining è la creazione di tool di supporto che utilizzino entrambe le componenti. L’utente esplora i dati manipolando l’interfaccia, e può applicare analisi statistiche quando trova qualcosa di interessante. Spotfire View Tip TimeFinder
  • 6.
    Conclusion and RecommendationsI ricercatori nel campo di data mining e machine learning puntano all’identificazione automatica di pattern interessanti, senza intervento umano. Gli studiosi dell’information visualization si basano sull’intuitività umana di fronte a rappresentazioni grafiche adeguatamente manipolabili. Entrambi i gruppi però enfatizzano l’utilizzo di analisi esploratorie. I due approcci vanno integrati per costruire “strumenti di scoperta” Permettere all’utente di specificare cosa cerca e cosa ritiene interessante (tenendo una storia delle azioni) Considerare che gli utenti sono situati in un contesto sociale, permettere scambi e confronti di dati Rispettare la responsabilità umana del disegnare i tools: non devon essere troppo complessi o imprevedibili Le rappresentazioni e i metodi statistici devon essere comprensibili e trasparenti per l’utente.