SlideShare a Scribd company logo
1 of 30
Milano, 13.12.2012
Chi sono?



• Marco Montanari
        @ingmmo, marco.montanari@gmail.com, sirmmo.blogspot.com


• Sviluppatore, Appassionato di giochi, Nerd…
        – passione per i dati

• “I am a journalist looking for coder friends.”
                                      – Jens Finnäs (HacksHackers Helsinki)
• “I am a coder with journalist friends.”
                                                    – Marco Montanari 


Milano, 13.12.2012
Indice



• Il Fatto                    • I Formati
• Le Dimensioni

                              • Trovare dati on-line
• Descrivere fatti
• Aggregazioni




Milano, 13.12.2012
Il Fatto




Milano, 13.12.2012
Il Fatto



• 5W:
        – Who is it about?
        – What happened?
        – When did it take place?
        – Where did it take place?
        – Why did it happen?



Milano, 13.12.2012
Le Dimensioni



                                     Chi



                       Dove                     Cosa

                                   Fatto


                          Perché           Quando


Milano, 13.12.2012
Le Dimensioni



                                    Cliente1




                                   Vendita
                       Amazon.it     di un      ProdottoX
                                   prodotto




                                   12.12.2012
                                    09:24:22




Milano, 13.12.2012
Le Dimensioni

                                                     Nome utente:
                                                       sirmmo


                           Destinazione:                                          Pagina:
                            /area1/p3                                            /area1/p2




                                                     Utente
                                                      visita
                                                                                      Orario di
                      Modalità di
                     uscita: clic su
                                                       sito                           ingresso:
                                                                                     13.12.2012
                          link
                                                                                      09:24:22




                                                                     Orario di
                                           Durata:                    uscita:
                                           2m50s                    13.12.2012
                                                                     09:27:12
Milano, 13.12.2012
Analisi delle dimensioni del fatto




Milano, 13.12.2012
Descrivere i fatti



                     Ogni dimensione è una colonna

 Pro                                      Contro
• Disaggregato                            • Disaggregato
• Semplice                                • Tanti elementi
• Atomico                                 • Da tenere sempre
                                            organizzato




Milano, 13.12.2012
Descrivere i fatti



                     Ogni dimensione è una colonna

 Pro                                      Contro
• Disaggregato                            • Disaggregato
• Semplice                                • Tanti elementi
• Atomico                                 • Da tenere sempre
                                            organizzato




Milano, 13.12.2012
Aggregazioni



• Dal mondo del management



• Tabella Pivot (analisi multidimensionale)
        – Impossibile con dati già aggregati
        – Le dimensioni sono correlabili come si vuole



Milano, 13.12.2012
Aggregazioni
                            Pivoting



                 Pivoting



Dati disaggregati




   Milano, 13.12.2012
Aggregazioni
                     Pivoting

                                 Criteri di aggregazione



   Risultato: la tabella pivot




Milano, 13.12.2012
Aggregazioni
                     Pivoting




Milano, 13.12.2012
Si utilizza un dataset molto disaggregato per vedere come
                     giocare con le tabelle pivot




Milano, 13.12.2012
I Formati



• Tabellari
        – xls xlsx csv tsv ods dbf                   75%

• Strutturati
                                         20%
        – xml json (shp)
• Linked data                        5
                                     %
        – RDF
• Altro…                                       50%
        – HTML

Milano, 13.12.2012
I Formati



• Tabellari
        – xls xlsx csv tsv ods dbf                   75%

• Strutturati
                                         20%
        – xml json (shp)
• Linked data                        5
                                     %
        – RDF
• Altro…                                       50%
        – HTML

Milano, 13.12.2012
Analisi rapida dei principali formati:
                     • CSV, TSV
                     • SHP
                     • HTML




Milano, 13.12.2012
Trovare dati on-line
                      La versione facile


• Il browser (non IE) come strumento di analisi
• Chrome
        – Scraper
                • https://chrome.google.com/webstore/detail/scraper/m
                  bigbapnjcgaffohmbkdlecaccepngjd
        – Table Capture
                • https://chrome.google.com/webstore/detail/table-
                  capture/iebpjdmgckacbodjpijphcplhebcmeop


Milano, 13.12.2012
Trovare dati on-line
                     La versione facile



• Firefox
        – Outwit
                • http://www.outwit.com/products/hub/




Milano, 13.12.2012
Trovare dati on-line
                     La versione intermedia


• Strumenti più specialistici ma anche più «fragili»
• Excel




Milano, 13.12.2012
Trovare dati on-line
                      La versione intermedia
                     • Google Refine -
                       https://code.google.com/p/google-refine/




Milano, 13.12.2012
Trovare dati on-line
                     La versione difficile




Milano, 13.12.2012
Esperimenti di importazione dati
                     • Plugin per Chrome
                     • Excel
                     • Refine




Milano, 13.12.2012
Riassumendo



                • Decidere le dimensioni di interesse

                • Descrivere i fatti in base alle dimensioni

                • Trovare i dati, pulirli e adattarli alle dimensioni

                • Analizzare le aggregazioni


Milano, 13.12.2012
Riassumendo



                • Decidere le dimensioni di interesse

                • Descrivere i fatti in base alle dimensioni

                • Trovare i dati, pulirli e adattarli alle dimensioni

                • Analizzare le aggregazioni


Milano, 13.12.2012
Qualche link utile



• http://dataist.wordpress.com/ - Jens Finnäs
        – Ottimo blog dove seguire le escursioni in terra di
          codice di un giornalista
• https://code.google.com/p/google-refine/ -
  Google Refine
        – Strumento di Google per l’elaborazione e la pulizia
          dei dati


Milano, 13.12.2012
Qualche link utile



• https://scraperwiki.com/ - ScraperWiki
        – Strumento per trovare e collezionare script di
          scraping scritti in python, ruby o php
• https://github.com/ - GitHub
        – Repository di progetti open source tra i quali
          anche tantissimi strumenti di scraping più specifici




Milano, 13.12.2012
That’s all folks!



                                  GRAZIE!

                        Per qualsiasi domanda:
                             @ingmmo
                             marco.montanari@gmail.com
                             sirmmo.blogspot.com, …
                             sirmmo
                             http://it.linkedin.com/in/montanarim/

                             marco.montanari


Milano, 13.12.2012

More Related Content

More from Marco Montanari

OpenStreetMap_LinuxDay2023.pptx
OpenStreetMap_LinuxDay2023.pptxOpenStreetMap_LinuxDay2023.pptx
OpenStreetMap_LinuxDay2023.pptxMarco Montanari
 
Ohm itwikicon tech - english
Ohm itwikicon tech - englishOhm itwikicon tech - english
Ohm itwikicon tech - englishMarco Montanari
 
ITWikiCon 2020 - OpenHistoryMap
ITWikiCon 2020 - OpenHistoryMapITWikiCon 2020 - OpenHistoryMap
ITWikiCon 2020 - OpenHistoryMapMarco Montanari
 
ITWikiCon - Edutainment e Wikipedia
ITWikiCon - Edutainment e WikipediaITWikiCon - Edutainment e Wikipedia
ITWikiCon - Edutainment e WikipediaMarco Montanari
 
MN-MAP Poster for Foss4G2018
MN-MAP Poster for Foss4G2018MN-MAP Poster for Foss4G2018
MN-MAP Poster for Foss4G2018Marco Montanari
 
GEOCONTEXT AND CHCONTEXT GEOGRAPHIC INFORMATION IN CULTURAL HERITAGE
GEOCONTEXT AND CHCONTEXT GEOGRAPHIC INFORMATION IN CULTURAL HERITAGEGEOCONTEXT AND CHCONTEXT GEOGRAPHIC INFORMATION IN CULTURAL HERITAGE
GEOCONTEXT AND CHCONTEXT GEOGRAPHIC INFORMATION IN CULTURAL HERITAGEMarco Montanari
 
Saas rad with django, django rest framework
Saas rad with django, django rest frameworkSaas rad with django, django rest framework
Saas rad with django, django rest frameworkMarco Montanari
 
Intro datajournalism - 14-15/06/2017
Intro datajournalism - 14-15/06/2017Intro datajournalism - 14-15/06/2017
Intro datajournalism - 14-15/06/2017Marco Montanari
 
InterventoConsiglio29042015 (1)
InterventoConsiglio29042015 (1)InterventoConsiglio29042015 (1)
InterventoConsiglio29042015 (1)Marco Montanari
 

More from Marco Montanari (20)

OpenStreetMap_LinuxDay2023.pptx
OpenStreetMap_LinuxDay2023.pptxOpenStreetMap_LinuxDay2023.pptx
OpenStreetMap_LinuxDay2023.pptx
 
Ohm wikimania 2021
Ohm wikimania 2021Ohm wikimania 2021
Ohm wikimania 2021
 
Ohm itwikicon tech - english
Ohm itwikicon tech - englishOhm itwikicon tech - english
Ohm itwikicon tech - english
 
ITWikiCon 2020 - OpenHistoryMap
ITWikiCon 2020 - OpenHistoryMapITWikiCon 2020 - OpenHistoryMap
ITWikiCon 2020 - OpenHistoryMap
 
ITWikiCon - Edutainment e Wikipedia
ITWikiCon - Edutainment e WikipediaITWikiCon - Edutainment e Wikipedia
ITWikiCon - Edutainment e Wikipedia
 
Storia dell'informatica
Storia dell'informaticaStoria dell'informatica
Storia dell'informatica
 
Bononia 1115
Bononia 1115Bononia 1115
Bononia 1115
 
ChContext
ChContextChContext
ChContext
 
MN-MAP Poster for Foss4G2018
MN-MAP Poster for Foss4G2018MN-MAP Poster for Foss4G2018
MN-MAP Poster for Foss4G2018
 
GEOCONTEXT AND CHCONTEXT GEOGRAPHIC INFORMATION IN CULTURAL HERITAGE
GEOCONTEXT AND CHCONTEXT GEOGRAPHIC INFORMATION IN CULTURAL HERITAGEGEOCONTEXT AND CHCONTEXT GEOGRAPHIC INFORMATION IN CULTURAL HERITAGE
GEOCONTEXT AND CHCONTEXT GEOGRAPHIC INFORMATION IN CULTURAL HERITAGE
 
OHM at FOSS4G17
OHM at FOSS4G17OHM at FOSS4G17
OHM at FOSS4G17
 
Mn map poster
Mn map posterMn map poster
Mn map poster
 
Saas rad with django, django rest framework
Saas rad with django, django rest frameworkSaas rad with django, django rest framework
Saas rad with django, django rest framework
 
poster mn-auth
poster mn-authposter mn-auth
poster mn-auth
 
poster holodocker
poster holodockerposter holodocker
poster holodocker
 
Big data, big tourism
Big data, big tourismBig data, big tourism
Big data, big tourism
 
Intro datajournalism - 14-15/06/2017
Intro datajournalism - 14-15/06/2017Intro datajournalism - 14-15/06/2017
Intro datajournalism - 14-15/06/2017
 
OHM at Kainua17
OHM at Kainua17OHM at Kainua17
OHM at Kainua17
 
InterventoConsiglio29042015 (1)
InterventoConsiglio29042015 (1)InterventoConsiglio29042015 (1)
InterventoConsiglio29042015 (1)
 
UniCatt2015
UniCatt2015UniCatt2015
UniCatt2015
 

Data Scraping, Data Organization

  • 2. Chi sono? • Marco Montanari @ingmmo, marco.montanari@gmail.com, sirmmo.blogspot.com • Sviluppatore, Appassionato di giochi, Nerd… – passione per i dati • “I am a journalist looking for coder friends.” – Jens Finnäs (HacksHackers Helsinki) • “I am a coder with journalist friends.” – Marco Montanari  Milano, 13.12.2012
  • 3. Indice • Il Fatto • I Formati • Le Dimensioni • Trovare dati on-line • Descrivere fatti • Aggregazioni Milano, 13.12.2012
  • 5. Il Fatto • 5W: – Who is it about? – What happened? – When did it take place? – Where did it take place? – Why did it happen? Milano, 13.12.2012
  • 6. Le Dimensioni Chi Dove Cosa Fatto Perché Quando Milano, 13.12.2012
  • 7. Le Dimensioni Cliente1 Vendita Amazon.it di un ProdottoX prodotto 12.12.2012 09:24:22 Milano, 13.12.2012
  • 8. Le Dimensioni Nome utente: sirmmo Destinazione: Pagina: /area1/p3 /area1/p2 Utente visita Orario di Modalità di uscita: clic su sito ingresso: 13.12.2012 link 09:24:22 Orario di Durata: uscita: 2m50s 13.12.2012 09:27:12 Milano, 13.12.2012
  • 9. Analisi delle dimensioni del fatto Milano, 13.12.2012
  • 10. Descrivere i fatti Ogni dimensione è una colonna Pro Contro • Disaggregato • Disaggregato • Semplice • Tanti elementi • Atomico • Da tenere sempre organizzato Milano, 13.12.2012
  • 11. Descrivere i fatti Ogni dimensione è una colonna Pro Contro • Disaggregato • Disaggregato • Semplice • Tanti elementi • Atomico • Da tenere sempre organizzato Milano, 13.12.2012
  • 12. Aggregazioni • Dal mondo del management • Tabella Pivot (analisi multidimensionale) – Impossibile con dati già aggregati – Le dimensioni sono correlabili come si vuole Milano, 13.12.2012
  • 13. Aggregazioni Pivoting Pivoting Dati disaggregati Milano, 13.12.2012
  • 14. Aggregazioni Pivoting Criteri di aggregazione Risultato: la tabella pivot Milano, 13.12.2012
  • 15. Aggregazioni Pivoting Milano, 13.12.2012
  • 16. Si utilizza un dataset molto disaggregato per vedere come giocare con le tabelle pivot Milano, 13.12.2012
  • 17. I Formati • Tabellari – xls xlsx csv tsv ods dbf 75% • Strutturati 20% – xml json (shp) • Linked data 5 % – RDF • Altro… 50% – HTML Milano, 13.12.2012
  • 18. I Formati • Tabellari – xls xlsx csv tsv ods dbf 75% • Strutturati 20% – xml json (shp) • Linked data 5 % – RDF • Altro… 50% – HTML Milano, 13.12.2012
  • 19. Analisi rapida dei principali formati: • CSV, TSV • SHP • HTML Milano, 13.12.2012
  • 20. Trovare dati on-line La versione facile • Il browser (non IE) come strumento di analisi • Chrome – Scraper • https://chrome.google.com/webstore/detail/scraper/m bigbapnjcgaffohmbkdlecaccepngjd – Table Capture • https://chrome.google.com/webstore/detail/table- capture/iebpjdmgckacbodjpijphcplhebcmeop Milano, 13.12.2012
  • 21. Trovare dati on-line La versione facile • Firefox – Outwit • http://www.outwit.com/products/hub/ Milano, 13.12.2012
  • 22. Trovare dati on-line La versione intermedia • Strumenti più specialistici ma anche più «fragili» • Excel Milano, 13.12.2012
  • 23. Trovare dati on-line La versione intermedia • Google Refine - https://code.google.com/p/google-refine/ Milano, 13.12.2012
  • 24. Trovare dati on-line La versione difficile Milano, 13.12.2012
  • 25. Esperimenti di importazione dati • Plugin per Chrome • Excel • Refine Milano, 13.12.2012
  • 26. Riassumendo • Decidere le dimensioni di interesse • Descrivere i fatti in base alle dimensioni • Trovare i dati, pulirli e adattarli alle dimensioni • Analizzare le aggregazioni Milano, 13.12.2012
  • 27. Riassumendo • Decidere le dimensioni di interesse • Descrivere i fatti in base alle dimensioni • Trovare i dati, pulirli e adattarli alle dimensioni • Analizzare le aggregazioni Milano, 13.12.2012
  • 28. Qualche link utile • http://dataist.wordpress.com/ - Jens Finnäs – Ottimo blog dove seguire le escursioni in terra di codice di un giornalista • https://code.google.com/p/google-refine/ - Google Refine – Strumento di Google per l’elaborazione e la pulizia dei dati Milano, 13.12.2012
  • 29. Qualche link utile • https://scraperwiki.com/ - ScraperWiki – Strumento per trovare e collezionare script di scraping scritti in python, ruby o php • https://github.com/ - GitHub – Repository di progetti open source tra i quali anche tantissimi strumenti di scraping più specifici Milano, 13.12.2012
  • 30. That’s all folks! GRAZIE! Per qualsiasi domanda: @ingmmo marco.montanari@gmail.com sirmmo.blogspot.com, … sirmmo http://it.linkedin.com/in/montanarim/ marco.montanari Milano, 13.12.2012

Editor's Notes

  1. http://dati.comune.bologna.it/node/580