Data Scraping, Data Organization

1,010 views

Published on

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
1,010
On SlideShare
0
From Embeds
0
Number of Embeds
126
Actions
Shares
0
Downloads
9
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide
  • http://dati.comune.bologna.it/node/580
  • Data Scraping, Data Organization

    1. 1. Milano, 13.12.2012
    2. 2. Chi sono?• Marco Montanari @ingmmo, marco.montanari@gmail.com, sirmmo.blogspot.com• Sviluppatore, Appassionato di giochi, Nerd… – passione per i dati• “I am a journalist looking for coder friends.” – Jens Finnäs (HacksHackers Helsinki)• “I am a coder with journalist friends.” – Marco Montanari Milano, 13.12.2012
    3. 3. Indice• Il Fatto • I Formati• Le Dimensioni • Trovare dati on-line• Descrivere fatti• AggregazioniMilano, 13.12.2012
    4. 4. Il FattoMilano, 13.12.2012
    5. 5. Il Fatto• 5W: – Who is it about? – What happened? – When did it take place? – Where did it take place? – Why did it happen?Milano, 13.12.2012
    6. 6. Le Dimensioni Chi Dove Cosa Fatto Perché QuandoMilano, 13.12.2012
    7. 7. Le Dimensioni Cliente1 Vendita Amazon.it di un ProdottoX prodotto 12.12.2012 09:24:22Milano, 13.12.2012
    8. 8. Le Dimensioni Nome utente: sirmmo Destinazione: Pagina: /area1/p3 /area1/p2 Utente visita Orario di Modalità di uscita: clic su sito ingresso: 13.12.2012 link 09:24:22 Orario di Durata: uscita: 2m50s 13.12.2012 09:27:12Milano, 13.12.2012
    9. 9. Analisi delle dimensioni del fattoMilano, 13.12.2012
    10. 10. Descrivere i fatti Ogni dimensione è una colonna Pro Contro• Disaggregato • Disaggregato• Semplice • Tanti elementi• Atomico • Da tenere sempre organizzatoMilano, 13.12.2012
    11. 11. Descrivere i fatti Ogni dimensione è una colonna Pro Contro• Disaggregato • Disaggregato• Semplice • Tanti elementi• Atomico • Da tenere sempre organizzatoMilano, 13.12.2012
    12. 12. Aggregazioni• Dal mondo del management• Tabella Pivot (analisi multidimensionale) – Impossibile con dati già aggregati – Le dimensioni sono correlabili come si vuoleMilano, 13.12.2012
    13. 13. Aggregazioni Pivoting PivotingDati disaggregati Milano, 13.12.2012
    14. 14. Aggregazioni Pivoting Criteri di aggregazione Risultato: la tabella pivotMilano, 13.12.2012
    15. 15. Aggregazioni PivotingMilano, 13.12.2012
    16. 16. Si utilizza un dataset molto disaggregato per vedere come giocare con le tabelle pivotMilano, 13.12.2012
    17. 17. I Formati• Tabellari – xls xlsx csv tsv ods dbf 75%• Strutturati 20% – xml json (shp)• Linked data 5 % – RDF• Altro… 50% – HTMLMilano, 13.12.2012
    18. 18. I Formati• Tabellari – xls xlsx csv tsv ods dbf 75%• Strutturati 20% – xml json (shp)• Linked data 5 % – RDF• Altro… 50% – HTMLMilano, 13.12.2012
    19. 19. Analisi rapida dei principali formati: • CSV, TSV • SHP • HTMLMilano, 13.12.2012
    20. 20. Trovare dati on-line La versione facile• Il browser (non IE) come strumento di analisi• Chrome – Scraper • https://chrome.google.com/webstore/detail/scraper/m bigbapnjcgaffohmbkdlecaccepngjd – Table Capture • https://chrome.google.com/webstore/detail/table- capture/iebpjdmgckacbodjpijphcplhebcmeopMilano, 13.12.2012
    21. 21. Trovare dati on-line La versione facile• Firefox – Outwit • http://www.outwit.com/products/hub/Milano, 13.12.2012
    22. 22. Trovare dati on-line La versione intermedia• Strumenti più specialistici ma anche più «fragili»• ExcelMilano, 13.12.2012
    23. 23. Trovare dati on-line La versione intermedia • Google Refine - https://code.google.com/p/google-refine/Milano, 13.12.2012
    24. 24. Trovare dati on-line La versione difficileMilano, 13.12.2012
    25. 25. Esperimenti di importazione dati • Plugin per Chrome • Excel • RefineMilano, 13.12.2012
    26. 26. Riassumendo • Decidere le dimensioni di interesse • Descrivere i fatti in base alle dimensioni • Trovare i dati, pulirli e adattarli alle dimensioni • Analizzare le aggregazioniMilano, 13.12.2012
    27. 27. Riassumendo • Decidere le dimensioni di interesse • Descrivere i fatti in base alle dimensioni • Trovare i dati, pulirli e adattarli alle dimensioni • Analizzare le aggregazioniMilano, 13.12.2012
    28. 28. Qualche link utile• http://dataist.wordpress.com/ - Jens Finnäs – Ottimo blog dove seguire le escursioni in terra di codice di un giornalista• https://code.google.com/p/google-refine/ - Google Refine – Strumento di Google per l’elaborazione e la pulizia dei datiMilano, 13.12.2012
    29. 29. Qualche link utile• https://scraperwiki.com/ - ScraperWiki – Strumento per trovare e collezionare script di scraping scritti in python, ruby o php• https://github.com/ - GitHub – Repository di progetti open source tra i quali anche tantissimi strumenti di scraping più specificiMilano, 13.12.2012
    30. 30. That’s all folks! GRAZIE! Per qualsiasi domanda: @ingmmo marco.montanari@gmail.com sirmmo.blogspot.com, … sirmmo http://it.linkedin.com/in/montanarim/ marco.montanariMilano, 13.12.2012

    ×