Your SlideShare is downloading. ×
Data Scraping, Data Organization
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×

Introducing the official SlideShare app

Stunning, full-screen experience for iPhone and Android

Text the download link to your phone

Standard text messaging rates apply

Data Scraping, Data Organization

696
views

Published on

Published in: Technology

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
696
On Slideshare
0
From Embeds
0
Number of Embeds
6
Actions
Shares
0
Downloads
7
Comments
0
Likes
0
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide
  • http://dati.comune.bologna.it/node/580
  • Transcript

    • 1. Milano, 13.12.2012
    • 2. Chi sono?• Marco Montanari @ingmmo, marco.montanari@gmail.com, sirmmo.blogspot.com• Sviluppatore, Appassionato di giochi, Nerd… – passione per i dati• “I am a journalist looking for coder friends.” – Jens Finnäs (HacksHackers Helsinki)• “I am a coder with journalist friends.” – Marco Montanari Milano, 13.12.2012
    • 3. Indice• Il Fatto • I Formati• Le Dimensioni • Trovare dati on-line• Descrivere fatti• AggregazioniMilano, 13.12.2012
    • 4. Il FattoMilano, 13.12.2012
    • 5. Il Fatto• 5W: – Who is it about? – What happened? – When did it take place? – Where did it take place? – Why did it happen?Milano, 13.12.2012
    • 6. Le Dimensioni Chi Dove Cosa Fatto Perché QuandoMilano, 13.12.2012
    • 7. Le Dimensioni Cliente1 Vendita Amazon.it di un ProdottoX prodotto 12.12.2012 09:24:22Milano, 13.12.2012
    • 8. Le Dimensioni Nome utente: sirmmo Destinazione: Pagina: /area1/p3 /area1/p2 Utente visita Orario di Modalità di uscita: clic su sito ingresso: 13.12.2012 link 09:24:22 Orario di Durata: uscita: 2m50s 13.12.2012 09:27:12Milano, 13.12.2012
    • 9. Analisi delle dimensioni del fattoMilano, 13.12.2012
    • 10. Descrivere i fatti Ogni dimensione è una colonna Pro Contro• Disaggregato • Disaggregato• Semplice • Tanti elementi• Atomico • Da tenere sempre organizzatoMilano, 13.12.2012
    • 11. Descrivere i fatti Ogni dimensione è una colonna Pro Contro• Disaggregato • Disaggregato• Semplice • Tanti elementi• Atomico • Da tenere sempre organizzatoMilano, 13.12.2012
    • 12. Aggregazioni• Dal mondo del management• Tabella Pivot (analisi multidimensionale) – Impossibile con dati già aggregati – Le dimensioni sono correlabili come si vuoleMilano, 13.12.2012
    • 13. Aggregazioni Pivoting PivotingDati disaggregati Milano, 13.12.2012
    • 14. Aggregazioni Pivoting Criteri di aggregazione Risultato: la tabella pivotMilano, 13.12.2012
    • 15. Aggregazioni PivotingMilano, 13.12.2012
    • 16. Si utilizza un dataset molto disaggregato per vedere come giocare con le tabelle pivotMilano, 13.12.2012
    • 17. I Formati• Tabellari – xls xlsx csv tsv ods dbf 75%• Strutturati 20% – xml json (shp)• Linked data 5 % – RDF• Altro… 50% – HTMLMilano, 13.12.2012
    • 18. I Formati• Tabellari – xls xlsx csv tsv ods dbf 75%• Strutturati 20% – xml json (shp)• Linked data 5 % – RDF• Altro… 50% – HTMLMilano, 13.12.2012
    • 19. Analisi rapida dei principali formati: • CSV, TSV • SHP • HTMLMilano, 13.12.2012
    • 20. Trovare dati on-line La versione facile• Il browser (non IE) come strumento di analisi• Chrome – Scraper • https://chrome.google.com/webstore/detail/scraper/m bigbapnjcgaffohmbkdlecaccepngjd – Table Capture • https://chrome.google.com/webstore/detail/table- capture/iebpjdmgckacbodjpijphcplhebcmeopMilano, 13.12.2012
    • 21. Trovare dati on-line La versione facile• Firefox – Outwit • http://www.outwit.com/products/hub/Milano, 13.12.2012
    • 22. Trovare dati on-line La versione intermedia• Strumenti più specialistici ma anche più «fragili»• ExcelMilano, 13.12.2012
    • 23. Trovare dati on-line La versione intermedia • Google Refine - https://code.google.com/p/google-refine/Milano, 13.12.2012
    • 24. Trovare dati on-line La versione difficileMilano, 13.12.2012
    • 25. Esperimenti di importazione dati • Plugin per Chrome • Excel • RefineMilano, 13.12.2012
    • 26. Riassumendo • Decidere le dimensioni di interesse • Descrivere i fatti in base alle dimensioni • Trovare i dati, pulirli e adattarli alle dimensioni • Analizzare le aggregazioniMilano, 13.12.2012
    • 27. Riassumendo • Decidere le dimensioni di interesse • Descrivere i fatti in base alle dimensioni • Trovare i dati, pulirli e adattarli alle dimensioni • Analizzare le aggregazioniMilano, 13.12.2012
    • 28. Qualche link utile• http://dataist.wordpress.com/ - Jens Finnäs – Ottimo blog dove seguire le escursioni in terra di codice di un giornalista• https://code.google.com/p/google-refine/ - Google Refine – Strumento di Google per l’elaborazione e la pulizia dei datiMilano, 13.12.2012
    • 29. Qualche link utile• https://scraperwiki.com/ - ScraperWiki – Strumento per trovare e collezionare script di scraping scritti in python, ruby o php• https://github.com/ - GitHub – Repository di progetti open source tra i quali anche tantissimi strumenti di scraping più specificiMilano, 13.12.2012
    • 30. That’s all folks! GRAZIE! Per qualsiasi domanda: @ingmmo marco.montanari@gmail.com sirmmo.blogspot.com, … sirmmo http://it.linkedin.com/in/montanarim/ marco.montanariMilano, 13.12.2012