Data Scraping, Data Organization
Upcoming SlideShare
Loading in...5
×
 

Data Scraping, Data Organization

on

  • 908 views

 

Statistics

Views

Total Views
908
Views on SlideShare
801
Embed Views
107

Actions

Likes
0
Downloads
7
Comments
0

12 Embeds 107

http://sirmmo.blogspot.it 29
http://flavors.me 25
http://sirmmo.blogspot.com 16
http://lanyrd.com 13
http://de.flavors.me 8
http://www.enthuse.me 5
https://twitter.com 3
http://fr.flavors.me 2
http://es.flavors.me 2
http://www.linkedin.com 2
http://pinterest.com 1
http://sirmmo.blogspot.fi 1
More...

Accessibility

Categories

Upload Details

Uploaded via as Microsoft PowerPoint

Usage Rights

CC Attribution License

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment
  • http://dati.comune.bologna.it/node/580

Data Scraping, Data Organization Data Scraping, Data Organization Presentation Transcript

  • Milano, 13.12.2012
  • Chi sono?• Marco Montanari @ingmmo, marco.montanari@gmail.com, sirmmo.blogspot.com• Sviluppatore, Appassionato di giochi, Nerd… – passione per i dati• “I am a journalist looking for coder friends.” – Jens Finnäs (HacksHackers Helsinki)• “I am a coder with journalist friends.” – Marco Montanari Milano, 13.12.2012
  • Indice• Il Fatto • I Formati• Le Dimensioni • Trovare dati on-line• Descrivere fatti• AggregazioniMilano, 13.12.2012
  • Il FattoMilano, 13.12.2012
  • Il Fatto• 5W: – Who is it about? – What happened? – When did it take place? – Where did it take place? – Why did it happen?Milano, 13.12.2012
  • Le Dimensioni Chi Dove Cosa Fatto Perché QuandoMilano, 13.12.2012
  • Le Dimensioni Cliente1 Vendita Amazon.it di un ProdottoX prodotto 12.12.2012 09:24:22Milano, 13.12.2012
  • Le Dimensioni Nome utente: sirmmo Destinazione: Pagina: /area1/p3 /area1/p2 Utente visita Orario di Modalità di uscita: clic su sito ingresso: 13.12.2012 link 09:24:22 Orario di Durata: uscita: 2m50s 13.12.2012 09:27:12Milano, 13.12.2012
  • Analisi delle dimensioni del fattoMilano, 13.12.2012
  • Descrivere i fatti Ogni dimensione è una colonna Pro Contro• Disaggregato • Disaggregato• Semplice • Tanti elementi• Atomico • Da tenere sempre organizzatoMilano, 13.12.2012
  • Descrivere i fatti Ogni dimensione è una colonna Pro Contro• Disaggregato • Disaggregato• Semplice • Tanti elementi• Atomico • Da tenere sempre organizzatoMilano, 13.12.2012
  • Aggregazioni• Dal mondo del management• Tabella Pivot (analisi multidimensionale) – Impossibile con dati già aggregati – Le dimensioni sono correlabili come si vuoleMilano, 13.12.2012
  • Aggregazioni Pivoting PivotingDati disaggregati Milano, 13.12.2012
  • Aggregazioni Pivoting Criteri di aggregazione Risultato: la tabella pivotMilano, 13.12.2012
  • Aggregazioni PivotingMilano, 13.12.2012
  • Si utilizza un dataset molto disaggregato per vedere come giocare con le tabelle pivotMilano, 13.12.2012
  • I Formati• Tabellari – xls xlsx csv tsv ods dbf 75%• Strutturati 20% – xml json (shp)• Linked data 5 % – RDF• Altro… 50% – HTMLMilano, 13.12.2012
  • I Formati• Tabellari – xls xlsx csv tsv ods dbf 75%• Strutturati 20% – xml json (shp)• Linked data 5 % – RDF• Altro… 50% – HTMLMilano, 13.12.2012
  • Analisi rapida dei principali formati: • CSV, TSV • SHP • HTMLMilano, 13.12.2012
  • Trovare dati on-line La versione facile• Il browser (non IE) come strumento di analisi• Chrome – Scraper • https://chrome.google.com/webstore/detail/scraper/m bigbapnjcgaffohmbkdlecaccepngjd – Table Capture • https://chrome.google.com/webstore/detail/table- capture/iebpjdmgckacbodjpijphcplhebcmeopMilano, 13.12.2012
  • Trovare dati on-line La versione facile• Firefox – Outwit • http://www.outwit.com/products/hub/Milano, 13.12.2012
  • Trovare dati on-line La versione intermedia• Strumenti più specialistici ma anche più «fragili»• ExcelMilano, 13.12.2012
  • Trovare dati on-line La versione intermedia • Google Refine - https://code.google.com/p/google-refine/Milano, 13.12.2012
  • Trovare dati on-line La versione difficileMilano, 13.12.2012
  • Esperimenti di importazione dati • Plugin per Chrome • Excel • RefineMilano, 13.12.2012
  • Riassumendo • Decidere le dimensioni di interesse • Descrivere i fatti in base alle dimensioni • Trovare i dati, pulirli e adattarli alle dimensioni • Analizzare le aggregazioniMilano, 13.12.2012
  • Riassumendo • Decidere le dimensioni di interesse • Descrivere i fatti in base alle dimensioni • Trovare i dati, pulirli e adattarli alle dimensioni • Analizzare le aggregazioniMilano, 13.12.2012
  • Qualche link utile• http://dataist.wordpress.com/ - Jens Finnäs – Ottimo blog dove seguire le escursioni in terra di codice di un giornalista• https://code.google.com/p/google-refine/ - Google Refine – Strumento di Google per l’elaborazione e la pulizia dei datiMilano, 13.12.2012
  • Qualche link utile• https://scraperwiki.com/ - ScraperWiki – Strumento per trovare e collezionare script di scraping scritti in python, ruby o php• https://github.com/ - GitHub – Repository di progetti open source tra i quali anche tantissimi strumenti di scraping più specificiMilano, 13.12.2012
  • That’s all folks! GRAZIE! Per qualsiasi domanda: @ingmmo marco.montanari@gmail.com sirmmo.blogspot.com, … sirmmo http://it.linkedin.com/in/montanarim/ marco.montanariMilano, 13.12.2012