Scraping - Corso per L'Avvenire

300 views

Published on

Published in: Education
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
300
On SlideShare
0
From Embeds
0
Number of Embeds
7
Actions
Shares
0
Downloads
4
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Scraping - Corso per L'Avvenire

  1. 1. Data Retrieval Marco Montanari
  2. 2. Dove sono I dati? • I dati possono trovarsi sul web in tanti formati – Tabellari • xls xlsx csv tsv ods dbf – Strutturati • xml json (shp) – Linked data • RDF – Altro… • HTML 75% 20% 5 50%
  3. 3. Dove sono I dati? • I dati possono trovarsi sul web in tanti formati – Tabellari • xls xlsx csv tsv ods dbf – Strutturati • xml json (shp) – Linked data • RDF – Altro… • HTML 75% 20% 5 50%
  4. 4. Partiamo dai dati tabellari • I dati possono trovarsi sul web in tanti formati – Tabellari • xls xlsx csv tsv ods dbf – Strutturati • xml json (shp) – Linked data • RDF – Altro… • HTML 75% 20% 5 50%
  5. 5. Dati già tabellari • Portali open data (attenzione alle licenze) • Google – Filetype:csv/xls • Enti internazionali • Agenzie di statistica
  6. 6. Il Bengodi!!! • C’è un problema: – Diversi enti definiscono la stessa cosa in modi completamente diversi – Diventa difficilissimo fare le operazioni di VLOOKUP
  7. 7. PROVIAMO A CERCARE QUALCHE DATO!
  8. 8. Dove sono I dati? • I dati possono trovarsi sul web in tanti formati – Tabellari • xls xlsx csv tsv ods dbf – Strutturati • xml json (shp) – Linked data • RDF – Altro… • HTML 75% 20% 5 50%
  9. 9. Scraping • Excel • Chrome – table extractor – Scraper • Firefox – outwit • I PDF… – Zamzar – Tabula • Scraperwiki
  10. 10. PROVIAMO A SCRAPARE UN PO’ DI PAGINE
  11. 11. That’s all Folks! GRAZIE! Per qualsiasi domanda: @ingmmo marco.montanari@gmail.com sirmmo.blogspot.com, … sirmmo http://it.linkedin.com/in/montanarim/ https://www.facebook.com/marco.montanari marco.montanari

×