Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Chi controlla l'integrità dei dati?

3,071 views

Published on

Traccia di discussione presentata al SOD14 Barcamp del 28 Marzo 2014 a Bologna

Published in: Technology
  • Be the first to comment

Chi controlla l'integrità dei dati?

  1. 1. Chi controlla l’integrità dei dati? Matteo Fortini 28 Marzo 2014 #SOD14 Barcamp Bologna
  2. 2. La bontà di un lavoro di data analysis non può superare la bontà dei dati su cui si basa
  3. 3. La bontà di un lavoro di data analysis non può superare la bontà dei dati su cui si basa oppure no?
  4. 4. Il percorso Acquisizione Organizzazione/ Pulizia Analisi Dataviz Storia
  5. 5. Li raccolgo io
  6. 6. Me li ha forniti qualcuno
  7. 7. Conservare
  8. 8. Conservare ◮ Su un server: CKAN, ma anche Drive, Dropbox, . . .
  9. 9. Conservare ◮ Su un server: CKAN, ma anche Drive, Dropbox, . . . ◮ In un sistema di versioning: GIT, SVN, . . .
  10. 10. Conservare ◮ Su un server: CKAN, ma anche Drive, Dropbox, . . . ◮ In un sistema di versioning: GIT, SVN, . . . ◮ In un container con checksum: ZIP, RAR, 7Z, . . .
  11. 11. Conservare ◮ Su un server: CKAN, ma anche Drive, Dropbox, . . . ◮ In un sistema di versioning: GIT, SVN, . . . ◮ In un container con checksum: ZIP, RAR, 7Z, . . . ◮ In una cartella separata . . .
  12. 12. Conservare
  13. 13. Conservare ◮ Registrare la fonte: url, ufficio, persona, . . .
  14. 14. Conservare ◮ Registrare la fonte: url, ufficio, persona, . . . ◮ Registrare data e ora
  15. 15. Conservare ◮ Registrare la fonte: url, ufficio, persona, . . . ◮ Registrare data e ora ◮ Registrare un checksum: md5sum, SHA, . . .
  16. 16. Checksum
  17. 17. Checksum Integrità i dati sono rimasti uguali
  18. 18. Checksum Integrità i dati sono rimasti uguali Ripudio non sono i miei dati!
  19. 19. Checksum “analogici” ◮ Codice Fiscale ◮ Carte di credito ◮ Gli altri dati?
  20. 20. Coerenza
  21. 21. Coerenza ◮ Hanno delle proprietà note? (es. Bilanci, livelli, temperature. . . )
  22. 22. Coerenza ◮ Hanno delle proprietà note? (es. Bilanci, livelli, temperature. . . ) ◮ Fanno parte di un insieme noto? (es. Persone, Serie storiche. . . )
  23. 23. Outliers
  24. 24. Outliers Il nostro problema?
  25. 25. Outliers Il nostro problema? La nostra notizia?
  26. 26. Elaborazione ◮ Come verificare che non ci siano stati errori?
  27. 27. Elaborazione ◮ Come verificare che non ci siano stati errori? ◮ Cercare sempre di partire dai dati raw
  28. 28. Elaborazione ◮ Come verificare che non ci siano stati errori? ◮ Cercare sempre di partire dai dati raw ◮ Bloccare i dati (al limite i fogli. . . )
  29. 29. Elaborazione ◮ Come verificare che non ci siano stati errori? ◮ Cercare sempre di partire dai dati raw ◮ Bloccare i dati (al limite i fogli. . . ) ◮ Separare Raw->Cooked->Elaborazione
  30. 30. Elaborazione ◮ Come verificare che non ci siano stati errori? ◮ Cercare sempre di partire dai dati raw ◮ Bloccare i dati (al limite i fogli. . . ) ◮ Separare Raw->Cooked->Elaborazione ◮ Documentare le trasformazioni
  31. 31. Elaborazione ◮ Come verificare che non ci siano stati errori? ◮ Cercare sempre di partire dai dati raw ◮ Bloccare i dati (al limite i fogli. . . ) ◮ Separare Raw->Cooked->Elaborazione ◮ Documentare le trasformazioni ◮ Trasformazioni ripetibili
  32. 32. Portali Opendata: l’esempio di http://dati.gov.it ◮ Non hanno un checksum dei dati ◮ Non dichiarano la versione ◮ Mostrano la storia, ma non permettono di accedere al passato ◮ Il problema dei dati continuamente aggiornati
  33. 33. Riferimenti ◮ Broken egg photo by Stewart Butterfield http://www.flickr.com/photos/stewart/ ◮ Rubbish emergency in Campania by Chiara Marra https://www.flickr.com/photos/chiaramarra/ ◮ Winding road by Wayne Silver https://www.flickr.com/photos/psycho-pics/ ◮ US Customs and Border Protection Agriculture Specialist inspects flower by US Customs and Border Protection https://www.flickr.com/photos/cbpphotos/ ◮ Decision by Cristi B https://www.flickr.com/photos/cristib/ ◮ Thing in a jar by Windell Oskay https://www.flickr.com/photos/oskay/ ◮ Darwin Center by Adam Foser https://www.flickr.com/photos/twosevenoneonenineeightthreesevenatenzerosix/ ◮ Bubble by Ali T https://www.flickr.com/photos/77682540@N00/ ◮ Fowl storm by JD Hancock https://www.flickr.com/photos/jdhancock/ ◮ Codice Fiscale by krypt http://openclipart.org/detail/129043/codice-fiscale---tax-code-by-krypt ◮ Dress by Michael http://www.flickr.com/photos/helloturkeytoe/ ◮ Outlier by Robert S. Donovan http://www.flickr.com/photos/booleansplit/8482641188/ ◮ Bad Apples Fallen Apples Grass by Emilian Robert Vicol http://www.flickr.com/photos/free-stock/ ◮ Pot of Gold by Jeremy Schultz http://www.flickr.com/photos/tao_zhyn/ ◮ Meat grinder by Anfuehrer http://www.flickr.com/photos/planetbene/ ◮ Logo http://dati.gov.it ◮ Chain by SFU Marcin https://www.flickr.com/photos/svoo/

×