Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Taller d'Introducció a les Dades Obertes

1,918 views

Published on

Published in: Education

Taller d'Introducció a les Dades Obertes

  1. 1. Taller d’Introducció a lesDades ObertesJulià MinguillónEstudis d’Informàtica, Multimèdia iTelecomunicacióUniversitat Oberta de Catalunya24/4/2013
  2. 2. Big Data Week 2013•Esdeveniment mundial:o 25+ ciutatso 175+ acteso 20000+ participants•Organitzat per media140#bdw13 #barcelona
  3. 3. Estudis dInformàtica, Multimèdia iTelecomunicació de la UOC•Fa 15 anys que tenim 15 anys!Blog: http://eimt.uoc.edu/15/Facebook: https://www.facebook.com/eimtuoc
  4. 4. El grup Catalunya DadesEl grup Catalunya Dades persegueix fer participar la societat en els processos de generacióde valor a partir del coneixement i les dades obertes i està format per Generalitat deCatalunya, ajuntaments de Barcelona, Terrassa, Sabadell, Lleida i Badalona, AmicalViquipèdia, Softcatalà, Comunitat Mozilla, Catdroid, Guifinet, UOC (Universitat Oberta deCatalunya)-EIMT, UPF (Universitat Pompeu Fabra)-OpenCities, media 140, IEEE eGovernmentSTC (Institute of Electrical and Electronics Engineers), XIP (Xarxa d’Innovació Pública), CMT(Comissió del Mercat de Telecomunicacions).Blog: http://catalunyadades.wordpress.comTwitter: @catalunyadades / #catdades
  5. 5. “Lunico modo per non far conoscere agli altri ipropri limiti, è di non oltrepassarli mai”Giacomo Leopardi, 1798-1837DISCLAIMER
  6. 6. Continguts•Objectius del taller•Definicions bàsiques•El cicle de vida de les dades obertes•Exemple de projecte amb dades obertes•Programari “recomanat”•Dinàmica del taller
  7. 7. Objectius del taller•Donar continuïtat a les activitats impulsadesdes del grup Catalunya Dades:– Jornada sobre Dades Obertes– Curs virtual– Taller– ... ← necessitem el vostre feedback!!!•Crear una comunitat de pràctica al voltant deltema → el grup és obert a tothom!
  8. 8. Definicions bàsiques (I)•Què es una dada?24Dada→Informació→Coneixement→Saviesa•Descripció mitjançant metadades!•Estructurades en taules•Altres tipus: documents, tuits, imatges, ...
  9. 9. Definicions bàsiques (II)•Què és obert?•Obert com a sinònim de llibertat:– Per a reutilitzar (accedir)– Per a revisar (manipular)– Per a remesclar (fusionar)– Per a redistribuir•Les 4 Rs de David Wiley
  10. 10. Definicions bàsiques (III)Són dades obertes tots aquells conjunts de dades que esposen a disposició del públic i poden ser reutilitzats sensecap restricció.Les dades són distribuïdes en un format obert que permetla seva manipulació sense cap restricció tècnica ambprogramari obert i sota una llicència i/o condicions d’ús queno impedeixen als usuaris finals revisar-les, remesclar-les iredistribuir-les a tercers.Les dades haurien de satisfer certes condicions associades ala seva descripció, traçabilitat, qualitat, privacitat iinteroperabilitat.
  11. 11. El model de 5* de Tim Berners-Lee* Dades “publicades” (PDF, HTML)**En format taula (Excel, SPSS)***En format taula no propietari (CSV,JSON)****Amb descripcions i enllaços (XML)*****Amb relacions (XML, RDF)
  12. 12. Manipulant dades obertesCicle de vida / Rol (Productors, Infomediadors, Consumidors)➔Generació P➔Descripció + Publicació P, I➔Captura I, C➔Preprocessament I, C➔Anàlisi I, C➔Visualització + Publicació I, C → P, I
  13. 13. • Objectiu: obtenir les dades en brut• Des de portals de dades obertes• Accés a conjunts estàtics• Via consultes dinàmiques• Scraping de publicacions web• Activitat 2.0: Facebook, Twitter, … (APIs)• Activitat web: logs• Altres: triplify, conversors, ...Captura
  14. 14. • APIs: flickr, Twitter, ...• Web scraping:• Usant llenguatges de programació• Scraperwiki (Python / Ruby / PHP)• Yahoo! Query Language• “A lo pobre”: inspeccionar HTML (botó dret / F12)• SPARQL: Dbpedia• Formularis: Google Forms, SurveyMonkey, ...Eines per a la captura
  15. 15. • Una web genial però moltes dades de nivell 1*• Exemple: nom dels nadons nascuts a Catalunyahttp://www.idescat.cat/nadons/• Vídeo:http://www.youtube.com/watch?v=z7vEfwOpYbM• Processament amb bash + awk:http://personal.uoc.edu/opendataviz/nadons/Exemple: IDESCAT
  16. 16. • Objectiu: netejar les dades• Estructurar en format taula (files / columnes)• Filtrar / seleccionar els registres i/o variables• Fusionar taules• Conversions dunitats, formats, ...• Calcular noves variablesPreprocessament
  17. 17. • Google Refine (→ OpenRefine)• Yahoo! Pipes• Llenguatges de programació:• Awk, perl, python• Paquets estadístics: R, ...Eines per al preprocessament
  18. 18. • Objectiu: extreure informació de les dades• Anàlisi estadístic / mineria de dades• Detecció de patrons en les dades• Construcció de models:• Supervisats: arbres de decisió, sistemes de regles, ...• No supervisats: clusteringAnàlisi
  19. 19. • Excel / OpenOffice• Paquets estadístics: R, SPSS, RapidMiner, …• Gephi• Llenguatges de programació:• De propòsit general• Processing• Llibreries: Weka, ...• Recursos online: http://www.socr.ucla.edu/Eines per a lanàlisi
  20. 20. • Objectiu: afegir valor als resultats de lanàlisi• Descripció de les dades / agregats• Millorar la seva interpretació• Afegir context / semàntica (p.e. mapes)• Permetre a lusuari interactuar amb les dadesVisualització
  21. 21. • IBM Many Eyes• Tableau• Llenguatges de programació:• Processing• HTML5 + Javascript• D3.js• Mapes: Google Maps, OpenStreetMap, ...• Altres: Wordle, Tagxedo, ...Eines per a la visualització
  22. 22. Exemple (I)•Visualitzar el tuits de Twitter que portin elhahstag #perSantJordiRegalo i que tinguinuna estructura mínima, p.e.#persantjordiregalo “titol” dautor•Volem saber quins són els llibres més votats
  23. 23. Exemple (II)•Captura+preprocessament: script Python +llibreria tweetstream → fitxer .csv•Anàlisi i visualització en D3.js•Servidor web sota GNU/Linuxhttp://personal.uoc.edu/opendataviz/SantJordi2013/
  24. 24. #! /usr/bin/env python# -*- coding: utf-8 -*-import tweetstreamimport codecsimport sysstream = tweetstream.FilterStream("MAVSELproject", "mavsel12!",track=["#perSantJordiRegalo","#persantjordiregalo"])print "usuari,tuit,llibre"sys.stdout.flush()for tweet in stream:if tweet.has_key("text"):# busquem el llibre entre cometestuit=tweet[text].encode(utf-8,ignore)p1=tuit.find(")if p1 != -1:llibre=tuit[p1+1:]p2=llibre.find(")if p2 != -1:llibre=llibre[0:p2].title()tuitOK=tuit.replace(",")print tweet[user][screen_name].encode(utf-8,ignore)+","+"""+tuitOK+"""+","+"""+llibre+"""sys.stdout.flush()Script en Python
  25. 25. usuari,tuit,llibreCatalunyaRadio,"#PerSantJordiRegalo &quot;A micròfon tancat&quot;,de @llurpi: http://t.co/J5J8ob9lXE","A MicròFon Tancat"fanigrande,"RT @CatalunyaRadio: #PerSantJordiRegalo &quot;A micròfontancat&quot;, de @llurpi: http://t.co/J5J8ob9lXE","A Mevagp91,"#PerSantJordiRegalo &quot;Corazón tan blanco&quot; de JavierMarías","CorazóN Tan Blanco"CatalunyaRadio,"#PerSantJordiRegalo &quot;Dues ratlles vol dirpositiu&quot;, de @joanbotta http://t.co/P1YyB956Ob","Dues Raonadaedicions,"RT @CatalunyaRadio: #PerSantJordiRegalo &quot;Elscontes dEl Club de la Mitjanit&quot;, de<200F> @martigau :EsteveMiralles,"RT @mallauger: #perSantJordiRegalo &quot;Retrobarlànima&quot;, d @EsteveMiralles que recorda al lector qCatalunyaRadio,"#PerSantJordiRegalo &quot;La casa del silenci&quot;,de @blancabusquets http://t.co/NjmqqqI51U","La Casa Deljminguillona,"#perSantJordiRegalo &quot;La vida: instrucciones deuso&quot; de Georges Perec","La Vida: Instrucciones De UsoCatalunyaRadio,"#PerSantJordiRegalo &quot;Els contes dEl Club de laMitjanit&quot;, de<200F> @martigau : http://t.co/FV1Us8AlbertPuigCros,"RT @CatalunyaRadio: #PerSantJordiRegalo &quot;Elcançoner de tothom&quot;, d @AlbertPuigCros: http://t.co/momoselector,"RT @CatalunyaRadio: #PerSantJordiRegalo &quot;Elcançoner de tothom&quot;, d @AlbertPuigCros: http://t.co/tZfontano1622,"#perSantJordiRegalo &quot;Poesia catalana del barroc.Antologia&quot;, edició de P.Valsalobre i A.Rossich. #dejminguillona,"#perSantJordiRegalo &quot;Ultraviolencia&quot; deMiguel Noguera","Ultraviolencia"chechar,"#perSantJordiRegalo &quot;The Signal and The Noise&quot;, deFitxer .CSV resultant
  26. 26. • Google Refine• R + Rcommander / Rstudio• Processing• PythonProgramari “recomanat”
  27. 27. Dinàmica del taller•Instal·lació de programari•Formació de grups 4-6 persones•Establiment objectiu: quines dades es volenmanipular? Quin ha de ser el resultat?•Desenvolupament de la idea: quines einessusaran? Com serà el resultat final?•Presentació de la idea / resultats obtinguts /problemes trobats
  28. 28. Idees dels participants•Migració•Trànsit•Econòmiques / Financeres•Mapa centres educatius / Indicadors sobre educació superior•Mobiliari urbà / Actuacions sobre el territori / Geolocalització•Ús de les TIC / Inclusió digital / Perspectiva de gènere•Twitter•Equipaments / Patrimoni cultural•Eines: scraperwiki, hadoop, timeline, exhibit, sparql
  29. 29. Gràcies!●Lectures recomanades:http://edcp.uoc.edu/symposia/lang/ca/idp2013/bibliography/http://curs.opendata.uoc.edu●Contacte:Julià MinguillónEmail: jminguillona[at]uoc[dot]eduTwitter: @jminguillona

×