• Share
  • Email
  • Embed
  • Like
  • Save
  • Private Content
 

Taller d'Introducció a les Dades Obertes

on

  • 1,272 views

 

Statistics

Views

Total Views
1,272
Views on SlideShare
1,138
Embed Views
134

Actions

Likes
6
Downloads
25
Comments
0

1 Embed 134

https://twitter.com 134

Accessibility

Categories

Upload Details

Uploaded via as OpenOffice

Usage Rights

CC Attribution-ShareAlike LicenseCC Attribution-ShareAlike License

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel

Taller d'Introducció a les Dades Obertes Taller d'Introducció a les Dades Obertes Presentation Transcript

  • Taller d’Introducció a lesDades ObertesJulià MinguillónEstudis d’Informàtica, Multimèdia iTelecomunicacióUniversitat Oberta de Catalunya24/4/2013
  • Big Data Week 2013•Esdeveniment mundial:o 25+ ciutatso 175+ acteso 20000+ participants•Organitzat per media140#bdw13 #barcelona
  • Estudis dInformàtica, Multimèdia iTelecomunicació de la UOC•Fa 15 anys que tenim 15 anys!Blog: http://eimt.uoc.edu/15/Facebook: https://www.facebook.com/eimtuoc
  • El grup Catalunya DadesEl grup Catalunya Dades persegueix fer participar la societat en els processos de generacióde valor a partir del coneixement i les dades obertes i està format per Generalitat deCatalunya, ajuntaments de Barcelona, Terrassa, Sabadell, Lleida i Badalona, AmicalViquipèdia, Softcatalà, Comunitat Mozilla, Catdroid, Guifinet, UOC (Universitat Oberta deCatalunya)-EIMT, UPF (Universitat Pompeu Fabra)-OpenCities, media 140, IEEE eGovernmentSTC (Institute of Electrical and Electronics Engineers), XIP (Xarxa d’Innovació Pública), CMT(Comissió del Mercat de Telecomunicacions).Blog: http://catalunyadades.wordpress.comTwitter: @catalunyadades / #catdades
  • “Lunico modo per non far conoscere agli altri ipropri limiti, è di non oltrepassarli mai”Giacomo Leopardi, 1798-1837DISCLAIMER
  • Continguts•Objectius del taller•Definicions bàsiques•El cicle de vida de les dades obertes•Exemple de projecte amb dades obertes•Programari “recomanat”•Dinàmica del taller
  • Objectius del taller•Donar continuïtat a les activitats impulsadesdes del grup Catalunya Dades:– Jornada sobre Dades Obertes– Curs virtual– Taller– ... ← necessitem el vostre feedback!!!•Crear una comunitat de pràctica al voltant deltema → el grup és obert a tothom!
  • Definicions bàsiques (I)•Què es una dada?24Dada→Informació→Coneixement→Saviesa•Descripció mitjançant metadades!•Estructurades en taules•Altres tipus: documents, tuits, imatges, ...
  • Definicions bàsiques (II)•Què és obert?•Obert com a sinònim de llibertat:– Per a reutilitzar (accedir)– Per a revisar (manipular)– Per a remesclar (fusionar)– Per a redistribuir•Les 4 Rs de David Wiley
  • Definicions bàsiques (III)Són dades obertes tots aquells conjunts de dades que esposen a disposició del públic i poden ser reutilitzats sensecap restricció.Les dades són distribuïdes en un format obert que permetla seva manipulació sense cap restricció tècnica ambprogramari obert i sota una llicència i/o condicions d’ús queno impedeixen als usuaris finals revisar-les, remesclar-les iredistribuir-les a tercers.Les dades haurien de satisfer certes condicions associades ala seva descripció, traçabilitat, qualitat, privacitat iinteroperabilitat.
  • El model de 5* de Tim Berners-Lee* Dades “publicades” (PDF, HTML)**En format taula (Excel, SPSS)***En format taula no propietari (CSV,JSON)****Amb descripcions i enllaços (XML)*****Amb relacions (XML, RDF)
  • Manipulant dades obertesCicle de vida / Rol (Productors, Infomediadors, Consumidors)➔Generació P➔Descripció + Publicació P, I➔Captura I, C➔Preprocessament I, C➔Anàlisi I, C➔Visualització + Publicació I, C → P, I
  • • Objectiu: obtenir les dades en brut• Des de portals de dades obertes• Accés a conjunts estàtics• Via consultes dinàmiques• Scraping de publicacions web• Activitat 2.0: Facebook, Twitter, … (APIs)• Activitat web: logs• Altres: triplify, conversors, ...Captura
  • • APIs: flickr, Twitter, ...• Web scraping:• Usant llenguatges de programació• Scraperwiki (Python / Ruby / PHP)• Yahoo! Query Language• “A lo pobre”: inspeccionar HTML (botó dret / F12)• SPARQL: Dbpedia• Formularis: Google Forms, SurveyMonkey, ...Eines per a la captura
  • • Una web genial però moltes dades de nivell 1*• Exemple: nom dels nadons nascuts a Catalunyahttp://www.idescat.cat/nadons/• Vídeo:http://www.youtube.com/watch?v=z7vEfwOpYbM• Processament amb bash + awk:http://personal.uoc.edu/opendataviz/nadons/Exemple: IDESCAT
  • • Objectiu: netejar les dades• Estructurar en format taula (files / columnes)• Filtrar / seleccionar els registres i/o variables• Fusionar taules• Conversions dunitats, formats, ...• Calcular noves variablesPreprocessament
  • • Google Refine (→ OpenRefine)• Yahoo! Pipes• Llenguatges de programació:• Awk, perl, python• Paquets estadístics: R, ...Eines per al preprocessament
  • • Objectiu: extreure informació de les dades• Anàlisi estadístic / mineria de dades• Detecció de patrons en les dades• Construcció de models:• Supervisats: arbres de decisió, sistemes de regles, ...• No supervisats: clusteringAnàlisi
  • • Excel / OpenOffice• Paquets estadístics: R, SPSS, RapidMiner, …• Gephi• Llenguatges de programació:• De propòsit general• Processing• Llibreries: Weka, ...• Recursos online: http://www.socr.ucla.edu/Eines per a lanàlisi
  • • Objectiu: afegir valor als resultats de lanàlisi• Descripció de les dades / agregats• Millorar la seva interpretació• Afegir context / semàntica (p.e. mapes)• Permetre a lusuari interactuar amb les dadesVisualització
  • • IBM Many Eyes• Tableau• Llenguatges de programació:• Processing• HTML5 + Javascript• D3.js• Mapes: Google Maps, OpenStreetMap, ...• Altres: Wordle, Tagxedo, ...Eines per a la visualització
  • Exemple (I)•Visualitzar el tuits de Twitter que portin elhahstag #perSantJordiRegalo i que tinguinuna estructura mínima, p.e.#persantjordiregalo “titol” dautor•Volem saber quins són els llibres més votats
  • Exemple (II)•Captura+preprocessament: script Python +llibreria tweetstream → fitxer .csv•Anàlisi i visualització en D3.js•Servidor web sota GNU/Linuxhttp://personal.uoc.edu/opendataviz/SantJordi2013/
  • #! /usr/bin/env python# -*- coding: utf-8 -*-import tweetstreamimport codecsimport sysstream = tweetstream.FilterStream("MAVSELproject", "mavsel12!",track=["#perSantJordiRegalo","#persantjordiregalo"])print "usuari,tuit,llibre"sys.stdout.flush()for tweet in stream:if tweet.has_key("text"):# busquem el llibre entre cometestuit=tweet[text].encode(utf-8,ignore)p1=tuit.find(")if p1 != -1:llibre=tuit[p1+1:]p2=llibre.find(")if p2 != -1:llibre=llibre[0:p2].title()tuitOK=tuit.replace(",")print tweet[user][screen_name].encode(utf-8,ignore)+","+"""+tuitOK+"""+","+"""+llibre+"""sys.stdout.flush()Script en Python
  • usuari,tuit,llibreCatalunyaRadio,"#PerSantJordiRegalo &quot;A micròfon tancat&quot;,de @llurpi: http://t.co/J5J8ob9lXE","A MicròFon Tancat"fanigrande,"RT @CatalunyaRadio: #PerSantJordiRegalo &quot;A micròfontancat&quot;, de @llurpi: http://t.co/J5J8ob9lXE","A Mevagp91,"#PerSantJordiRegalo &quot;Corazón tan blanco&quot; de JavierMarías","CorazóN Tan Blanco"CatalunyaRadio,"#PerSantJordiRegalo &quot;Dues ratlles vol dirpositiu&quot;, de @joanbotta http://t.co/P1YyB956Ob","Dues Raonadaedicions,"RT @CatalunyaRadio: #PerSantJordiRegalo &quot;Elscontes dEl Club de la Mitjanit&quot;, de<200F> @martigau :EsteveMiralles,"RT @mallauger: #perSantJordiRegalo &quot;Retrobarlànima&quot;, d @EsteveMiralles que recorda al lector qCatalunyaRadio,"#PerSantJordiRegalo &quot;La casa del silenci&quot;,de @blancabusquets http://t.co/NjmqqqI51U","La Casa Deljminguillona,"#perSantJordiRegalo &quot;La vida: instrucciones deuso&quot; de Georges Perec","La Vida: Instrucciones De UsoCatalunyaRadio,"#PerSantJordiRegalo &quot;Els contes dEl Club de laMitjanit&quot;, de<200F> @martigau : http://t.co/FV1Us8AlbertPuigCros,"RT @CatalunyaRadio: #PerSantJordiRegalo &quot;Elcançoner de tothom&quot;, d @AlbertPuigCros: http://t.co/momoselector,"RT @CatalunyaRadio: #PerSantJordiRegalo &quot;Elcançoner de tothom&quot;, d @AlbertPuigCros: http://t.co/tZfontano1622,"#perSantJordiRegalo &quot;Poesia catalana del barroc.Antologia&quot;, edició de P.Valsalobre i A.Rossich. #dejminguillona,"#perSantJordiRegalo &quot;Ultraviolencia&quot; deMiguel Noguera","Ultraviolencia"chechar,"#perSantJordiRegalo &quot;The Signal and The Noise&quot;, deFitxer .CSV resultant
  • • Google Refine• R + Rcommander / Rstudio• Processing• PythonProgramari “recomanat”
  • Dinàmica del taller•Instal·lació de programari•Formació de grups 4-6 persones•Establiment objectiu: quines dades es volenmanipular? Quin ha de ser el resultat?•Desenvolupament de la idea: quines einessusaran? Com serà el resultat final?•Presentació de la idea / resultats obtinguts /problemes trobats
  • Idees dels participants•Migració•Trànsit•Econòmiques / Financeres•Mapa centres educatius / Indicadors sobre educació superior•Mobiliari urbà / Actuacions sobre el territori / Geolocalització•Ús de les TIC / Inclusió digital / Perspectiva de gènere•Twitter•Equipaments / Patrimoni cultural•Eines: scraperwiki, hadoop, timeline, exhibit, sparql
  • Gràcies!●Lectures recomanades:http://edcp.uoc.edu/symposia/lang/ca/idp2013/bibliography/http://curs.opendata.uoc.edu●Contacte:Julià MinguillónEmail: jminguillona[at]uoc[dot]eduTwitter: @jminguillona