Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
Open / Big Data
Conceptes bàsics
bones pràctiques
recursos
Julià Minguillón
EIMT / UOC
Taula de continguts
●

Conceptes bàsics

●

Aspectes importants

●

42

●

Organització de les dades

●

Linked data / Big...
Conceptes bàsics
●

Per què dades obertes?

●

Què és obert?
–

●

Què és una dada?
–

●

No només gratuit

No només númer...
Per què dades obertes?
●

Per retornar a l'usuari / ciutadà el que és seu

●

Per transparència administrativa

●

Per imp...
Obert com a llibertat
●

Les 4 R de David Wiley:
–

Reutilitzar

–

Revisar

–

Remesclar

–

Redistribuir

Accessible → M...
Aspectes importants
●

Aspectes tecnològics:
–
–

Quin és el format de les dades

–

Quin és el format del fitxer

–

Dade...
Aspectes legals
●

Les dades (com fets) no poden ser patentades

●

Però les “col·leccions” poden ser protegides

●

Estar...
Dades

42
Dades
●

●

●

●

Dada: 42
Informació: la temperatura del pacient és de 42
graus (º C)
Coneixement: una febre de més de 42...
Organització de les dades
●

Estructurades:
–
–

●

“Planes”: taules, longitud fixa
Jeràrquiques: longitud variable (exemp...
Model de Tim Berners-Lee
* Documents no manipulables: PDF, TIFF
** Manipulables en un format propietari: XLS, SPSS
*** Usa...
Linked Data
●

Dades llegibles per màquines → web semàntica

●

Principis bàsics (Tim Berners-Lee):
–

Identificar l'orige...
Dades dinàmiques
●

Accés mitjançant una API:
–
–

S'accepten querys ben formades

–
●

El servidor ofereix un punt d'entr...
Big Data (3 V)
Temps
(Velocity)

Variables
(Variety)
Mostres
(Volume)
Exemples de (not so) Big Data (I)
●

La UOC:
–
–

Centenars de variables (p.e. accions)

–

●

Milers d'estudiants connect...
Exemples de Big Data (II)
●

Walmart:
–

8500 botigues (4253 als USA)

–

90% dels usuaris a menys de 15' d'una botiga

–
...
Exemples de Big Data (III)
●

Xarxes socials:
–

Facebook: 1000000000 usuaris

–

Linkedin: 200000000 usuaris

–

Twitter:...
Qui genera dades?
●

Usuaris
–

●

Xarxes socials

Corporacions
–

Operadors de telefonia / proveidors Internet

–

Consum...
Rols

Productors

Infomediadors

Consumidors
Cicle de vida de les dades obertes
Generació
↓

Publicació
↓

Captura
↓

Preprocessament
↓

Anàlisi
↓

Visualització
Captura
●

Objectiu: obtenir les dades necessàries
–

Dades estàtiques

–

Dades dinàmiques

–

Servidors web: logs

–

Qu...
Preprocessament
●

Objectiu: preparar les dades per a ser
analitzades
–

Fusió de dades de diferents origens (join)

–

Ag...
Anàlisi
●

Objectiu: extraure coneixement de les dades
–

Detecció de patrons

–

Creació de models
●
●
●

–

Clustering
A...
Visualització
●

Objectiu: representar el coneixement extret
–

Els humans som excelents processadors visuals
●

–

Però s...
Bones pràctiques
●

Smart cities:
–

Live London underground map

–

NYC runners

●

Transport aeri: OpenFlights

●

Data ...
Portals de dades obertes
●

Ajuntaments de Barcelona, Badalona, Sabadell
, Terrassa, Cornellà, ...

●

Generalitat de Cata...
Altres portals
●

UCI ML: recerca en machine learning

●

KDD cup: competint pel millor predictor

●

CKAN

●

World Bank ...
Eines per a la captura
●

Usar les API existents

●

Web scrapping
–

A “pèl” (llenguatge de programació)

–

Scraperwiki ...
Eines per al preprocessament
●

Google Refine (Open Refine)

●

Yahoo Pipes

●

Llenguatges de programació
–

●

Awk → Per...
Eines per a l'anàlisi
●

Excel / OpenOffice

●

Paquets estadístics:
–

SPSS

–

R

●

Gephi (anàlisi de xarxes)

●

Lleng...
Eines per a la visualització
●

IBM ManyEyes

●

Excel / OpenOffice

●

SPSS / R

●

Gephi

●

Processing

●

OpenFramewor...
Esdeveniments
●

Big Data Week
–
–

●

1a edició: 22-28 abril 2013, 20000+ participants
2a edició: 5-11 maig 2014

Conferè...
Per saber-ne més
●

Open Data – An introduction

●

Decàleg Open Data

●

Llicències per Open Data

●

Big Data:
–
–

●

B...
Contacte
Julià Minguillón
jminguillona[at]uoc[dot]edu
@jminguillona
http://oer.uoc.edu/cursOpenData/

CC-BY-SA (c) Julià M...
Upcoming SlideShare
Loading in …5
×

Introducció a Open Data / Big Data

758 views

Published on

Vivim en la societat de la informació, segons uns, o del coneixement, segons els altres. Sigui com sigui, informació i coneixement són el producte refinat de la dada en brut, la veritable font d’energia de la societat actual. La tecnologia ha permès generar i disposar de quantitats ingents de dades, processar-les i visualitzar-les, apropant-les als usuaris finals, convertint-les en informació i coneixement útil, suposadament per a tothom. Moltes d’aquestes dades, però, son gestionades per grans corporacions i l’administració, sense ser realment acessibles pels ciutadans. El moviment al voltant del concepte d’Open Data pretèn establir unes bases sobre les quals crear i compartir dades que pugin ser d’interès pels ciutadans, tenint en compte un seguit d’aspectes tecnològics, legals, ètics, etc. En aquest seminari discutirem quins són els origens del moviment d’Open Data, els seus impulsors i les definicions bàsiques (al voltant dels termes “Open" i "Data") així com els aspectes més importants dels ja esmentats. També introduirem el concepte de Big Data, dades que per la multiplicació de diferents factors (espai, temps, nombre d’usuaris, …) superen amb escreix la nostra capacitat d’enteniment. Tots dos termes els acompanyarem d’exemples i bones pràctiques impulsades per les administracions però també pels usuaris finals, que han vist la possibilitat de participar activament en aquesta societat, com deiem, de la dada.

  • Be the first to comment

Introducció a Open Data / Big Data

  1. 1. Open / Big Data Conceptes bàsics bones pràctiques recursos Julià Minguillón EIMT / UOC
  2. 2. Taula de continguts ● Conceptes bàsics ● Aspectes importants ● 42 ● Organització de les dades ● Linked data / Big data ● Cicle de vida ● Bones pràctiques ● Recursos
  3. 3. Conceptes bàsics ● Per què dades obertes? ● Què és obert? – ● Què és una dada? – ● No només gratuit No només números en taules Què és big?
  4. 4. Per què dades obertes? ● Per retornar a l'usuari / ciutadà el que és seu ● Per transparència administrativa ● Per impulsar la participació ciutadana ● Per dotar a l'usuari de competències bàsiques ● Per poder informar millor ● Per promoure la innovació oberta ● Per crear coneixement compartit ● Per reduir el frau científic ● ...
  5. 5. Obert com a llibertat ● Les 4 R de David Wiley: – Reutilitzar – Revisar – Remesclar – Redistribuir Accessible → Manipulable → Publicable
  6. 6. Aspectes importants ● Aspectes tecnològics: – – Quin és el format de les dades – Quin és el format del fitxer – Dades estàtiques / dinàmiques – ● On publicar / trobar les dades obertes ... Aspectes legals: – Establir una llicència – Condicions d'ús – Disclaimer
  7. 7. Aspectes legals ● Les dades (com fets) no poden ser patentades ● Però les “col·leccions” poden ser protegides ● Estar penjat a Internet no equival a “obert” ● Cal aclarir / explicitar: – – Condicions d'ús – Privacitat: el mal exemple de AOL – ● Traçabilitat: origen de les dades Qualitat: responsabilitat sobre les dades Es pot fer pagar per lo públic? El cas d'AEMET
  8. 8. Dades 42
  9. 9. Dades ● ● ● ● Dada: 42 Informació: la temperatura del pacient és de 42 graus (º C) Coneixement: una febre de més de 42º C pot provocar danys cerebrals Saviesa: no deixar arribar la febre a 42º C
  10. 10. Organització de les dades ● Estructurades: – – ● “Planes”: taules, longitud fixa Jeràrquiques: longitud variable (exemple: Tweet) “No” estructurades: – ● Textos Aspectes importants: – Descripció – Semàntica – Compactesa
  11. 11. Model de Tim Berners-Lee * Documents no manipulables: PDF, TIFF ** Manipulables en un format propietari: XLS, SPSS *** Usar formats oberts: CSV, JSON **** Usar estàndards per descriure els elements: XML ***** Enllaçar amb altres dades: RDF
  12. 12. Linked Data ● Dades llegibles per màquines → web semàntica ● Principis bàsics (Tim Berners-Lee): – Identificar l'origen de cada dada – Enllaçar per afegir context i significat ● Gran volum de conjunts enllaçats (graf) ● Consultes via SPARQL, Yahoo QL, ... ● Semàntica: “imatges amb edificis modernistes” ● Exemple: flickr+dbpedia
  13. 13. Dades dinàmiques ● Accés mitjançant una API: – – S'accepten querys ben formades – ● El servidor ofereix un punt d'entrada (servei web) Es retornen les dades en el format especificat Limitacions: – – ● Nombre de querys / resultats per segon / en total Potser cal un registre / autenticació prèvia Exemples: – Twitter, flickr, dbpedia, open weather, ...
  14. 14. Big Data (3 V) Temps (Velocity) Variables (Variety) Mostres (Volume)
  15. 15. Exemples de (not so) Big Data (I) ● La UOC: – – Centenars de variables (p.e. accions) – ● Milers d'estudiants connectats (20000 / dia) Al llarg d'un semestre acadèmic Servei de Bicing: – Màxim de 190000 usuaris (ara 100000) – 6000 bicicletes / 420 estacions – 1250000 usos mensuals
  16. 16. Exemples de Big Data (II) ● Walmart: – 8500 botigues (4253 als USA) – 90% dels usuaris a menys de 15' d'una botiga – 100000000 de consumidors per setmana – Milers de productes en venda ● Altres: e-bay, Amazon, VISA, ... ● Dades científiques (LHC ≈ 25 petabytes / any) 10^15 http://www.businessinsider.com/16-walmart-facts http://www.statisticbrain.com/wal-mart-company-statistics/
  17. 17. Exemples de Big Data (III) ● Xarxes socials: – Facebook: 1000000000 usuaris – Linkedin: 200000000 usuaris – Twitter: 500000000 usuaris ● ● ● ● 20000000 usuaris fake 230000000 usuaris actius al mes, 100000000 al dia 500000000 de tweets al dia (2500 bytes / tweet) Google (24 petabytes / dia): – 1170000000 usuaris fent 12900000000 cerques al mes http://en.wikipedia.org/wiki/List_of_social_networking_websites
  18. 18. Qui genera dades? ● Usuaris – ● Xarxes socials Corporacions – Operadors de telefonia / proveidors Internet – Consum, mercats, borsa, … – Publicacions científiques ● Administració ● Xarxes de sensors – Meteorologia – Smart cities
  19. 19. Rols Productors Infomediadors Consumidors
  20. 20. Cicle de vida de les dades obertes Generació ↓ Publicació ↓ Captura ↓ Preprocessament ↓ Anàlisi ↓ Visualització
  21. 21. Captura ● Objectiu: obtenir les dades necessàries – Dades estàtiques – Dades dinàmiques – Servidors web: logs – Quan tot falla: ● ● ● Web scrapping Crowdsourcing Procés costós i semi-automàtic (o manual)
  22. 22. Preprocessament ● Objectiu: preparar les dades per a ser analitzades – Fusió de dades de diferents origens (join) – Agregació (group by) – Selecció de mostres / variables (filter) – Transformació de variables (p.e. unitats) – Càlcul de noves variables
  23. 23. Anàlisi ● Objectiu: extraure coneixement de les dades – Detecció de patrons – Creació de models ● ● ● – Clustering Arbres de decisió Regles d'associació Interpretació ● ● ● ● Classificació Predicció Importància de les variables Caracterització
  24. 24. Visualització ● Objectiu: representar el coneixement extret – Els humans som excelents processadors visuals ● – Però som dolents fent càlculs: ● – ● ● Àrees, proporcions, … Afegir context / semàntica: ● – Forma, mida, color, posició, patrons, 2D/3D, … Relacions Mapes La visualització esdevé la interfície La visualització és un altre tipus d'anàlisi
  25. 25. Bones pràctiques ● Smart cities: – Live London underground map – NYC runners ● Transport aeri: OpenFlights ● Data journalism: – The World at 7 billion – Death and Taxes ● Esdeveniments: Agenda oberta ● ...
  26. 26. Portals de dades obertes ● Ajuntaments de Barcelona, Badalona, Sabadell , Terrassa, Cornellà, ... ● Generalitat de Catalunya ● Open Data Euskadi ● datos.gob.es ● data.gov.uk ● publicdata.eu ● data.gov
  27. 27. Altres portals ● UCI ML: recerca en machine learning ● KDD cup: competint pel millor predictor ● CKAN ● World Bank Open Data ● Wikidata: posant ordre ● Urban Observatory: dades de grans ciutats ● Visual.ly ● ...
  28. 28. Eines per a la captura ● Usar les API existents ● Web scrapping – A “pèl” (llenguatge de programació) – Scraperwiki (Python / Ruby / PHP) – Yahoo Query Language – A lo “pobre” (inspecció HTML) ● Formularis ● Crowdsourcing – ReCAPTCHA – “Papeles de Bárcenas” / Indultómetro / 15Mpedia
  29. 29. Eines per al preprocessament ● Google Refine (Open Refine) ● Yahoo Pipes ● Llenguatges de programació – ● Awk → Perl → Python Recursos online: – Mr. Data Converter – JSON editor online
  30. 30. Eines per a l'anàlisi ● Excel / OpenOffice ● Paquets estadístics: – SPSS – R ● Gephi (anàlisi de xarxes) ● Llenguatges de programació ● Llibreries: Weka, RapidMiner, Orange, ... ● Recursos online: SOCR (UCLA), StatPages
  31. 31. Eines per a la visualització ● IBM ManyEyes ● Excel / OpenOffice ● SPSS / R ● Gephi ● Processing ● OpenFrameworks ● CSS+HTML5+DOM+Javascript → D3.js ● OpenStreetMap ● Altres: Wordle, Twitter, ...
  32. 32. Esdeveniments ● Big Data Week – – ● 1a edició: 22-28 abril 2013, 20000+ participants 2a edició: 5-11 maig 2014 Conferències – KDD / MLDM – VLDB – Big Data ● Hackathons (exemple: Europeana) ● Curs + Taller sobre dades obertes UOC
  33. 33. Per saber-ne més ● Open Data – An introduction ● Decàleg Open Data ● Llicències per Open Data ● Big Data: – – ● Big Data: Welcome to the Petacentre Big Data amb Hadoop Article a EPI
  34. 34. Contacte Julià Minguillón jminguillona[at]uoc[dot]edu @jminguillona http://oer.uoc.edu/cursOpenData/ CC-BY-SA (c) Julià Minguillón, 2013

×