Bájate miles detuits y cuentauna historia
PRESENTACION
PresentacionDavid Martín-Borregón– @davidMartinB– david@datanpress.com– Ingeniero técnico en sonido e imagen– Ingeniero su...
Presentación
Presentación
Presentación
Presentación● El público:– Cúantos de los presentes tuvieron estudiosmatématicos/estadísticos fuera de la escuelasecundari...
Presentación● Extracción– Cómo va la api de twitter y que datos proporciona● Procesado– Cómo procesar los datos que da twi...
Extracción
Extracción● Que es una APIApplication programming interfaceGraphical user interface
Extracción● ¿Cómo interactuar con a la api?– Documentación: https://dev.twitter.com/docs● Bastard Book of Ruby, python,– L...
Ejemplo de oAuthimport tweepy# == OAuth Authentication ==# This mode of authentication is the new preferred way of authent...
Tipos de API● Search API– Buscar en twitter.● Streaming API– Abrir una grifo de tweets a una busqueda.– Importante para da...
Twitter Platform Objects● Users - Objeto que hace tweets.● Tweets - Objeto básico.● Entities - Hashtags, media, urls, ment...
PROCESADO
PROCESADO● Dataset de pruebas:– 2738 tweets– Recogidos días no consequtivos de la semanapasada– #dataviz, #periodismodatos...
PROCESADOCANTIDAD / TIEMPO● En que moment se ha tuiteado más/menoscon un hastag?● Hoy habla más gente sobre este tema quea...
PROCESSADOVOLUMEN● Más básico, acumulación de tweetsEn que momento se ha tuiteado más? Ahora mismo cuanta gente ha habla d...
PROCESADOVOLUMENEn que momento se ha tuiteado más? Ahora mismo cuanta gente ha habla del tema?
PROCESADOVOLUMENEn que momento se ha tuiteado más? Ahora mismo cuanta gente ha habla del tema?
PROCESADOVOLUMENEn que momento se ha tuiteado más? Ahora mismo cuanta gente ha habla del tema?
PROCESADOVOLUMENDe que tema se habla más?
SOCIOGRAMA
SOCIOGRAMABasado en teoría de graphs
SOCIOGRAMAProblema de los siete puentes de Köninsberg- EULER¿Es posible pasar por los siete puentes sin repetir puente?
SOCIOGRAMAEuler crea los “graphs” - 1763¿Es posible pasar por los siete puentes sin repetir puente?
SOCIOGRAMANode - NodoEdge - aristaNode: User Edge: followNode: User Edge: HashtagsNode: Hashtags Edge: Users…Algunos tipos...
SOCIOGRAMATwitter#Periodismodatos Users: 43 tweets: 68#JPD13 Users: 131 tweets: 270TOTAL: Users: 162 tweets: 3381186 Verti...
SOCIOGRAMAPAGERANK@facemar@NoticiaCiencia@Ciberado@merinoticias@strausmaceta
SOCIOGRAMABETWEENNESS@ciberado@facemar@robertodiaz@edipotrebol@deustoKomunika
SOCIOGRAMAHITS@facemar@NoticiaCiencia@merinoticias@strausmaceta@desutoKomunika@robertodiaz@inaki_agirre@enricbach@sApellan...
GEOLOCALIZACIÓN
GEOLOCALIZACIÓN
GEOLOCALIZACIÓN
GEOLOCALIZACIÓN
GEOLOCALIZACIÓN
GEOLOCALIZACIÓN
LENGUAJE NATURAL
Análisi sintáctico y semántico
TOPIC DETECTIONMODELOS ESTADÍSTICOS● Palabras más dichas (dataviz)– BI_Dashboards [dataviz, data, analytics, the, for]– je...
TOPIC DETECTION● TF-IDF:Muy dicha portodosPoco dicha portodosMuy dicha por unusuarioSTOP - WORD TOPICPoco Dicha porun usua...
TOPIC DETECTION● TF-IDF:
TOPIC DETECTION● TF-IDF (dataviz)– jenstirrup [news, latest, httptconoq8ichxkd, summary, httptcokkmpu9c9fi]– HlthAnalysis ...
TOPIC DETECION● TF-IDF es limitado para tweets● TrendingTopics es una alternativa (que estasubiendo)● Comparación con la r...
SENTIMENT ANALISIS● Encuesta● Bag of words● Bitex: http://svc8.bitext.com/api-demo/
Variables independientes:EJEMPLOS
EJEMPLOS● Geolocalitzación + volumen + naturallanguage: http://trendsmap.com/.● Natural Language + volumen +geolocalizació...
EJEMPLOS● Sociograma + volumen:http://www.vilaweb.cat/tuitometre● Volumen(user) + sociograma:http://twitterencatala.org/● ...
EJEMPLOS● Volumen + Natural Languagehttp://deustosarelab.deusto.es/eleccionesvascas2012● Sociograma + narual language + vo...
MUCHAS GRACIASDavid Martín-Borregón@davidMartinBdatanpress@datanpress
Upcoming SlideShare
Loading in …5
×

Bájate miles de tuits y cuenta una historia

6,103 views

Published on

Presentación del taller de captura, procesado, análisis y visualización de datos de Twitter para conseguir exprimir toda la información que contiene la red de ‘microblogging’.

El taller fue realizado realizado en las I Jornadas de Periodismo de Datos y Open Data.

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
6,103
On SlideShare
0
From Embeds
0
Number of Embeds
4,989
Actions
Shares
0
Downloads
6
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Bájate miles de tuits y cuenta una historia

  1. 1. Bájate miles detuits y cuentauna historia
  2. 2. PRESENTACION
  3. 3. PresentacionDavid Martín-Borregón– @davidMartinB– david@datanpress.com– Ingeniero técnico en sonido e imagen– Ingeniero superior en telecomunicaciones– Master en Inteligencía Artificial y Machine Learning– Ingenierio en DatanPress– Data Scientific / Data Engineer– Intership en Yahoo– Participante en Big Dive 2013
  4. 4. Presentación
  5. 5. Presentación
  6. 6. Presentación
  7. 7. Presentación● El público:– Cúantos de los presentes tuvieron estudiosmatématicos/estadísticos fuera de la escuelasecundaria?– Cúantos de los presentes saben que es unavariable y una condición en programación?
  8. 8. Presentación● Extracción– Cómo va la api de twitter y que datos proporciona● Procesado– Cómo procesar los datos que da twitter.(IR+SignalP+GraphTheory+NLP+Geo)● Volumen● Estructura social● Geolocalización● Anális de texto● Visualización– Anális de casos aplicados
  9. 9. Extracción
  10. 10. Extracción● Que es una APIApplication programming interfaceGraphical user interface
  11. 11. Extracción● ¿Cómo interactuar con a la api?– Documentación: https://dev.twitter.com/docs● Bastard Book of Ruby, python,– Liberería:https://dev.twitter.com/docs/twitter-libraries + ….– Oauth:https://dev.twitter.com/apps
  12. 12. Ejemplo de oAuthimport tweepy# == OAuth Authentication ==# This mode of authentication is the new preferred way of authenticating with Twitter.# The consumer keys can be found on your applications Details page located at https://dev.twitter.com/apps (under "OAuth settings")consumer_key="T1z6Xp__________MuTF6g"consumer_secret="IAsYxMOa_________________hqltPGM"# The access tokens can be found on your applicationss Details page located at https://dev.twitter.com/apps (located under "Your access token")access_token="161268291-osNQotjA7R0_______________1vQYwFlL7ec793"access_token_secret="sxAcnU3_________________________U8nRkFXis8Po"auth = tweepy.OAuthHandler(consumer_key, consumer_secret)auth.set_access_token(access_token, access_token_secret)api = tweepy.API(auth)# If the authentication was successful, you should see the name of the account print outprint api.me().name# If the application settings are set for "Read and Write" then this line should tweet out the message to your accounts# timeline. The "Read and Write" setting is on https://dev.twitter.com/appsapi.update_status(Updating using OAuth authentication via Tweepy!)
  13. 13. Tipos de API● Search API– Buscar en twitter.● Streaming API– Abrir una grifo de tweets a una busqueda.– Importante para data-mining!!● REST API– Interacción total para un usuario.● Twitter for websites– Twitter cards, widgets, ...
  14. 14. Twitter Platform Objects● Users - Objeto que hace tweets.● Tweets - Objeto básico.● Entities - Hashtags, media, urls, mentions● Places – Coordinates o nombres.
  15. 15. PROCESADO
  16. 16. PROCESADO● Dataset de pruebas:– 2738 tweets– Recogidos días no consequtivos de la semanapasada– #dataviz, #periodismodatos, #jpd13
  17. 17. PROCESADOCANTIDAD / TIEMPO● En que moment se ha tuiteado más/menoscon un hastag?● Hoy habla más gente sobre este tema queayer?● Ahora mismo cuanto gente hay hablando deltema?● De cúal de estos dos temas se habla más?
  18. 18. PROCESSADOVOLUMEN● Más básico, acumulación de tweetsEn que momento se ha tuiteado más? Ahora mismo cuanta gente ha habla del tema?
  19. 19. PROCESADOVOLUMENEn que momento se ha tuiteado más? Ahora mismo cuanta gente ha habla del tema?
  20. 20. PROCESADOVOLUMENEn que momento se ha tuiteado más? Ahora mismo cuanta gente ha habla del tema?
  21. 21. PROCESADOVOLUMENEn que momento se ha tuiteado más? Ahora mismo cuanta gente ha habla del tema?
  22. 22. PROCESADOVOLUMENDe que tema se habla más?
  23. 23. SOCIOGRAMA
  24. 24. SOCIOGRAMABasado en teoría de graphs
  25. 25. SOCIOGRAMAProblema de los siete puentes de Köninsberg- EULER¿Es posible pasar por los siete puentes sin repetir puente?
  26. 26. SOCIOGRAMAEuler crea los “graphs” - 1763¿Es posible pasar por los siete puentes sin repetir puente?
  27. 27. SOCIOGRAMANode - NodoEdge - aristaNode: User Edge: followNode: User Edge: HashtagsNode: Hashtags Edge: Users…Algunos tipos:(un)Directed GraphWeighted Graph…
  28. 28. SOCIOGRAMATwitter#Periodismodatos Users: 43 tweets: 68#JPD13 Users: 131 tweets: 270TOTAL: Users: 162 tweets: 3381186 Vertices
  29. 29. SOCIOGRAMAPAGERANK@facemar@NoticiaCiencia@Ciberado@merinoticias@strausmaceta
  30. 30. SOCIOGRAMABETWEENNESS@ciberado@facemar@robertodiaz@edipotrebol@deustoKomunika
  31. 31. SOCIOGRAMAHITS@facemar@NoticiaCiencia@merinoticias@strausmaceta@desutoKomunika@robertodiaz@inaki_agirre@enricbach@sApellaniz@facemar
  32. 32. GEOLOCALIZACIÓN
  33. 33. GEOLOCALIZACIÓN
  34. 34. GEOLOCALIZACIÓN
  35. 35. GEOLOCALIZACIÓN
  36. 36. GEOLOCALIZACIÓN
  37. 37. GEOLOCALIZACIÓN
  38. 38. LENGUAJE NATURAL
  39. 39. Análisi sintáctico y semántico
  40. 40. TOPIC DETECTIONMODELOS ESTADÍSTICOS● Palabras más dichas (dataviz)– BI_Dashboards [dataviz, data, analytics, the, for]– jenstirrup [dataviz, news, latest, roundup, of]– HlthAnalysis [dataviz, the, in, of, tableau]– ddjournalism [ddj, dataviz, bigdata, to, data]– DashingD3js [gtgt, dataviz, data, visualization, the]– albertocairo [dataviz, infographics, mt, to, of]– CraigMilroy [dataviz, bigdata, analytics, via, the]– SASUK_VAnalytic [dataviz, sas, to, data, analytics]
  41. 41. TOPIC DETECTION● TF-IDF:Muy dicha portodosPoco dicha portodosMuy dicha por unusuarioSTOP - WORD TOPICPoco Dicha porun usuarioUN-TOPIC Error
  42. 42. TOPIC DETECTION● TF-IDF:
  43. 43. TOPIC DETECTION● TF-IDF (dataviz)– jenstirrup [news, latest, httptconoq8ichxkd, summary, httptcokkmpu9c9fi]– HlthAnalysis [death, vizoftheday, causes, tableau, world]– CraigMilroy [bigdata, analytics, datascientist, via, cmo]– ddjournalism [ddj, journalism, bigdata, opendata, nicolaskb]– BI_Dashboards [businessintelligence, dundasdata, analytics, dashboards, do]– DashingD3js [gtgt, visualization, data, job, visualizations]– SASUK_VAnalytic [sas, httptcojxn0tevr2w, analytics, demo, visual]– albertocairo [infographics, mt, good, art, summary]]
  44. 44. TOPIC DETECION● TF-IDF es limitado para tweets● TrendingTopics es una alternativa (que estasubiendo)● Comparación con la red aleatoria vecina
  45. 45. SENTIMENT ANALISIS● Encuesta● Bag of words● Bitex: http://svc8.bitext.com/api-demo/
  46. 46. Variables independientes:EJEMPLOS
  47. 47. EJEMPLOS● Geolocalitzación + volumen + naturallanguage: http://trendsmap.com/.● Natural Language + volumen +geolocalización + sociograma: Trendingtopics de twitter
  48. 48. EJEMPLOS● Sociograma + volumen:http://www.vilaweb.cat/tuitometre● Volumen(user) + sociograma:http://twitterencatala.org/● Geolocalització + volumen(media):http://merce2012.elperiodico.com/Espectacle_multime
  49. 49. EJEMPLOS● Volumen + Natural Languagehttp://deustosarelab.deusto.es/eleccionesvascas2012● Sociograma + narual language + volumen:http://www.guardian.co.uk/uk/interactive/2011/dec/07/● Geolocalitzaicón + volumen:http://engineering.twitter.com/2012/06/studying-rapidly●
  50. 50. MUCHAS GRACIASDavid Martín-Borregón@davidMartinBdatanpress@datanpress

×