Successfully reported this slideshow.

Bájate miles de tuits y cuenta una historia

0

Share

1 of 50
1 of 50

Bájate miles de tuits y cuenta una historia

0

Share

Download to read offline

Description

Presentación del taller de captura, procesado, análisis y visualización de datos de Twitter para conseguir exprimir toda la información que contiene la red de ‘microblogging’.

El taller fue realizado realizado en las I Jornadas de Periodismo de Datos y Open Data.

Transcript

  1. 1. Bájate miles de tuits y cuenta una historia
  2. 2. PRESENTACION
  3. 3. Presentacion David Martín-Borregón – @davidMartinB – david@datanpress.com – Ingeniero técnico en sonido e imagen – Ingeniero superior en telecomunicaciones – Master en Inteligencía Artificial y Machine Learning – Ingenierio en Data'n'Press – Data Scientific / Data Engineer – Intership en Yahoo – Participante en Big Dive 2013
  4. 4. Presentación
  5. 5. Presentación
  6. 6. Presentación
  7. 7. Presentación ● El público: – Cúantos de los presentes tuvieron estudios matématicos/estadísticos fuera de la escuela secundaria? – Cúantos de los presentes saben que es una variable y una condición en programación?
  8. 8. Presentación ● Extracción – Cómo va la api de twitter y que datos proporciona ● Procesado – Cómo procesar los datos que da twitter. (IR+SignalP+GraphTheory+NLP+Geo) ● Volumen ● Estructura social ● Geolocalización ● Anális de texto ● Visualización – Anális de casos aplicados
  9. 9. Extracción
  10. 10. Extracción ● Que es una API Application programming interfaceGraphical user interface
  11. 11. Extracción ● ¿Cómo interactuar con a la api? – Documentación: https://dev.twitter.com/docs ● Bastard Book of Ruby, python, – Liberería: https://dev.twitter.com/docs/twitter-libraries + …. – Oauth: https://dev.twitter.com/apps
  12. 12. Ejemplo de oAuth import tweepy # == OAuth Authentication == # This mode of authentication is the new preferred way of authenticating with Twitter. # The consumer keys can be found on your application's Details page located at https://dev.twitter.com/apps (under "OAuth settings") consumer_key="T1z6Xp__________MuTF6g" consumer_secret="IAsYxMOa_________________hqltPGM" # The access tokens can be found on your applications's Details page located at https://dev.twitter.com/apps (located under "Your access token") access_token="161268291-osNQotjA7R0_______________1vQYwFlL7ec793" access_token_secret="sxAcnU3_________________________U8nRkFXis8Po" auth = tweepy.OAuthHandler(consumer_key, consumer_secret) auth.set_access_token(access_token, access_token_secret) api = tweepy.API(auth) # If the authentication was successful, you should see the name of the account print out print api.me().name # If the application settings are set for "Read and Write" then this line should tweet out the message to your account's # timeline. The "Read and Write" setting is on https://dev.twitter.com/apps api.update_status('Updating using OAuth authentication via Tweepy!')
  13. 13. Tipos de API ● Search API – Buscar en twitter. ● Streaming API – Abrir una grifo de tweets a una busqueda. – Importante para data-mining!! ● REST API – Interacción total para un usuario. ● Twitter for websites – Twitter cards, widgets, ...
  14. 14. Twitter Platform Objects ● Users - Objeto que hace tweets. ● Tweets - Objeto básico. ● Entities - Hashtags, media, urls, mentions ● Places – Coordinates o nombres.
  15. 15. PROCESADO
  16. 16. PROCESADO ● Dataset de pruebas: – 2738 tweets – Recogidos días no consequtivos de la semana pasada – #dataviz, #periodismodatos, #jpd13
  17. 17. PROCESADO CANTIDAD / TIEMPO ● En que moment se ha tuiteado más/menos con un hastag? ● Hoy habla más gente sobre este tema que ayer? ● Ahora mismo cuanto gente hay hablando del tema? ● De cúal de estos dos temas se habla más?
  18. 18. PROCESSADO VOLUMEN ● Más básico, acumulación de tweets En que momento se ha tuiteado más? Ahora mismo cuanta gente ha habla del tema?
  19. 19. PROCESADO VOLUMEN En que momento se ha tuiteado más? Ahora mismo cuanta gente ha habla del tema?
  20. 20. PROCESADO VOLUMEN En que momento se ha tuiteado más? Ahora mismo cuanta gente ha habla del tema?
  21. 21. PROCESADO VOLUMEN En que momento se ha tuiteado más? Ahora mismo cuanta gente ha habla del tema?
  22. 22. PROCESADO VOLUMEN De que tema se habla más?
  23. 23. SOCIOGRAMA
  24. 24. SOCIOGRAMA Basado en teoría de graphs
  25. 25. SOCIOGRAMA Problema de los siete puentes de Köninsberg - EULER ¿Es posible pasar por los siete puentes sin repetir puente?
  26. 26. SOCIOGRAMA Euler crea los “graphs” - 1763 ¿Es posible pasar por los siete puentes sin repetir puente?
  27. 27. SOCIOGRAMA Node - Nodo Edge - arista Node: User Edge: follow Node: User Edge: Hashtags Node: Hashtags Edge: Users … Algunos tipos: (un)Directed Graph Weighted Graph …
  28. 28. SOCIOGRAMA Twitter #Periodismodatos Users: 43 tweets: 68 #JPD13 Users: 131 tweets: 270 TOTAL: Users: 162 tweets: 338 1186 Vertices
  29. 29. SOCIOGRAMA PAGERANK @facemar @NoticiaCiencia @Ciberado @merinoticias @strausmaceta
  30. 30. SOCIOGRAMA BETWEENNESS @ciberado @facemar @robertodiaz @edipotrebol @deustoKomunika
  31. 31. SOCIOGRAMA HITS @facemar @NoticiaCiencia @merinoticias @strausmaceta @desutoKomunika @robertodiaz @inaki_agirre @enricbach @sApellaniz @facemar
  32. 32. GEOLOCALIZACIÓN
  33. 33. GEOLOCALIZACIÓN
  34. 34. GEOLOCALIZACIÓN
  35. 35. GEOLOCALIZACIÓN
  36. 36. GEOLOCALIZACIÓN
  37. 37. GEOLOCALIZACIÓN
  38. 38. LENGUAJE NATURAL
  39. 39. Análisi sintáctico y semántico
  40. 40. TOPIC DETECTION MODELOS ESTADÍSTICOS ● Palabras más dichas (dataviz) – BI_Dashboards ['dataviz', 'data', 'analytics', 'the', 'for'] – jenstirrup ['dataviz', 'news', 'latest', 'roundup', 'of'] – HlthAnalysis ['dataviz', 'the', 'in', 'of', 'tableau'] – ddjournalism ['ddj', 'dataviz', 'bigdata', 'to', 'data'] – DashingD3js ['gtgt', 'dataviz', 'data', 'visualization', 'the'] – albertocairo ['dataviz', 'infographics', 'mt', 'to', 'of'] – CraigMilroy ['dataviz', 'bigdata', 'analytics', 'via', 'the'] – SASUK_VAnalytic ['dataviz', 'sas', 'to', 'data', 'analytics']
  41. 41. TOPIC DETECTION ● TF-IDF: Muy dicha por todos Poco dicha por todos Muy dicha por un usuario STOP - WORD TOPIC Poco Dicha por un usuario UN-TOPIC Error
  42. 42. TOPIC DETECTION ● TF-IDF:
  43. 43. TOPIC DETECTION ● TF-IDF (dataviz) – jenstirrup ['news', 'latest', 'httptconoq8ichxkd', 'summary', 'httptcokkmpu9c9fi'] – HlthAnalysis ['death', 'vizoftheday', 'causes', 'tableau', 'world'] – CraigMilroy ['bigdata', 'analytics', 'datascientist', 'via', 'cmo'] – ddjournalism ['ddj', 'journalism', 'bigdata', 'opendata', 'nicolaskb'] – BI_Dashboards ['businessintelligence', 'dundasdata', 'analytics', 'dashboards', 'do'] – DashingD3js ['gtgt', 'visualization', 'data', 'job', 'visualizations'] – SASUK_VAnalytic ['sas', 'httptcojxn0tevr2w', 'analytics', 'demo', 'visual'] – albertocairo ['infographics', 'mt', 'good', 'art', 'summary']]
  44. 44. TOPIC DETECION ● TF-IDF es limitado para tweets ● TrendingTopics es una alternativa (que esta subiendo) ● Comparación con la red aleatoria vecina
  45. 45. SENTIMENT ANALISIS ● Encuesta ● Bag of words ● Bitex: http://svc8.bitext.com/api-demo/
  46. 46. Variables independientes: EJEMPLOS
  47. 47. EJEMPLOS ● Geolocalitzación + volumen + natural language: http://trendsmap.com/. ● Natural Language + volumen + geolocalización + sociograma: Trending topics de twitter
  48. 48. EJEMPLOS ● Sociograma + volumen: http://www.vilaweb.cat/tuitometre ● Volumen(user) + sociograma: http://twitterencatala.org/ ● Geolocalització + volumen(media): http://merce2012.elperiodico.com/Espectacle_multime
  49. 49. EJEMPLOS ● Volumen + Natural Language http://deustosarelab.deusto.es/eleccionesvascas2012 ● Sociograma + narual language + volumen: http://www.guardian.co.uk/uk/interactive/2011/dec/07/ ● Geolocalitzaicón + volumen: http://engineering.twitter.com/2012/06/studying-rapidly ●
  50. 50. MUCHAS GRACIAS David Martín-Borregón @davidMartinB datanpress @datanpress

Description

Presentación del taller de captura, procesado, análisis y visualización de datos de Twitter para conseguir exprimir toda la información que contiene la red de ‘microblogging’.

El taller fue realizado realizado en las I Jornadas de Periodismo de Datos y Open Data.

Transcript

  1. 1. Bájate miles de tuits y cuenta una historia
  2. 2. PRESENTACION
  3. 3. Presentacion David Martín-Borregón – @davidMartinB – david@datanpress.com – Ingeniero técnico en sonido e imagen – Ingeniero superior en telecomunicaciones – Master en Inteligencía Artificial y Machine Learning – Ingenierio en Data'n'Press – Data Scientific / Data Engineer – Intership en Yahoo – Participante en Big Dive 2013
  4. 4. Presentación
  5. 5. Presentación
  6. 6. Presentación
  7. 7. Presentación ● El público: – Cúantos de los presentes tuvieron estudios matématicos/estadísticos fuera de la escuela secundaria? – Cúantos de los presentes saben que es una variable y una condición en programación?
  8. 8. Presentación ● Extracción – Cómo va la api de twitter y que datos proporciona ● Procesado – Cómo procesar los datos que da twitter. (IR+SignalP+GraphTheory+NLP+Geo) ● Volumen ● Estructura social ● Geolocalización ● Anális de texto ● Visualización – Anális de casos aplicados
  9. 9. Extracción
  10. 10. Extracción ● Que es una API Application programming interfaceGraphical user interface
  11. 11. Extracción ● ¿Cómo interactuar con a la api? – Documentación: https://dev.twitter.com/docs ● Bastard Book of Ruby, python, – Liberería: https://dev.twitter.com/docs/twitter-libraries + …. – Oauth: https://dev.twitter.com/apps
  12. 12. Ejemplo de oAuth import tweepy # == OAuth Authentication == # This mode of authentication is the new preferred way of authenticating with Twitter. # The consumer keys can be found on your application's Details page located at https://dev.twitter.com/apps (under "OAuth settings") consumer_key="T1z6Xp__________MuTF6g" consumer_secret="IAsYxMOa_________________hqltPGM" # The access tokens can be found on your applications's Details page located at https://dev.twitter.com/apps (located under "Your access token") access_token="161268291-osNQotjA7R0_______________1vQYwFlL7ec793" access_token_secret="sxAcnU3_________________________U8nRkFXis8Po" auth = tweepy.OAuthHandler(consumer_key, consumer_secret) auth.set_access_token(access_token, access_token_secret) api = tweepy.API(auth) # If the authentication was successful, you should see the name of the account print out print api.me().name # If the application settings are set for "Read and Write" then this line should tweet out the message to your account's # timeline. The "Read and Write" setting is on https://dev.twitter.com/apps api.update_status('Updating using OAuth authentication via Tweepy!')
  13. 13. Tipos de API ● Search API – Buscar en twitter. ● Streaming API – Abrir una grifo de tweets a una busqueda. – Importante para data-mining!! ● REST API – Interacción total para un usuario. ● Twitter for websites – Twitter cards, widgets, ...
  14. 14. Twitter Platform Objects ● Users - Objeto que hace tweets. ● Tweets - Objeto básico. ● Entities - Hashtags, media, urls, mentions ● Places – Coordinates o nombres.
  15. 15. PROCESADO
  16. 16. PROCESADO ● Dataset de pruebas: – 2738 tweets – Recogidos días no consequtivos de la semana pasada – #dataviz, #periodismodatos, #jpd13
  17. 17. PROCESADO CANTIDAD / TIEMPO ● En que moment se ha tuiteado más/menos con un hastag? ● Hoy habla más gente sobre este tema que ayer? ● Ahora mismo cuanto gente hay hablando del tema? ● De cúal de estos dos temas se habla más?
  18. 18. PROCESSADO VOLUMEN ● Más básico, acumulación de tweets En que momento se ha tuiteado más? Ahora mismo cuanta gente ha habla del tema?
  19. 19. PROCESADO VOLUMEN En que momento se ha tuiteado más? Ahora mismo cuanta gente ha habla del tema?
  20. 20. PROCESADO VOLUMEN En que momento se ha tuiteado más? Ahora mismo cuanta gente ha habla del tema?
  21. 21. PROCESADO VOLUMEN En que momento se ha tuiteado más? Ahora mismo cuanta gente ha habla del tema?
  22. 22. PROCESADO VOLUMEN De que tema se habla más?
  23. 23. SOCIOGRAMA
  24. 24. SOCIOGRAMA Basado en teoría de graphs
  25. 25. SOCIOGRAMA Problema de los siete puentes de Köninsberg - EULER ¿Es posible pasar por los siete puentes sin repetir puente?
  26. 26. SOCIOGRAMA Euler crea los “graphs” - 1763 ¿Es posible pasar por los siete puentes sin repetir puente?
  27. 27. SOCIOGRAMA Node - Nodo Edge - arista Node: User Edge: follow Node: User Edge: Hashtags Node: Hashtags Edge: Users … Algunos tipos: (un)Directed Graph Weighted Graph …
  28. 28. SOCIOGRAMA Twitter #Periodismodatos Users: 43 tweets: 68 #JPD13 Users: 131 tweets: 270 TOTAL: Users: 162 tweets: 338 1186 Vertices
  29. 29. SOCIOGRAMA PAGERANK @facemar @NoticiaCiencia @Ciberado @merinoticias @strausmaceta
  30. 30. SOCIOGRAMA BETWEENNESS @ciberado @facemar @robertodiaz @edipotrebol @deustoKomunika
  31. 31. SOCIOGRAMA HITS @facemar @NoticiaCiencia @merinoticias @strausmaceta @desutoKomunika @robertodiaz @inaki_agirre @enricbach @sApellaniz @facemar
  32. 32. GEOLOCALIZACIÓN
  33. 33. GEOLOCALIZACIÓN
  34. 34. GEOLOCALIZACIÓN
  35. 35. GEOLOCALIZACIÓN
  36. 36. GEOLOCALIZACIÓN
  37. 37. GEOLOCALIZACIÓN
  38. 38. LENGUAJE NATURAL
  39. 39. Análisi sintáctico y semántico
  40. 40. TOPIC DETECTION MODELOS ESTADÍSTICOS ● Palabras más dichas (dataviz) – BI_Dashboards ['dataviz', 'data', 'analytics', 'the', 'for'] – jenstirrup ['dataviz', 'news', 'latest', 'roundup', 'of'] – HlthAnalysis ['dataviz', 'the', 'in', 'of', 'tableau'] – ddjournalism ['ddj', 'dataviz', 'bigdata', 'to', 'data'] – DashingD3js ['gtgt', 'dataviz', 'data', 'visualization', 'the'] – albertocairo ['dataviz', 'infographics', 'mt', 'to', 'of'] – CraigMilroy ['dataviz', 'bigdata', 'analytics', 'via', 'the'] – SASUK_VAnalytic ['dataviz', 'sas', 'to', 'data', 'analytics']
  41. 41. TOPIC DETECTION ● TF-IDF: Muy dicha por todos Poco dicha por todos Muy dicha por un usuario STOP - WORD TOPIC Poco Dicha por un usuario UN-TOPIC Error
  42. 42. TOPIC DETECTION ● TF-IDF:
  43. 43. TOPIC DETECTION ● TF-IDF (dataviz) – jenstirrup ['news', 'latest', 'httptconoq8ichxkd', 'summary', 'httptcokkmpu9c9fi'] – HlthAnalysis ['death', 'vizoftheday', 'causes', 'tableau', 'world'] – CraigMilroy ['bigdata', 'analytics', 'datascientist', 'via', 'cmo'] – ddjournalism ['ddj', 'journalism', 'bigdata', 'opendata', 'nicolaskb'] – BI_Dashboards ['businessintelligence', 'dundasdata', 'analytics', 'dashboards', 'do'] – DashingD3js ['gtgt', 'visualization', 'data', 'job', 'visualizations'] – SASUK_VAnalytic ['sas', 'httptcojxn0tevr2w', 'analytics', 'demo', 'visual'] – albertocairo ['infographics', 'mt', 'good', 'art', 'summary']]
  44. 44. TOPIC DETECION ● TF-IDF es limitado para tweets ● TrendingTopics es una alternativa (que esta subiendo) ● Comparación con la red aleatoria vecina
  45. 45. SENTIMENT ANALISIS ● Encuesta ● Bag of words ● Bitex: http://svc8.bitext.com/api-demo/
  46. 46. Variables independientes: EJEMPLOS
  47. 47. EJEMPLOS ● Geolocalitzación + volumen + natural language: http://trendsmap.com/. ● Natural Language + volumen + geolocalización + sociograma: Trending topics de twitter
  48. 48. EJEMPLOS ● Sociograma + volumen: http://www.vilaweb.cat/tuitometre ● Volumen(user) + sociograma: http://twitterencatala.org/ ● Geolocalització + volumen(media): http://merce2012.elperiodico.com/Espectacle_multime
  49. 49. EJEMPLOS ● Volumen + Natural Language http://deustosarelab.deusto.es/eleccionesvascas2012 ● Sociograma + narual language + volumen: http://www.guardian.co.uk/uk/interactive/2011/dec/07/ ● Geolocalitzaicón + volumen: http://engineering.twitter.com/2012/06/studying-rapidly ●
  50. 50. MUCHAS GRACIAS David Martín-Borregón @davidMartinB datanpress @datanpress

More Related Content

Related Books

Free with a 30 day trial from Scribd

See all

×