Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
1 Umap I nteligencia colectiva extraída del flujo de las redes sociales Luistxo Fernández
¿Qué es Umap? Umap es el agregador de  todo  el contenido en euskera de Twitter
 
La maquinaría de Umap <ul><li>Analizar tweets en tiempo real </li></ul><ul><li>Detectar usuarios vascoparlantes </li></ul>...
Procesando tweets en tiempo real <ul><li>Twitter. Streaming API </li></ul><ul><ul><li>http://dev.twitter.com/pages/streami...
class Client:  def __init__(self):  self.buffer = u'' self.conn = pycurl.Curl()  self.conn.setopt(pycurl.USERPWD, &quot;%s...
Detección de usuarios  <ul><li>El algoritmo: la fórmula secreta de Coca-cola...  </li></ul><ul><li>Dame 20 usuarios, y te ...
Detección de idioma <ul><li>El mejor sistema: Google Language Detection API </li></ul><ul><ul><li>http://code.google.com/a...
Detección de idioma  <ul><li>Modular: 'eu' Guesslanguage </li></ul><ul><li>Galés, Cy: lo mismo,  </li></ul><ul><li>Catalán...
Detección de idioma <ul><li>Detectar más de un idioma ¡en 140 c. máx! </li></ul><ul><ul><li>Varios detectores dan más de u...
Noticiero automático, trends vs
Noticiero automático, trends <ul><li>Inteligencia colectiva, comunitaria, automatizada: trends y un noticiero automático <...
Noticiero automático, trends <ul><li>Noticiero </li></ul><ul><ul><li>Conteo de todos los enlaces (¡acortadores!) </li></ul...
oEmbed vs HTML parser http://www.youtube.com/oembed?url=http%3A//www.youtube.com/watch%3Fv%3DbDOYN-6gdRE&format=json {&quo...
Más inteligencia: analítica <ul><li>Sociolingüística en directo </li></ul><ul><li>Datos oct 10 – abr 11: </li></ul><ul><ul...
Más inteligencia: analítica <ul><li>Número de tweets por usuario, una tarta equilibrada </li></ul>
Más inteligencia: analítica <ul><li>Uso porcentual del euskara en tweets </li></ul>
Más inteligencia: analítica <ul><li>Retweets: %15 -> Usuarios más influyentes </li></ul><ul><li>Noticias: análisis de enla...
Evolución <ul><li>Umap 2011:  </li></ul><ul><ul><li>comunidad lingüística </li></ul></ul><ul><li>Otros Umaps: </li></ul><u...
Eskerrik asko @luistxo http://umap.eu http://www.codesyntax.com/products
Upcoming SlideShare
Loading in …5
×

Visio 2011 Umap

579 views

Published on

  • Be the first to comment

  • Be the first to like this

Visio 2011 Umap

  1. 1. 1 Umap I nteligencia colectiva extraída del flujo de las redes sociales Luistxo Fernández
  2. 2. ¿Qué es Umap? Umap es el agregador de todo el contenido en euskera de Twitter
  3. 4. La maquinaría de Umap <ul><li>Analizar tweets en tiempo real </li></ul><ul><li>Detectar usuarios vascoparlantes </li></ul><ul><li>Detección de idioma </li></ul><ul><li>Noticiero, trends </li></ul>
  4. 5. Procesando tweets en tiempo real <ul><li>Twitter. Streaming API </li></ul><ul><ul><li>http://dev.twitter.com/pages/streaming_api </li></ul></ul><ul><li>Opciones: </li></ul><ul><ul><li>Location </li></ul></ul><ul><ul><li>Track (keywords) </li></ul></ul><ul><ul><li>Language and Country -> users </li></ul></ul><ul><ul><li>Límites en n. de usuarios a seguir </li></ul></ul><ul><li>Cada 10 minutos podemos renovar la petición </li></ul>
  5. 6. class Client: def __init__(self): self.buffer = u'' self.conn = pycurl.Curl() self.conn.setopt(pycurl.USERPWD, &quot;%s:%s&quot; % (USER, PASS)) self.conn.setopt(pycurl.URL, STREAM_URL) self.conn.setopt(pycurl.POSTFIELDS, urllib.urlencode(get_post_values())) self.conn.setopt(pycurl.WRITEFUNCTION, self.on_receive) try: self.conn.perform() except pycurl.error, e: print &quot;Error code: &quot;, e[0] print &quot;Error message: &quot;, e[1] def on_error(self, data): import pdb;pdb.set_trace() print data def on_receive(self, data): print data self.buffer += data if data.endswith(&quot;rn&quot;) and self.buffer.strip(): content = json.loads(self.buffer) a = create_status_from_dic(content) self.buffer = &quot;&quot;
  6. 7. Detección de usuarios <ul><li>El algoritmo: la fórmula secreta de Coca-cola... </li></ul><ul><li>Dame 20 usuarios, y te encuentro todos los chinoparlantes de la red </li></ul><ul><li>También hay proceso de limpiado, borrado </li></ul><ul><li>Personas se detectan mejor que robots </li></ul>
  7. 8. Detección de idioma <ul><li>El mejor sistema: Google Language Detection API </li></ul><ul><ul><li>http://code.google.com/apis/language/ </li></ul></ul><ul><li>La licencia no lo permite </li></ul><ul><li>El marcado de idiomas de Twitter es malísimo, y además unívoco (lo mismo que Google, por cierto) </li></ul>
  8. 9. Detección de idioma <ul><li>Modular: 'eu' Guesslanguage </li></ul><ul><li>Galés, Cy: lo mismo, </li></ul><ul><li>Catalán, Ca: ejem... Dificultad intrínseca mucho mayor, lenguas romances... </li></ul>LangID Textcat LID GuessLanguage Test 1. eu OK % 75 % 74 % 85 % 93 Test 2. eu OK % 76 % 88 % 96 % 95
  9. 10. Detección de idioma <ul><li>Detectar más de un idioma ¡en 140 c. máx! </li></ul><ul><ul><li>Varios detectores dan más de un idioma por texto analizado: cuanto más corto, más ambiguo y dan positivo más idiomas -> aplicamos un cálculo extra que cruza longitud de mensaje con número de idiomas detectados </li></ul></ul>
  10. 11. Noticiero automático, trends vs
  11. 12. Noticiero automático, trends <ul><li>Inteligencia colectiva, comunitaria, automatizada: trends y un noticiero automático </li></ul><ul><li>Trends: contar todas las palabras. Lógica: </li></ul><ul><ul><ul><li>Palabra: 1 point </li></ul></ul></ul><ul><ul><ul><li>Hash: 10 point </li></ul></ul></ul><ul><ul><ul><li>Factores (por ejemplo, ¿enlace?: x1.1) </li></ul></ul></ul><ul><ul><ul><li>Modulo variable </li></ul></ul></ul><ul><ul><ul><li>Detección y valoración de nombres propios </li></ul></ul></ul>
  12. 13. Noticiero automático, trends <ul><li>Noticiero </li></ul><ul><ul><li>Conteo de todos los enlaces (¡acortadores!) </li></ul></ul><ul><ul><li>Cada x minutos, contamos </li></ul></ul><ul><ul><li>Mandamos el robot a explorar enlaces </li></ul></ul><ul><ul><ul><li>OEmbed!!!!!!!!!! </li></ul></ul></ul><ul><ul><ul><li>Parser HTML ;-) </li></ul></ul></ul>
  13. 14. oEmbed vs HTML parser http://www.youtube.com/oembed?url=http%3A//www.youtube.com/watch%3Fv%3DbDOYN-6gdRE&format=json {&quot;provider_url&quot;: &quot;http://www.youtube.com/&quot;, &quot;title&quot;: &quot;BRIARD ON SCOOTER - scooting dog&quot;, <h1 id=&quot;watch-headline-title&quot;> <span id=&quot;eow-title&quot; class=&quot;&quot; dir=&quot;ltr&quot; title=&quot;BRIARD ON SCOOTER - scooting dog&quot;> BRIARD ON SCOOTER - scooting dog </span> </h1> <div id=&quot;watch-headline-user-info&quot;> <a id=&quot;watch-username&quot; class=&quot;inline-block&quot; rel=&quot;author&quot; href=&quot;/user/courteous1&quot;><strong>courteous1</strong></a> vs
  14. 15. Más inteligencia: analítica <ul><li>Sociolingüística en directo </li></ul><ul><li>Datos oct 10 – abr 11: </li></ul><ul><ul><li>Tweets: 1.177.666 </li></ul></ul><ul><ul><li>eu : 151.969 (13%) </li></ul></ul><ul><ul><li>Siguiendo a más de 2.000 usuarios, de los que 1.200 son bastante activos </li></ul></ul>
  15. 16. Más inteligencia: analítica <ul><li>Número de tweets por usuario, una tarta equilibrada </li></ul>
  16. 17. Más inteligencia: analítica <ul><li>Uso porcentual del euskara en tweets </li></ul>
  17. 18. Más inteligencia: analítica <ul><li>Retweets: %15 -> Usuarios más influyentes </li></ul><ul><li>Noticias: análisis de enlaces (tweets con enlace 55%!)->sitios más utilizados: </li></ul><ul><li>eitb.com (1238), youtube.com (504), argia.com (395), berria.info (372), sustatu.com (314), goiena.net (310), zuzeu.com (245), gara.net (235), twitpic.com (230), feedburner.com (226), euskadi.net (200), twitter.com (197), ukberri.net (191), topatu.info (165), google.com (156), askatu.org (143), kulturweb.com (132), etengabe.blogsome.com (117), bizkaie.biz (116), kazeta.info (103), bildu.info (100), uberan.org (87), otamotz.com (87), aiaraldea.com (86)... </li></ul><ul><li>Mayoritariamente, estos son ¡medios de comunicación! Construímos un noticiero robótico, que no da de comer a ningún periodista, pero que a su vez, se nutre principalmente del trabajo profesional... </li></ul>
  18. 19. Evolución <ul><li>Umap 2011: </li></ul><ul><ul><li>comunidad lingüística </li></ul></ul><ul><li>Otros Umaps: </li></ul><ul><ul><li>Otras comunidades y escalas, otras capas de inteligencia colectiva </li></ul></ul><ul><ul><li>Trends más inteligentes que el TT de Twitter </li></ul></ul><ul><ul><li>Noticieros selectivos, de alertas, etc. </li></ul></ul><ul><ul><li>LiveBlogs, foros tipo Coveritlive </li></ul></ul><ul><ul><li>Analítica comercial, de vigilancia tecnológica... </li></ul></ul>
  19. 20. Eskerrik asko @luistxo http://umap.eu http://www.codesyntax.com/products

×