¿El tama˜o importa? Medir e investigar en la
          n
                  blogosfera

F. Tricas (Depto Inform´tica e Ing....
Agenda




     Algunas definiciones
     Trabajos interesantes
     ¿Qu´ sabemos hacer?
        e
     Conclusiones, futuro
Sobre los hombros de gigantes




      Beatriz Prieto, Alberto Prieto, Gustavo Romero-L´pez, Pedro
                      ...
¿A qui´n le interesa?
      e



       HP Information Dynamics Lab
       http://www.hpl.hp.com/research/idl/results.html...
¿Qu´ es una bit´cora (o blog, o weblog)?
   e           a
¿Por qu´?
       e


      Compartir conocimiento, informaci´n
                                       o
      Opinar, diar...
Algunas herramientas interesantes




      RSS (y otros...)
      Buscadores espec´
                      ıficos
      Edi...
La blogosfera hispana



   ¡Algo complejo!
       Muchos pa´
                ıses
       Varias lenguas (4 oficiales, y ad...
Tools




   Blog´metro (http://blogometro.blogalia.com/)
       o
        A crawler, each day a ranking of fresh links
  ...
N´mero de bit´coras en sitios populares
 u           a
     Alojamiento          Blog´metro
                              ...
Din´mica de la informaci´n
   a                    o

   Din´mica
      a




   Blog Epidemic Analyzer (inter´s sostenido...
¿Tenemos algo en com´n?
                    u




  http://anjo.blogs.com/metis/2004/10/sigmund on the 2.html
¿Tenemos algo en com´n? (II)
                    u




   Tercer debate:
         Kerry: minimum wage (8 mentions), health...
Information diffusion




   Chibi (verde, pico), Microsoft (azul, charla y picos), Alzheimer
   (rojo, charla) http://theo...
Information diffusion (II)




   Microsoft (tratando de quitar los picos)
   http://theory.csail.mit.edu/∼dln/papers/blogs...
Con herramientas externas




               http://blogpulse.com/trend
Con herramientas externas




                 http://technorati.com/
Algunos intentos . . .




   http://fernand0.blogalia.com/historias/12671
Podemos buscar cosas




        http://lavidadelosmemes.bloxus.com/historias/1048
Hay gente buscando . . .




              http://www.hpl.hp.com/research/idl/people/eytan/moblog/


                  Usa...
Medir influencia




           http://fernand0.blogalia.com/historias/12049
Un d´ da para mucho
    ıa



  Primero, el enlace a la historia de Arcadi Espada.
  http://www.arcadi.espasa.com/000287.h...
Un d´ da para mucho (II)
    ıa


      D´ 2
        ıa
      http://www.escolar.net/
      http://www.sdelavega.tk/
     ...
Un d´ da para mucho (III)
    ıa




         D´ 2 (cont.)
          ıa
         Anotaciones de un periodista raro: El Pa´...
Qu´ pasaba en internet?
  e



   Visitas
Qu´ pasaba en internet?
  e
   Enlaces
Qu´ pasaba en internet?
  e



   Enlaces desde la blogosfera




     Medios digitales, transmisi´n de informaci´n y form...
Pero . . .




      http://www.plasticbag.org/archives/2003/05/discussion and citation in the blogosphere.shtml
O sea, esto




              http://www-idl.hpl.hp.com/blogstuff/
              http://www.blogpulse.com/showcase.html
Memespread project




              http://www.arbesman.net/meme.php
Adem´s . . .
    a




           http://hammeroftruth.com/2004/03/08/how-news-travels-on-the-internet/
Y en el desarrollo de programas?




   Algunas ideas
       Personas
       M´dulos
        o
       Bibliotecas
       T...
Implantaci´n
          o




               http://www.openssh.com/usage/graphs.html
Y en el desarrollo de programas?

   R Ferenc, I Siket, T Gyim´thy. ‘Extracting facts from Open Source
                   ...
Comunidades
Comunidades
Comunidades




  http://www.cibersociedad.net/congres2004/grups/fitxacom publica2.php?grup=43&id=625&idioma=es
          ...
Me interesa . . . ?




        Word based systems (Google, Yahoo, Altavista, . . . ) don’t
        work well because of l...
We had some data. . .



      First Spanish webloggers and blog readers poll.
      (‘I Encuesta a webloggers y lectores ...
We had some data. . .



      First Spanish webloggers and blog readers poll.
      (‘I Encuesta a webloggers y lectores ...
Data mining to the rescue




      Process of extraction of knowledge from huge amounts of
      data [DataMining, Concep...
Association rules I


       Composed of:
                      Antecedent → Consecuent
       CD Burner → Blank CDs
Association rules I


       Composed of:
                          Antecedent → Consecuent
       CD Burner → Blank CDs
 ...
Some work . . .



       Data cleaning (noise, inconsistent data, . . . )
       Data integration (combination of several...
Consejo
Conclusiones



      Queremos medir la propagaci´n de la informaci´n
                                 o                 o...
Conclusiones



        Queremos medir la propagaci´n de la informaci´n
                                   o              ...
El futuro




       Mejorar la ara˜a
                     n
       Difundir los resultados
       Rellenar los ‘huecos’
 ...
Por si acaso ...


   Tenemos...
       Ancho de banda
       Ideas
       Entusiasmo
   Necesitamos...
       Memoria, hw...
Upcoming SlideShare
Loading in …5
×

¿El tamaño importa? Medir e investigar en la blogosfera

2,778 views

Published on

Algunos temas sobre los que me gustaría trabajar o hemos trabajado

Published in: Technology
0 Comments
2 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
2,778
On SlideShare
0
From Embeds
0
Number of Embeds
50
Actions
Shares
0
Downloads
70
Comments
0
Likes
2
Embeds 0
No embeds

No notes for slide

¿El tamaño importa? Medir e investigar en la blogosfera

  1. 1. ¿El tama˜o importa? Medir e investigar en la n blogosfera F. Tricas (Depto Inform´tica e Ing. de Sistemas, U. Zaragoza) a Juan J. Merelo ( U. Granada, Spain) V´ ıctor R. Ruiz, (Blogalia y +) 9 de mayo de 2007
  2. 2. Agenda Algunas definiciones Trabajos interesantes ¿Qu´ sabemos hacer? e Conclusiones, futuro
  3. 3. Sobre los hombros de gigantes Beatriz Prieto, Alberto Prieto, Gustavo Romero-L´pez, Pedro o Castillo Valdivieso (U. Granada) Jose L. Orihuela (U. Navarra) Guillermo L´pez (U. Valencia) o Jos´ Carpio Ca˜adas (U. Huelva) e n
  4. 4. ¿A qui´n le interesa? e HP Information Dynamics Lab http://www.hpl.hp.com/research/idl/results.html Microsoft. Social Computing Group http://research.microsoft.com/scg/ Google. Hypertext and the Web http://labs.google.com/papers.html IBM. http://www.almaden.ibm.com/cs/projects/web/
  5. 5. ¿Qu´ es una bit´cora (o blog, o weblog)? e a
  6. 6. ¿Por qu´? e Compartir conocimiento, informaci´n o Opinar, diarios personales Relaciones p´blicas u ‘Periodismo’ Notas, pensamientos, ideas, ... Literatura Pol´ ıtica B´squeda de almas gemelas u Porque si
  7. 7. Algunas herramientas interesantes RSS (y otros...) Buscadores espec´ ıficos Edici´n extremadamente simple o Incluso API’s espec´ ıficas Trackback
  8. 8. La blogosfera hispana ¡Algo complejo! Muchos pa´ ıses Varias lenguas (4 oficiales, y adem´s en otros, claro ingl´s, a e franc´s, holand´s, ...) e e tambi´n biling¨es y triling¨es e u u Por si acaso ... http://oreneta.com/baldie/blog ¡Podemos discutirlo!
  9. 9. Tools Blog´metro (http://blogometro.blogalia.com/) o A crawler, each day a ranking of fresh links Open source, written in Python, PostgresSQL http://sourceforge.net/projects/blogometro Data from November, 15, 2002 Some purging
  10. 10. N´mero de bit´coras en sitios populares u a Alojamiento Blog´metro o Estimaci´n o Publicado msn.com 65493 300000 2000000(+) blogia.com 31178 34277 (*) ya.com 19807 500000 n.d. diariogratis.com 6052 90000 n.d. blogspot.com 5940 90000 n.d. acelblog.com 4481 4600 (*) bitacoras.com 3215 50000 32800 (*) zonalibre.org 2419 n.d. lamevaweb.info 1702 n.d. barrapunto.com 1571 1633 (*) zoomblog.com 1271 4000 (*) barcelonablogs.com 1271 n.d. lacoctelera.com 1148 8000(+) Principio de 2006 El tama˜o de la blogosfera: medidas y herramientas. n Fernando Tricas, Juan Juli´n Merelo-Guerv´s, V´ a o ıctor R. Ruiz
  11. 11. Din´mica de la informaci´n a o Din´mica a Blog Epidemic Analyzer (inter´s sostenido, ascenso-pico-descenso, e ‘efecto’ Slashdot, otros sitios caida lenta). http://www.hpl.hp.com/research/idl/projects/blogs/
  12. 12. ¿Tenemos algo en com´n? u http://anjo.blogs.com/metis/2004/10/sigmund on the 2.html
  13. 13. ¿Tenemos algo en com´n? (II) u Tercer debate: Kerry: minimum wage (8 mentions), health insurance (6 mentions), and social security (6 mentions) Bush: my opponent (7), four years (6), and best way (5) http://overstated.net/04/10/14-the-final-presidential-debate
  14. 14. Information diffusion Chibi (verde, pico), Microsoft (azul, charla y picos), Alzheimer (rojo, charla) http://theory.csail.mit.edu/∼dln/papers/blogs/idib.pdf Information Difussion Through Blogspace Daniel Gruhl, R. Guba, David Liben-Novell, Andrew Tomkins
  15. 15. Information diffusion (II) Microsoft (tratando de quitar los picos) http://theory.csail.mit.edu/∼dln/papers/blogs/idib.pdf
  16. 16. Con herramientas externas http://blogpulse.com/trend
  17. 17. Con herramientas externas http://technorati.com/
  18. 18. Algunos intentos . . . http://fernand0.blogalia.com/historias/12671
  19. 19. Podemos buscar cosas http://lavidadelosmemes.bloxus.com/historias/1048
  20. 20. Hay gente buscando . . . http://www.hpl.hp.com/research/idl/people/eytan/moblog/ Usage Patterns for Cameraphone Driven Moblogs Eytan Adar (Mayo 2004)
  21. 21. Medir influencia http://fernand0.blogalia.com/historias/12049
  22. 22. Un d´ da para mucho ıa Primero, el enlace a la historia de Arcadi Espada. http://www.arcadi.espasa.com/000287.html D´ 1 ıa eCuaderno v.2.0: 11S y 11M http://www.ecuaderno.com/archives/000400.php Barcepundit http://barcepundit.blogspot.com/2004/09/un-da-da-para-mucho.html Mangas Verdes Morbicidad y arrepentimiento http://www.proyectoisla.com/mangasverdes/index.php?p=186
  23. 23. Un d´ da para mucho (II) ıa D´ 2 ıa http://www.escolar.net/ http://www.sdelavega.tk/ Elastico.net: Anuncios sin palabras http://www.elastico.net/archives/001294.html http://www.diariodeunjabali.com/ Isopixel http://www.isopixel.net/archives/001982.html Sonia Blanco http://www.filmica.com/sonia blanco/archivos/ 000657.html Puedoprometeryprometo.com http://www.puedoprometeryprometo.com/2004 09 01 archivo.html#109536146956858137
  24. 24. Un d´ da para mucho (III) ıa D´ 2 (cont.) ıa Anotaciones de un periodista raro: El Pa´ pide perd´n por una campa˜a ıs o n de publicidad y los gur´s hacen el rid´ u ıculo http://gbareno.blogspot.com/2004/09/el-pas-pide-perdn-por-una-campaa-de.html http://www.abordaje.net/ As´ no son las cosas: Fuera de control ı http://asinosonlascosas.blogspot.com/2004/09/fuera-de-control.html ...
  25. 25. Qu´ pasaba en internet? e Visitas
  26. 26. Qu´ pasaba en internet? e Enlaces
  27. 27. Qu´ pasaba en internet? e Enlaces desde la blogosfera Medios digitales, transmisi´n de informaci´n y formaci´n del espacio p´blico: o o o u comunicaci´n de masas y comunicaci´n en red ante el 11M o o Garc´ ıa. Guillermo L´pez Garc´ Juan Juli´n Merelo Guerv´s, Fernando Tricas o ıa, a o
  28. 28. Pero . . . http://www.plasticbag.org/archives/2003/05/discussion and citation in the blogosphere.shtml
  29. 29. O sea, esto http://www-idl.hpl.hp.com/blogstuff/ http://www.blogpulse.com/showcase.html
  30. 30. Memespread project http://www.arbesman.net/meme.php
  31. 31. Adem´s . . . a http://hammeroftruth.com/2004/03/08/how-news-travels-on-the-internet/
  32. 32. Y en el desarrollo de programas? Algunas ideas Personas M´dulos o Bibliotecas Trozos de c´digo (‘snippets’) o Seguridad!
  33. 33. Implantaci´n o http://www.openssh.com/usage/graphs.html
  34. 34. Y en el desarrollo de programas? R Ferenc, I Siket, T Gyim´thy. ‘Extracting facts from Open Source o Software’ LCOM (Lack of Cohesion on Methods): n´mero de parejas de u funciones miembro sin variables compartidas, menos el n´mero u de parejas de funciones miembro con variables compartidas. Hip´tesis: Clases con poca cohesi´n sugieren dise˜o o o n inapropiado. R Ferenc, I Siket, T Gyim´thy. ‘Extracting facts from Open Source o Software’ CBO (Coupling Between Object classes): una clase est´ acoplada a otra si usa sus funciones y o variables. a Hip´tesis: Clases muy acopladas son mas propensas a los o fallos
  35. 35. Comunidades
  36. 36. Comunidades
  37. 37. Comunidades http://www.cibersociedad.net/congres2004/grups/fitxacom publica2.php?grup=43&id=625&idioma=es Visualizaci´n de la evoluci´n de una red social generada por weblogs o o Juan Juli´n Merelo / Fernando Tricas Garc´ / Beatriz Prieto a ıa
  38. 38. Me interesa . . . ? Word based systems (Google, Yahoo, Altavista, . . . ) don’t work well because of lack of semantics and speed. Specialized tools (Technorati, PubSub, BlogPulse, . . . ) solve the speed problem, but not the others (tags can help) Link based tools help but not every people links to the same sites, even being interested in the same things.
  39. 39. We had some data. . . First Spanish webloggers and blog readers poll. (‘I Encuesta a webloggers y lectores de blogs’ http://tintachina.com/archivo/cat i encuesta webloggers.php) Gemma Ferreres, Antonio Cambronero Self–administered May, 31, June, 18 2004 1662 replied (1125 bloggers, 537 readers) Some interesting findings Questions about blog reading
  40. 40. We had some data. . . First Spanish webloggers and blog readers poll. (‘I Encuesta a webloggers y lectores de blogs’ http://tintachina.com/archivo/cat i encuesta webloggers.php) Gemma Ferreres, Antonio Cambronero Self–administered May, 31, June, 18 2004 1662 replied (1125 bloggers, 537 readers) Some interesting findings Questions about blog reading There was a second edition, 2005 (almost doubled participation)
  41. 41. Data mining to the rescue Process of extraction of knowledge from huge amounts of data [DataMining, Concepts and Techniques] In this case, extraction of association rules: Recommendation of weblogs from sets of weblogs read by users.
  42. 42. Association rules I Composed of: Antecedent → Consecuent CD Burner → Blank CDs
  43. 43. Association rules I Composed of: Antecedent → Consecuent CD Burner → Blank CDs A Priori algorithm. Developed by Agrawal to analyze user purchase intentions in supermarkets (market basket analysis). From a database of supermarket baskets, or ‘itemsets’, a set of association rules that predict purchase patterns can be extracted If you buy a computer, you’ll want a subscription to a computer mag(other did it before you)
  44. 44. Some work . . . Data cleaning (noise, inconsistent data, . . . ) Data integration (combination of several sources) Data selection (more relevant ones) Data transformation (adequate format) Data minig (pattern extraction) Pattern evaluation (Obtaining the interesting rules) Knowledge representation
  45. 45. Consejo
  46. 46. Conclusiones Queremos medir la propagaci´n de la informaci´n o o ¿Qu´ es interesante? e ¿Por d´nde viaja? o Y la ‘materia oscura’ Con dibujos, m´s bonito a Y mas cosas . . .
  47. 47. Conclusiones Queremos medir la propagaci´n de la informaci´n o o ¿Qu´ es interesante? e ¿Por d´nde viaja? o Y la ‘materia oscura’ Con dibujos, m´s bonito a Y mas cosas . . . Pero . . . No todo el mundo est´ en internet a Y no todos los que est´n participan a
  48. 48. El futuro Mejorar la ara˜a n Difundir los resultados Rellenar los ‘huecos’ Otras medidas (palabras, frases, ...) Otros mundos ...
  49. 49. Por si acaso ... Tenemos... Ancho de banda Ideas Entusiasmo Necesitamos... Memoria, hw M´s ideas a Gente ¡Gracias!

×