Ecossistema de Liga¸oes                    c˜da Blogosfera Portuguesa            Jos´ Lu´ Devezas               e ısFaculd...
Conte´dos     u1   Introdu¸˜o           ca      O que ´ a blogosfera?             e      Estudar a blogosfera      Enuncia...
Introdu¸˜o       ca
O que ´ a blogosfera?      eDefini¸˜o     caA blogosfera consiste no conjunto de todos os blogues e suas interliga¸˜es.    ...
Estudar a blogosferaO estudo da blogosfera pode focar-se:    Na evolu¸˜o da colec¸˜o;            ca          ca    No cont...
Enunciado de teseAtrav´s da an´lise de liga¸˜es, identificar e caracterizar conjuntos de blogues, com     e        a       ...
Conhecer a amostra
Colec¸˜o     ca   Disponibilizada pelo SAPO;   Entradas escritas em portuguˆs;                               e   V´rios do...
Tecnologias   Base de dados relacional MySQL.   Base de dados chave ⇒ valor Berkeley DB.   Dialecto GraphML para represent...
Extrac¸˜o e valida¸˜o do conjunto de dados      ca          caDos 17 GB de registos s˜o seleccionadas as entradas:        ...
Extrac¸˜o e valida¸˜o do conjunto de dados      ca          ca           700                                              ...
An´lise de liga¸˜es  a            co
Estrutura de dados   Grafo dirigido para representar a rede de blogues.         V´rtices ⇔ Blogues.          e         Are...
Prepara¸˜o dos dados       caPassar da tabela de entradas, dispon´ na base de dados, ao grafo de blogues                  ...
Total de liga¸oes, por dia, ao longo do tempo             c˜   459.737 liga¸˜es, extra´               co         ıdas de  ...
Agrupamento de blogues   Blogues ordenados por popularidade.   N´mero de cita¸˜es como crit´rio de classifica¸˜o.    u     ...
N´mero de palavras por entrada, para o grafo simplificado u  Eixo dos XX: ordem da fatia — a  fatia 0 representa o conjunto...
N´mero de palavras por entrada, para o grafo original u   Blogues mais citados: m´dia de                           e      ...
N´mero de entradas criadas por mˆs, para o grafo original u                              e   Blogues mais citados: m´dia d...
N´mero mensal de liga¸˜es p/entrada, para o grafo original u                   co   Blogues mais citados s˜o os que       ...
Conclus˜es       o
Principais contribui¸˜es                    co   Agrupamos blogues utilizando como crit´rio de popularidade o n´mero de   ...
Trabalho futuro   Estudar a evolu¸˜o da popularidade dos blogues.                  ca         O que influencia um blogue a ...
Fim      Quest˜es?           o
Apˆndice  e
Apˆndice A.1  eMet´fora de ecossistema   aA blogosfera pode ser vista como um ecossistema em que os blogues s˜oaconsiderad...
Apˆndice B.1  e                          Sapo Blogs A−List Walktrap Communities                                           ...
Apˆndice B.2  e                Sapo Blogs A−List Leading Eigenvector Communities                                          ...
Apˆndice C.1  e          1        q                               5                              q              2         ...
Apˆndice C.2  e          1        q                               5                              q              2         ...
Ecossistema de Ligações da Blogosfera Portuguesa
Ecossistema de Ligações da Blogosfera Portuguesa
Ecossistema de Ligações da Blogosfera Portuguesa
Ecossistema de Ligações da Blogosfera Portuguesa
Ecossistema de Ligações da Blogosfera Portuguesa
Upcoming SlideShare
Loading in …5
×

Ecossistema de Ligações da Blogosfera Portuguesa

573 views
518 views

Published on

The presentation I used for my master thesis defense (it's in portuguese).

Published in: Technology, Education
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
573
On SlideShare
0
From Embeds
0
Number of Embeds
6
Actions
Shares
0
Downloads
4
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Ecossistema de Ligações da Blogosfera Portuguesa

  1. 1. Ecossistema de Liga¸oes c˜da Blogosfera Portuguesa Jos´ Lu´ Devezas e ısFaculdade de Engenharia da Universidade do Porto Rua Dr. Roberto Frias, s/n 4200-465 Porto, Portugal joseluisdevezas@gmail.com 22 de Mar¸o de 2010 c
  2. 2. Conte´dos u1 Introdu¸˜o ca O que ´ a blogosfera? e Estudar a blogosfera Enunciado de tese2 Conhecer a amostra Colec¸˜o ca Tecnologias Extrac¸˜o e valida¸˜o do conjunto de dados ca ca3 An´lise de liga¸oes a c˜ Estrutura de dados Prepara¸˜o dos dados ca Total de liga¸oes, por dia, ao longo do tempo c˜ Agrupamento de blogues N´mero de palavras por entrada, para o grafo simplificado u N´mero de palavras por entrada, para o grafo original u N´mero de entradas criadas por mˆs, para o grafo original u e N´mero mensal de liga¸oes p/entrada, para o grafo original u c˜4 Conclus˜es o Principais contribui¸oes c˜ Trabalho futuro
  3. 3. Introdu¸˜o ca
  4. 4. O que ´ a blogosfera? eDefini¸˜o caA blogosfera consiste no conjunto de todos os blogues e suas interliga¸˜es. coA blogosfera ´: e Uma rede de blogues; Um conjunto de textos ricos em imagem e v´ ıdeo; Um conjunto de entradas cronologicamente ordenadas. J. L. Devezas (FEUP) Ecossistema de Liga¸˜es co Mar¸o 2010 c 1 / 17
  5. 5. Estudar a blogosferaO estudo da blogosfera pode focar-se: Na evolu¸˜o da colec¸˜o; ca ca No conte´do das entradas; u Nos coment´rios; a Na estrutura de liga¸˜es. co J. L. Devezas (FEUP) Ecossistema de Liga¸˜es co Mar¸o 2010 c 2 / 17
  6. 6. Enunciado de teseAtrav´s da an´lise de liga¸˜es, identificar e caracterizar conjuntos de blogues, com e a coo objectivo de provar que:Afirma¸˜o caExiste um padr˜o consistente de varia¸˜o de caracter´ a ca ısticas dos blogues com apopularidade. J. L. Devezas (FEUP) Ecossistema de Liga¸˜es co Mar¸o 2010 c 3 / 17
  7. 7. Conhecer a amostra
  8. 8. Colec¸˜o ca Disponibilizada pelo SAPO; Entradas escritas em portuguˆs; e V´rios dom´ a ınios, principalmente Blogues do SAPO e Blogger; Entradas entre 1 de Mar¸o de 2006 e 1 de Outubro de 2009. c J. L. Devezas (FEUP) Ecossistema de Liga¸˜es co Mar¸o 2010 c 4 / 17
  9. 9. Tecnologias Base de dados relacional MySQL. Base de dados chave ⇒ valor Berkeley DB. Dialecto GraphML para representa¸˜o de grafos. ca Linguagem e ambiente R para computa¸˜o estat´ ca ıstica e gr´ficos. a Biblioteca ggplot2 para cria¸˜o de gr´ficos. ca a Biblioteca igraph para manipula¸˜o de grafos. ca Linguagem Perl. Extrac¸˜o e selec¸˜o de dados. ca ca Processamento e indexa¸˜o de conte´dos. ca u Gera¸˜o do documento GraphML e tabelas de entrada para o R. ca J. L. Devezas (FEUP) Ecossistema de Liga¸˜es co Mar¸o 2010 c 5 / 17
  10. 10. Extrac¸˜o e valida¸˜o do conjunto de dados ca caDos 17 GB de registos s˜o seleccionadas as entradas: a Cujo dom´ cont´m “blogs.sapo.pt”; ınio e Datadas entre 1 de Mar¸o de 2006 e 30 de Setembro de 2009. c´E feita a indexa¸˜o de cada blogue no formato blogue ⇒ entradas: ca blogue.blogs.sapo.pt => http://blogue.blogs.sapo.pt/112.html|2008-02-01 23:45:32t http://blogue.blogs.sapo.pt/342.html|2008-05-13 10:27:13t http://blogue.blogs.sapo.pt/678.html|2008-11-11 11:13:27 J. L. Devezas (FEUP) Ecossistema de Liga¸˜es co Mar¸o 2010 c 6 / 17
  11. 11. Extrac¸˜o e valida¸˜o do conjunto de dados ca ca 700 200 600 500 150 400 Blogs Blogs 300 100 200 50 100 0 0 2006 2007 2008 2009 2006 2007 2008 2009 Years Years N´mero de blogues criados por dia ao longo dos anos. u Contagem do n´mero de blogues e entradas criados por dia. u Durante o mˆs de Setembro de 2009 observa-se um pico anormal. e Uma verifica¸˜o autom´tica determina que 42% dos blogues desse mˆs n˜o ca a e a existem no mˆs seguinte. e Setembro de 2009 ´ removido do estudo. e Crescimento acentudado ap´s a primeira metade de 2007. o J. L. Devezas (FEUP) Ecossistema de Liga¸˜es co Mar¸o 2010 c 7 / 17
  12. 12. An´lise de liga¸˜es a co
  13. 13. Estrutura de dados Grafo dirigido para representar a rede de blogues. V´rtices ⇔ Blogues. e Arestas ⇔ Liga¸oes entre os blogues. c˜ (provenientes de ˆncoras, imagens e conte´do embebido no HTML das entradas) a u V´rios atributos associados aos v´rtices e arestas. a e Atributo Exemplo name blog.blogs.sapo.pt Blogues date 2007-10-11 16:22:57 hostgraph.outdegree 50.077 post.url http://blog.blogs.sapo.pt/1046448.html post.date 2008-09-09 19:14:49 Entradas post.wordcount 25 post.charcount 216 name http://outro.blogs.sapo.pt/25856.html Liga¸oes c˜ source blog.blogs.sapo.pt target outro.blogs.sapo.pt Informa¸˜o captada no grafo de blogues. ca J. L. Devezas (FEUP) Ecossistema de Liga¸˜es co Mar¸o 2010 c 8 / 17
  14. 14. Prepara¸˜o dos dados caPassar da tabela de entradas, dispon´ na base de dados, ao grafo de blogues ıvelenvolve: 1 Extrair e indexar as liga¸˜es no formato liga¸˜o ⇒ entradas co ca http://bit.ly/23a5b => http://blogue.blogs.sapo.pt/112.html|2008-02-01 23:45:32|50|200t http://outro.blogs.sapo.pt/1243.html|2008-05-13 10:27:13|19|101t http://outro.blogs.sapo.pt/1122.html|2009-11-11 11:13:27|7|32 2 Agregar por dom´ ınio, contabilizando as liga¸˜es de entrada e de sa´ co ıda; 3 Remover dom´ ınios externos ao Blogues do SAPO e associar a data de cria¸˜o ca a cada blogue; 4 Gerar um documento GraphML que represente a rede de blogues; 5 Carregar o documento GraphML no R, para ser analisado utilizando a biblioteca igraph. J. L. Devezas (FEUP) Ecossistema de Liga¸˜es co Mar¸o 2010 c 9 / 17
  15. 15. Total de liga¸oes, por dia, ao longo do tempo c˜ 459.737 liga¸˜es, extra´ co ıdas de 72.591 blogues. 400,000 Taxa m´dia de crescimento mensal: e 300,000 17,88%. Total Links 200,000 Pico de utiliza¸˜o de liga¸˜es ca co durante Junho e Julho de 2008. 100,000 Resulta no aumento acentuado do n´mero de liga¸˜es. u co 2006 2007 Years 2008 2009 J. L. Devezas (FEUP) Ecossistema de Liga¸˜es co Mar¸o 2010 c 10 / 17
  16. 16. Agrupamento de blogues Blogues ordenados por popularidade. N´mero de cita¸˜es como crit´rio de classifica¸˜o. u co e ca Duas vers˜es do grafo de blogues: o Grafo original Uma ilustra¸˜o crua da realidade da blogosfera ⇔ quantidade; ca Grafo simplificado Sem multiplicidade de arestas e auto-cita¸˜es, ignorando n´s com co o menos de duas liga¸˜es de entrada ou de saida ⇔ variedade. co Grafos de blogues partidos em fatias de 1.000 blogues. An´lise da evolu¸˜o do valor m´dio e mediano de v´rias caracter´ a ca e a ısticas, para fatias progressivamente menos populares. J. L. Devezas (FEUP) Ecossistema de Liga¸˜es co Mar¸o 2010 c 11 / 17
  17. 17. N´mero de palavras por entrada, para o grafo simplificado u Eixo dos XX: ordem da fatia — a fatia 0 representa o conjunto dos 1.000 blogues mais citados e a fatia 9 representa os 1.000 blogues 800 menos citados. Mean and Median Post Word Number 700 Eixo dos YY: m´dia ou mediana do e n´mero de palavras por entrada nos u 600 Mean blogues da fatia. Median 500 Ordem M´dia e Mediana 400 0 829 706 6 532 360 0 2 4 6 8 9 762 574 Slice Order J. L. Devezas (FEUP) Ecossistema de Liga¸˜es co Mar¸o 2010 c 12 / 17
  18. 18. N´mero de palavras por entrada, para o grafo original u Blogues mais citados: m´dia de e 1000 Mean and Median Post Word Number 1.124 palavras por entrada. 800 Blogues restantes: m´dia entre 135 e 600 e 749 palavras. Mean Median Decr´scimo constante, mas n˜o e a 400 muito acentudado. 200 0 10 20 30 40 50 60 70 Slice Order J. L. Devezas (FEUP) Ecossistema de Liga¸˜es co Mar¸o 2010 c 13 / 17
  19. 19. N´mero de entradas criadas por mˆs, para o grafo original u e Blogues mais citados: m´dia de e Mean and Median Newly Created Posts per Month 103.5 7.934 novas entradas por mˆs. e 103 Outras blogues mais citados: m´dia e 102.5 superior a 100 — 594 para a Mean 102 segunda fatia mais citada. Median 101.5 Blogues menos citados: m´dia entre e 101 5 e 30 novas entradas mensais. 100.5 0 10 20 30 40 50 60 70 Slice Order J. L. Devezas (FEUP) Ecossistema de Liga¸˜es co Mar¸o 2010 c 14 / 17
  20. 20. N´mero mensal de liga¸˜es p/entrada, para o grafo original u co Blogues mais citados s˜o os que a ligam mais a outros blogues. No entanto, em geral, as entradas 100 n˜o contˆm um grande n´mero de a e u Mean and Median Monthly Links per Post 10−0.5 liga¸˜es. co 10−1 A fatia mais citada tem em m´dia e 10−1.5 1,15 liga¸˜es por entrada. co 10−2 Mean Median As restantes fatias tˆm uma m´dia e e 10−2.5 inferior a 0,25 liga¸˜es por entrada. co 10−3 Na fatia menos citada ´ utiliza e apenas 1 liga¸˜o por cada 1.000 ca 0 10 20 30 Slice Order 40 50 60 70 entradas! J. L. Devezas (FEUP) Ecossistema de Liga¸˜es co Mar¸o 2010 c 15 / 17
  21. 21. Conclus˜es o
  22. 22. Principais contribui¸˜es co Agrupamos blogues utilizando como crit´rio de popularidade o n´mero de e u cita¸˜es. co Blogues populares tˆm um comportamento distinto dos blogues menos e populares. Conforme passamos dos blogues mais populares para os menos populares, observ´mos um padr˜o de decr´scimo: a a e Na frequˆncia de cria¸˜o de entradas; e ca No n´mero de liga¸oes de sa´ u c˜ ıda; No tamanho das entradas. Conclui-se que existem efectivamente grupos de blogues com caracter´ ısticas distintas. J. L. Devezas (FEUP) Ecossistema de Liga¸˜es co Mar¸o 2010 c 16 / 17
  23. 23. Trabalho futuro Estudar a evolu¸˜o da popularidade dos blogues. ca O que influencia um blogue a tornar-se popular. Como evolui a classifica¸˜o dos blogues mais populares. ca Como evoluem as suas caracter´ısticas. Estudar as comunidades portuguesas de blogues. Analisar algoritmos de detec¸˜o de comunidades. ca Identificar o factor de uni˜o dos elementos das comunidades. a Identificar os blogues centrais de cada comunidade. J. L. Devezas (FEUP) Ecossistema de Liga¸˜es co Mar¸o 2010 c 17 / 17
  24. 24. Fim Quest˜es? o
  25. 25. Apˆndice e
  26. 26. Apˆndice A.1 eMet´fora de ecossistema aA blogosfera pode ser vista como um ecossistema em que os blogues s˜oaconsiderados organismos que interagem entre si, interligando-se por meio dehiperliga¸oes, no ambiente da World Wide Web. c˜
  27. 27. Apˆndice B.1 e Sapo Blogs A−List Walktrap Communities q qq qq q qq qq qq qq q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q qq q q q q q q q q q q q q q q q q qq q q q q q q q qqqq q q q q q q qq q q q q qqq q q q q q q q q q qq qq q q q q q q qq qq q q q qq qqq q q q q q q q q q q q q q q q qq q q q qq q q q q q q q q q qq qqq q qq q q q q q qq q q q qqqqq q q q q q q q q q qq q q qqq q q q q q q q q q q qq q q q q q q q q qqqq q q qq q q q q qq qq q q qq q q q q q qq qq q qq qqq q qqq q qq q q qqqqqq qqq q q q q q q q qq q qqq q q q q q q q q q q q q qq q qq qq q q qq q qqqq q q q q qq q qq q qq q q q qq q q q qq q qqq q q qqq q q q q qq qqq qq q q q q qq q q qqq q q q qq qqq q q qq q q qq q qq qq q q q q q q q q q qq q qq q qq q q qq qq qq q q qq q q q qq qq q q q q qqqqq qqq q q qq q q qqq q q q q qq q q q qqqq q q qq q qq q q qq qq q q q q q q q q q q q q q qq q qqq q q q q qq q qq qq qqq q q q qq q q q qq q q qqq q q q q qqq q q q q q qq qq q qq q q q q q qq q q qq qqq q qq q q q q q qq qq q q q q q q q q q qq q q q q q q q q q q q qq q q q qq qq qqq q q q q qq qq qq q q qq qq q qq q q q q q q qq q q q qq qq qq q q q q q qq q q q q q q qq q q q qqq qq q q qq q q q q q q q qq q q q q q q q q qq q q q q q q q q q qq q q q q q qq qq q q q q q q q qq q qqq q q qq q q q q q qq q qq qq q q q q qq qq qq q q q q q qq q q q q q q q q q qq q q q q qq qq q qq q q q q q q q qq q q q q qq q q qq q q qq qq q q q q q qqq q qq q q q qq q q q q q qq q q qq q q q qqq q q q q qqqq q q q q qq q q q qqq q q q qqq q q qq q q q qq qq q qq q q qq q qqq qq q q q q q q qq q qq q q qq q q q qqqqq qq qq q q q q q q q q qq q q q qqq q q qq q q q q q q qq q qqq q q q q q qq q q q q q q q q q qq q q q q q q q q q q q q q q qq qq q qq qq qq qq q q q qq qq Detec¸˜o de comunidades utilizando o algoritmo Walktrap. ca
  28. 28. Apˆndice B.2 e Sapo Blogs A−List Leading Eigenvector Communities q qq qq q qq qq qq qq q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q qq q q q q q q q q q q q q q q q q qq q q q q q q q qqqq q q q q q q qq q q q q qqq q q q q q q q q q qq qq q q q q q q qq qq q q q qq qqq q q q q q q q q q q q q q q q qq q q q qq q q q q q q q q q qq qqq q qq q q q q q qq q q q qqqqq q q q q q q q q q qq q q qqq q q q q q q q q q q qq q q q q q q q q qqqq q q qq q q q q qq qq q q qq q q q q q qq qq q qq qqq q qqq q qq q q qqqqqq qqq q q q q q q q qq q qqq q q q q q q q q q q q q qq q qq qq q q qq q qqqq q q q q qq q qq q qq q q q qq q q q qq q qqq q q qqq q q q q qq qqq qq q q q q qq q q qqq q q q qq qqq q q qq q q qq q qq qq q q q q q q q q q qq q qq q qq q q qq qq qq q q qq q q q qq qq q q q q qqqqq qqq q q qq q q qqq q q q q qq q q q qqqq q q qq q qq q q qq qq q q q q q q q q q q q q q qq q qqq q q q q qq q qq qq qqq q q q qq q q q qq q q qqq q q q q qqq q q q q q qq qq q qq q q q q q qq q q qq qqq q qq q q q q q qq qq q q q q q q q q q qq q q q q q q q q q q q qq q q q qq qq qqq q q q q qq qq qq q q qq qq q qq q q q q q q qq q q q qq qq qq q q q q q qq q q q q q q qq q q q qqq qq q q qq q q q q q q q qq q q q q q q q q qq q q q q q q q q q qq q q q q q qq qq q q q q q q q qq q qqq q q qq q q q q q qq q qq qq q q q q qq qq qq q q q q q qq q q q q q q q q q qq q q q q qq qq q qq q q q q q q q qq q q q q qq q q qq q q qq qq q q q q q qqq q qq q q q qq q q q q q qq q q qq q q q qqq q q q q qqqq q q q q qq q q q qqq q q q qqq q q qq q q q qq qq q qq q q qq q qqq qq q q q q q q qq q qq q q qq q q q qqqqq qq qq q q q q q q q q qq q q q qqq q q qq q q q q q q qq q qqq q q q q q qq q q q q q q q q q qq q q q q q q q q q q q q q q qq qq q qq qq qq qq q q q qq qq Detec¸˜o de comunidades utilizando o algoritmo Leading Eigenvector. ca
  29. 29. Apˆndice C.1 e 1 q 5 q 2 q 0 3 Classifica¸˜o ca q q q 7 Nesta amostra, o n´ 2 ´ citado 8 o e vezes e o n´ 7 ´ citado 5 vezes. O o e n´ 2 ´ considerado o mais popular o e devido ` quantidade de liga¸˜es que a co 6 q apontam para ele. 4 q Amostra do grafo de blogues antes da simplifica¸˜o. ca
  30. 30. Apˆndice C.2 e 1 q 5 q 2 q 0 3 Classifica¸˜o ca q q q 7 Nesta amostra, o n´ 2 ´ citado 3 o e vezes e o n´ 7 ´ citado 4 vezes. O o e n´ 7 ´ considerado o mais popular o e devido ` variedade de liga¸˜es que a co 6 q apontam para ele. 4 q Amostra do grafo de blogues ap´s a o simplifica¸˜o. ca

×