• Save
Internet Como Uma Rede Complexa
Upcoming SlideShare
Loading in...5
×

Like this? Share it with your network

Share

Internet Como Uma Rede Complexa

  • 1,947 views
Uploaded on

Em meados do ano 2000 uma série de artigos publicados tratava das características estruturais de redes complexas, como a Internet. Todos estes trabalham discutem a dificuldade na coleta e a......

Em meados do ano 2000 uma série de artigos publicados tratava das características estruturais de redes complexas, como a Internet. Todos estes trabalham discutem a dificuldade na coleta e a confiabilidade dos dados coletados. Logo, a partir da observação de padrões comuns, diversos modelos foram propostos para a geração de dados experimentais, sendo o mais representativo dentre eles o modelo de conexões preferenciais. O objetivo desse artigo é demonstrar, através de experimentos empíricos, quais as semelhanças topológicas da Internet com uma rede gerada a partir do modelo de conexões preferenciais.

More in: Technology
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
No Downloads

Views

Total Views
1,947
On Slideshare
1,947
From Embeds
0
Number of Embeds
0

Actions

Shares
Downloads
0
Comments
0
Likes
1

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. 1 Comparação Empírica Entre a Topologia da Internet e o Modelo Barabasi-Albert Rogério Minhano, Universidade Federal do ABC (UFABC), Mestrado em Engenharia da Informação. atualizados de sistemas autônomos que compõem o esqueleto Resumo — Em meados do ano 2000 uma série de artigos da Internet. O período de coleta foi de janeiro a março de publicados tratava das características estruturais de redes 2010. A topologia foi gerada a partir de informações complexas, como a Internet. Todos estes trabalham discutem a disponibilizadas pelo projeto Archipelago (Ark), mantido pela dificuldade na coleta e a confiabilidade dos dados coletados. Logo, a partir da observação de padrões comuns, diversos cooperativa CAIDA. O projeto Ark é tem por objetivo efetuar modelos foram propostos para a geração de dados experimentais, coletas e análises da estrutura da Internet a partir de diversos sendo o mais representativo dentre eles o modelo de conexões pontos de monitoramento [11]. preferenciais. O objetivo desse artigo é demonstrar, através de O Artigo está organizado da seguinte forma. Na sessão II experimentos empíricos, quais as semelhanças topológicas da descreve o referencial teórico necessário para entendimento do Internet com uma rede gerada a partir do modelo de conexões texto. A sessão III apresenta alguns trabalhos relacionados e preferenciais. suas implicações para nossos experimentos. A sessão IV trata Índice de termos — grafos, grafos randômicos, small world, efetivamente das análises experimentais que efetuamos e suas conexões preferenciais, redes complexas, internet. conclusões e, finalmente, a sessão V expõe nossas conclusões finais. I. INTRODUÇÃO Seria possível utilizar um modelo de criação de redes II. REFERENCIAL TEÓRICO complexas para estudarmos topologias como a Internet? Os resultados seriam satisfatórios? Qual seria a validade deles? Redes complexas O estudo de redes através da utilização da teoria dos grafos Essas foram algumas das perguntas que motivaram este é um dos pilares fundamentais da matemática discreta. Em estudo. Em meados do ano 2000 uma série de artigos 1736, na cidade chamada Königsberg, localizada na antiga publicados tratava das características estruturais de redes Prússia, hoje Rússia, havia uma praça circundada por um rio e complexas. Boa parte deles tratavam especificamente do sete pontes que davam acesso. As pessoas que lá moravam estudo topológico da Internet[1][2][6][7]. Todos estes discutiam a possibilidade de atravessar todas as sete pontes trabalham discutem a dificuldade na coleta e a confiabilidade sem nenhuma repetição. Esse problema ficou conhecido como dos dados coletados. Logo, um assunto bastante discutido era as Sete Pontes de Königsberg2. Euler provou a impossibilidade a criação de redes artificiais (modelos) para simulação de da teoria através de um grafo. Desde então, a teoria dos grafos topologias reais, como a Internet. tem sido aplicada em inúmeros contextos. Independentemente A observação de padrões comuns no comportamento de da situação, sempre que tivermos um conjunto de objetos e redes, mesmo as de natureza diferentes, estimulou diversos relações entre esses objetos, poderemos utilizar grafos para pesquisadores a desenvolverem modelos que descrevem e obter informações relevantes dessa rede. caracterizam tais comportamentos. Dois modelos criados nessa época são muito conhecidos. O primeiro é cerca de um Enquanto a teoria dos grafos é um subcampo da matemática ano mais velho que o segundo. Ele é conhecido por modelo discreta, redes complexas é uma área multidisciplinar que está Watts-Strogatz[10]. Sua principal contribuição foi possibilitar relacionada intimamente com a física, biologia, matemática, a criação de redes que possuíam o efeito pequenos mundos1. O estatística e computação. A maioria das redes sociais, segundo, comummente chamado de Barabasi-Albert [9], além biológicas e tecnológicas possui características não-triviais, de incorporar essa característica, possui um método para com padrões de conexões entre seus elementos que não são agregação de novos vértices que traduz muito bem uma nem regulares, nem randômicos. Essas características incluem característica das redes reais. Esse método chama-se o grau de distribuição dos vértices, o coeficiente de preferential attachment, ou conexões preferenciais. agrupamento, comunidades e hierarquias nas redes. Logo, Nesse contexto, o objetivo desse artigo é demonstrar, muitos trabalhos tem sido publicados nos mais diversos através de experimentos empíricos, quais as semelhanças domínios. Alguns exemplos são: topológicas da Internet com uma rede gerada a partir do modelo Barabasi-Albert. Para isso utilizaremos os dados • World Wide Web [12]: links, rede de citações e blogs. 1 2 http://en.wikipedia.org/wiki/Small_world_experiment http://pt.wikipedia.org/wiki/Sete_pontes_de_K%C3%B6nigsberg
  • 2. 2 • Redes sociais [13]: serviços de redes sociais redes de : sociais, inicio de tudo, um anel unidimensional. A segunda fase (b) um , colaborações entre pesquisadores, rede de relações sexuais sexuais. grafo um pouco maior, com 20 nós e 80 arestas, e a terceira (c) • Redes tecnológicas [13]: matrizes energéticas, : uma extrapolação do modelo com 100 nós e 600 arestas. malhas aéreas, rodoviárias, fluviais, telefônicas e a Internet. Internet Obviamente, todos com médias de caminhos mais curtos inferiores a seis. Distribuição Lei da Potência A teoria das redes complexas tem sido usada vastamente no estudo de interações humanas. Vários autores mostraram que essas redes frequentemente seguem uma distribuição chamada ch Power-law, ou lei da potência [15]. Esta distribuição possui . uma função de densidade de probabilidade (PDF) da forma , onde é a probabilidade de encontrarmos o valor , é uma constante e é um parâmetro da distribuição (a) (b) (c) chamado de parâmetro de escala. De forma geral, para todas Figura 1: Grafos gerados a partir do modelo SW. (a) grafo com : as redes encontradas na natureza, o parâmetro de escala 10 nós e 10 arestas, (b) grafo com 20 nós e 80 arestas e (c) grafo encontra-se próximo dos limites dois e três isto é, 2 três, 3. com 100 nós e 600 arestas. Um outro termo, que também caracteriza essas red redes, muito comum encontrado na literatura é redes de escala livre. Simular situações em grafos usando essa técnica era muito comum porque faltavam dados reais de grandes redes. Logo, a altavam Existem várias formas de se estimar o parâmetro de escala assertividade do modelo não era confrontada com redes do de uma lei da potência. Uma abordagem bastante utilizada é mundo real. Nas últimas décadas o avanço da tecnologia nos construir um histograma dos dados e traçar um gráfico em trouxe uma enorme massa de dados digitalizada e, com isso, a escala logarítmica (log-log) dos valores. O resultado é uma quantidade de informação disponível para pesquisa se nformação linha muito próxima de uma reta. Contudo, em vários casos multiplicou. Logo, grafos que mediam entre mil e dois mil nós esse método não é eficiente e a maioria de seus resultados são – como as pesquisas de opinião, questionários, etc. – agora etc pobres comparado a técnicas mais precisas como o Maximum alcançam facilmente os milhões de nós. Esse fato trouxe a Likelihood Estimation (MLE), ou estimação da máxima timação possibilidade de entendermos melhor a características verossimilhança[15]. Neste artigo utilizaremos à técnica MLE. . dinâmicas e topológicas de grandes redes. Modelo Erdõs e Renyi Modelo conexões preferenciais Tradicionalmente, redes de topologias complexas eram Uma característica comum dos modelos ER e SW é que a descritas utilizando o modelo para grafos randômicos probabilidade de encontrarmos um vértice altamente desenvolvido por Erdõs e Rényi (ER). Esse modelo é bastante conectado decresce exponencialmente conforme o grau do simples porque leva em conta apenas uma probabilidade fixa vértice aumenta. Isso faz com que a chance de encontrarmos umenta. para um nó se conectar a outro. Isto é, assumindo que temos um vértice com grau muito alto inexista. Entretanto, são nós, os nós são conectados com probabilidade . Logo, a infinitos os exemplos de redes reais que são de escala livre [9]. distribuição dos vértices do grafo resultante possui uma o A principal característica de uma rede de escala livre é a distribuição de Poisson / ! distribuição do grau de seus vértices. Poucos vértices altamente conectados e muitos vértices com poucas conexões. Modelo Pequenos Mundos Outro modelo bastante conhecido é o small world [10], ou Outro aspecto importante é que os dois modelos de redes modelo mundos pequenos (SW), criado por Watts e Strogatz. , randômicas assumem uma quantidade inicial de vértices a A característica mais importante desse modelo é que ele gera serem conectados (ER) ou reconectados (SW). Isso não grafos em que, na média, os caminhos mais curtos3 não acontece na maioria das redes reais. Ao contrário, redes reais passam de seis graus de separação. Sua mecânica é podem começar com uma quantidade muito pequena de ligeiramente mais complexa que o modelo ER. Dado vértices 0 e crescer durante seu tempo de vida. Além disso, vértices de um anel unidimensional (Figura 1), cada vértice Figura redes randômicas assumem que existe uma probabilidade pode ser conectado aos seus dois vizinhos mais próximos. uniforme de conexão entre os vértices. Redes reais se Com probabilidade , cada aresta é reconectada a um vértice conectam através de conexões preferenciais. O modelo que escolhido randomicamente. Com o tempo, esse processo faz tempo trataremos agora é denominado Preferential Attachment, ou com que a distância entre os nós diminua, gerando assim o conexões preferenciais. Ele foi desenvolvido por Barabasi e efeito mundos pequenos. A distribuição dos graus de seus Albert (BA) e é o esquema que melhor representa as redes do vértices também é de Poisson. A Figura 1 mostra três mundo real. No modelo BA a probabilidade de um vértice exemplos gerados a partir desse modelo. Podemos imaginá imaginá-los se conectar a outro depende da conectividade i do outro onectar em uma ordem cronológica. A primeira fase (a) demonstra o vértice. Logo, /∑ . ∑ 3 Caminho mais curto, ou shortest path length, é a menor distância entre dois , nós em uma rede.
  • 3. 3 2.917 (a) (b) (c) (d) Figura 2:Grafos gerados a partir do modelo BA. (a) grafo com 10 vértices, (b) grafo com 100 vértices e (c) grafo com 500 vértices. Em Grafos vértices, (d) a distribuição dos graus dos vértices plotado em escala log istribuição log-log. A linha tracejada mostra que o resultado é uma linha “reta”. A Figura 2 (a, b e c) mostra três grafos gerados a partir do resultados. Ambos analisaram a Internet a partir de sistemas modelo BA. Podemos visualizar esses grafos como uma autônomos e discutiram características relevantes da rede. Os evolução temporal da mesma rede. A quantidade de vértices olução dados utilizados foram coletados há uma década, então, nosso década são, respectivamente, 10, 100 e 500. O crescimento da rede interesse nteresse está na reconstrução dos resultados. resultados acontece da seguinte forma: depois de passos, o modelo nos Desenvolveremos um estudo comparativo, baseados em comparativo leva a uma rede randômica com 0 vértices e arestas. informações atuais, das implicações e necessidades de um , Essa rede é envolvida em um estado crescimento com vida modelo para geração de grafos para a topologia da Internet. probabilidade de que um vértice tenha arestas, surgindo, IV. ANÁLISES EXPERIMENTAI EXPERIMENTAIS assim, uma distribuição lei da potencia com parâmetro de escala da ordem 2 3. A Figura 2 (d) demonstra a Os passos necessários para reproduzirmos o experimento expe distribuição em escala log-log para o grafo (c). Como log (c) foram: coletar os dado, transformar as redes e calcular as podemos ver, os pontos formam uma linha reta. Seu parâmetro métricas. Os cálculos matemáticos e estatísticos, assim como de escala é 2.917. as imagens e gráficos, foram desenvolvidos no software R statistics7 com auxílio da biblioteca Igraph8. Nesta sessão III. TRABALHOS RELACIONADOS descreveremos a metodologia empregada ao desenvolvimento, desenvolvimento No artigo [1] Faloutsos demonstra as relações existentes assim como as análises e resultados encontrados. omo encontrados entre a rede formada pelos roteadores da internet e a distribuição lei da potência. São relações probabilísticas, mas . Coleta dos dados o autor especula que existam de fato leis que regem o A rede da Internet foi gerada a partir de informações crescimento deste sistema. Os dados utilizados são . disponibilizadas pelo projeto Archipelago (Ark), mantido pela disponibilizados pelo laboratório NLANR4. O projeto que cooperativa CAIDA. Utilizaremos os dados atualizados de iniciou este laboratório acabou em junho de 2006. Desde então sistemas autônomos (AS) que compõem o esqueleto da a associação CAIDA5 matem alguns projetos antigos e Internet. O período de coleta foi de janeiro a março de 2010. O coordena as novas iniciativas. A informação para gerar o grafo projeto Ark é tem por objetivo efetuar coletas e análises da foi retirada das tabelas de roteamento - BGP6 - de vários estrutura da Internet a partir de diversos pontos de ponto roteadores geograficamente distribuídos. monitoramento [11]. Dado que uma representação exata da . O artigo [2] é um trabalho que também discute a topologia da Internet é operacionalmente impossível, dentre os distribuição lei da potência na topologia da Internet. Em vários projetos existentes, o projeto Ark é o mais robusto que A contraste com o conjunto de dados utilizado por[2], os dados por encontramos. Na página do projeto recuperamos os dados utilizados por Faloutsos foram coletados nos servidores de (arquivo texto) sobre as tabelas de roteamento dos AS’s roteamento da universidade de Oregon[3] o que representa [3], monitorados no ano de 2010. As coletas são feitas dia a dia, uma parte muito pequena de toda Internet. Os resultados sendo assim, temos um arquivo para cada dia coletado. Uma demonstram que a Internet possui conectividade muito maior aplicação foi desenvolvida para tratar esses dados e gerar o licação do que pode ser observada. Além disso, comparativos entre o comparativo grafo que chamaremos de rede AS. crescimento do modelo BA e o crescimento topológico da A criação do grafo conforme o modelo BA foi baseada no Internet são feitos. Ao final, os autores discutem a necessidade . algoritmo disponível na biblioteca Igraph. Utilizamos apenas de um novo modelo para criação de grafos mais fieis a um critério na nesta etapa, ccriar uma rede BA com a mesma topologia da Internet. quantidade de vértices e arestas da rede AS. Esses dois artigos são relevantes para nosso estudo porque a base dos experimentos que efetuaremos aqui está em seus 4 National Laboratory for Applied Network Research - http://www.nlanr.net/ 7 http://www.r-project.org/ 5 Cooperative Association for Internet Data Analysis - http://www.caida.org/ 8 http://igraph.sourceforge.net/ 6 Border Gateway Protocol
  • 4. 4 0 4 10 10 AS AS BA BA −1 10 3 10 −2 10 P(k) knn 2 10 −3 10 1 10 −4 10 −5 0 10 10 0 1 2 3 4 5 0 1 2 3 4 10 10 10 10 10 10 10 10 10 10 10 k k Figura 3: Distribuição acumulada de probabilidade em Figura 4 A conectividade média dos vizinhos mais função da conectividade dos vértices para os grafos AS e BA. próximos em função da conectividade do vértice . A lei da potência caracteriza as duas redes. O valor de alfa é o parametro de escala. Métricas de interesse podemos perceber as distribuições resultantes não são Nós usamos apenas métricas para medidas estruturais das identicas, mas são bastante parecidas. Isso mostra que ambas redes. Como todas elas são utilizadas e discutidas vastamente estão em conformidade com a lei da potência. Uma na literatura não iremos defini-las uma a uma. Apenas nos constatação importante é que a conectividade preferencial momentos essenciais para o entendimento do texto parece realmente ser uma lei que governa o crescimento explicaremos o significado. Contudo, para um melhor topológico da Internet. entendimento dos cálculos empregados na obtenção das Fazendo uma correlação entre os resultados demonstrados medidas, indicamos a seguinte leitura [4][[5]. na Tabela 1, é fácil perceber que a Internet é uma rede mais conectada que as redes geradas pelo modelo BA. Como Tabela 1: Métricas gerais sobre as redes AS e BA. (G) Nome do grafo, (V) Número de vértices, (A) Número de arestas, (D) podemos ver tanto a média dos menores caminhos quanto o Diametro, (MC) Média dos menores caminhos, (CA) Média do diâmetro da rede AS são menores que os da rede BA. Da coeficiente de agrupamento e (α) Parametro de escala. mesma forma, o coeficiente de agrupamento da Internet é, proporcionalmente, muito maior que o coeficiente encontrado G V A D MC CA α na rede BA. AS 65535 150002 11 3.94 0.01269 2.07 Um comportamento mais claro sobre o relacionamento dos vértices é demonstrado na Figura 4. A conectividade média BA 65535 150002 16 4.76 0.00028 2.52 dos vizinhos mais próximos em função da conectividade de um vértice torna evidente a essas relações. Em todos os Resultados pontos de os vértices da rede AS possuem vizinhos mais O primeiro passo para uma caracterização mais detalhada conectados que a rede BA. Este resultado claramente implica das duas redes está na Tabela 1. Como podemos visualizar, a na existência de uma correlação não trivial na Internet. rede gerada pelo modelo BA possui medidas próximas das características da rede da Internet. A média dos menores V. DISCUSSÃO caminhos (MC) das duas redes é pequena, ambos estão abaixo de seis, portanto, são duas redes mundos pequenos. A A rede BA, apesar de ter a mesma quantidade de vértices e topologia da Internet tem um MC ligeiramente menor, o que arestas, não é, de forma alguma, comparável à rede AS. As demonstra que a distância entre dois pontos quaisquer na rede duas estruturas, vistas de certa distância, se parecem. Mas é mais curta que na rede BA. numa visão mais detalhista, em nada se assemelham. O coeficiente de agrupamento (CA) da rede BA é muito Modelos para criação de redes sociais foram muito menor que o calculado na rede AS. Isso implica numa discutidos há alguns anos. De forma geral, precisamos de bons transitividade menor da informação entre os vértices da rede. modelos para poder simular situações que podem acontecer O diâmetro (D) também é menor na Internet. em redes reais. Mas isso tudo acontecia somente porque não O parâmetro de escala das redes AS e BA são 2.07 e 2.52, havia dados reais disponíveis para pesquisa. Hoje, existe uma respectivamente. A ERROR! REFERENCE SOURCE NOT infinidade de conjunto de dados que podem ser estudados FOUND. mostra a distribuição acumulada de probabilidade livremente. Um exemplo disso é o projeto Ark. em função da conectividade dos vértices . Como
  • 5. 5 Levando essa visão a um nível mais abstrato, modelos para criação de grafos não podem representar de forma alguma redes reais. Apesar de a conectividade preferencial ser uma característica muito importante e que parece governar o crescimento de boa parte das redes, ela parece ser o único ponto de concordância entre redes reais e o modelo. O cerne do problema, que são os motivos pelo qual as conexões entre os vértices existem não pode ser modelado porque elas não seguem nenhuma lei. Portanto, se em algum caso for realmente necessário à utilização de um modelo para estudo de redes, isso somente poderá ser feito sob um conjunto vasto de restrições. REFERÊNCIAS [1] C. Faloutsos, P. Faloutsos, and M. Faloutsos, “On Power-Law Relationships of the Internet Topology,” in Proceedings of the ACM SIGCOMM, Sept. 1999. [2] Q. Chen, H. Chang, R. Govindan, S. Jamin, S. Shenker, and W. Willinger. The Origin of Power Laws in Internet Topologies Revisited, Proc. IEEE INFOCOM 2002. [3] Route Views, “University of Oregon Route Views Project”, http://www.routeviews.org/ [4] S. Boccaletti, V. Latora, Y. Moreno, M. Chavez, and D. Hwang. Complex networks: structure and dynamics. Physics Reports, volume 424, pages 175 – 308, 2006. [5] Luciano F. Costa, Francisco A. Rodrigues, Gonzalo Travieso, and P.R. Villas Boas, Characterization of complex networks: A survey of measurements, Advances in Physics, volume 56, pp 167-242, 2007. [6] Pastor-Satorras, R., V¶azquez, A., and Vespignani, A., Dynamical and correlation properties of the Internet, Phys. Rev. Lett. 87, 2001. [7] Govindan, R. and Tangmunarunkit, H., Heuristics for Internet Map Discovery, Proceedings of the 2000 IEEE INFOCOM Conference, Tel Aviv, Israel, March, 1371-1380, 2000. [8] Newman, M. E. J., Strogatz, S. H., and Watts, D. J., Random graphs with arbitrary degree distributions and their applications, Phys. Rev. E 64, 026118, 2001. [9] Barabasi, A.-L. and Albert, R., Emergence of scaling in random networks, Science 286, 509-512, 1999. [10] Watts, D. J. and Strogatz, S. H., Collective dynamics of ‘small-world’ networks, Nature 393, 440-442, 1998. [11] k. claffy, Y. Hyun, K. Keys, M. Fomenkov, and D. Krioukov, “Internet mapping: from art to science,” in Proc. IEEE Cybersecurity Applications and Technologies Conference for Homeland Security (CATCH), 2009. [12] A.-L. Barabasi. The origin of bursts and heavy tails in human dynamics. Nature, volume 435, pages 207-211, 2005. [13] Y.-Y. Ahn, S. Han, H. Kwak, S. Moon, and H. Jeong. Analysis of topological characteristics of huge online social networking services. WWW’07: Proceedings of the 16th international conference on World Wide Web, pages 835-844, 2007. [14] R. Albert, and A.-L. Barabasi. Statistical mechanics of complex networks. Reviews of Modern Physics, volume 74, 2002. [15] A. Clauste, C. R. Shalizi, and M. E. J. Newman. Power-law distributions in empirical data. SIAM Review, 2009.