Aprendizado de MáquinaSupervisionado na Predição de Links       em Redes Complexas       Uma Revisão Sistemática          ...
Contexto• Redes Complexas são estudadas em diversas  áreas do conhecimento  – Pesquisa em ciências humanas  – Pesquisa em ...
Contexto• Predição de Links  – Trata do problema das ligações nas redes     • Como fazer aplicações em redes incompletas? ...
Objetivo do Trabalho• Investigar como o Aprendizado de Máquina  Supervisionado resolve o problema da  Predição de Links em...
Revisão Sistemática• Estudo secundário  – Auxilia na definição de uma metodologia para    identificar, analisar e interpre...
Revisão Sistemática• Objetivos da revisão  – Identificar uma teoria geral sobre Predição de    Links;  – Buscar como a abo...
Revisão Sistemática | Planejamento• Necessidade: nenhuma outra publicação  semelhante encontrada• Questões de pesquisa  – ...
Revisão Sistemática | Planejamento•   Pergunta 1: Como o paradigma da aprendizagem supervisionada resolve o    problema da...
Revisão Sistemática | Planejamento• Pergunta 2: Como funciona a Predição de  Links?  – Quais são as bases de dados comumen...
Revisão Sistemática | Planejamento                                                    Expressão geral de busca• Aprendizad...
Revisão Sistemática | Planejamento• Critérios de exclusão  – Publicações que não tratam de Predição de Links     • Aplicaç...
Revisão Sistemática | PlanejamentoTítulo do Trabalho• Relação com os tópicos de pesquisa                                  ...
Revisão Sistemática | Condução• Aplicação do protocolo anterior  – Adaptação da expressão de busca aos portais    escolhid...
Revisão Sistemática | Condução• Pesquisa entre 07/novembro/2012 e 17/novembro/2012                        Publicações por ...
Resultados e Discussão
Resultados |Modelagem•    𝑮(𝒕) é um grafo que sumariza de algum modo a sequência    temporal 𝑮 = (𝑮(𝟏), … , 𝑮(𝒕))• Toda re...
Resultados |Conjuntos de DadosTipo de Rede         Tipo ou Fonte de Dados                     DBLP                     Pri...
Resultados | Métricas• As métricas são as  medidas de Análise de  Redes Complexas   – Qualificam a topologia e     definem...
Resultados | Métricas    Métrica                            Quantidade    Vizinhos Comuns (VC)                       18   ...
Resultados | MétodosTécnica                     QuantidadeÁrvore de Decisão              10                               ...
Resultados | Algoritmos de Base• São algoritmos não-supervisionados utilizados pelos  trabalhos a fim de comparar com os a...
Resultados | Metodologia• Como conduzir e avaliar os experimentos?   – Amostragem   – Avaliação• Amostragem   – Validação ...
Resultados | Aplicações               Aplicações de Segurança               Segurança física               Segurança virtu...
Conclusão• O trabalho investigou como o Aprendizado de Máquina  Supervisionado resolve o problema da Predição de Links em ...
Upcoming SlideShare
Loading in …5
×

Aprendizado de Máquina Supervisionado na Predição de Links em Redes Complexas - Uma Revisão Sistemática

1,050 views

Published on

Como fazer aplicações em redes incompletas? Por que esses nós não estão conectados? Esses nós poderiam se conectar no futuro? Objetivo: investigar como o Aprendizado de Máquina Supervisionado resolve o problema da Predição de Links em Redes Complexas. Como? Utilizando Revisão Sistemática.

Aprendizado de Máquina Supervisionado na Predição de Links em Redes Complexas - Uma Revisão Sistemática

  1. 1. Aprendizado de MáquinaSupervisionado na Predição de Links em Redes Complexas Uma Revisão Sistemática Orlando da Silva Junior Dra. Ana Carolina Lorena
  2. 2. Contexto• Redes Complexas são estudadas em diversas áreas do conhecimento – Pesquisa em ciências humanas – Pesquisa em ciências exatas• Avanços na pesquisa – Proposição de novas tarefas PREDIÇÃO – Proposição de novas aplicações DE LINKS – Proposição de novos estudos
  3. 3. Contexto• Predição de Links – Trata do problema das ligações nas redes • Como fazer aplicações em redes incompletas? • Por que esses nós não estão conectados? • Esses nós poderiam se conectar no futuro? – Técnicas para solucionar esses problemas • Aprendizado de Máquina – Não-Supervisionado – Supervisionado
  4. 4. Objetivo do Trabalho• Investigar como o Aprendizado de Máquina Supervisionado resolve o problema da Predição de Links em Redes Complexas• Como? Utilizando Revisão Sistemática – Processo sistemático para realização de revisão bibliográfica
  5. 5. Revisão Sistemática• Estudo secundário – Auxilia na definição de uma metodologia para identificar, analisar e interpretar todas as evidências disponíveis em questão de pesquisa específica Condução • Identificação das • Formato da necessidades da • Aplicação do publicação revisão protocolo • Meios de • Definição do protocolo • Extração de divulgação de revisão informações Planejamento Publicação
  6. 6. Revisão Sistemática• Objetivos da revisão – Identificar uma teoria geral sobre Predição de Links; – Buscar como a abordagem supervisionada é utilizada para resolver o problema da Predição de Links; – Encontrar bases de dados para benchmarking; – Identificar a forma como a Predição de Links colabora para a Teoria das Redes.
  7. 7. Revisão Sistemática | Planejamento• Necessidade: nenhuma outra publicação semelhante encontrada• Questões de pesquisa – Como o paradigma da aprendizagem supervisionada resolve o problema da Predição de Links? – Como funciona a Predição de Links?
  8. 8. Revisão Sistemática | Planejamento• Pergunta 1: Como o paradigma da aprendizagem supervisionada resolve o problema da Predição de Links? – Quais são as principais técnicas de Aprendizado Supervisionado utilizadas na Predição de Links? – Qual é o tipo de problema supervisionado na Predição de Links? – Como os conjuntos de dados são estruturados? – Quais são os principais atributos e métricas utilizados? – Qual é a metodologia experimental adotada? – Quais são os algoritmos base usados na comparação de resultados?
  9. 9. Revisão Sistemática | Planejamento• Pergunta 2: Como funciona a Predição de Links? – Quais são as bases de dados comumente usadas? – Que tipo de aplicações tratam do problema da Predição de Links?
  10. 10. Revisão Sistemática | Planejamento Expressão geral de busca• Aprendizado de Máquina Supervisionado – supervised machine learning – supervised learning – pattern recognition – data mining• Predição de Links – link prediction – link mining – link analysis Portais de Referências Bibliográficas escolhidos • Portal ACM (ACM Digital Library)• Redes Complexas • Portal IEEE (IEEE Xplore) • Science Direct – network • Web of Science – networks • CiteSeerX • Scopus
  11. 11. Revisão Sistemática | Planejamento• Critérios de exclusão – Publicações que não tratam de Predição de Links • Aplicação ou utilização no tema – Publicações restritas • Acesso não limitado à UFABC ou UNIFESP – Publicações com idioma inacessível • Português, inglês ou espanhol – Restrição por tipo de publicação • Conferências ou periódicos
  12. 12. Revisão Sistemática | PlanejamentoTítulo do Trabalho• Relação com os tópicos de pesquisa Extração de Informações • Título do Trabalho • Autores • Tipo de publicação Resumo • Local e ano • Referência a Predição de Links • Portal bibliográfico • Observações Texto • Leitura parcial • Predição de Links com Aprendizado Supervisionado
  13. 13. Revisão Sistemática | Condução• Aplicação do protocolo anterior – Adaptação da expressão de busca aos portais escolhidos Portal Bibliográfico Quantidade Scopus 107 Portal IEEE 76 Final: 33 Web of Science 36 Trabalhos CiteSeerX 25 Portal ACM 12 Science Direct 3
  14. 14. Revisão Sistemática | Condução• Pesquisa entre 07/novembro/2012 e 17/novembro/2012 Publicações por ano
  15. 15. Resultados e Discussão
  16. 16. Resultados |Modelagem• 𝑮(𝒕) é um grafo que sumariza de algum modo a sequência temporal 𝑮 = (𝑮(𝟏), … , 𝑮(𝒕))• Toda rede em G é do tipo 𝑮 = (𝑽, 𝑬): – 𝑽 é o conjunto de vértices – 𝑬 é o conjunto de arestas, com 𝒆 = (𝒖, 𝒗)• 𝑮(𝒕 + 𝟏) é rotulado – Presença de links  +1 Problema – Ausência de links  -1 Binário• Os vértices u e v pertencem aos grafos 𝑮(𝒕) e 𝑮(𝒕 + 𝟏), mas o par (𝒖, 𝒗) – aresta – só existe em 𝑮(𝒕 + 𝟏)
  17. 17. Resultados |Conjuntos de DadosTipo de Rede Tipo ou Fonte de Dados DBLP PrincipalRede Social Facebook arXiv EnronRede de Informação CiteSeer Utilizadas como Wikipedia Redes Sociais KEGG PATHWAYRede Biológica Proteína-proteínaRede Tecnológica Chamadas Telefônicas
  18. 18. Resultados | Métricas• As métricas são as medidas de Análise de Redes Complexas – Qualificam a topologia e definem as configurações da rede• Análise da estrutura da rede sem necessidade de representações gráficas – Cálculos estatísticos Rede de interações proteína-proteína em Saccharomyces cerevisiae (http://www.visualcomplexity.com)
  19. 19. Resultados | Métricas Métrica Quantidade Vizinhos Comuns (VC) 18 𝑉𝐶 𝑢, 𝑣 = |Γ 𝑢 ∩ Γ 𝑣 | Coeficiente de Adamic-Adar (AA) 16+ Coeficiente de Jaccard (JC) 16 1 𝐴𝐴 𝑢, 𝑣 = Conexão Preferencial (CP) 14 log |Γ 𝑤 | 𝑤 ∈ Γ(u,v) Katz (K) 13 Caminho Mais Curto (CMC) 9 |Γ 𝑢 ∩ Γ 𝑣 |- 𝐽𝐶 𝑢, 𝑣 = Graus do Nó (g) 8 |Γ 𝑢 ∪ Γ 𝑣 | 𝚪(𝐱) é o conjunto de vizinhos do nó x. ∞𝐶𝑃 𝑢, 𝑣 = |Γ 𝑢 | ∙ |Γ 𝑣 | 𝐾 𝑢, 𝑣 = 𝛽 𝑙 ∙ 𝑝𝑎𝑡ℎ𝑠 𝑙 𝑢,𝑣 𝑔 𝑢 = |Γ 𝑢 | 𝑙=1
  20. 20. Resultados | MétodosTécnica QuantidadeÁrvore de Decisão 10 PrincipaisSVM 9 BonsNaive Bayes 5 ResultadosRegressão 6Rede Neural 3k-NN 3Técnica Quantidade BonsModelos probabilísticos 7 ResultadosEnsembles 8 C4.5Outras técnicas 5Proposições 5
  21. 21. Resultados | Algoritmos de Base• São algoritmos não-supervisionados utilizados pelos trabalhos a fim de comparar com os algoritmos supervisionados.• Quais foram os algoritmos? – Comparação entre predidores – Classificador aleatório – Medidas de rede: Katz e Coeficiente de Adamic-Adar• Mas: nem todos os trabalhos realizaram essa comparação ou não deixaram claro – Deficiência na literatura de Predição de Links
  22. 22. Resultados | Metodologia• Como conduzir e avaliar os experimentos? – Amostragem – Avaliação• Amostragem – Validação Cruzada Abordagem Mais Frequente – 10 subconjuntos• Avaliação Alto Desbalanceamento – Área Abaixo da Curva ROC (AUC); ou De Classes – Precisão, Acurácia e Revocação
  23. 23. Resultados | Aplicações Aplicações de Segurança Segurança física Segurança virtual Academia e Pesquisa Coautoria CitaçõesSistemas de RecomendaçãoRecomendação de produtosRecomendação de especialistas Mineração de Links Classificação de Objetos Entity Resolution
  24. 24. Conclusão• O trabalho investigou como o Aprendizado de Máquina Supervisionado resolve o problema da Predição de Links em Redes Complexas – Revisão Sistemática • Formulação de questões de pesquisa • Elaboração e execução de protocolo de pesquisa• Os resultados da pesquisa mostram: – Vantagens e desvantagens da abordagem supervisionada – Método padrão de construção de conjuntos de dados – Principais métricas de redes – Principais bases para benchmarking – Algoritmos mais frequentemente utilizados – Abordagens experimentais mais adotadas• Trabalhos futuros: redes dinâmicas e métodos de avaliação experimental

×