Como fazer aplicações em redes incompletas? Por que esses nós não estão conectados? Esses nós poderiam se conectar no futuro? Objetivo: investigar como o Aprendizado de Máquina Supervisionado resolve o problema da Predição de Links em Redes Complexas. Como? Utilizando Revisão Sistemática.
Sucesso - a verdadeira Vingança de um homem honrado
Aprendizado de Máquina Supervisionado na Predição de Links em Redes Complexas - Uma Revisão Sistemática
1. Aprendizado de Máquina
Supervisionado na Predição de Links
em Redes Complexas
Uma Revisão Sistemática
Orlando da Silva Junior
Dra. Ana Carolina Lorena
2. Contexto
• Redes Complexas são estudadas em diversas
áreas do conhecimento
– Pesquisa em ciências humanas
– Pesquisa em ciências exatas
• Avanços na pesquisa
– Proposição de novas tarefas PREDIÇÃO
– Proposição de novas aplicações DE LINKS
– Proposição de novos estudos
3. Contexto
• Predição de Links
– Trata do problema das ligações nas redes
• Como fazer aplicações em redes incompletas?
• Por que esses nós não estão conectados?
• Esses nós poderiam se conectar no futuro?
– Técnicas para solucionar esses problemas
• Aprendizado de Máquina
– Não-Supervisionado
– Supervisionado
4. Objetivo do Trabalho
• Investigar como o Aprendizado de Máquina
Supervisionado resolve o problema da
Predição de Links em Redes Complexas
• Como? Utilizando Revisão Sistemática
– Processo sistemático para realização de revisão
bibliográfica
5. Revisão Sistemática
• Estudo secundário
– Auxilia na definição de uma metodologia para
identificar, analisar e interpretar todas as
evidências disponíveis em questão de pesquisa
específica
Condução
• Identificação das • Formato da
necessidades da • Aplicação do publicação
revisão protocolo • Meios de
• Definição do protocolo • Extração de divulgação
de revisão informações
Planejamento Publicação
6. Revisão Sistemática
• Objetivos da revisão
– Identificar uma teoria geral sobre Predição de
Links;
– Buscar como a abordagem supervisionada é
utilizada para resolver o problema da Predição de
Links;
– Encontrar bases de dados para benchmarking;
– Identificar a forma como a Predição de Links
colabora para a Teoria das Redes.
7. Revisão Sistemática | Planejamento
• Necessidade: nenhuma outra publicação
semelhante encontrada
• Questões de pesquisa
– Como o paradigma da aprendizagem
supervisionada resolve o problema da Predição de
Links?
– Como funciona a Predição de Links?
8. Revisão Sistemática | Planejamento
• Pergunta 1: Como o paradigma da aprendizagem supervisionada resolve o
problema da Predição de Links?
– Quais são as principais técnicas de Aprendizado Supervisionado utilizadas na
Predição de Links?
– Qual é o tipo de problema supervisionado na Predição de Links?
– Como os conjuntos de dados são estruturados?
– Quais são os principais atributos e métricas utilizados?
– Qual é a metodologia experimental adotada?
– Quais são os algoritmos base usados na comparação de resultados?
9. Revisão Sistemática | Planejamento
• Pergunta 2: Como funciona a Predição de
Links?
– Quais são as bases de dados comumente usadas?
– Que tipo de aplicações tratam do problema da
Predição de Links?
10. Revisão Sistemática | Planejamento
Expressão geral de busca
• Aprendizado de Máquina
Supervisionado
– supervised machine learning
– supervised learning
– pattern recognition
– data mining
• Predição de Links
– link prediction
– link mining
– link analysis Portais de Referências Bibliográficas escolhidos
• Portal ACM (ACM Digital Library)
• Redes Complexas • Portal IEEE (IEEE Xplore)
• Science Direct
– network
• Web of Science
– networks • CiteSeerX
• Scopus
11. Revisão Sistemática | Planejamento
• Critérios de exclusão
– Publicações que não tratam de Predição de Links
• Aplicação ou utilização no tema
– Publicações restritas
• Acesso não limitado à UFABC ou UNIFESP
– Publicações com idioma inacessível
• Português, inglês ou espanhol
– Restrição por tipo de publicação
• Conferências ou periódicos
12. Revisão Sistemática | Planejamento
Título do Trabalho
• Relação com os tópicos de pesquisa
Extração de Informações
• Título do Trabalho
• Autores
• Tipo de publicação
Resumo • Local e ano
• Referência a Predição de Links • Portal bibliográfico
• Observações
Texto
• Leitura parcial
• Predição de Links com Aprendizado
Supervisionado
13. Revisão Sistemática | Condução
• Aplicação do protocolo anterior
– Adaptação da expressão de busca aos portais
escolhidos
Portal Bibliográfico Quantidade
Scopus 107
Portal IEEE 76 Final:
33
Web of Science 36
Trabalhos
CiteSeerX 25
Portal ACM 12
Science Direct 3
14. Revisão Sistemática | Condução
• Pesquisa entre 07/novembro/2012 e 17/novembro/2012
Publicações por ano
16. Resultados |Modelagem
• 𝑮(𝒕) é um grafo que sumariza de algum modo a sequência
temporal 𝑮 = (𝑮(𝟏), … , 𝑮(𝒕))
• Toda rede em G é do tipo 𝑮 = (𝑽, 𝑬):
– 𝑽 é o conjunto de vértices
– 𝑬 é o conjunto de arestas, com 𝒆 = (𝒖, 𝒗)
• 𝑮(𝒕 + 𝟏) é rotulado
– Presença de links +1 Problema
– Ausência de links -1 Binário
• Os vértices u e v pertencem aos grafos 𝑮(𝒕) e 𝑮(𝒕 + 𝟏), mas o par
(𝒖, 𝒗) – aresta – só existe em 𝑮(𝒕 + 𝟏)
17. Resultados |Conjuntos de Dados
Tipo de Rede Tipo ou Fonte de Dados
DBLP Principal
Rede Social Facebook
arXiv
Enron
Rede de Informação CiteSeer Utilizadas como
Wikipedia Redes Sociais
KEGG PATHWAY
Rede Biológica
Proteína-proteína
Rede Tecnológica Chamadas Telefônicas
18. Resultados | Métricas
• As métricas são as
medidas de Análise de
Redes Complexas
– Qualificam a topologia e
definem as configurações
da rede
• Análise da estrutura da
rede sem necessidade de
representações gráficas
– Cálculos estatísticos Rede de interações proteína-proteína
em Saccharomyces cerevisiae
(http://www.visualcomplexity.com)
21. Resultados | Algoritmos de Base
• São algoritmos não-supervisionados utilizados pelos
trabalhos a fim de comparar com os algoritmos
supervisionados.
• Quais foram os algoritmos?
– Comparação entre predidores
– Classificador aleatório
– Medidas de rede: Katz e Coeficiente de Adamic-Adar
• Mas: nem todos os trabalhos realizaram essa
comparação ou não deixaram claro
– Deficiência na literatura de Predição de Links
22. Resultados | Metodologia
• Como conduzir e avaliar os experimentos?
– Amostragem
– Avaliação
• Amostragem
– Validação Cruzada Abordagem Mais Frequente
– 10 subconjuntos
• Avaliação
Alto Desbalanceamento
– Área Abaixo da Curva ROC (AUC); ou De Classes
– Precisão, Acurácia e Revocação
23. Resultados | Aplicações
Aplicações de Segurança
Segurança física
Segurança virtual
Academia e Pesquisa
Coautoria
Citações
Sistemas de Recomendação
Recomendação de produtos
Recomendação de especialistas
Mineração de Links
Classificação de Objetos
Entity Resolution
24. Conclusão
• O trabalho investigou como o Aprendizado de Máquina
Supervisionado resolve o problema da Predição de Links em Redes
Complexas
– Revisão Sistemática
• Formulação de questões de pesquisa
• Elaboração e execução de protocolo de pesquisa
• Os resultados da pesquisa mostram:
– Vantagens e desvantagens da abordagem supervisionada
– Método padrão de construção de conjuntos de dados
– Principais métricas de redes
– Principais bases para benchmarking
– Algoritmos mais frequentemente utilizados
– Abordagens experimentais mais adotadas
• Trabalhos futuros: redes dinâmicas e métodos de avaliação experimental