O documento compara treinamento supervisionado e não supervisionado em sistemas de detecção de intrusão baseados em anomalias. O estudo mostra que o treinamento supervisionado teve melhores resultados em taxas de detecção e falsos positivos, demonstrando que os limites dos grupos são mais consistentes com treinamento supervisionado.
Gerenciamento de TI - Métodos Ágeis por Prof. Me Valdir Morales (Faculdades O...
Comparativo entre treinamento supervisionado e não supervisionado em IDS
1. Estudo comparativo entre
treinamento supervisionado e
não supervisionado em
agrupamento de dados nos
IDSs baseados em anomalias.
18 Maio 2016
Paulo Damasceno Barreto
Proibida cópia ou divulgação sem permissão escrita do CMG Brasil. 1
2. Incidentes reportados ao CERT.br
Proibida cópia ou divulgação sem permissão escrita do CMG Brasil.
2
Fonte:http://www.cert.br/stats/incidentes/
3. Crescimento dos ataques a servidores WEB
Incidentes de segurança caem 31% em 2015, mas
ataques a servidores web aumentam 128%
Fonte: Roberta Prescott - 15/03/2016
ABRANET – Associação Braseira de Internet
http://www.abranet.org.br/Noticias/Incidentes-de-seguranca-caem-
31%25-em-2015,-mas-ataques-a-servidores-web-aumentam-128%25-
1010.html#.VzHR5m7R9pg
Proibida cópia ou divulgação sem permissão escrita do CMG Brasil. 3
4. Principais ataques
a servidores web
Proibida cópia ou divulgação sem permissão escrita do CMG Brasil.
4
Fonte: GUPTA E THILAGAN (2013)
5. IDS – Intrusion Detection System
O objetivo do IDS é
identificar ataques reais e
gerar alertas
Proibida cópia ou divulgação sem permissão escrita do CMG Brasil. 5
6. Classificações Possíveis das requisições
VP (Verdadeiros Positivos): quantidade de ataques
corretamente identificados;
FP (Falsos Positivos): Quantidade de requisições normais
erroneamente classificadas como ataque;
VN (Verdadeiros Negativos): quantidade de requisições
normais (que não foram erroneamente classificados como
ataques);
FN (Falsos Negativos): quantidade de ataques que não
foram identificados e erroneamente classificados como
requisições normais.
Proibida cópia ou divulgação sem permissão escrita do CMG Brasil.
6
9. Agrupamento de
dados
Proibida cópia ou divulgação sem permissão escrita do CMG Brasil.
9
Clustering ou agrupamento
é a tarefa de inserir
objetos dispersos em
grupos de forma que
objetos no mesmo cluster
sejam mais similares do
que objetos pertencentes a
outros clusters.
10. Agrupamento de
dados com k-means
Proibida cópia ou divulgação sem permissão escrita do CMG Brasil.
10
O algoritmo de agrupamento K-means utiliza o conceito de
centroides, que representam o centro de um agrupamento.
Este centro (centroide) é calculado de modo não
supervisionado (automaticamente) durante o processo de
agrupamento de acordo com os valores dos elementos que
serão agrupados.
Fonte Imagem: Ricardo Prudencio - http://slideplayer.com.br/slide/1593946/
11. Campos do cabeçalho HTTP usados no
agrupamento.
Proibida cópia ou divulgação sem permissão escrita do CMG Brasil.
11
1. IP de Origem
2. Caminho de Referência (Resource Path),
3. Métodos (Method),
4. Nome de domínio ou endereço IP do site web (Host),
5. Agente do usuário. (User-Agent),
6. Cookie,
7. URL de referencia (Referer)
8. Conteúdo (Content).
12. Transformação de
dados em valores
numéricos
Proibida cópia ou divulgação sem permissão escrita do CMG Brasil.
12
A conversão precisa
representar a similaridade
entre os campos para que
fiquem próximos no
processo de agrupamento
e desta forma estabelecer
limiares mínimos e
máximos consistentes.
Em requisições normais, os
tamanhos dos campos
possuem valores parecidos
e os limiares mínimos e
máximos num processo de
agrupamento são
consistentes e possuem
similaridade entre si.
13. Estabelecendo os
limites de cada grupo
Proibida cópia ou divulgação sem permissão escrita do CMG Brasil.
13
Determinar os
limites é um dos
grandes desafios no
processo de
agrupamento.
14. Estabelecendo os
limites de cada grupo
Proibida cópia ou divulgação sem permissão escrita do CMG Brasil.
14
Os elementos que
não pertencem a
grupo algum
(outliers) são
classificados como
ataque
15. Treinamento de um IDS baseado em
anomalia com agrupamento de dados
Proibida cópia ou divulgação sem permissão escrita do CMG Brasil.
15
o treinamento é a observação
do comportamento da rede
com o objetivo de estabelecer
um modelo de comportamento
normal e determinar os limites
dos agrupamentos.
16. Treinamento Não
Supervisionado
As requisições não possuem
filtro ou controle de modo que
podem conter ataques. Se a
quantidade de requisições
maliciosas representarem uma
significativa porcentagem de
conexões, o treinamento fica
comprometido pois o IDS
entenderá que os ataques são
requisições normais.
Proibida cópia ou divulgação sem permissão escrita do CMG Brasil. 16
17. Treinamento Não
Supervisionado
A fim de compensar os desvios
gerados por requisições
maliciosas existentes durante
o treinamento, ajustes são
realizados nos limites dos
agrupamentos.
Proibida cópia ou divulgação sem permissão escrita do CMG Brasil. 17
18. Treinamento
Supervisionado
O ambiente de rede é
controlado de modo que
todas as requisições HTTP
são normais.
Proibida cópia ou divulgação sem permissão escrita do CMG Brasil. 18
20. Treinamento Supervisionado
X
Treinamento Não supervisionado
Proibida cópia ou divulgação sem permissão escrita do CMG Brasil.
20
O objetivo é apresentar um estudo
comparativo entre treinamento
supervisionado e não supervisionado em IDSs
baseados em anomalias com agrupamento de
dados e através das analises comparativas dos
resultados, determinar qual técnica oferece
melhor resultado nas taxas de detecção de
intrusão (VP) e falso positivo (FP) e
consequentemente determinar qual técnica
oferece melhor limite de agrupamento.
21. Origem dos dados testados da base CELEPAR –
Tecnologia da informação e comunicação do
Paraná.
Esta base formou-se de requisições a 2 servidores web em
2010 em rede puramente IPv4. Foram gerados
aproximadamente 5 milhões de requisições, separados em
20 arquivos com aproximadamente 250.000 requisições
cada. O primeiro servidor web (WS1) é um portal de
noticias criado com a ferramenta DRUPAL baseado em PHP.
O outro servidor web (WS2) também disponibiliza notícias
e possui diversos fóruns, desenvolvidos com a ferramenta
XOOPS, também em PHP, acessados por centenas de
pessoas.
Proibida cópia ou divulgação sem permissão escrita do CMG Brasil.
21
22. Dados usados no teste
São realizados testes com um total de
2.477.693 requisições analisadas e
catalogadas da base de dados CELEPAR,
com 2.499.730 requisições catalogados
nos primeiros 10 arquivos, sendo que
2.477.693 são requisições normais e
22.037 são anomalias ou ataques.
Proibida cópia ou divulgação sem permissão escrita do CMG Brasil.
22
23. Dados usados no teste
As requisições normais foram separadas
dos ataques e anomalias gerando vinte
arquivos. Dez arquivos com requisições
normais e dez arquivos com ataques e
anomalias. Desta forma os testes são
mais precisos para definir o desempenho
do IDS nas taxas de FP, FN, VP e VN.
Proibida cópia ou divulgação sem permissão escrita do CMG Brasil.
23
24. Escopo dos testes e resultados
Os testes realizados
limitam-se a classificar as
requisições como normais
ou ataques.
Proibida cópia ou divulgação sem permissão escrita do CMG Brasil. 24
25. Testes com Treinamento
supervisionado
O segundo arquivo (teste2) da base de dados
CELEPAR possui 249.998 registros e foi escolhido
para ser usado como base de dados de
treinamento. Todos os 7.698 registros classificados
como ataques e anomalias foram excluídos para o
treinamento.
Nenhum ajuste aos limites dos agrupamentos foi
realizado após o treinamento.
Proibida cópia ou divulgação sem permissão escrita do CMG Brasil.
25
26. Resultado dos testes com
Treinamento supervisionado nas
bases de dados de requisições
normais.
Proibida cópia ou divulgação sem permissão escrita do CMG Brasil.
26
27. Resultado dos testes com
Treinamento supervisionado nas
bases de dados de ataques
Proibida cópia ou divulgação sem permissão escrita do CMG Brasil.
27
28. Testes com Treinamento não
supervisionado
Proibida cópia ou divulgação sem permissão escrita do CMG Brasil.
28
Diversas baterias de testes foram realizadas a fim de
determinar qual o melhor ajuste nos limites dos
agrupamentos.
Testes foram realizados, primeiro sem alterar os
limites dos agrupamentos, sem seguida, os limites
foram reduzidos em 3%, 7% e 10%.
Observou-se que na medida em que os limites eram
reduzidos, a taxa de detecção também aumentava.
Entretanto, a taxa de falsos positivos aumentava
também. Portanto, na busca do melhor equilíbrio
entre a taxa de detecção e de falso positivo, o melhor
valor foi a redução dos limites em 7%.
29. Testes com Treinamento não
supervisionado
Proibida cópia ou divulgação sem permissão escrita do CMG Brasil.
29
Foi usado a mesma base de dados (teste2) da base
de dados CELEPAR que possui 249.998. Todos os
7.698 registros de ataques foram mantidos. A
quantidade de requisições maliciosas representam
3,08% do total de requisições.
30. Resultado dos testes em
requisições normais com
Treinamento não supervisionado
com redução dos limites dos
agrupamentos em 7%.
Proibida cópia ou divulgação sem permissão escrita do CMG Brasil.
30
31. Resultado dos testes em
requisições de ataques com
Treinamento não supervisionado
com redução dos limites dos
agrupamentos em 7%.
Proibida cópia ou divulgação sem permissão escrita do CMG Brasil.
31
33. Conclusão
O treinamento supervisionado obteve melhor
resultado em todos os aspectos. A eficácia superior
do IDs demonstra que a melhor consistência dos
limites dos agrupamentos obtida é com treinamento
supervisionado e reflete diretamente na capacidade
de detecção e consequentemente menores taxas de
falsos positivos.
Ajustes nos limites dos agrupamentos não são
suficientes para compensar dados maliciosos
inseridos no treinamento, mesmo estes sendo em
pouca quantidade.
Proibida cópia ou divulgação sem permissão escrita do CMG Brasil. 33
34. Obrigado!
Paulo Barreto – IPT - pdbarreo@gmail.com
11 98635-0751
Proibida cópia ou divulgação sem permissão escrita do CMG Brasil. 34