SlideShare a Scribd company logo
1 of 464
Download to read offline
Introdução as Redes Neurais Artificiais
Copyright ® Leandro Nunes de Castro 1
INTRODUÇÃO ÀS REDES NEURAIS
ARTIFICIAIS
Este material foi desenvolvido com base na seguinte referência bibliográfica: DE CASTRO, L.
N. Fundamentals of Natural Computing: Basic Concepts, Algorithms, and Applications.
Capítulo 4, CRC Press, 2006. Estes slides foram gerados em 2002 em conjunto com o Prof.
Fernando José Von Zuben da Unicamp, a quem atribuo os devidos créditos e agradecimentos.
Versões mais atuais do material são utilizadas em disciplinas de pós-graduação do Programa de
Pós-Graduação em Engenharia Elétrica (PPGEE) da Universidade Presbiteriana Mackenzie e
da Pós-Graduação da FEEC/Unicamp. O uso deste material para fins acadêmicos é livre e
gratuito, desde que sejam mantidas as informações originais de autoria. A sugestão de citação é:
“L. N. de Castro (2014), Introdução às Redes Neurais Artificiais, Material de Apoio do Curso
de Redes Neurais do PPGEE/Universidade Mackenzie, Disponível online em
http://www.slideshare.net/lndecastro, p. 464.” As referências citadas e não listadas podem ser
encontradas no livro supracitado. Outros cursos do autor, como “Fundamentos de Computação
Natural” e “A Nova Escola do Empreendedorismo” estão disponíveis no mesmo Slideshare.
Mais informações sobre o tema podem ser encontradas no site do Laboratório de Computação
Natural (LCoN): http://www.mackenzie.br/lcon.html.
Introdução as Redes Neurais Artificiais
Copyright ® Leandro Nunes de Castro 2
Sumário
1. Introdução as Redes Neurais Artificiais ............................................................. 9
2. Nomenclatura dos Dados.................................................................................. 11
2.1. Normalização dos Dados de Entrada ........................................................ 14
3. Principais Tarefas em Aprendizagem de Máquina ........................................... 16
3.1. Predição.................................................................................................... 17
3.2. Classificação............................................................................................. 18
3.3. Agrupamento ............................................................................................ 24
3.4. Exemplos de Áreas de Aplicação ............................................................. 26
4. Alguns Conceitos em Estatística....................................................................... 27
4.1. Conceitos Básicos..................................................................................... 28
4.2. Medidas Resumo ...................................................................................... 30
4.3. A Curva Normal ....................................................................................... 31
4.4. Testes de Diferenças entre Médias ........................................................... 33
5. Base Biológica das RNAs................................................................................. 41
6. O Sistema Nervoso........................................................................................... 42
6.1. Níveis de Organização no Sistema Nervoso ............................................. 44
6.2. Base Biológica e Física da Aprendizagem e Memória.............................. 55
7. Projeto de Redes Neurais Artificiais................................................................. 59
7.1. Neurônios Artificiais ................................................................................ 66
Introdução as Redes Neurais Artificiais
Copyright ® Leandro Nunes de Castro 3
7.2. Arquiteturas de Rede ................................................................................ 80
7.3. Paradigmas de Aprendizagem................................................................... 88
8. A Regra de Hebb ............................................................................................ 101
9. O Perceptron Simples ..................................................................................... 104
9.1. Perceptron Simples para Classificação de Padrões................................. 105
9.2. Exemplo de Aplicação e Motivação Geométrica.................................... 108
9.3. Perceptron com Múltiplos Neurônios ..................................................... 110
9.4. Exemplo de Aplicação: Reconhecimento de Caracteres......................... 112
9.5. Aspectos Práticos do Treinamento do Perceptron................................... 113
10. Adaline ........................................................................................................... 115
10.1. A Regra Delta......................................................................................... 115
10.2. Superfícies de Erro ................................................................................. 118
11. Redes Neurais Competitivas: Introdução........................................................ 121
11.1. Quantização Vetorial .............................................................................. 123
12. Rede Neural Competitiva: Algoritmo Básico ................................................. 125
13. Mapas Auto-Organizáveis de Kohonen.......................................................... 130
13.1. Fundamentos........................................................................................... 130
13.2. Projeto de Mapas Auto-Organizáveis ..................................................... 135
13.3. Fase Competitiva .................................................................................... 141
13.4. Fase Cooperativa .................................................................................... 144
13.5. Fase Adaptativa ...................................................................................... 148
Introdução as Redes Neurais Artificiais
Copyright ® Leandro Nunes de Castro 4
14. Exemplos de Aplicação .................................................................................. 151
14.1. Agrupamento de dados (Clusterização) .................................................. 151
14.2. O Problema da Identificação dos grupos ................................................ 154
14.3. Ordenamento de pontos em espaços multidimensionais......................... 156
14.4. Problemas Combinatoriais (Caixeiro Viajante) ...................................... 157
14.5. Questões a serem investigadas................................................................ 158
15. Quantização Vetorial Supervisionada............................................................. 159
16. Referências sobre Redes Auto-Organizadas................................................... 160
17. Introdução às Redes de Hopfield.................................................................... 162
18. Fundamentos de Sistemas Dinâmicos Não Lineares....................................... 164
18.1. Noções Elementares sobre Estabilidade ................................................. 164
18.2. Sistemas Dinâmicos................................................................................ 166
18.3. Sistemas Não lineares Multidimensionais .............................................. 169
18.4. Análise de Sistemas Não lineares ........................................................... 172
18.5. Exemplos de Comportamentos Dinâmicos Não lineares ........................ 174
18.6. Estado Estacionário em Sistemas Não lineares....................................... 177
19. Redes Neurais Recorrentes como Sistemas Dinâmicos Não lineares ............. 194
19.1. Modelos Derivados da Física Estatística ................................................ 196
19.2. Modelo Aditivo de Neurônio.................................................................. 198
19.3. Adaptação para a Rede de Hopfield........................................................ 200
20. Rede de Hopfield Discreta.............................................................................. 206
Introdução as Redes Neurais Artificiais
Copyright ® Leandro Nunes de Castro 5
20.1. Características Operacionais da Rede de Hopfield ................................. 209
20.2. Fase 1: Armazenagem de Padrões (memórias fundamentais)................. 211
20.3. Fase 2: Recuperação dos Padrões (estados de equilíbrio estáveis) ......... 212
20.4. Resumo................................................................................................... 213
20.5. A Emergência de Memória Associativa.................................................. 214
20.6. Atratores Espúrios .................................................................................. 217
20.7. Capacidade de Memória da Rede de Hopfield........................................ 218
20.8. Regra da Projeção................................................................................... 221
21. Referências sobre Redes de Hopfield ............................................................. 222
22. Introdução às Redes RBF ............................................................................... 225
23. Regressão........................................................................................................ 227
23.1. Modelos Lineares de Regressão.............................................................. 231
23.2. Interpolação ............................................................................................ 234
23.3. Redes Neurais para Interpolação ............................................................ 236
23.4. A Função de Base Radial........................................................................ 243
24. Teoria de Regularização ................................................................................. 246
24.1. Aprendizagem Supervisionada como Problema Mal-Comportado......... 246
24.2. Regularização ......................................................................................... 249
24.3. Redes Regularizadoras............................................................................ 254
25. Redes RBF Generalizadas .............................................................................. 257
25.1. Aproximação Universal das Redes RBF................................................. 261
Introdução as Redes Neurais Artificiais
Copyright ® Leandro Nunes de Castro 6
25.2. Maldição da Dimensionalidade............................................................... 262
25.3. Propriedades das Redes RBF.................................................................. 263
26. Treinamento de Redes RBF Generalizadas .................................................... 264
26.1. Seleção de Centros por Auto-Organização ............................................. 266
26.2. Treinamento Supervisionado da Rede RBF............................................ 268
26.3. Um Exemplo de Aproximação Usando Redes RBF ............................... 270
27. Referências sobre Redes RBF ........................................................................ 272
28. Introdução às Redes MLP............................................................................... 275
29. Derivação do Algoritmo de Backpropagation ................................................ 280
29.1. Capacidade de Aproximação Universal.................................................. 287
29.2. Exemplo de Aproximação Universal ...................................................... 291
29.3. Virtudes e Limitações das Redes MLP................................................... 301
30. Aspectos Práticos do Treinamento de Redes MLP......................................... 314
30.1. Treinamento Local ou em Lote............................................................... 314
30.2. Critérios de Parada.................................................................................. 317
30.3. Arquitetura da Rede................................................................................ 321
30.4. Validação Cruzada.................................................................................. 323
30.5. Normalização dos Dados de Entrada ...................................................... 328
30.6. Inicialização dos Vetores de Pesos e Limiares (Bias)............................. 329
31. Referências sobre Redes MLP........................................................................ 334
Introdução as Redes Neurais Artificiais
Copyright ® Leandro Nunes de Castro 7
32. Técnicas de Otimização Não Linear Irrestrita para o Treinamento de Redes
MLP........................................................................................................................ 336
32.1. Série de Taylor e Derivadas de Primeira e Segunda Ordem ................... 339
32.2. Exemplo de aproximação (expansão) em série de Taylor:...................... 340
33. Aproximação de Funções ............................................................................... 343
33.1. Avaliação do Nível de Aproximação...................................................... 344
34. Técnicas de Otimização Não linear Irrestrita.................................................. 347
34.1. Métodos Sem Diferenciação................................................................... 353
34.2. Métodos de Primeira Ordem................................................................... 353
34.3. Métodos de Segunda Ordem................................................................... 358
35. Busca Iterativa da Taxa de Aprendizagem ..................................................... 381
35.1. Busca Simples do Passo.......................................................................... 382
35.2. Método de Fibonacci .............................................................................. 384
35.3. Método da Seção Áurea.......................................................................... 388
35.4. Método da Falsa Posição ........................................................................ 390
36. Comparação de Desempenho ......................................................................... 391
36.1. Desempenho: Velocidade de Convergência............................................ 392
36.2. Capacidade de Generalização ................................................................. 395
37. Referências sobre Otimização Não Linear para Treinamento de Redes MLP 398
38. Máquinas de Vetores Suporte......................................................................... 400
39. Otimização e Produto Interno Kernel ............................................................. 402
Introdução as Redes Neurais Artificiais
Copyright ® Leandro Nunes de Castro 8
39.1. Conceitos de Otimização ........................................................................ 402
39.2. Produto Interno Kernel ........................................................................... 411
40. Teoria do Aprendizado Estatístico.................................................................. 419
40.1. Dimensão VC ......................................................................................... 426
41. O Hiperplano Ótimo....................................................................................... 429
41.1. Hiperplano Ótimo para Classes Linearmente Separáveis ....................... 429
41.2. Hiperplano Ótimo para Classes Não linearmente Separáveis ................. 434
42. SVMs para Classificação................................................................................ 439
42.1. Caso 1: Classes Linearmente Separáveis ................................................ 441
42.2. Caso 2: Classes Não linearmente Separáveis.......................................... 451
42.3. Discussão................................................................................................ 461
43. Referências sobre SVM.................................................................................. 464
Introdução as Redes Neurais Artificiais
Copyright ® Leandro Nunes de Castro 9
1. Introdução as Redes Neurais Artificiais
 A capacidade de aprendizagem ou adaptação (a estímulos recebidos do ambiente)
das redes neurais biológicas (RNBs) é uma de suas mais importantes e marcantes
características.
 Para que uma RNB aprenda é preciso que haja um processo de estimulação
externa, ou seja, é preciso que sejam apresentados exemplos à rede de forma que
ela extraia informação destes exemplos e construa seu ‘modelo interno’ do
ambiente.
 O princípio de funcionamento das redes neurais artificiais (RNAs) é similar ao das
redes neurais biológicas:
o Dado um conjunto de exemplos de entrada, são feitos ajustes nos parâmetros
livres da rede de forma que ela crie um modelo interno capaz de representar os
exemplos de entrada adequadamente.
Introdução as Redes Neurais Artificiais
Copyright ® Leandro Nunes de Castro 10
o O processo de apresentação de dados de entrada e ajuste de parâmetros da rede é
denominado de aprendizagem ou treinamento.
o Este tipo de aprendizagem é conhecido, portanto, como aprendizagem a partir
de dados (learning from data).
 O uso de uma RNA para a solução de um dado problema envolve duas fases:
treinamento e aplicação.
 Assim como no caso das redes biológicas, a aprendizagem de um determinado
conteúdo leva a uma possibilidade de aplicação desta rede a um novo problema,
similar ao aprendido, mas ainda desconhecido.
o Este processo de uso da rede para avaliar novos dados é denominado de
aplicação da rede, e a qualidade (ou desempenho) da rede quando aplicada a
dados não usados no treinamento (novos dados) é conhecida como capacidade
de generalização.
Introdução as Redes Neurais Artificiais
Copyright ® Leandro Nunes de Castro 11
o A capacidade de generalização da rede é uma de suas características essenciais,
pois ela permite que uma RNA seja treinada com um conjunto conhecido de
dados de entrada e posteriormente aplicada na avaliação de novos dados.
o Uma rede com baixa capacidade de generalização pode não ter utilidade prática.
Por exemplo, quando os dados de treinamento possuem muito ruído.
2. Nomenclatura dos Dados
 Os conjuntos de dados ou exemplos usados para o treinamento de redes neurais são
normalmente denominados por dados de treinamento ou dados de entrada.
 Por exemplo, a Tabela 1 apresenta parte de uma base de dados (cadastros) para
solicitação de crédito (financiamento) para pagamento em 36 meses.
Introdução as Redes Neurais Artificiais
Copyright ® Leandro Nunes de Castro 12
Tabela 1: Solicitação de crédito para pagamento em 36 meses.
Salário
R$
Idade Estado
civil
Cartão
de
crédito
Imóveis Veículos Nro de
filhos
Possui
cheque
especial
Financiamento
Pretendido R$
Crédito
autorizado
350 21 Sol. 0 0 0 0 Sim 10.000 Não
3700 52 Cas. 1 1 2 2 Sim 7.000 Sim
1200 26 Cas. 1 0 1 1 Não 10.000 Não
700 25 Sol. 0 0 0 0 Não 5.000 Sim
8500 50 Cas. 2 1 2 2 Sim 40.000 Sim
1800 27 Sol. 1 0 1 0 Sim 20.000 Não
350 20 Sol. 0 0 0 0 Não 10.000 Não
 A nomenclatura usada para descrever cada item desta tabela depende, dentre outros
fatores, da área de pesquisa (disciplina).
 Cada linha desta tabela corresponde a um registro, amostra, exemplo, instância,
objeto, vetor de entradas ou padrão (de entrada ou treinamento). Em mineração
Introdução as Redes Neurais Artificiais
Copyright ® Leandro Nunes de Castro 13
de dados a nomenclatura mais comum é registro, amostra, objeto ou instância.
Em RNAs é mais usual denominar de amostra, padrão de treinamento, padrão de
entrada ou vetor de entradas.
 Cada coluna corresponde a um atributo, característica, entrada ou variável. Em
mineração de dados normalmente denominamos as colunas por atributo ou
variáveis independentes, enquanto em estatística normalmente denominamos por
características (features). Em RNAs geralmente chamamos as colunas de
entradas ou variáveis de entrada, pois cada atributo corresponde a uma das
entradas da rede neural artificial.
 Nota: a representação dos padrões nas linhas é uma convenção da literatura, mas os
padrões também poderiam estar dispostos nas colunas da matriz, desde que isso
seja explicitado.
Introdução as Redes Neurais Artificiais
Copyright ® Leandro Nunes de Castro 14
 Um conjunto de dados pode conter objetos com comportamento distinto do
comportamento geral dos dados ou de seus modelos. Estes objetos são
denominados outliers.
o Entretanto, há aplicações, como detecção de fraudes, onde eventos raros podem
ser mais importantes que os eventos comuns.
o Há técnicas específicas para a identificação de outliers.
 Neste curso usaremos a nomenclatura descrita acima de forma consistente, mas
enfatizando quase sempre a nomenclatura da área de RNAs.
2.1. Normalização dos Dados de Entrada
 Normalização é um processo de transformação dos dados que objetiva torná-los
mais apropriados ao processo de treinamento da rede.
 A necessidade de normalização dos dados para o treinamento de RNAs pode ser
consequência de diversos fatores como, por exemplo, evitar a saturação dos
Introdução as Redes Neurais Artificiais
Copyright ® Leandro Nunes de Castro 15
neurônios e fazer com que cada atributo dos dados de entrada tenha o mesmo
domínio.
 Um atributo é normalizado escalonando seus valores de forma que eles pertençam
a um dado intervalo, por exemplo, [1, 1] ou [0, 1].
 Vamos estudar aqui dois tipos de normalização: a) normalização max-min; e b)
normalização pelo escore-z.
Normalização Max-Min
 A normalização max-min realiza uma transformação linear nos dados originais.
 Assuma que maxa e mina são, respectivamente, os valores máximo e mínimo de
um determinado atributo a.
 A normalização max-min mapeia um valor a em um valor a’ no domínio
[novo_mina, novo_maxa] da seguinte forma:
aaa
aa
a
novonovonovo
a
a min_)min_max_(
minmax
min
' 



Introdução as Redes Neurais Artificiais
Copyright ® Leandro Nunes de Castro 16
Normalização pelo escore-z
 Na normalização pelo escore-z, também conhecida por normalização de média
zero, os valores de um atributo a são normalizados baseado na média e desvio
padrão de a da seguinte forma:
a’ = (a ā)/a,
onde ā é a média e a é o desvio padrão de a.
 Este método de normalização é útil quando os valores máximo e mínimo reais de
um atributo são desconhecidos, ou quando há outliers dominando a normalização
max-min.
3. Principais Tarefas em Aprendizagem de
Máquina
 Dado um conjunto de treinamento há duas principais tarefas que podem ser
executadas por uma RNA: predição (classificação e estimação) e agrupamento.
Introdução as Redes Neurais Artificiais
Copyright ® Leandro Nunes de Castro 17
3.1. Predição
 Predição é uma terminologia usada para se referir à construção e uso de um
modelo para avaliar a classe de uma amostra não rotulada, ou para estimar o valor
de um atributo de uma dada amostra.
o No primeiro caso denominamos a tarefa de classificação; e
o No segundo caso denominamos de regressão (em estatística) ou simplesmente
estimação.
 Sob esta perspectiva, classificação e regressão constituem os dois principais tipos
de problemas de predição, onde a classificação é usada para predizer valores
nominais ou discretos, enquanto a regressão é usada para predizer valores
contínuos ou ordinais.
 Exemplos: classificação (o crédito será oferecido ou não?); regressão (qual o valor
do crédito a ser oferecido?).
Introdução as Redes Neurais Artificiais
Copyright ® Leandro Nunes de Castro 18
3.2. Classificação
 O processo de classificação, assim como o uso das RNAs, possui duas etapas:
o Na primeira etapa a rede neural é treinada, tal que ela se torne capaz de
descrever e distinguir um conjunto pré-determinado de classes. A RNA é
treinada usando um conjunto de treinamento rotulado, ou seja, para cada vetor
de entradas a saída desejada é conhecida. Isso implica na disponibilidade de
pares {(xi,ci)}i = 1,...,N, onde xi e ci i, são os vetores de entrada e as respectivas
saídas desejadas.
o Uma vez que a rede neural está treinada a classificar os dados de treinamento, é
preciso avaliar seu desempenho quando aplicada a dados não usados no
processo de treinamento da rede, conhecidos como dados de teste. O
desempenho da rede quando aplicada a dados de teste oferece uma estimativa de
sua capacidade de generalização.
Introdução as Redes Neurais Artificiais
Copyright ® Leandro Nunes de Castro 19
 Como os rótulos das classes dos dados de treinamento são conhecidos, este
processo é denominado de treinamento supervisionado (ou aprendizagem
supervisionada).
 Exemplos de tarefas de classificação: identificação de spams, classificação de
objetos, atribuição de crédito, etc.
Aprendizagem Supervisionada como Aproximação de Funções
 O processo de treinamento supervisionado pode sempre ser entendido como um
problema geral de aproximação de funções.
 Considere o problema de aproximar uma função g(.): X  m
 r
por um
modelo de aproximação representado pela função ĝ(,): X  P
 r
, onde  
P
(P finito) é um vetor de parâmetros.
 O problema geral de aproximação pode ser formalmente apresentado como segue:
o Considere a função g(): X  m
 r
, que mapeia pontos de um subespaço
compacto X  m
em pontos de um subespaço compacto g[X]  r
.
Introdução as Redes Neurais Artificiais
Copyright ® Leandro Nunes de Castro 20
o Com base nos pares de vetores de entrada saída {(xi,si)}i = 1,...,N, amostrados a
partir do mapeamento determinístico definido pela função g na forma:
si = g(xi)+i, i = 1,...,N, e dado o modelo de aproximação ĝ(,): XP
 r
,
determine o vetor de parâmetros *  P
tal que
dist(g(.), ĝ(,*))  dist(g(.), ĝ(,)), para todo   P
, onde o operador dist(,)
mede a distância entre duas funções definidas no espaço X.
o O vetor l expressa o erro no processo de amostragem, sendo assumido ser de
média zero e variância fixa.
o A solução deste problema, se existir, é denominada a melhor aproximação e
depende diretamente da classe de funções a qual ĝ pertence.
 Em problemas de aproximação utilizando um número finito de dados amostrados e
definido um modelo de aproximação ĝ(,), a distância entre a função a ser
aproximada e sua aproximação dist(g(),ĝ(,)) é uma função apenas do vetor de
parâmetros   P
.
Introdução as Redes Neurais Artificiais
Copyright ® Leandro Nunes de Castro 21
 Tomando a norma euclidiana como a medida de distância, produz-se a seguinte
expressão:
 


N
l
gg
N
J
1
2
)θ,(ˆ)(
1
)θ( xx (1)
 O funcional J: P
  é denominado superfície de erro do problema de
aproximação, pois pode ser interpretado como uma hipersuperfície localizada
“acima” do espaço de parâmetros P
, sendo que para cada ponto   P
corresponde uma “altura” J().
 O termo funcional corresponde a toda função f : X  n
 , e por isso o
problema de minimizar J() torna-se um problema de minimização funcional.
 Dada a superfície de erro, o problema de aproximação passa a ser um problema de
otimização cuja solução é o vetor *  P
que minimiza J(), ou seja,
)θ(minarg*θ
θ
J
P

 (2)
Introdução as Redes Neurais Artificiais
Copyright ® Leandro Nunes de Castro 22
 Durante o processo de aproximação da função g(.) pela função ĝ(,) fornecida
pela rede neural, devem ser considerados três tipos de erros:
 Erro de Representação: primeiro consideremos o caso em que todo o conjunto
amostral está disponível {(xi,si)}i = 1,...,. Assuma, também, que dado
{(xi,si)}i = 1,...,, é possível encontrar um conjunto de parâmetros ótimo *. Neste
caso, o erro vai depender da adequação e do nível de flexibilidade do modelo de
aproximação ĝ(,). Este erro é também conhecido como erro de aproximação,
ou efeito bias.
 Erro de Generalização: em aplicações de mundo real, somente um número finito
de amostras está disponível ou pode ser usado simultaneamente. Além disso, os
dados podem conter ruído. Os valores de g para os quais nenhuma amostra está
disponível devem ser interpolados. Devido a estes fatores pode ocorrer um erro
de generalização, também conhecido como erro de estimação, ou variância.
Introdução as Redes Neurais Artificiais
Copyright ® Leandro Nunes de Castro 23
 Erro de Otimização: como o conjunto de dados é limitado, o erro é avaliado
somente nos pontos que pertencem ao conjunto amostral.
 Dado o conjunto amostral {(xi,si)}i = 1,...,N, o vetor de parâmetros  = * deve
fornecer a melhor função de aproximação possível com base na representação
paramétrica ĝ(,) e na medida de distância.
 Quando o processo de treinamento supervisionado é visto sob uma perspectiva de
aproximação de funções, seu elenco de aplicações se estende para diversas outras
áreas além da classificação e estimação, pois ele gera um mapeamento entrada-
saída.
o Este mapeamento pode ser aplicado, por exemplo, para determinar a saída de um
controlador de um robô autônomo, especificando assim qual a próxima ação do
robô.
Introdução as Redes Neurais Artificiais
Copyright ® Leandro Nunes de Castro 24
3.3. Agrupamento
 Clustering é o nome dado ao processo de agrupamento de um conjunto de objetos
em classes ou clusters (grupos) de objetos similares.
 Diferentemente dos processos de classificação, a análise de clusters considera
dados de entrada não rotulados, ou seja, a classe à qual cada padrão de entrada
pertence não é conhecida a priori.
o O processo de agrupamento ou clusterização é normalmente usado para
identificar tais classes.
 Os objetos são agrupados com o objetivo de maximizar a distância interclasse e
minimizar a distância intraclasse.
o Portanto, um cluster é uma coleção de objetos similares uns aos outros e
dissimilares aos objetos de outros clusters.
 Cada cluster formado pode ser visto como uma classe de objetos.
Introdução as Redes Neurais Artificiais
Copyright ® Leandro Nunes de Castro 25
 Como os rótulos das classes dos dados de treinamento não são conhecidos, este
processo é denominado de treinamento não supervisionado (ou aprendizagem não
supervisionada).
 A figura a seguir apresenta alguns possíveis mapeamentos de RNAs.
-2.5 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5
-2.5
-2
-1.5
-1
-0.5
0
0.5
1
1.5
2
2.5
Random
Introdução as Redes Neurais Artificiais
Copyright ® Leandro Nunes de Castro 26
-2.5 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5
-2.5
-2
-1.5
-1
-0.5
0
0.5
1
1.5
2
2.5
K-Means
3.4. Exemplos de Áreas de Aplicação
 Reconhecimento de padrões (p. ex. visão computacional, análise de sons, etc.);
processamento de sinais; reconhecimento de caracteres; identificação e controle;
biometria; navegação autônoma de robôs; etc.
Introdução as Redes Neurais Artificiais
Copyright ® Leandro Nunes de Castro 27
4. Alguns Conceitos em Estatística
 O processo de treinamento das RNAs envolve a inicialização, geralmente aleatória,
do conjunto de pesos da rede.
o A partir deste conjunto inicial de pesos um algoritmo de aprendizagem é
aplicado à rede para ajustar os valores dos pesos.
o Portanto, cada inicialização da rede pode conduzir a um conjunto final de pesos
diferente.
 Além disso, há outros fatores que normalmente influenciam a determinação de
conjuntos de pesos distintos para a rede a cada vez que ela é treinada, por exemplo,
a ordem de apresentação dos padrões de entrada.
 Conclui-se, portanto, que cada vez que a rede é treinada um desempenho distinto é
apresentado.
 Como consequência, o resultado do processo de treinamento da rede deve ser
avaliado com base em um conjunto amostral de treinamentos e execuções da rede.
Introdução as Redes Neurais Artificiais
Copyright ® Leandro Nunes de Castro 28
 Quando diferentes algoritmos de treinamento e/ou tipos de rede são aplicadas na
solução de um dado problema, seus desempenhos precisam ser comparados
considerando-se critérios de desempenho médio.
o Uma vez determinados os desempenhos médios dos algoritmos, é preciso
considerar também se há uma diferença significativa entre estes desempenhos.
Para isso, são utilizados testes de significância estatística.
4.1. Conceitos Básicos
 Uma população é a coleção completa de elementos a serem estudados, por
exemplo, valores, medidas, cidades, etc.
 Amostra é um subconjunto dos elementos extraído da população.
 Uma variável aleatória x é uma variável que admite um valor numérico para cada
resultado de um experimento.
o A palavra aleatória indica que, normalmente, só podemos saber seu valor após a
execução do experimento.
Introdução as Redes Neurais Artificiais
Copyright ® Leandro Nunes de Castro 29
o Portanto, para cada valor possível da variável há uma probabilidade associada.
 Uma variável aleatória discreta admite um número finito ou contável de possíveis
valores.
 O termo probabilidade refere-se à frequência relativa de ocorrência de um dado
ou evento qualquer, ou seja, a probabilidade associada a um evento qualquer é o
número de vezes que tal evento pode ocorrer em relação ao número total de
eventos.
 A distribuição de probabilidade discreta P, também chamada de função de
probabilidade discreta, fornece a probabilidade de ocorrência de cada valor de
uma variável aleatória discreta.
 Qualquer distribuição P deve satisfazer as seguintes condições:
P(x) = 1, x; e 0  P(x)  1, x. (3)
Introdução as Redes Neurais Artificiais
Copyright ® Leandro Nunes de Castro 30
4.2. Medidas Resumo
 Algumas medidas podem ser usadas para resumir ou sumarizar a informação
contida em uma base de dados.
 Dois tipos de medidas são importantes: medidas de tendência central e medidas de
dispersão.
 As medidas de tendência central mais comuns são: média, mediana e moda:
Média: 

N
i
ix
N
x
1
1
.
Mediana: valor central.
Moda: valor mais frequente.
 As medidas de dispersão fornecem informação sobre a variabilidade dos dados.
Por exemplo, a variância corresponde à variação dos dados em relação à média.
Variância: 

N
i
i xx
N
x
1
2
)(
1
)var( .
Introdução as Redes Neurais Artificiais
Copyright ® Leandro Nunes de Castro 31
Desvio padrão: )var()( xx  .
4.3. A Curva Normal
 Em estatística, a curva normal é uma distribuição comum na qual é possível
determinar a probabilidade associada a todos os pontos da linha de base da
distribuição.
o Ela pode ser vista como uma distribuição de frequências, onde a frequência total
sob a curva é 100%.
o Essa curva apresenta uma área central que circunda a média ū onde se localizam
os escores mais frequentes e há, ainda, áreas progressivamente menores em
ambas extremidades (caudas).
Introdução as Redes Neurais Artificiais
Copyright ® Leandro Nunes de Castro 32
ū 223 3
68,26%
95,44%
99,74%
Figura 1: Curva normal com as porcentagens da área total compreendidas entre , 2 e 3.
 Para calcular a porcentagem exata entre a média e diversas distâncias-sigma da
curva normal é empregada uma tabela.
o O cálculo da distância sigma a partir da média ū produz um valor chamado
escore z ou escore padronizado, que indica, em unidades de desvio padrão, o
Introdução as Redes Neurais Artificiais
Copyright ® Leandro Nunes de Castro 33
sentido e o grau com que um dado escore bruto se afasta da média da sua
distribuição de frequências:
z = (u ū)/, (4)
onde  é o desvio padrão da distribuição.
o Exemplo: um escore z de 1,4 significa que o escore bruto está a 1,4 à direita
da média.
4.4. Testes de Diferenças entre Médias
 Os testes de diferença entre médias são usados para verificar se há uma diferença
significativa entre uma amostra e outra.
o No contexto de RNAs, ele permite-nos verificar se o desempenho apresentado
por um algoritmo é significativamente superior ao desempenho de outro
algoritmo ou não.
 Tornou-se habitual em estatística começar pelo teste da hipótese nula, que afirma
que duas amostras foram extraídas da mesma população.
Introdução as Redes Neurais Artificiais
Copyright ® Leandro Nunes de Castro 34
o De acordo com a hipótese nula, qualquer diferença entre as amostras é resultado
do processo amostral. Portanto, uma diferença entre médias amostrais não
representa uma verdadeira diferença entre as médias populacionais.
 De forma complementar à hipótese nula, a hipótese experimental afirma existir
uma verdadeira diferença populacional.
 A distribuição amostral de diferenças oferece uma base sólida para testarmos
hipóteses acerca da diferença média entre duas amostras aleatórias.
Grandes Amostras
 Vamos assumir inicialmente que estamos trabalhando com uma grande amostra, ou
seja, que N  30.
 Para compararmos duas amostras faremos o seguinte raciocínio:
o Se a diferença média entre duas amostras situar-se ‘tão longe’ da diferença zero
de forma a conferir-lhe somente uma pequena probabilidade de ocorrência na
Introdução as Redes Neurais Artificiais
Copyright ® Leandro Nunes de Castro 35
distribuição amostral de diferenças, rejeitaremos a hipótese nula, ou seja, a
hipótese que afirma ser a diferença obtida apenas ação do acaso.
o Analogamente, se a diferença média amostral for tão próxima de zero tal que sua
probabilidade de ocorrência seja grande, então devemos aceitar a hipótese nula e
tratar a diferença obtida como resultante de erro de amostragem.
 Portanto, devemos procurar determinar a que distância a diferença média obtida
fica da diferença média de zero.
 Para decidir se a diferença amostral obtida é estatisticamente significante (ou seja,
resultado de uma real diferença entre as populações e não apenas produto de erro
amostral) é habitual estabelecer um nível de confiança, também chamado de nível
de significância.
o O nível de significância representa a probabilidade com que a hipótese nula
pode ser rejeitada com confiança.
Introdução as Redes Neurais Artificiais
Copyright ® Leandro Nunes de Castro 36
o Analogamente, o nível de significância representa a probabilidade com que a
hipótese experimental pode ser aceita com confiança.
o Por convenção, usamos um nível de significância de 5%, mas também é comum
uma escolha mais rigorosa de 1%.
 Dadas duas amostras, podemos estimar de forma acurada o desvio padrão da
distribuição de diferenças, designada erro padrão da diferença dif:
dif = (ū1
2
+ ū2
2
)½
, (5)
onde dif é o erro padrão da diferença, ū1 é o erro padrão da primeira média
amostral e ū2 é o erro padrão da segunda média amostral.
 O erro padrão para cada média amostral é calculado através do desvio padrão das
amostras:
ū = s/((N 1)½
). (6)
 Uma vez que conhecemos o erro padrão para cada média amostral, podemos obter
o erro padrão da diferença pela Equação (5).
Introdução as Redes Neurais Artificiais
Copyright ® Leandro Nunes de Castro 37
 A diferença média amostral obtida pode ser traduzida no seu equivalente z:
z = (ū1 ū2)/dif. (7)
 Utilizando a tabela de porcentagem da área sob a curva normal entre ū e z, verifica-
se que um escore z encontrado representa um percentual das diferenças médias
para cada lado à partir da média.
 Se subtrairmos essa soma de 100% encontraremos o valor dos escores-diferenças
entre médias. Este valor deve ser comparado ao nível de significância pré-
determinado para verificar se a hipótese nula deve ou não ser aceita.
 Resumo:
o Passo 1: achar a média e o desvio padrão de cada amostra.
o Passo 2: achar o erro padrão de cada média (Eq. 6)
o Passo 3: achar o erro padrão da diferença (Eq. 5)
o Passo 4: traduzir a diferença média amostral em unidades de erro padrão da
diferença (Eq. 7)
Introdução as Redes Neurais Artificiais
Copyright ® Leandro Nunes de Castro 38
o Passo 5: achar a porcentagem da área total sob a curva normal entre z e a média
das diferenças.
o Passo 6: subtrair de 100% para achar a porcentagem da área total associada à
diferença média amostral obtida.
o Conclusão: Se a probabilidade de ocorrência da diferença média é maior do
que o nível de significância pré-determinado, então a hipótese nula deve ser
aceita.
Pequenas Amostras
 Em muitos casos efetuar 30 ou mais treinamentos e execuções de uma RNA pode
ser muito custoso computacionalmente.
 Nestes casos, onde a quantidade de amostras é pequena, por exemplo, N = 10, a
tabela que fornece a porcentagem de área sob a curva normal entre ū e z fica
comprometida.
Introdução as Redes Neurais Artificiais
Copyright ® Leandro Nunes de Castro 39
 Isso ocorre, pois a distribuição amostral de diferenças só assume a forma da curva
normal se as amostras que a compõem forem grandes.
 Esse afastamento da normalidade na distribuição de diferenças pode ser
compensado estatisticamente mediante o uso do que se convencionou chamar
razão t.
 Assim como no caso do escore z, a razão t pode ser usada para traduzir uma
diferença média amostral em unidades de erro padrão da diferença.
 A razão t pode ser obtida da seguinte forma: calcular a diferença entre as médias
das amostras e dividi-la pelo erro padrão da diferença:
t = (ū1 ū2)/dif. (8)
 Porém, ao contrário do que ocorre com a estatística z, a razão t precisa ser
interpretada considerando-se o número de graus de liberdade, gl:
gl = N  1, (9)
onde Ni é o número de elementos da amostra i.
Introdução as Redes Neurais Artificiais
Copyright ® Leandro Nunes de Castro 40
 Dado o valor de gl encontrado emprega-se uma tabela com os valores de t em
função dos graus de liberdade e do nível de significância escolhidos. Esta tabela
fornece os valores necessários para rejeição da hipótese nula.
Introdução as Redes Neurais Artificiais
Copyright ® Leandro Nunes de Castro 41
5. Base Biológica das RNAs
 Como o cérebro processa informação? Como ele é organizado? Quais são os
mecanismos envolvidos no funcionamento cerebral?
 Estas são apenas algumas das perguntas mais desafiadoras para a ciência.
 O cérebro é especialista em desempenhar funções como reconhecimento de
padrões, controle motor, percepção, inferência, intuição, adivinhações, etc.
Entretanto, o cérebro também é “preconceituoso”, lento, impreciso, realiza
generalizações incorretas e, acima de tudo, é geralmente incapaz de explicar suas
próprias ações (embora este seja um requisito cultural e não funcional).
 Os neurônios são considerados as unidades básicas de processamento do cérebro.
 De modo análogo, modelos simplificados dos neurônios biológicos constituem as
unidades básicas de processamento das redes neurais artificiais (RNAs).
Introdução as Redes Neurais Artificiais
Copyright ® Leandro Nunes de Castro 42
 Os neurônios biológicos estão conectados uns aos outros por meio de conexões
sinápticas. Acredita-se que a capacidade das sinapses serem moduladas é a
principal base para todos os processos cognitivos, como percepção, raciocínio e
memória.
 Sendo assim, algumas informações essenciais sobre neurônios, sinapses e
organização estrutural, são importantes para o projeto de RNAs.
6. O Sistema Nervoso
 Todos os organismos multicelulares possuem algum tipo de sistema nervoso, cuja
complexidade e organização varia de acordo com o tipo de animal.
 Mesmo os vermes, lesmas e insetos são capazes de adaptar seu comportamento e
armazenar informações em seus sistemas nervosos.
 O sistema nervoso é responsável por dotar o organismo, por meio de entradas
sensoriais, de informações sobre o estado do ambiente no qual ele vive e se move.
Introdução as Redes Neurais Artificiais
Copyright ® Leandro Nunes de Castro 43
A informação de entrada é processada, comparada com as experiências passadas, e
transformada em ações apropriadas ou absorvidas sob a forma de conhecimento.
 Anatomicamente, o sistema nervoso possui duas divisões principais: sistema
nervoso central e sistema nervoso periférico, sendo que a diferença básica entre
eles está na localização.
Brainstem:
. midbrain
. pons
. medulla
Diencephalon
. thalamus
. hypothalamus
Cerebrum
Cerebellum
Forebrain
Introdução as Redes Neurais Artificiais
Copyright ® Leandro Nunes de Castro 44
6.1. Níveis de Organização no Sistema Nervoso
 As estruturas que realmente constituem um nível de organização do sistema
nervoso são definidas de forma empírica.
 Sendo assim, algumas estruturas particularmente interessantes ao estudo das RNAs
serão discutidas aqui.
 O sistema nervoso pode ser organizado em diferentes níveis: moléculas, sinapses,
neurônios, camadas, mapas e sistemas.
 Uma estrutura facilmente identificável no sistema nervoso é o neurônio,
especialista em processamento de sinais.
 Dependendo das condições ambientais, os neurônios são capazes de gerar um
sinal, mais especificamente um potencial elétrico, que é utilizado para transmitir
informação a outras células.
Introdução as Redes Neurais Artificiais
Copyright ® Leandro Nunes de Castro 45
h
Brain
Network of
neurons
Neuron
Synapse
Neurônios e Sinapses
 Os neurônios utilizam uma variedade de mecanismos bioquímicos para o
processamento e transmissão de informação, incluindo os canais iônicos.
Introdução as Redes Neurais Artificiais
Copyright ® Leandro Nunes de Castro 46
 Os canais iônicos permitem um fluxo contínuo de entrada e saída de correntes
(elétricas), a geração e a propagação de potenciais de ação, e a liberação de
neurotransmissores.
 O processo de transmissão de sinais entre neurônios é central para a capacidade de
processamento de informação do cérebro.
 Uma das descobertas mais empolgantes em neurociência foi a de que a efetividade
da transmissão de sinais pode ser modulada, permitindo o cérebro se adaptar a
diferentes situações.
 A plasticidade sináptica, ou seja, a capacidade das sinapses sofrerem
modificações, é o ingrediente chave para o aprendizado da maioria das RNAs.
 Os neurônios podem receber e enviar sinais a vários outros neurônios.
 Os neurônios que enviam sinais, chamados de neurônios pré-sinápticos ou
“enviadores”, fazem contato com os neurônios receptoress ou pós-sinápticos em
regiões especializadas denominadas de sinapses.
Introdução as Redes Neurais Artificiais
Copyright ® Leandro Nunes de Castro 47
Cell body
(soma)
Axon
Synaptic
clefts
Dendrites
Axon hillock
Mielin sheath
 A sinapse é, portanto, a junção entre o axônio de um neurônio pré-sináptico e o
dendrito ou corpo celular de um neurônio pós-sináptico (ver figura).
 A capacidade de processamento de informação das sinapses permite que elas
alterem o estado de um neurônio pós-sináptico, eventualmente gerando um pulso
elétrico, denominado potencial de ação, no neurônio pós-sináptico.
Introdução as Redes Neurais Artificiais
Copyright ® Leandro Nunes de Castro 48
 Portanto, um neurônio pode ser visto como um dispositivo capaz de receber
estímulos (de entrada) de diversos outros neurônios e propagar sua única saída,
função dos estímulos recebidos e do estado interno, a vários outros neurônios.
 Existem diversos mecanismos envolvidos na transmissão de informação (sinais)
entre neurônios. Como os neurônios são células encapsuladas por membranas,
pequenas aberturas nestas membranas (canais) permitem a transferência de
informação entre eles.
 Os mecanismos básicos de processamento de informação são baseados no
movimento de átomos carregados, ou íons:
o Os neurônios habitam um ambiente líquido contendo certa concentração de íons,
que podem entrar ou sair do neurônio através dos canais.
o Um neurônio é capaz de alterar o potencial elétrico de outros neurônios,
denominado de potencial de membrana, que é dado pela diferença do potencial
elétrico dentro e fora do neurônio.
Introdução as Redes Neurais Artificiais
Copyright ® Leandro Nunes de Castro 49
o Quando um potencial de ação chega ao final do axônio, ele mobiliza alguns íons
abrindo os canais (que são sensíveis à tensão) e permitindo fluir íons para o
terminal, eventualmente resultando na liberação de íons no canal.
o Estes íons promovem a liberação de neurotransmissores (substâncias químicas)
na fenda sináptica que se difundem e se ligam a receptores no neurônio pós-
sináptico.
o Os neurotransmissores recebidos pelo neurônio pós-sináptico se propagam até o
corpo celular, são integrados e o potencial de membrana resultante irá
determinar a ativação do neurônio, que corresponde ao envio de um sinal de
saída a outro(s) neurônio(s).
o Entretanto, a ativação de um neurônio ocorre apenas quando seu potencial de
membrana é maior do que um dado limiar (threshold).
o Alguns neurotransmissores possuem a capacidade de ativar um neurônio
enquanto outros possuem a capacidade de inibir a ativação do neurônio, levando
Introdução as Redes Neurais Artificiais
Copyright ® Leandro Nunes de Castro 50
o neurônio pós-sináptico a um estado de repouso. Este último tipo de
neurotransmissor gera um potencial de repouso.
 A ativação de um neurônio é também denominada de spiking, firing, ou disparo de
um potencial de ação (triggering of an action potential).
Redes, Camadas e Mapas
 Os neurônios podem ter conexões de sentido positivo (feedforward) e/ou de
sentido negativo (feedback) com outros neurônios, ou seja, as conexões podem ter
um único sentido ou serem recíprocas.
 Diversos neurônios interconectados geram uma estrutura em rede conhecida como
rede neural.
o Por exemplo, em um milímetro cúbico de tecido do córtex, existe
aproximadamente 105
neurônios e 109
sinapses, com a grande maioria destas
sinapses se originando de células localizadas dentro do córtex.
Introdução as Redes Neurais Artificiais
Copyright ® Leandro Nunes de Castro 51
 Um agrupamento de neurônios interconectados pode exibir comportamentos
complexos e uma capacidade de processamento de informação que não pode ser
predita tomando-se cada neurônio individualmente.
 Uma característica marcante das redes neurais é a representação distribuída de
informação e seu processamento paralelo.
 Redes neurais com arquiteturas específicas são incorporadas em estruturas maiores
capazes de realizar tarefas ainda mais complexas.
 Muitas áreas do cérebro apresentam uma organização laminar de neurônios.
Lâminas são camadas de neurônios em contato com outras camadas.
Introdução as Redes Neurais Artificiais
Copyright ® Leandro Nunes de Castro 52
Introdução as Redes Neurais Artificiais
Copyright ® Leandro Nunes de Castro 53
 Um dos arranjos mais comuns de neurônios é uma estrutura bidimensional em
camadas organizada através de um arranjo topográfico das respostas de saída. O
exemplo mais conhecido deste tipo de estrutura é o córtex humano.
 O córtex corresponde à superfície externa do cérebro; uma estrutura bidimensional
com vários dobramentos, fissuras e elevações.
 Diferentes partes do córtex possuem diferentes funções (ver figura).
 Em geral os neurônios do córtex estão organizados em camadas distintas, que são
subdivididas em camada de entrada, camadas intermediárias ou escondidas e
camada de saída.
 A camada de entrada recebe os sinais sensoriais ou de entrada, a camada de saída
envia sinais para outras partes do cérebro e as camadas intermediárias recebem
(enviam) sinais de (para) outras camadas do córtex. Isso significa que as camadas
intermediárias nem recebem entradas diretamente e nem produzem uma saída do
tipo motora, por exemplo.
Introdução as Redes Neurais Artificiais
Copyright ® Leandro Nunes de Castro 54
 Um princípio organizacional importante em vários sistemas sensoriais e motores é
o mapa topográfico.
Introdução as Redes Neurais Artificiais
Copyright ® Leandro Nunes de Castro 55
o Por exemplo, neurônios em áreas visuais do córtex estão arranjados
topograficamente, no sentido de que neurônios adjacentes possuem campos de
recepção visual adjacentes e, coletivamente, eles constituem um mapa da retina.
o Obs: Como neurônios vizinhos ocupam-se de representações similares, mapas
topográficos constituem uma forma parcimoniosa de organização do cérebro (há
economia de conexões, por exemplo).
 A organização estrutural em redes, mapas topográficos e camadas são todos casos
especiais de um princípio mais geral: a exploração das propriedades estruturais e
espaço-temporais para o processamento e armazenagem de informação.
6.2. Base Biológica e Física da Aprendizagem e Memória
 O sistema nervoso está continuamente sofrendo modificações e atualizações.
Virtualmente todas as suas funções, incluindo percepção, controle motor,
regulação térmica e raciocínio, são modificadas por estímulos.
Introdução as Redes Neurais Artificiais
Copyright ® Leandro Nunes de Castro 56
 Observações comportamentais permitiram verificar graus de plasticidade do
sistema nervoso: existem mudanças rápidas e fáceis, mudanças lentas e profundas,
e mudanças mais permanentes (porém ainda modificáveis).
 Em geral, a aprendizagem global é resultado de alterações locais nos neurônios.
 Existem diversas formas de modificações possíveis em um neurônio:
o Dendritos podem nascer, assim como também podem ser removidos
o Alguns dendritos podem se esticar ou ser encolhidos permitindo ou eliminando,
respectivamente, a conexão com outras células
o Novas sinapses podem ser criadas ou sofrerem alterações
o Sinapses também podem ser removidas
o Todo neurônio pode morrer e também se regenerar.
 Toda esta vasta gama de adaptação estrutural pode ser convenientemente
condensada simplesmente referindo-se às sinapses, pois estas modificações
envolvem a modificação sináptica de forma direta ou indireta.
Introdução as Redes Neurais Artificiais
Copyright ® Leandro Nunes de Castro 57
 Sendo assim, a aprendizagem via modulação sináptica é o mecanismo mais
importante para as redes neurais, sejam elas biológicas ou artificiais.
 A modulação sináptica poderá depender de mecanismos de adaptação de neurônios
individuais e de redes neurais como um todo.
 Assim como a aprendizagem, a memória também é resultado de um processo
adaptativo das sinapses. Ela é causada por variações da eficiência sináptica de
alguns neurônios como resultado da atividade neural.
 Estas alterações resultam em novos ou facilitados caminhos de desenvolvimento e
transmissão de sinais através dos circuitos neurais.
 Na verdade, um dos resultados de um processo de aprendizagem é a criação de um
padrão mais permanente de conexões sinápticas, que, por sua vez, resulta na
memorização (aprendizagem) de uma determinada experiência.
 Note, portanto, que a diferença entre aprendizagem e memória é sutil: a
aprendizagem pode ser vista como o processo adaptativo que resulta em uma
Introdução as Redes Neurais Artificiais
Copyright ® Leandro Nunes de Castro 58
mudança da eficiência e estrutura sináptica, enquanto a memória pode ser
interpretada como o resultado deste processo adaptativo.
Introdução as Redes Neurais Artificiais
Copyright ® Leandro Nunes de Castro 59
7. Projeto de Redes Neurais Artificiais
 Uma RNA pode ser definida como sendo uma estrutura de processamento (rede),
passível de implementação em dispositivos eletrônicos, composta por um número
de unidades interconectadas (neurônios artificiais), sendo que cada unidade
apresenta um comportamento específico de entrada/saída (computação local),
determinado pela sua função de transferência, pelas interconexões com outras
unidades, dentro de um raio de vizinhança, e possivelmente pelas entradas
externas.
 Uma rede neural artificial é um circuito composto por uma grande quantidade de
unidades simples de processamento inspiradas no sistema neural (Nigrin, 1993).
 Uma RNA é um sistema massivamente paralelo e distribuído, composto por
unidades de processamento simples que possuem uma capacidade natural de
armazenar e utilizar conhecimento (Haykin, 2008).
Introdução as Redes Neurais Artificiais
Copyright ® Leandro Nunes de Castro 60
Período Pesquisadores Avanços
1943 McCulloch e Pitts Modelo lógico do neurônio
1948 Wiener
Livro Cybernetics (controle, comunicação e
processamento de sinais)
1949 Hebb
Livro The Organization of Behavior (primeira
regra de aprendizagem)
1958 Rosenblatt Perceptron convergence theorem
1960 Widrow e Hoff Least-mean square algorithm
1969 Minsky e Papert
Livro Perceptrons (demonstrou limites
fundamentais das redes SLP)
1979 Werbos Reverse-mode gradient computation**
1980 Grossberg A new principle of self-organization (ART)
1982 Hopfield
Uso de uma função de energia para redes
recorrentes com conexões simétricas
1982 Kohonen
Redes competitivas e mapas auto-organizáveis de
Kohonen
1983 Barto, Sutton e Anderson Reinforcement learning
1986 Rumelhart e McClelland Processamento paralelo distribuído
1988 Broomhead e Lowe Redes RBF
1992 Vapnik Máquinas de vetores suporte
Tabela 2  Marcos históricos da pesquisa em Redes Neurais Artificiais
Introdução as Redes Neurais Artificiais
Copyright ® Leandro Nunes de Castro 61
 As RNAs apresentam diversas características em comum com o sistema nervoso:
o O processamento básico de informação ocorre em diversas unidades simples
denominadas de neurônios artificiais ou simplesmente neurônios (ou nós);
o Os neurônios estão interconectados gerando redes de neurônios, ou redes
neurais;
o A informação (sinais) é transmitida entre neurônios através de conexões ou
sinapses;
o A eficiência de uma sinapse, representada por um peso associado, corresponde
à informação armazenada pelo neurônio e, portanto, pela rede neural; e
o O conhecimento é adquirido do ambiente através de um processo de
aprendizagem que é, basicamente, responsável por adaptar os pesos das
conexões aos estímulos recebidos do ambiente.
Introdução as Redes Neurais Artificiais
Copyright ® Leandro Nunes de Castro 62
 Uma característica importante das RNAs é o local onde o conhecimento está
armazenado. Nos casos mais simples, este conhecimento é armazenado nos pesos
das conexões entre neurônios.
 Esta característica tem grandes implicações para a capacidade de processamento e
aprendizagem da rede.
 A representação do conhecimento é feita tal que o conhecimento necessariamente
influencie a forma de processamento da rede, ou seja, o seu comportamento de
entrada-saída.
 Se o conhecimento está armazenado nos pesos das conexões, então o processo de
aprendizagem corresponde a identificar um conjunto apropriado de pesos de
forma que a rede se comporte como desejado.
 Esta característica possui duas implicações importantes para as RNAs: a
possibilidade de desenvolvimento de técnicas de aprendizagem e a representação
distribuída de conhecimento.
Introdução as Redes Neurais Artificiais
Copyright ® Leandro Nunes de Castro 63
 Existem tipos de redes neurais cujo treinamento (ou projeto) é mais complicado do
que a simples determinação de conjuntos apropriados de pesos sinápticos.
 Uma rede neural artificial pode ser projetada através de:
1. Uma definição ou escolha de um conjunto de neurônios artificiais;
2. A definição ou escolha de um padrão de conectividade entre os neurônios, ou
seja, de uma arquitetura para a rede; e
3. A definição de um método de determinação dos parâmetros livres da rede,
denominado de algoritmo de aprendizagem ou treinamento.
 Embora seja possível projetar uma rede neural a partir da definição do papel
(computação global) que ela deve desempenhar, combinando-se os efeitos
individuais de todos os neurônios, uma rede neural usualmente se adapta para
atingir a funcionalidade desejada a partir de uma ou mais estratégias de
aprendizado, as quais vão atuar junto a parâmetros configuráveis da rede neural.
Introdução as Redes Neurais Artificiais
Copyright ® Leandro Nunes de Castro 64
 É fundamental, portanto, que a rede neural possua meios de interagir com o
ambiente.
 Cada rede neural artificial representa uma arquitetura de processamento
específica, havendo uma família de arquiteturas, cada qual adequada para
funcionalidades específicas.
 A diversidade de arquiteturas tem aumentado muito, sendo que as últimas
gerações de redes neurais já não podem ser caracterizadas por apresentarem um
grande número de unidades e conexões, com funções de transferência simples e
idênticas para todas as unidades.
 Portanto, a funcionalidade de uma rede neural artificial será determinada pela:
o Topologia da rede
o Função de transferência de cada neurônio individual
o Estratégia de aprendizado
o Dados de treinamento
Introdução as Redes Neurais Artificiais
Copyright ® Leandro Nunes de Castro 65
 No entanto, analisar o papel de cada componente da rede neural no resultado final
não é uma tarefa elementar.
 É por este motivo que as mais avançadas estratégias de aprendizado passaram a
ser responsáveis pela definição automática de muitas características de projeto,
antes a cargo do projetista.
 O projetista geralmente não possui informação a priori suficiente para definir, por
exemplo, a melhor topologia da rede e as funções de transferência que devem ser
utilizadas em cada neurônio, deixando apenas as conexões ajustáveis a cargo do
algoritmo de treinamento.
 Quando o aprendizado atua apenas modificando as conexões, ao arbitrar a
topologia da rede e as funções de transferência que devem ser utilizadas em cada
neurônio, o projetista está “introduzindo um conhecimento inicial”, cujo nível de
adequação pode não estar a seu alcance.
Introdução as Redes Neurais Artificiais
Copyright ® Leandro Nunes de Castro 66
7.1. Neurônios Artificiais
 No neurônio biológico, os sinais de entrada chegam através de canais localizados
nas sinapses, permitindo a entrada e saída de íons. Um potencial de membrana
aparece como resultado da integração dos sinais de entrada, que irão determinar se
o neurônio irá produzir um sinal de saída (spike, pulso, ou potencial de ação) ou
não. O potencial de ação resulta na liberação de neurotransmissores na sinapse
sempre que o potencial de membrana for superior a um determinado limiar
(threshold).
 O efeito líquido de todos estes processos biológicos que ocorrem nas sinapses é
representado por um peso associado.
O Neurônio de McCulloch e Pitts
 O modelo mais clássico de neurônio em RNAs foi proposto por McCulloch e Pitts
em 1943. Eles assumiram que o neurônio está executando uma função lógica.
Introdução as Redes Neurais Artificiais
Copyright ® Leandro Nunes de Castro 67
 Este trabalho, intitulado “Um cálculo lógico das ideias intrínsecas da atividade
neural” é bastante famoso e exerceu grande influência na comunidade científica da
época.
 Foi a primeira tentativa de entender a atividade neural baseado em unidades
elementares de computação. Foram supostas cinco premissas:
o A atividade do neurônio é binária (“tudo-ou-nada”), podendo apresentar apenas
dois estados lógicos: 1 (ativo) ou 0 (inativo);
o Uma certa quantidade fixa de sinapses deve ser excitada em um período latente
de adição de forma a excitar o neurônio e este número é independente da
atividade prévia e da posição do neurônio;
o O único atraso significativo no cérebro é o atraso do processamento sináptico;
o A atividade de uma sinapse inibitória bloqueia completamente a atividade do
neurônio num dado instante de tempo;
o A estrutura da rede neural não varia com o tempo.
Introdução as Redes Neurais Artificiais
Copyright ® Leandro Nunes de Castro 68
 McCulloch e Pitts consideraram a resposta neural como sendo equivalente a uma
proposição (se A então B) adequada para estimular o neurônio. Sendo assim, eles
estudaram o comportamento de diversas redes neurais utilizando a notação
simbólica da lógica das proposições.
 A característica binária dos neurônios era suficiente para garantir que a atividade
de qualquer neurônio poderia ser expressa sob a ótica da lógica das proposições.
 Obs: Uma proposição é uma sentença declarativa que pode ser verdadeira ou falsa,
mas não ambas. Exemplo: Este curso é RNA. Contraexemplo: Qual seu nome?
 Embora com os conhecimentos atuais sobre os mecanismos físicos e químicos
envolvidos na transmissão de sinais no cérebro seja possível afirmar que nenhum
tipo de lógica das proposições é realizada no cérebro, o neurônio de McCulloch e
Pitts pode ser visto como um caso particular do neurônio genérico utilizado em
RNAs.
 Considere a representação simbólica do neurônio de McCulloch e Pitts:
Introdução as Redes Neurais Artificiais
Copyright ® Leandro Nunes de Castro 69
u y

x1
x2
f(u)
Junção
somadora
Função de
ativação
Saída
f(u)
u
Figura 2: Representação pictórica do neurônio de McCulloch e Pitts.
 Cada neurônio possui um limiar (threshold) fixo  e recebe algumas entradas.
 A cada iteração t, o neurônio responde a suas entradas sinápticas, que refletem o
estado do neurônio pré-sináptico. Se nenhuma sinapse inibitória está ativa, o
neurônio integra (soma) suas entradas, gerando a entrada líquida (ou entrada
interna) u do neurônio e verifica se u é maior do que o limiar . Caso positivo, o
neurônio responde com um sinal de saída de valor 1. Caso negativo, ele responde
com um sinal de saída 0.
Introdução as Redes Neurais Artificiais
Copyright ® Leandro Nunes de Castro 70
 Exemplo de operação: funções lógicas OR e AND.
Neurônio Básico “Integrate-and-Fire”
 Estes neurônios são os mais clássicos em neurociência computacional. Trata-se de
modelos contínuos e não discretos de neurônios, com pequenas variantes entre si.
 Considere um neurônio livre de ruído com entrada líquida u(t) sendo função do
tempo e correspondente ao potencial de membrana do neurônio. Os principais
efeitos de alguns canais neurais podem ser capturados através de uma simples
equação de um integrador:
)()(
)(
τ tiRtuu
dt
tdu
mresm  , (1)
onde m é a constante de tempo da membrana determinada pela condutância média
dos canais; ures é o potencial de repouso do neurônio; i(t) é a corrente de entrada dada
pela soma das correntes geradas pelos disparos dos neurônios pré-sinápticos; e Rm é a
resistência do neurônio ao fluxo de corrente.
Introdução as Redes Neurais Artificiais
Copyright ® Leandro Nunes de Castro 71
 A Equação (1) propõe que a taxa de variação do potencial de membrana do
neurônio é proporcional a seu potencial atual, ao seu potencial de repouso e ao
potencial gerado pelos sinais de entrada.
 A corrente de entrada i(t) do neurônio é dada pela soma das correntes de entrada
dependendo da eficiência das sinapses individuais, descritas pela variável wj para
cada sinapse j. Portanto, a corrente total de entrada do neurônio pode ser escrita
como sendo a soma das correntes individuais multiplicadas pelos pesos wj:
   j t
f
jjf
j
ttfwti )()(
onde a função f() parametriza a forma da resposta pós-sináptica.
 Esta função foi denominada de função de ativação por McCulloch e Pitts e esta
nomenclatura prevalece até os dias de hoje em praticamente todos os modelos de
RNAs.
 A variável tj
f
corresponde ao momento do disparo do neurônio pré-sináptico da
sinapse j.
Introdução as Redes Neurais Artificiais
Copyright ® Leandro Nunes de Castro 72
 O tempo de disparo do neurônio pós-sináptico é definido como sendo o tempo para
o potencial de membrana atingir o limiar .
 Para completar este modelo, basta “resetar” o valor do potencial de membrana do
neurônio para seu potencial de repouso após o disparo do neurônio.
O Neurônio Genérico em RNAs
 O elemento computacional básico empregado na maioria das RNAs é um
integrador. Trata-se de um elemento processador de informações que é
fundamental para a operação das RNAs.
 As principais partes do neurônio artificial genérico são:
o As sinapses, caracterizadas pelos seus pesos associados;
o A junção somadora; e
o A função de ativação.
Introdução as Redes Neurais Artificiais
Copyright ® Leandro Nunes de Castro 73
uk yk

x1
x2
xm
f(uk)
Junção
somadora
Função de
ativação
Saída
…
wk1
wk2
wkm
+1 Limiar(bias)
bk
Pesos das
conexões
Entradas
Figura 3: Neurônio genérico em RNAs.
 Nesta representação, o primeiro subscrito k do peso sináptico wkj corresponde ao
neurônio pós-sináptico e o segundo subscrito corresponde à sinapse ligada a ele.
 A junção somadora soma todos os sinais de entrada ponderados pelos pesos das
conexões. Assumindo os vetores de entrada e de pesos como sendo vetores coluna,
esta operação corresponde ao produto interno do vetor de entradas x pelo vetor de
Introdução as Redes Neurais Artificiais
Copyright ® Leandro Nunes de Castro 74
pesos wk, mais o limiar bk. Genericamente, trata-se de uma combinação linear das
entradas pelos pesos associados, mais o limiar bk.
 A função de ativação é geralmente utilizada com dois propósitos: limitar a saída do
neurônio e introduzir não linearidade no modelo.
 O limiar bk tem o papel de aumentar ou diminuir a influência do valor da entrada
líquida para a ativação do neurônio k.
o Por exemplo, no neurônio de McCulloch e Pitts a saída será 1 para u  :


 

contráriocaso0
θse1
)(
u
ufy
onde u = x1 + x2.
 É possível substituir o limiar (threshold)  por um limiar (bias) que será
multiplicado por um valor constante de entrada igual a +1:


 

contráriocaso0
0se1
)(
u
ufy
Introdução as Redes Neurais Artificiais
Copyright ® Leandro Nunes de Castro 75
onde u = x1 + x2  b (para b negativo).
 Note que a saída deste neurônio genérico é simplesmente um número, a presença
de potenciais de ação (disparos) discretos é ignorada. Entretanto, existem modelos
de neurônios, denominados spiking neurons, que utilizam disparos discretos.
 Matematicamente, a saída do neurônio k pode ser descrita por:








 
k
m
j
jkjkk bxwfufy
1
)(
 É possível simplificar a notação acima de forma a incluir o bias simplesmente
definindo um sinal de entrada de valor x0 = 1 com peso associado wk0 = bk:








 
m
j
jkjkk xwfufy
0
)(
 Existem vários tipos de função de ativação como, por exemplo, a função linear, a
função degrau, as funções sigmoidais, e as funções de base radial.
Introdução as Redes Neurais Artificiais
Copyright ® Leandro Nunes de Castro 76
uk y

x1
x2
xm
f(uk)
…
wk1
wk2
wkm
+1
wk0 = b0
Junção
somadora
Função de
ativação
Saída
Pesos das
conexões
Entradas
Figura 4: Outra representação para o neurônio genérico.
Introdução as Redes Neurais Artificiais
Copyright ® Leandro Nunes de Castro 77
 









0pse0
1p0se
1pse1
k
kk
k
k pf
u
uu
u
u
com p constante e positivo.
a)
1/p0
b)
1/p0
p
0
Figura 5: Função semi-linear (a) e sua derivada em relação à entrada interna (b).
Introdução as Redes Neurais Artificiais
Copyright ® Leandro Nunes de Castro 78
kk
k
pp
p
k
ee
e
fy uu
u
u 




1
1
1
)(   01  kk
k
p
y
uu
u

a) b)
p=0.8
p=1.5
p=3
p=0.8
p=1.5
p=3
Figura 6: Função logística (a) e sua derivada em relação à entrada interna (b).
Introdução as Redes Neurais Artificiais
Copyright ® Leandro Nunes de Castro 79
kk
kk
pp
pp
kk
ee
ee
pfy uu
uu
uu 



 )tanh()(   01 2
 k
k
p
y
u
u

a) b)
p=1
p=0.6
p=2.2
p=0.6
p=1
p=2.2
Figura 7: Função tangente hiperbólica (a) e sua derivada em relação à entrada interna (b).
Introdução as Redes Neurais Artificiais
Copyright ® Leandro Nunes de Castro 80
7.2. Arquiteturas de Rede
 Muito pouco é sabido sobre os padrões de conexão entre os neurônios biológicos.
 Entretanto, a maioria das RNAs utilizam arquiteturas padronizadas, projetadas
especialmente para resolver algumas classes de problemas.
 O processo de conexão entre neurônios artificiais leva à geração de sinapses e à
construção de redes neurais artificiais.
w
g
u
wij
w
xij
i yi
g
yj
1 wi0
Figura 8: Processo de conexão entre neurônios.
Introdução as Redes Neurais Artificiais
Copyright ® Leandro Nunes de Castro 81
 Existem basicamente três tipos de camadas em uma rede neural artificial: camada
de entrada, camada(s) intermediária(s) e camada de saída. Entretanto, nem todas
as RNAs possuem camadas intermediárias.
 A forma pela qual os neurônios estão interconectados está intimamente relacionada
ao algoritmo a ser utilizado no seu treinamento.
 Existem, basicamente, três tipos principais de arquitetura em RNAs: redes
feedforward de uma única camada, redes feedforward de múltiplas camadas, e
redes recorrentes.
Rede Feedforward com Uma Única Camada
 Este caso mais simples de rede em camadas consiste em uma camada de entrada e
uma camada de saída.
 Geralmente os neurônios de entrada são lineares, ou seja, eles simplesmente
propagam o sinal de entrada para a próxima camada. São também denominados de
neurônios sensoriais.
Introdução as Redes Neurais Artificiais
Copyright ® Leandro Nunes de Castro 82
…
Camada de
entrada
Camada de
saída
Neurônio
sensorial
Neurônio de
processamento
…
…
y1
y2
y3
yo
x0
x1
x2
xm
w10
w20
.
.
.
.
wom
Figura 9: Rede feedforward de uma única camada.
 Esta rede é denominada feedforward porque a propagação do sinal ocorre apenas
da entrada para a saída, ou seja, é apenas no sentido positivo.
Introdução as Redes Neurais Artificiais
Copyright ® Leandro Nunes de Castro 83











omoo
m
www
www



10
11110
W
yi = f(wi.x) = f(j wij.xj) , j = 1,…,m.
Note que a primeira coluna de W corresponde ao vetor de bias.
 Em forma matricial:
y = f(W.x),
onde W  om
, wi  1m
, i = 1,…,o, x  m1
, e y  o1
.
Rede Feedforward de Múltiplas Camadas
 As redes de múltiplas camadas possuem uma ou mais camadas intermediárias ou
escondidas. Adicionando-se camadas intermediárias não lineares é possível
aumentar a capacidade de processamento de uma rede feedforward.
 A saída de cada camada intermediária é utilizada como entrada para a próxima
camada.
Introdução as Redes Neurais Artificiais
Copyright ® Leandro Nunes de Castro 84
 Em geral o algoritmo de treinamento para este tipo de rede envolve a
retropropagação do erro entre a saída da rede e uma saída desejada conhecida.
… …
Camada de
entrada Primeira
camada
escondida
Camada de
saída
Segunda
camada
escondida
…
… y1
y2
yo
x0
x1
x2
xm
Figura 10: Rede feedforward de múltiplas camadas.
Introdução as Redes Neurais Artificiais
Copyright ® Leandro Nunes de Castro 85
 Seja Wk
a matriz de pesos da camada k, contada da esquerda para a direita.
o
k
ijw corresponde ao peso ligando o neurônio pós-sináptico i ao neurônio pré-
sináptico j na camada k.
 Em notação matricial, a saída da rede é dada por:
y = f3
(W3
f2
(W2
f1
(W1
x)))
 Note que fk
, k = 1,..., M (M = número de camadas da rede) pode ser dado por uma
matriz quadrada fk
 ll
, onde l é o número de neurônios na camada k, ou por um
vetor fk
 l1
, onde l é o número de neurônios na camada k.
 O que acontece se as funções de ativação das unidades intermediárias forem
lineares?
Introdução as Redes Neurais Artificiais
Copyright ® Leandro Nunes de Castro 86
Redes Recorrentes
 O terceiro principal tipo de arquitetura de RNAs engloba as chamadas redes
recorrentes, pois elas possuem, pelo menos, um laço realimentando a saída de
neurônios para outros neurônios da rede.
Z1
Z1
Z1
Figura 11: Rede neural recorrente de Hopfield.
Introdução as Redes Neurais Artificiais
Copyright ® Leandro Nunes de Castro 87
 É claro que existem outras arquiteturas de redes neurais, como exemplo a rede
abaixo.
Figura 12: Rede neural arbitrária.
Introdução as Redes Neurais Artificiais
Copyright ® Leandro Nunes de Castro 88
7.3. Paradigmas de Aprendizagem
 A capacidade de aprender associada a uma rede neural é uma das mais importantes
qualidades destas estruturas.
 Trata-se da habilidade de adaptar-se, de acordo com regras pré-existentes, ao seu
ambiente, alterando seu desempenho ao longo do tempo.
 Sendo assim, considera-se aprendizado o processo que adapta o comportamento e
conduz a uma melhoria de desempenho.
 No contexto de redes neurais artificiais, aprendizagem ou treinamento corresponde
ao processo de ajuste dos parâmetros livres da rede através de um mecanismo de
apresentação de estímulos ambientais, conhecidos como padrões (ou dados) de
entrada ou de treinamento:
estímulo  adaptação  novo comportamento da rede
Introdução as Redes Neurais Artificiais
Copyright ® Leandro Nunes de Castro 89
 Nas RNAs mais simples e tradicionais, os parâmetros livres da rede correspondem
apenas aos pesos sinápticos. Toda a estrutura da rede, incluindo os tipos de
neurônios e suas funções de ativação, é pré-definida.
 O objetivo do aprendizado em redes neurais é a obtenção de um modelo implícito
do sistema em estudo, por ajuste dos parâmetros da rede.
 Dada uma rede neural artificial, seja w(t) um peso sináptico de um dado neurônio,
no instante de tempo t. O ajuste w(t) é aplicado ao peso sináptico w(t) no instante
t, gerando o valor corrigido w(t+1), na forma:
w(t+1) = w(t) + w(t)
 A obtenção de w(t) pode ser feita de diversas formas. O tipo de aprendizado é
determinado pela técnica empregada no processo de ajuste dos pesos sinápticos
(parâmetros da rede neural).
Introdução as Redes Neurais Artificiais
Copyright ® Leandro Nunes de Castro 90
 Um conjunto bem definido de regras para obtê-los é denominado um algoritmo de
aprendizagem ou treinamento. Exemplos de alguns algoritmos: regra de Hebb,
algoritmo de backpropagation, estratégias de competição, máquina de Boltzmann.
 A maneira pela qual o ambiente influencia a rede em seu aprendizado define o
paradigma de aprendizagem. Exemplos de paradigmas: aprendizado
supervisionado, aprendizado por reforço e aprendizado não-supervisionado (ou
auto-organizado).
 Seja qual for o algoritmo ou o paradigma utilizado, ao alcançarmos o objetivo
obtemos uma representação de conhecimento que obedece a uma ou mais das
quatro regras de bom senso descritas abaixo:
R1 entradas similares provenientes de classes similares de fenômenos ou eventos
tendem a produzir representações similares dentro da rede, o que pode levar a
classificá-las como pertencentes à mesma categoria.
Introdução as Redes Neurais Artificiais
Copyright ® Leandro Nunes de Castro 91
R2 itens que devem ser classificados ou processados distintamente devem
provocar, de alguma forma, representações distintas dentro da rede.
R3 se uma característica é importante, então devem ser alocados recursos da rede
neural (por exemplo, neurônios e conexões) para representá-la devidamente.
Quanto mais complexa a representação, mais recursos devem ser alocados.
R4 a etapa de aprendizado pode ser simplificada caso as informações conhecidas a
priori e invariâncias sejam embutidas diretamente no projeto da rede neural.
 As duas primeiras regras utilizam os conceitos de similaridade e/ou de distância.
Estes conceitos podem ser expressos matematicamente a partir da definição formal
de um critério de medida. Em particular, a Teoria de Medidas é uma das áreas mais
bem formalizadas da Matemática, juntamente com a Teoria de Conjuntos,
constituindo a base de todos os métodos matemáticos.
 Existem basicamente três paradigmas de aprendizado:
Introdução as Redes Neurais Artificiais
Copyright ® Leandro Nunes de Castro 92
 Aprendizado supervisionado: é baseado em um conjunto de exemplos de estímulo-
resposta (ou entrada-saída), ou em algum outro tipo de informação que represente
o comportamento que deve ser apresentado pela rede neural;
 Aprendizado por reforço: o comportamento da rede é avaliado apenas com base
em algum critério numérico, fornecido em instantes espaçados de tempo;
 Aprendizado não-supervisionado: é baseado apenas nos estímulos recebidos pela
rede neural. Basicamente, a rede deve aprender a “categorizar” os estímulos.
Aprendizagem Supervisionada
 Este curso vai se ocupar com o desenvolvimento de técnicas para aprendizado
supervisionado e não-supervisionado em redes neurais artificiais.
 Pelo fato de serem mais intuitivas, técnicas de aprendizado supervisionado serão
abordadas primeiro.
 Ideia intuitiva: controle de processos (ex. pouso e decolagem de aviões)
Introdução as Redes Neurais Artificiais
Copyright ® Leandro Nunes de Castro 93
 Exemplos de problemas de engenharia que podem ser apresentados na forma de
um problema de aprendizado supervisionado:
 classificação e reconhecimento de padrões
 predição de séries temporais
 identificação de sistemas
 controle de processos
 projeto de filtros em processamento de sinais
Formalização do processo de aprendizado supervisionado
 Seja dj(t) a resposta desejada para o neurônio j no instante t e yj(t) a resposta
observada do neurônio j no instante t, obtida através de um estímulo x(t) presente
na entrada da rede neural.
 x(t) e dj(t) constituem um EXEMPLO de par estímulo-resposta apresentado ao
neurônio no instante t, possivelmente extraídos de um ambiente ruidoso cujas
distribuições de probabilidade são desconhecidas.
Introdução as Redes Neurais Artificiais
Copyright ® Leandro Nunes de Castro 94
 ej(t) = dj(t)  yj(t) é o sinal de erro observado na saída do neurônio j no instante t.
Observe que, em ambiente ruidoso, ej(t) é uma variável aleatória.
 O processo de aprendizado supervisionado tem por objetivo corrigir este erro
observado (em todos os neurônios) e, para tanto, busca minimizar um critério
(função objetivo) baseado em ej(t), j=1,2,…,o, onde o é o número de neurônios da
rede neural, de maneira que, para t suficientemente alto, yj(t), j=1,2,…,o, estejam
próximos de dj(t), j=1,2,…,o, no sentido estatístico.
 Um critério muito utilizado é o de erro quadrático médio: 





 
o
j
j te
o
EJ
1
2
)(
1
.
 Um conceito que está implícito em toda esta análise é a hipótese de
estacionariedade dos processos aleatórios presentes.
 Além disso, para minimizar J é necessário conhecer as características estatísticas
do sistema.
Introdução as Redes Neurais Artificiais
Copyright ® Leandro Nunes de Castro 95
ej(t)

One or more
layers of
hidden
neurons
Output
neuron
j
dj(t)yj(t)
 +
x(t)
Multi-layer Feedforward Network
Figura 13: Aprendizagem supervisionada.
 Uma aproximação para o critério é utilizar o valor instantâneo do erro quadrático
médio: 

o
j
j ke
o
kJJ
1
2
)(
1
)( .
 Nesta fase do curso, vamos considerar que a minimização de J(t) é realizada
apenas em relação aos pesos sinápticos da rede neural.
Introdução as Redes Neurais Artificiais
Copyright ® Leandro Nunes de Castro 96
Aprendizagem Não Supervisionada
 No paradigma não supervisionado ou auto-organizado não existe um supervisor
para avaliar o desempenho da rede em relação aos dados de entrada.
 Nenhuma medida de erro é utilizada para realimentar a rede.
 Os dados são ditos não rotulados, no sentido de que as classes às quais eles
pertencem ou as saídas desejadas da rede são desconhecidas.
 A rede se adapta a regularidades estatísticas nos dados de entrada, desenvolvendo
uma capacidade de criar representações internas que codificam as características
dos dados de entrada, tornando-se, portanto, capaz de identificar a quais classes
novos padrões pertencem.
 Geralmente as redes auto-organizadas empregam um algoritmo competitivo de
aprendizagem.
 Na aprendizagem competitiva, os neurônios de saída da rede competem entre si
para se tornarem ativos, com um único neurônio sendo o vencedor da competição.
Introdução as Redes Neurais Artificiais
Copyright ® Leandro Nunes de Castro 97
Input
patterns
Environment
Neural
Network
Figura 14: Aprendizagem não supervisionada.
 Esta propriedade é que faz com que o algoritmo seja capaz de descobrir
regularidades estatísticas no conjunto de dados.
 Neurônios individuais aprendem a se especializar a conjuntos (grupos ou clusters)
de padrões similares. Eles se tornam detectores ou extratores de características
para diferentes classes dos dados de entrada.
 Ideia intuitiva: agrupamento de dados (p. ex. balões coloridos)
Introdução as Redes Neurais Artificiais
Copyright ® Leandro Nunes de Castro 98
Formalização do processo de aprendizado competitivo
 Para que um neurônio i seja o vencedor a distância entre o vetor de pesos wi deste
neurônio e um determinado padrão de entrada x deve ser a menor dentre todos os
outros neurônios da rede, dada uma métrica de distância |||| (geralmente utiliza-se
a distância Euclidiana).
 A ideia é encontrar o neurônio cujo vetor de pesos seja o mais parecido ao padrão
de entrada, ou seja:
i = arg mini ||x  wi||, i.
 Se um neurônio não responde a um padrão de entrada, ou seja, não é o vencedor,
então nenhuma adaptação é sofrida por este neurônio.
 Entretanto, o neurônio i que ganhou a competição sofre um ajuste wi no seu
vetor de pesos na direção do vetor de entrada:
Introdução as Redes Neurais Artificiais
Copyright ® Leandro Nunes de Castro 99


 

competiçãoaperdese0
competiçãoaganhase)α(
i
ii
i
wx
w
onde  indica o tamanho do passo a ser dado na direção de x. O parâmetro  é
conhecido como taxa de aprendizagem.
Aprendizagem Por Reforço
 A aprendizagem por reforço é distinta das outras abordagens, pois neste caso não
existe uma interação direta com um supervisor ou modelo explícito do ambiente.
 Geralmente, a única informação disponível é um valor escalar que indica a
qualidade do desempenho da RNA.
 Na aprendizagem por reforço existe um objetivo a ser alcançado. Durante o
processo de aprendizagem, a rede “tenta” algumas ações (saídas) e recebe um sinal
de reforço (estímulo) do ambiente que permite avaliar a qualidade de sua ação.
 O sistema em aprendizagem seletivamente retém as ações que levam a uma
maximização dos sinais de reforço.
Introdução as Redes Neurais Artificiais
Copyright ® Leandro Nunes de Castro 100
 Ideia intuitiva: ex. ensinar animais circenses.
 A cada iteração t o sistema em aprendizagem recebe uma entrada x(t)
(representando o estado do ambiente), fornece uma saída y(t) e, no próximo passo,
recebe um escalar de reforço r(t+1) e um novo estado do ambiente x(t+1).
 Portanto, os dois conceitos básicos por trás da aprendizagem por reforço são:
busca por tentativa e erro e reforço retardado.
Estado do ambiente
(dado de entrada)
Sinal de reforço
Saída da rede
Ambiente
Rede
Neural
Figura 15: Aprendizagem por reforço.
Introdução as Redes Neurais Artificiais
Copyright ® Leandro Nunes de Castro 101
8. A Regra de Hebb
 Após a publicação do trabalho de McCulloch & Pitts em 1943, Norbert Wiener
publicou um livro famoso, em 1948, denominado Cybernetics, seguido pela
publicação do livro The Organization of Behavior por Hebb.
 No livro de Hebb, foi proposta pela primeira vez uma regra de aprendizagem
através da modulação (ou modificação) de pesos sinápticos.
 Basicamente, Hebb propôs que a efetividade de uma sinapse aumenta devido à
ativação repetida de um neurônio (por outro neurônio). Com suas próprias
palavras:
 “Quando o axônio de uma célula A está próximo o suficiente de excitar uma célula
B ou persistentemente contribui para sua ativação, algum processo de crescimento
ou variação metabólica ocorre em uma ou ambas as células, tal que a efetividade
da célula A em ativar a célula B é aumentada.”
Introdução as Redes Neurais Artificiais
Copyright ® Leandro Nunes de Castro 102
 Este postulado requer uma mudança no peso sináptico entre células quando as
células pré- e pós-sinápticas estão ativas simultaneamente.
 Hebb sugeriu que esta mudança era a base para a aprendizagem associativa,
resultando em uma modificação duradoura no padrão de atividade de uma rede
neural.
 Esta regra é generalizada dentro da literatura de RNAs, resultando na denominada
regra de Hebb generalizada. Esta regra propõe que mudanças nos pesos das
conexões são dadas pelo produto da atividade pré-sináptica e pós-sináptica:
wij(t) =  yi(t) xj(t),
onde wij(t) é a mudança a ser aplicada no neurônio i,  é um fator multiplicativo
denominado de taxa de aprendizagem, yi é a saída do neurônio i, xj é a entrada do
neurônio j, e t é o índice de tempo.
 Note que esta equação deixa clara a natureza correlacional ou associativa da regra
de atualização de Hebb.
Introdução as Redes Neurais Artificiais
Copyright ® Leandro Nunes de Castro 103
o Sabe-se que boa parte da memória humana é associativa. Neste tipo de memória,
um evento está ligado a outro evento, de forma que a ocorrência do primeiro
evento resulta na ocorrência do evento ligado.
o Em sua versão mais simples, um estímulo está ligado a uma resposta.
 A diferença principal entre a proposta original e a regra generalizada é o fato de
que no caso generalizado tanto os estímulos excitatórios quanto os inibitórios
influenciam na atividade do neurônio.
 A equação acima pode ser expressa de forma genérica como sendo:
wij(t) = g(yi(t), xj(t)),
onde g(,) é uma função de ambos os sinais, pré- e pós-sináptico.
 Portanto, o peso de um neurônio i é atualizado de acordo com a seguinte regra:
wij(t+1) = wij(t) + wij(t).
Introdução as Redes Neurais Artificiais
Copyright ® Leandro Nunes de Castro 104
9. O Perceptron Simples
 Rosenblatt introduziu o perceptron como a arquitetura mais simples de rede neural
capaz de classificar padrões linearmente separáveis.
 O algoritmo de treinamento do perceptron foi o primeiro modelo de treinamento
supervisionado, embora alguns perceptrons fossem auto-organizados.
 Basicamente, o perceptron consiste em uma única camada de neurônios com pesos
sinápticos e bias ajustáveis.
 Se os padrões de entrada forem linearmente separáveis, o algoritmo de treinamento
do perceptron possui convergência garantida, ou seja, é capaz de encontrar um
conjunto de pesos que classifica corretamente os dados.
 Os pesos dos neurônios que compõem o perceptron serão tais que as superfícies de
decisão produzidas pela rede neural estarão apropriadamente posicionadas no
espaço.
Introdução as Redes Neurais Artificiais
Copyright ® Leandro Nunes de Castro 105
 Os neurônios do perceptron são similares ao neurônio de McCulloch & Pitts
(função de ativação tipo degrau), mas possuem pesos associados, incluindo o bias.
9.1. Perceptron Simples para Classificação de Padrões
 O algoritmo do perceptron funciona como a seguir.
o Para cada padrão de treinamento (dado de entrada) xi, a saída da rede yi é
calculada.
o Em seguida, é determinado o erro ei entre a saída desejada para este padrão di e a
saída da rede yi, ei = di  yi.
o O vetor de pesos conectando as entradas (neurônios pré-sinápticos) a cada saída
(neurônios pós-sinápticos) e o bias do neurônio são atualizados de acordo com
as seguintes regras:
wi(t+1) = wi(t) +  ei xi
T
,
b(t+1) = b(t) +  ei,
onde w  1m
, x  m1
, e b  11
.
Introdução as Redes Neurais Artificiais
Copyright ® Leandro Nunes de Castro 106
 Considere agora o caso mais simples do perceptron com um único neurônio.
u y

x1
x2
xm
f(u)
Junção
somadora
Função de
ativação
Saída
…
w1
w2
wm
+1
w0 = b
Entradas
 O objetivo desta rede, mais especificamente deste neurônio, é classificar alguns
padrões de entrada como pertencentes ou não pertencentes a uma dada classe.
 Considere o conjunto de dados de entrada como sendo formado por N amostras
(x1,d1), (x2,d2), …, (xN,dN), onde xj é o vetor j de entradas, e dj sua saída desejada
(classe) correspondente.
Introdução as Redes Neurais Artificiais
Copyright ® Leandro Nunes de Castro 107
 Seja X  mN
, a matriz de dados de entradas com N padrões de dimensão m cada
(colunas de X), e d  1N
o vetor de saídas desejadas. O algoritmo abaixo pode
ser utilizado para treinar o perceptron de um único neurônio:
procedure [w] = perceptron(max_it,E,,X,d)
initialize w //por simplicidade, inicialize com 0
initialize b //por simplicidade, inicialize com 0
t  1
while t < max_it & E > 0 do,
E  0
for i from 1 to N do, //para cada padrão de entrada
yi  f(wxi + b) //determine a saída para xi
ei  di  yi //determine o erro para xi
w  w +  ei xi
T
//atualize o vetor de pesos
b  b +  ei //atualize o bias
E  E + ei
2
end for
t  t + 1
end while
end procedure
Algoritmo 1: Algoritmo de treinamento para o perceptron simples.
Introdução as Redes Neurais Artificiais
Copyright ® Leandro Nunes de Castro 108
9.2. Exemplo de Aplicação e Motivação Geométrica
 Considere o problema de utilizar o perceptron com um único neurônio para
representar a função lógica AND.
(0,1) (1,1)
(0,0) (1,0)
Entradas Saídas
x1 x2 x1 AND x2
0 0 0
0 1 0
1 0 0
1 1 1
 1000
1010
1100






 dX
 A saída yi do neurônio para o vetor de dados xi pode ser representada na forma:
yi = f(wxi + b)
 Para quaisquer valores de w e b, a função f(u) separa o espaço de entradas em duas
regiões, sendo que a curva de separação (superfície de decisão) é uma linha reta.
Introdução as Redes Neurais Artificiais
Copyright ® Leandro Nunes de Castro 109
 A equação desta reta é dada por:
w1 x1 + w2 x2 + b = 0
 Se a função de ativação do tipo sinal (degrau) possui  = 0, então
w1 x1 + w2 x2 + b  0
resultará em uma saída positiva da rede.
 Inicializando todos os pesos e o limiar em zero w = [0 0] e b = 0, e definindo
 = 1, o algoritmo de treinamento do perceptron fornece o seguinte:
w1 = 2; w2 = 1; b =  3, portanto 2x1 + 1x2  3 = 0.
 Obs.: note que os pesos do perceptron também poderiam ter sido inicializados com
valores aleatórios pequenos.
o Neste caso, a superfície de decisão obtida seria diferente.
o Considere para efeitos ilustrativos: w1 = 0.015; w2 = 0.768; b = 0.971.
o A figura a seguir mostra as duas superfícies de decisão e os pesos e bias
determinados pelo algoritmo de treinamento do perceptron.
Introdução as Redes Neurais Artificiais
Copyright ® Leandro Nunes de Castro 110
(0,1) (1,1)
(0,0) (1,0)
w1 = 2; w2 = 1; b = 3
w1 = 2.015; w2 = 0.768; b = 2.029
9.3. Perceptron com Múltiplos Neurônios
 Note que a regra de aprendizagem do perceptron é do tipo supervisionada,
empregando a aprendizagem por correção de erro.
 Esta regra pode ser facilmente estendida para atualizar os pesos de uma rede de
neurônios em uma única camada.
Introdução as Redes Neurais Artificiais
Copyright ® Leandro Nunes de Castro 111
 Neste caso, para cada vetor de entrada xi haverá um vetor de saídas da rede:
yi = f(Wxi + b); W  om
, xi  m1
, i = 1,…,N, yi  o1
, e b  o1
, D  oN
.
 Existe agora um vetor de erros para cada padrão de entrada: ei = di  yi.
procedure [W] = perceptron(max_it,,X,D)
initialize W //for simplicity set it to zero
initialize b //for simplicity set it to zero
t  1
while t < max_it do,
E  0
for i from 1 to N do, //para cada padrão de entrada
yi  f(Wxi + b) //determine a saída da rede para xi
ei  di  yi //determine o vetor de erros para xi
W  W +  ei xi
T
//atualize a matriz de pesos
b  b +  ei //atualize o vetor de bias
E  E + sum(eij
2
) //j = 1,...,o
end for
t  t + 1
end while
end procedure
Algoritmo 2: Algoritmo de treinamento para o perceptron com múltiplas saídas.
Introdução as Redes Neurais Artificiais
Copyright ® Leandro Nunes de Castro 112
9.4. Exemplo de Aplicação: Reconhecimento de Caracteres
 Considere o problema de aplicar o perceptron com múltiplas saídas ao problema de
classificação (reconhecimento) dos seguintes caracteres binários:
 Cada um destes oito padrões de entrada possui uma resolução de 1210 pixels e as
classes a que eles pertencem (0,1,2,3,4,6,,9) estão pré-definidas.
 Vamos projetar um perceptron com oito neurônios de saída, onde cada neurônio irá
corresponder a uma classe. Temos então X  1208
e D  88
(matriz diagonal).
 O algoritmo de treinamento do perceptron será responsável então por definir uma
hipersuperfície de decisão em um espaço de dimensão 120 capaz de classificar os
dados corretamente.
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em
Introdução às RNAs em

More Related Content

What's hot

Engrenagem teoria completa
Engrenagem teoria completaEngrenagem teoria completa
Engrenagem teoria completaRonan Mattedi
 
Nbr 14136 (2002) Plugues Tomadas Uso Domestico E An Logo 20a250 Vca Padroniza O
Nbr 14136 (2002) Plugues Tomadas Uso Domestico E An Logo 20a250 Vca Padroniza  ONbr 14136 (2002) Plugues Tomadas Uso Domestico E An Logo 20a250 Vca Padroniza  O
Nbr 14136 (2002) Plugues Tomadas Uso Domestico E An Logo 20a250 Vca Padroniza OSantos de Castro
 
Nbr 5875 parafusos porcas e acessorios
Nbr 5875 parafusos porcas e acessoriosNbr 5875 parafusos porcas e acessorios
Nbr 5875 parafusos porcas e acessoriosejfelix
 
Manual de programação romi
Manual de programação romiManual de programação romi
Manual de programação romiRenan Pimentel
 
Catalogo de Luminárias Itaim
Catalogo de Luminárias Itaim Catalogo de Luminárias Itaim
Catalogo de Luminárias Itaim Carlos Elson Cunha
 
Abnt nbr 7480 1996
Abnt nbr 7480 1996Abnt nbr 7480 1996
Abnt nbr 7480 1996DandaEDF
 
Simbologia pneumatica
Simbologia pneumaticaSimbologia pneumatica
Simbologia pneumaticaGleiton Kunde
 
Tubulação industrial
Tubulação industrialTubulação industrial
Tubulação industrialPaulo Zanetti
 
Nbr 14037 manual de operacao uso e manutencao das edificacoes - conteudo e ...
Nbr 14037   manual de operacao uso e manutencao das edificacoes - conteudo e ...Nbr 14037   manual de operacao uso e manutencao das edificacoes - conteudo e ...
Nbr 14037 manual de operacao uso e manutencao das edificacoes - conteudo e ...mjmcreatore
 
Inspecção Visual Soldadura
Inspecção Visual SoldaduraInspecção Visual Soldadura
Inspecção Visual SoldaduraTÜV Rheinland AG
 
Seleçâo mancais de rolamento
Seleçâo mancais de rolamentoSeleçâo mancais de rolamento
Seleçâo mancais de rolamentoValério Fernandes
 
305155636 manual-de-manutencao-romi
305155636 manual-de-manutencao-romi305155636 manual-de-manutencao-romi
305155636 manual-de-manutencao-romiNaldo Vicente
 
Estimativa custo soldagem pj modenesi
Estimativa custo soldagem pj modenesiEstimativa custo soldagem pj modenesi
Estimativa custo soldagem pj modenesiJosé Gama
 

What's hot (20)

Engrenagem teoria completa
Engrenagem teoria completaEngrenagem teoria completa
Engrenagem teoria completa
 
Nbr 14136 (2002) Plugues Tomadas Uso Domestico E An Logo 20a250 Vca Padroniza O
Nbr 14136 (2002) Plugues Tomadas Uso Domestico E An Logo 20a250 Vca Padroniza  ONbr 14136 (2002) Plugues Tomadas Uso Domestico E An Logo 20a250 Vca Padroniza  O
Nbr 14136 (2002) Plugues Tomadas Uso Domestico E An Logo 20a250 Vca Padroniza O
 
Nbr 5875 parafusos porcas e acessorios
Nbr 5875 parafusos porcas e acessoriosNbr 5875 parafusos porcas e acessorios
Nbr 5875 parafusos porcas e acessorios
 
Manual de programação romi
Manual de programação romiManual de programação romi
Manual de programação romi
 
Catalogo de Luminárias Itaim
Catalogo de Luminárias Itaim Catalogo de Luminárias Itaim
Catalogo de Luminárias Itaim
 
Abnt nbr 7480 1996
Abnt nbr 7480 1996Abnt nbr 7480 1996
Abnt nbr 7480 1996
 
Compressores
CompressoresCompressores
Compressores
 
Simbologia pneumatica
Simbologia pneumaticaSimbologia pneumatica
Simbologia pneumatica
 
Apostila moldes
Apostila moldesApostila moldes
Apostila moldes
 
Tubulação industrial
Tubulação industrialTubulação industrial
Tubulação industrial
 
Nbr 14037 manual de operacao uso e manutencao das edificacoes - conteudo e ...
Nbr 14037   manual de operacao uso e manutencao das edificacoes - conteudo e ...Nbr 14037   manual de operacao uso e manutencao das edificacoes - conteudo e ...
Nbr 14037 manual de operacao uso e manutencao das edificacoes - conteudo e ...
 
Electrochemistry PPT.ppt
Electrochemistry PPT.pptElectrochemistry PPT.ppt
Electrochemistry PPT.ppt
 
Inspecção Visual Soldadura
Inspecção Visual SoldaduraInspecção Visual Soldadura
Inspecção Visual Soldadura
 
Torno
TornoTorno
Torno
 
Seleçâo mancais de rolamento
Seleçâo mancais de rolamentoSeleçâo mancais de rolamento
Seleçâo mancais de rolamento
 
305155636 manual-de-manutencao-romi
305155636 manual-de-manutencao-romi305155636 manual-de-manutencao-romi
305155636 manual-de-manutencao-romi
 
06c compressores dimensionamento
06c compressores dimensionamento06c compressores dimensionamento
06c compressores dimensionamento
 
4 quadros e_paineis
4 quadros e_paineis4 quadros e_paineis
4 quadros e_paineis
 
Estimativa custo soldagem pj modenesi
Estimativa custo soldagem pj modenesiEstimativa custo soldagem pj modenesi
Estimativa custo soldagem pj modenesi
 
válvulas+direcionais
válvulas+direcionaisválvulas+direcionais
válvulas+direcionais
 

Viewers also liked

2015: Fundamentos Teóricos da Computação
2015: Fundamentos Teóricos da Computação2015: Fundamentos Teóricos da Computação
2015: Fundamentos Teóricos da ComputaçãoLeandro de Castro
 
2016: Applying AI Innovation in Business
2016: Applying AI Innovation in Business2016: Applying AI Innovation in Business
2016: Applying AI Innovation in BusinessLeandro de Castro
 
2012: O Processo de Checkout em E-commerce
2012: O Processo de Checkout em E-commerce2012: O Processo de Checkout em E-commerce
2012: O Processo de Checkout em E-commerceLeandro de Castro
 
2016: Notas sobre Liderança
2016: Notas sobre Liderança2016: Notas sobre Liderança
2016: Notas sobre LiderançaLeandro de Castro
 
2010: Agrupamento Evolutivo de Dados
2010: Agrupamento Evolutivo de Dados2010: Agrupamento Evolutivo de Dados
2010: Agrupamento Evolutivo de DadosLeandro de Castro
 
2012: Computação Natural - Slides do Curso
2012: Computação Natural - Slides do Curso2012: Computação Natural - Slides do Curso
2012: Computação Natural - Slides do CursoLeandro de Castro
 
2016: A Tríade da Persona Virtual - O Que as Mídias Sociais Podem Revelar sob...
2016: A Tríade da Persona Virtual - O Que as Mídias Sociais Podem Revelar sob...2016: A Tríade da Persona Virtual - O Que as Mídias Sociais Podem Revelar sob...
2016: A Tríade da Persona Virtual - O Que as Mídias Sociais Podem Revelar sob...Leandro de Castro
 
1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Rede...
1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Rede...1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Rede...
1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Rede...Leandro de Castro
 
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de DadosLeandro de Castro
 
2016: Introdução à Mineração de Dados: Conceitos Básicos, Algoritmos e Aplica...
2016: Introdução à Mineração de Dados: Conceitos Básicos, Algoritmos e Aplica...2016: Introdução à Mineração de Dados: Conceitos Básicos, Algoritmos e Aplica...
2016: Introdução à Mineração de Dados: Conceitos Básicos, Algoritmos e Aplica...Leandro de Castro
 
2015: Análise de Mercado e Plano de Marketing
2015: Análise de Mercado e Plano de Marketing2015: Análise de Mercado e Plano de Marketing
2015: Análise de Mercado e Plano de MarketingLeandro de Castro
 
2001: An Introduction to Artificial Immune Systems
2001: An Introduction to Artificial Immune Systems2001: An Introduction to Artificial Immune Systems
2001: An Introduction to Artificial Immune SystemsLeandro de Castro
 
2016: Metodologia da Pesquisa em Computação
2016: Metodologia da Pesquisa em Computação2016: Metodologia da Pesquisa em Computação
2016: Metodologia da Pesquisa em ComputaçãoLeandro de Castro
 
2013: Empreendedorismo: Slides do Curso
2013: Empreendedorismo: Slides do Curso2013: Empreendedorismo: Slides do Curso
2013: Empreendedorismo: Slides do CursoLeandro de Castro
 
2012: LCoN Aplicações em Big Data
2012: LCoN Aplicações em Big Data2012: LCoN Aplicações em Big Data
2012: LCoN Aplicações em Big DataLeandro de Castro
 
2012: The Grand Challenges in Natural Computing Research
2012: The Grand Challenges in Natural Computing Research2012: The Grand Challenges in Natural Computing Research
2012: The Grand Challenges in Natural Computing ResearchLeandro de Castro
 
2012: Natural Computing - The Grand Challenges and Two Case Studies
2012: Natural Computing - The Grand Challenges and Two Case Studies2012: Natural Computing - The Grand Challenges and Two Case Studies
2012: Natural Computing - The Grand Challenges and Two Case StudiesLeandro de Castro
 
2012: Tutorial sobre Sistemas de Recomendação para E-commerce
2012: Tutorial sobre Sistemas de Recomendação para E-commerce2012: Tutorial sobre Sistemas de Recomendação para E-commerce
2012: Tutorial sobre Sistemas de Recomendação para E-commerceLeandro de Castro
 
2000: Artificial Immune Systems - Theory and Applications
2000: Artificial Immune Systems - Theory and Applications2000: Artificial Immune Systems - Theory and Applications
2000: Artificial Immune Systems - Theory and ApplicationsLeandro de Castro
 
2011: Na Nova Geração do Ecommerce os Produtos Encontrarão os Clientes
2011: Na Nova Geração do Ecommerce os Produtos Encontrarão os Clientes2011: Na Nova Geração do Ecommerce os Produtos Encontrarão os Clientes
2011: Na Nova Geração do Ecommerce os Produtos Encontrarão os ClientesLeandro de Castro
 

Viewers also liked (20)

2015: Fundamentos Teóricos da Computação
2015: Fundamentos Teóricos da Computação2015: Fundamentos Teóricos da Computação
2015: Fundamentos Teóricos da Computação
 
2016: Applying AI Innovation in Business
2016: Applying AI Innovation in Business2016: Applying AI Innovation in Business
2016: Applying AI Innovation in Business
 
2012: O Processo de Checkout em E-commerce
2012: O Processo de Checkout em E-commerce2012: O Processo de Checkout em E-commerce
2012: O Processo de Checkout em E-commerce
 
2016: Notas sobre Liderança
2016: Notas sobre Liderança2016: Notas sobre Liderança
2016: Notas sobre Liderança
 
2010: Agrupamento Evolutivo de Dados
2010: Agrupamento Evolutivo de Dados2010: Agrupamento Evolutivo de Dados
2010: Agrupamento Evolutivo de Dados
 
2012: Computação Natural - Slides do Curso
2012: Computação Natural - Slides do Curso2012: Computação Natural - Slides do Curso
2012: Computação Natural - Slides do Curso
 
2016: A Tríade da Persona Virtual - O Que as Mídias Sociais Podem Revelar sob...
2016: A Tríade da Persona Virtual - O Que as Mídias Sociais Podem Revelar sob...2016: A Tríade da Persona Virtual - O Que as Mídias Sociais Podem Revelar sob...
2016: A Tríade da Persona Virtual - O Que as Mídias Sociais Podem Revelar sob...
 
1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Rede...
1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Rede...1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Rede...
1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Rede...
 
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
 
2016: Introdução à Mineração de Dados: Conceitos Básicos, Algoritmos e Aplica...
2016: Introdução à Mineração de Dados: Conceitos Básicos, Algoritmos e Aplica...2016: Introdução à Mineração de Dados: Conceitos Básicos, Algoritmos e Aplica...
2016: Introdução à Mineração de Dados: Conceitos Básicos, Algoritmos e Aplica...
 
2015: Análise de Mercado e Plano de Marketing
2015: Análise de Mercado e Plano de Marketing2015: Análise de Mercado e Plano de Marketing
2015: Análise de Mercado e Plano de Marketing
 
2001: An Introduction to Artificial Immune Systems
2001: An Introduction to Artificial Immune Systems2001: An Introduction to Artificial Immune Systems
2001: An Introduction to Artificial Immune Systems
 
2016: Metodologia da Pesquisa em Computação
2016: Metodologia da Pesquisa em Computação2016: Metodologia da Pesquisa em Computação
2016: Metodologia da Pesquisa em Computação
 
2013: Empreendedorismo: Slides do Curso
2013: Empreendedorismo: Slides do Curso2013: Empreendedorismo: Slides do Curso
2013: Empreendedorismo: Slides do Curso
 
2012: LCoN Aplicações em Big Data
2012: LCoN Aplicações em Big Data2012: LCoN Aplicações em Big Data
2012: LCoN Aplicações em Big Data
 
2012: The Grand Challenges in Natural Computing Research
2012: The Grand Challenges in Natural Computing Research2012: The Grand Challenges in Natural Computing Research
2012: The Grand Challenges in Natural Computing Research
 
2012: Natural Computing - The Grand Challenges and Two Case Studies
2012: Natural Computing - The Grand Challenges and Two Case Studies2012: Natural Computing - The Grand Challenges and Two Case Studies
2012: Natural Computing - The Grand Challenges and Two Case Studies
 
2012: Tutorial sobre Sistemas de Recomendação para E-commerce
2012: Tutorial sobre Sistemas de Recomendação para E-commerce2012: Tutorial sobre Sistemas de Recomendação para E-commerce
2012: Tutorial sobre Sistemas de Recomendação para E-commerce
 
2000: Artificial Immune Systems - Theory and Applications
2000: Artificial Immune Systems - Theory and Applications2000: Artificial Immune Systems - Theory and Applications
2000: Artificial Immune Systems - Theory and Applications
 
2011: Na Nova Geração do Ecommerce os Produtos Encontrarão os Clientes
2011: Na Nova Geração do Ecommerce os Produtos Encontrarão os Clientes2011: Na Nova Geração do Ecommerce os Produtos Encontrarão os Clientes
2011: Na Nova Geração do Ecommerce os Produtos Encontrarão os Clientes
 

Similar to Introdução às RNAs em

DissertacaoMScValterFinal20070216
DissertacaoMScValterFinal20070216DissertacaoMScValterFinal20070216
DissertacaoMScValterFinal20070216Valter Inacio Jr.
 
Python
PythonPython
PythonTiago
 
Modelagem de Base de Conhecimentos Baseada em Ontologia Estudo de Caso em Rec...
Modelagem de Base de Conhecimentos Baseada em Ontologia Estudo de Caso em Rec...Modelagem de Base de Conhecimentos Baseada em Ontologia Estudo de Caso em Rec...
Modelagem de Base de Conhecimentos Baseada em Ontologia Estudo de Caso em Rec...Vagner Nogueira
 
Tunelamento
TunelamentoTunelamento
TunelamentoTiago
 
Cartilha-do-Docente-APNP-UFSC.pdf
Cartilha-do-Docente-APNP-UFSC.pdfCartilha-do-Docente-APNP-UFSC.pdf
Cartilha-do-Docente-APNP-UFSC.pdfWagner Carvalho
 
Dissertação Mestrado
Dissertação MestradoDissertação Mestrado
Dissertação MestradoJoel Carvalho
 
Programacao cpp
Programacao cppProgramacao cpp
Programacao cppTiago
 
Java basico
Java basicoJava basico
Java basicoTiago
 
Aprenda a fazer temas wordpress
Aprenda a fazer temas wordpressAprenda a fazer temas wordpress
Aprenda a fazer temas wordpressRafael Stromdahl
 
Um Modelo de Segurança de Redes para Ambientes Cooperativo
Um Modelo de Segurança de Redes para Ambientes CooperativoUm Modelo de Segurança de Redes para Ambientes Cooperativo
Um Modelo de Segurança de Redes para Ambientes CooperativoSoftD Abreu
 
Asp dot net e learning
Asp dot net e learningAsp dot net e learning
Asp dot net e learningMikeNandes
 
Ncl e Lua - desenvolvendo aplicações interativas para tv digital
Ncl e Lua - desenvolvendo aplicações interativas para tv digitalNcl e Lua - desenvolvendo aplicações interativas para tv digital
Ncl e Lua - desenvolvendo aplicações interativas para tv digitalRafael Carvalho
 

Similar to Introdução às RNAs em (20)

Taxonomias
TaxonomiasTaxonomias
Taxonomias
 
DissertacaoMScValterFinal20070216
DissertacaoMScValterFinal20070216DissertacaoMScValterFinal20070216
DissertacaoMScValterFinal20070216
 
Perl
PerlPerl
Perl
 
Python
PythonPython
Python
 
Modelagem de Base de Conhecimentos Baseada em Ontologia Estudo de Caso em Rec...
Modelagem de Base de Conhecimentos Baseada em Ontologia Estudo de Caso em Rec...Modelagem de Base de Conhecimentos Baseada em Ontologia Estudo de Caso em Rec...
Modelagem de Base de Conhecimentos Baseada em Ontologia Estudo de Caso em Rec...
 
Grafoes-cap1e2.pdf
Grafoes-cap1e2.pdfGrafoes-cap1e2.pdf
Grafoes-cap1e2.pdf
 
Tunelamento
TunelamentoTunelamento
Tunelamento
 
Cartilha-do-Docente-APNP-UFSC.pdf
Cartilha-do-Docente-APNP-UFSC.pdfCartilha-do-Docente-APNP-UFSC.pdf
Cartilha-do-Docente-APNP-UFSC.pdf
 
Manual TCC
Manual TCCManual TCC
Manual TCC
 
Dissertação Mestrado
Dissertação MestradoDissertação Mestrado
Dissertação Mestrado
 
Abnt2002
Abnt2002Abnt2002
Abnt2002
 
Programacao cpp
Programacao cppProgramacao cpp
Programacao cpp
 
Java basico
Java basicoJava basico
Java basico
 
Aprenda a fazer temas wordpress
Aprenda a fazer temas wordpressAprenda a fazer temas wordpress
Aprenda a fazer temas wordpress
 
Um Modelo de Segurança de Redes para Ambientes Cooperativo
Um Modelo de Segurança de Redes para Ambientes CooperativoUm Modelo de Segurança de Redes para Ambientes Cooperativo
Um Modelo de Segurança de Redes para Ambientes Cooperativo
 
Manual getic 23-out_09
Manual getic 23-out_09Manual getic 23-out_09
Manual getic 23-out_09
 
Sql
SqlSql
Sql
 
Arquitetura computadores
Arquitetura computadoresArquitetura computadores
Arquitetura computadores
 
Asp dot net e learning
Asp dot net e learningAsp dot net e learning
Asp dot net e learning
 
Ncl e Lua - desenvolvendo aplicações interativas para tv digital
Ncl e Lua - desenvolvendo aplicações interativas para tv digitalNcl e Lua - desenvolvendo aplicações interativas para tv digital
Ncl e Lua - desenvolvendo aplicações interativas para tv digital
 

More from Leandro de Castro

2021: An Illustrated Journey into Natural Computing
2021: An Illustrated Journey into Natural Computing2021: An Illustrated Journey into Natural Computing
2021: An Illustrated Journey into Natural ComputingLeandro de Castro
 
2019: LCoN - Centro de Excelência em Inteligência Artificial
2019: LCoN - Centro de Excelência em Inteligência Artificial2019: LCoN - Centro de Excelência em Inteligência Artificial
2019: LCoN - Centro de Excelência em Inteligência ArtificialLeandro de Castro
 
2018: What did I learn about Innovation and Entrepreneurship in Israel
2018: What did I learn about Innovation and Entrepreneurship in Israel2018: What did I learn about Innovation and Entrepreneurship in Israel
2018: What did I learn about Innovation and Entrepreneurship in IsraelLeandro de Castro
 
2018 Academic Innovation Opportunities in Brazil
2018 Academic Innovation Opportunities in Brazil2018 Academic Innovation Opportunities in Brazil
2018 Academic Innovation Opportunities in BrazilLeandro de Castro
 
2017: Tópicos em Educação Financeira
2017: Tópicos em Educação Financeira2017: Tópicos em Educação Financeira
2017: Tópicos em Educação FinanceiraLeandro de Castro
 
2017: The Many Faces of Artificial Intelligence: From AI to Big Data - A Hist...
2017: The Many Faces of Artificial Intelligence: From AI to Big Data - A Hist...2017: The Many Faces of Artificial Intelligence: From AI to Big Data - A Hist...
2017: The Many Faces of Artificial Intelligence: From AI to Big Data - A Hist...Leandro de Castro
 
2016: Fundamentos Matemáticos para Inteligência Artificial
2016: Fundamentos Matemáticos para Inteligência Artificial2016: Fundamentos Matemáticos para Inteligência Artificial
2016: Fundamentos Matemáticos para Inteligência ArtificialLeandro de Castro
 
2010: Plano de Negócios e Incubação de Empresas de Base Tecnológica
2010: Plano de Negócios e Incubação de Empresas de Base Tecnológica2010: Plano de Negócios e Incubação de Empresas de Base Tecnológica
2010: Plano de Negócios e Incubação de Empresas de Base TecnológicaLeandro de Castro
 
2002: Comparing Immune and Neural Networks
2002: Comparing Immune and Neural Networks2002: Comparing Immune and Neural Networks
2002: Comparing Immune and Neural NetworksLeandro de Castro
 
2011: Empreendedorismo Digital - Como Dados Viram Negócios
2011: Empreendedorismo Digital - Como Dados Viram Negócios2011: Empreendedorismo Digital - Como Dados Viram Negócios
2011: Empreendedorismo Digital - Como Dados Viram NegóciosLeandro de Castro
 

More from Leandro de Castro (11)

2021: An Illustrated Journey into Natural Computing
2021: An Illustrated Journey into Natural Computing2021: An Illustrated Journey into Natural Computing
2021: An Illustrated Journey into Natural Computing
 
2019: Folder do LCoN
2019: Folder do LCoN2019: Folder do LCoN
2019: Folder do LCoN
 
2019: LCoN - Centro de Excelência em Inteligência Artificial
2019: LCoN - Centro de Excelência em Inteligência Artificial2019: LCoN - Centro de Excelência em Inteligência Artificial
2019: LCoN - Centro de Excelência em Inteligência Artificial
 
2018: What did I learn about Innovation and Entrepreneurship in Israel
2018: What did I learn about Innovation and Entrepreneurship in Israel2018: What did I learn about Innovation and Entrepreneurship in Israel
2018: What did I learn about Innovation and Entrepreneurship in Israel
 
2018 Academic Innovation Opportunities in Brazil
2018 Academic Innovation Opportunities in Brazil2018 Academic Innovation Opportunities in Brazil
2018 Academic Innovation Opportunities in Brazil
 
2017: Tópicos em Educação Financeira
2017: Tópicos em Educação Financeira2017: Tópicos em Educação Financeira
2017: Tópicos em Educação Financeira
 
2017: The Many Faces of Artificial Intelligence: From AI to Big Data - A Hist...
2017: The Many Faces of Artificial Intelligence: From AI to Big Data - A Hist...2017: The Many Faces of Artificial Intelligence: From AI to Big Data - A Hist...
2017: The Many Faces of Artificial Intelligence: From AI to Big Data - A Hist...
 
2016: Fundamentos Matemáticos para Inteligência Artificial
2016: Fundamentos Matemáticos para Inteligência Artificial2016: Fundamentos Matemáticos para Inteligência Artificial
2016: Fundamentos Matemáticos para Inteligência Artificial
 
2010: Plano de Negócios e Incubação de Empresas de Base Tecnológica
2010: Plano de Negócios e Incubação de Empresas de Base Tecnológica2010: Plano de Negócios e Incubação de Empresas de Base Tecnológica
2010: Plano de Negócios e Incubação de Empresas de Base Tecnológica
 
2002: Comparing Immune and Neural Networks
2002: Comparing Immune and Neural Networks2002: Comparing Immune and Neural Networks
2002: Comparing Immune and Neural Networks
 
2011: Empreendedorismo Digital - Como Dados Viram Negócios
2011: Empreendedorismo Digital - Como Dados Viram Negócios2011: Empreendedorismo Digital - Como Dados Viram Negócios
2011: Empreendedorismo Digital - Como Dados Viram Negócios
 

Introdução às RNAs em

  • 1. Introdução as Redes Neurais Artificiais Copyright ® Leandro Nunes de Castro 1 INTRODUÇÃO ÀS REDES NEURAIS ARTIFICIAIS Este material foi desenvolvido com base na seguinte referência bibliográfica: DE CASTRO, L. N. Fundamentals of Natural Computing: Basic Concepts, Algorithms, and Applications. Capítulo 4, CRC Press, 2006. Estes slides foram gerados em 2002 em conjunto com o Prof. Fernando José Von Zuben da Unicamp, a quem atribuo os devidos créditos e agradecimentos. Versões mais atuais do material são utilizadas em disciplinas de pós-graduação do Programa de Pós-Graduação em Engenharia Elétrica (PPGEE) da Universidade Presbiteriana Mackenzie e da Pós-Graduação da FEEC/Unicamp. O uso deste material para fins acadêmicos é livre e gratuito, desde que sejam mantidas as informações originais de autoria. A sugestão de citação é: “L. N. de Castro (2014), Introdução às Redes Neurais Artificiais, Material de Apoio do Curso de Redes Neurais do PPGEE/Universidade Mackenzie, Disponível online em http://www.slideshare.net/lndecastro, p. 464.” As referências citadas e não listadas podem ser encontradas no livro supracitado. Outros cursos do autor, como “Fundamentos de Computação Natural” e “A Nova Escola do Empreendedorismo” estão disponíveis no mesmo Slideshare. Mais informações sobre o tema podem ser encontradas no site do Laboratório de Computação Natural (LCoN): http://www.mackenzie.br/lcon.html.
  • 2. Introdução as Redes Neurais Artificiais Copyright ® Leandro Nunes de Castro 2 Sumário 1. Introdução as Redes Neurais Artificiais ............................................................. 9 2. Nomenclatura dos Dados.................................................................................. 11 2.1. Normalização dos Dados de Entrada ........................................................ 14 3. Principais Tarefas em Aprendizagem de Máquina ........................................... 16 3.1. Predição.................................................................................................... 17 3.2. Classificação............................................................................................. 18 3.3. Agrupamento ............................................................................................ 24 3.4. Exemplos de Áreas de Aplicação ............................................................. 26 4. Alguns Conceitos em Estatística....................................................................... 27 4.1. Conceitos Básicos..................................................................................... 28 4.2. Medidas Resumo ...................................................................................... 30 4.3. A Curva Normal ....................................................................................... 31 4.4. Testes de Diferenças entre Médias ........................................................... 33 5. Base Biológica das RNAs................................................................................. 41 6. O Sistema Nervoso........................................................................................... 42 6.1. Níveis de Organização no Sistema Nervoso ............................................. 44 6.2. Base Biológica e Física da Aprendizagem e Memória.............................. 55 7. Projeto de Redes Neurais Artificiais................................................................. 59 7.1. Neurônios Artificiais ................................................................................ 66
  • 3. Introdução as Redes Neurais Artificiais Copyright ® Leandro Nunes de Castro 3 7.2. Arquiteturas de Rede ................................................................................ 80 7.3. Paradigmas de Aprendizagem................................................................... 88 8. A Regra de Hebb ............................................................................................ 101 9. O Perceptron Simples ..................................................................................... 104 9.1. Perceptron Simples para Classificação de Padrões................................. 105 9.2. Exemplo de Aplicação e Motivação Geométrica.................................... 108 9.3. Perceptron com Múltiplos Neurônios ..................................................... 110 9.4. Exemplo de Aplicação: Reconhecimento de Caracteres......................... 112 9.5. Aspectos Práticos do Treinamento do Perceptron................................... 113 10. Adaline ........................................................................................................... 115 10.1. A Regra Delta......................................................................................... 115 10.2. Superfícies de Erro ................................................................................. 118 11. Redes Neurais Competitivas: Introdução........................................................ 121 11.1. Quantização Vetorial .............................................................................. 123 12. Rede Neural Competitiva: Algoritmo Básico ................................................. 125 13. Mapas Auto-Organizáveis de Kohonen.......................................................... 130 13.1. Fundamentos........................................................................................... 130 13.2. Projeto de Mapas Auto-Organizáveis ..................................................... 135 13.3. Fase Competitiva .................................................................................... 141 13.4. Fase Cooperativa .................................................................................... 144 13.5. Fase Adaptativa ...................................................................................... 148
  • 4. Introdução as Redes Neurais Artificiais Copyright ® Leandro Nunes de Castro 4 14. Exemplos de Aplicação .................................................................................. 151 14.1. Agrupamento de dados (Clusterização) .................................................. 151 14.2. O Problema da Identificação dos grupos ................................................ 154 14.3. Ordenamento de pontos em espaços multidimensionais......................... 156 14.4. Problemas Combinatoriais (Caixeiro Viajante) ...................................... 157 14.5. Questões a serem investigadas................................................................ 158 15. Quantização Vetorial Supervisionada............................................................. 159 16. Referências sobre Redes Auto-Organizadas................................................... 160 17. Introdução às Redes de Hopfield.................................................................... 162 18. Fundamentos de Sistemas Dinâmicos Não Lineares....................................... 164 18.1. Noções Elementares sobre Estabilidade ................................................. 164 18.2. Sistemas Dinâmicos................................................................................ 166 18.3. Sistemas Não lineares Multidimensionais .............................................. 169 18.4. Análise de Sistemas Não lineares ........................................................... 172 18.5. Exemplos de Comportamentos Dinâmicos Não lineares ........................ 174 18.6. Estado Estacionário em Sistemas Não lineares....................................... 177 19. Redes Neurais Recorrentes como Sistemas Dinâmicos Não lineares ............. 194 19.1. Modelos Derivados da Física Estatística ................................................ 196 19.2. Modelo Aditivo de Neurônio.................................................................. 198 19.3. Adaptação para a Rede de Hopfield........................................................ 200 20. Rede de Hopfield Discreta.............................................................................. 206
  • 5. Introdução as Redes Neurais Artificiais Copyright ® Leandro Nunes de Castro 5 20.1. Características Operacionais da Rede de Hopfield ................................. 209 20.2. Fase 1: Armazenagem de Padrões (memórias fundamentais)................. 211 20.3. Fase 2: Recuperação dos Padrões (estados de equilíbrio estáveis) ......... 212 20.4. Resumo................................................................................................... 213 20.5. A Emergência de Memória Associativa.................................................. 214 20.6. Atratores Espúrios .................................................................................. 217 20.7. Capacidade de Memória da Rede de Hopfield........................................ 218 20.8. Regra da Projeção................................................................................... 221 21. Referências sobre Redes de Hopfield ............................................................. 222 22. Introdução às Redes RBF ............................................................................... 225 23. Regressão........................................................................................................ 227 23.1. Modelos Lineares de Regressão.............................................................. 231 23.2. Interpolação ............................................................................................ 234 23.3. Redes Neurais para Interpolação ............................................................ 236 23.4. A Função de Base Radial........................................................................ 243 24. Teoria de Regularização ................................................................................. 246 24.1. Aprendizagem Supervisionada como Problema Mal-Comportado......... 246 24.2. Regularização ......................................................................................... 249 24.3. Redes Regularizadoras............................................................................ 254 25. Redes RBF Generalizadas .............................................................................. 257 25.1. Aproximação Universal das Redes RBF................................................. 261
  • 6. Introdução as Redes Neurais Artificiais Copyright ® Leandro Nunes de Castro 6 25.2. Maldição da Dimensionalidade............................................................... 262 25.3. Propriedades das Redes RBF.................................................................. 263 26. Treinamento de Redes RBF Generalizadas .................................................... 264 26.1. Seleção de Centros por Auto-Organização ............................................. 266 26.2. Treinamento Supervisionado da Rede RBF............................................ 268 26.3. Um Exemplo de Aproximação Usando Redes RBF ............................... 270 27. Referências sobre Redes RBF ........................................................................ 272 28. Introdução às Redes MLP............................................................................... 275 29. Derivação do Algoritmo de Backpropagation ................................................ 280 29.1. Capacidade de Aproximação Universal.................................................. 287 29.2. Exemplo de Aproximação Universal ...................................................... 291 29.3. Virtudes e Limitações das Redes MLP................................................... 301 30. Aspectos Práticos do Treinamento de Redes MLP......................................... 314 30.1. Treinamento Local ou em Lote............................................................... 314 30.2. Critérios de Parada.................................................................................. 317 30.3. Arquitetura da Rede................................................................................ 321 30.4. Validação Cruzada.................................................................................. 323 30.5. Normalização dos Dados de Entrada ...................................................... 328 30.6. Inicialização dos Vetores de Pesos e Limiares (Bias)............................. 329 31. Referências sobre Redes MLP........................................................................ 334
  • 7. Introdução as Redes Neurais Artificiais Copyright ® Leandro Nunes de Castro 7 32. Técnicas de Otimização Não Linear Irrestrita para o Treinamento de Redes MLP........................................................................................................................ 336 32.1. Série de Taylor e Derivadas de Primeira e Segunda Ordem ................... 339 32.2. Exemplo de aproximação (expansão) em série de Taylor:...................... 340 33. Aproximação de Funções ............................................................................... 343 33.1. Avaliação do Nível de Aproximação...................................................... 344 34. Técnicas de Otimização Não linear Irrestrita.................................................. 347 34.1. Métodos Sem Diferenciação................................................................... 353 34.2. Métodos de Primeira Ordem................................................................... 353 34.3. Métodos de Segunda Ordem................................................................... 358 35. Busca Iterativa da Taxa de Aprendizagem ..................................................... 381 35.1. Busca Simples do Passo.......................................................................... 382 35.2. Método de Fibonacci .............................................................................. 384 35.3. Método da Seção Áurea.......................................................................... 388 35.4. Método da Falsa Posição ........................................................................ 390 36. Comparação de Desempenho ......................................................................... 391 36.1. Desempenho: Velocidade de Convergência............................................ 392 36.2. Capacidade de Generalização ................................................................. 395 37. Referências sobre Otimização Não Linear para Treinamento de Redes MLP 398 38. Máquinas de Vetores Suporte......................................................................... 400 39. Otimização e Produto Interno Kernel ............................................................. 402
  • 8. Introdução as Redes Neurais Artificiais Copyright ® Leandro Nunes de Castro 8 39.1. Conceitos de Otimização ........................................................................ 402 39.2. Produto Interno Kernel ........................................................................... 411 40. Teoria do Aprendizado Estatístico.................................................................. 419 40.1. Dimensão VC ......................................................................................... 426 41. O Hiperplano Ótimo....................................................................................... 429 41.1. Hiperplano Ótimo para Classes Linearmente Separáveis ....................... 429 41.2. Hiperplano Ótimo para Classes Não linearmente Separáveis ................. 434 42. SVMs para Classificação................................................................................ 439 42.1. Caso 1: Classes Linearmente Separáveis ................................................ 441 42.2. Caso 2: Classes Não linearmente Separáveis.......................................... 451 42.3. Discussão................................................................................................ 461 43. Referências sobre SVM.................................................................................. 464
  • 9. Introdução as Redes Neurais Artificiais Copyright ® Leandro Nunes de Castro 9 1. Introdução as Redes Neurais Artificiais  A capacidade de aprendizagem ou adaptação (a estímulos recebidos do ambiente) das redes neurais biológicas (RNBs) é uma de suas mais importantes e marcantes características.  Para que uma RNB aprenda é preciso que haja um processo de estimulação externa, ou seja, é preciso que sejam apresentados exemplos à rede de forma que ela extraia informação destes exemplos e construa seu ‘modelo interno’ do ambiente.  O princípio de funcionamento das redes neurais artificiais (RNAs) é similar ao das redes neurais biológicas: o Dado um conjunto de exemplos de entrada, são feitos ajustes nos parâmetros livres da rede de forma que ela crie um modelo interno capaz de representar os exemplos de entrada adequadamente.
  • 10. Introdução as Redes Neurais Artificiais Copyright ® Leandro Nunes de Castro 10 o O processo de apresentação de dados de entrada e ajuste de parâmetros da rede é denominado de aprendizagem ou treinamento. o Este tipo de aprendizagem é conhecido, portanto, como aprendizagem a partir de dados (learning from data).  O uso de uma RNA para a solução de um dado problema envolve duas fases: treinamento e aplicação.  Assim como no caso das redes biológicas, a aprendizagem de um determinado conteúdo leva a uma possibilidade de aplicação desta rede a um novo problema, similar ao aprendido, mas ainda desconhecido. o Este processo de uso da rede para avaliar novos dados é denominado de aplicação da rede, e a qualidade (ou desempenho) da rede quando aplicada a dados não usados no treinamento (novos dados) é conhecida como capacidade de generalização.
  • 11. Introdução as Redes Neurais Artificiais Copyright ® Leandro Nunes de Castro 11 o A capacidade de generalização da rede é uma de suas características essenciais, pois ela permite que uma RNA seja treinada com um conjunto conhecido de dados de entrada e posteriormente aplicada na avaliação de novos dados. o Uma rede com baixa capacidade de generalização pode não ter utilidade prática. Por exemplo, quando os dados de treinamento possuem muito ruído. 2. Nomenclatura dos Dados  Os conjuntos de dados ou exemplos usados para o treinamento de redes neurais são normalmente denominados por dados de treinamento ou dados de entrada.  Por exemplo, a Tabela 1 apresenta parte de uma base de dados (cadastros) para solicitação de crédito (financiamento) para pagamento em 36 meses.
  • 12. Introdução as Redes Neurais Artificiais Copyright ® Leandro Nunes de Castro 12 Tabela 1: Solicitação de crédito para pagamento em 36 meses. Salário R$ Idade Estado civil Cartão de crédito Imóveis Veículos Nro de filhos Possui cheque especial Financiamento Pretendido R$ Crédito autorizado 350 21 Sol. 0 0 0 0 Sim 10.000 Não 3700 52 Cas. 1 1 2 2 Sim 7.000 Sim 1200 26 Cas. 1 0 1 1 Não 10.000 Não 700 25 Sol. 0 0 0 0 Não 5.000 Sim 8500 50 Cas. 2 1 2 2 Sim 40.000 Sim 1800 27 Sol. 1 0 1 0 Sim 20.000 Não 350 20 Sol. 0 0 0 0 Não 10.000 Não  A nomenclatura usada para descrever cada item desta tabela depende, dentre outros fatores, da área de pesquisa (disciplina).  Cada linha desta tabela corresponde a um registro, amostra, exemplo, instância, objeto, vetor de entradas ou padrão (de entrada ou treinamento). Em mineração
  • 13. Introdução as Redes Neurais Artificiais Copyright ® Leandro Nunes de Castro 13 de dados a nomenclatura mais comum é registro, amostra, objeto ou instância. Em RNAs é mais usual denominar de amostra, padrão de treinamento, padrão de entrada ou vetor de entradas.  Cada coluna corresponde a um atributo, característica, entrada ou variável. Em mineração de dados normalmente denominamos as colunas por atributo ou variáveis independentes, enquanto em estatística normalmente denominamos por características (features). Em RNAs geralmente chamamos as colunas de entradas ou variáveis de entrada, pois cada atributo corresponde a uma das entradas da rede neural artificial.  Nota: a representação dos padrões nas linhas é uma convenção da literatura, mas os padrões também poderiam estar dispostos nas colunas da matriz, desde que isso seja explicitado.
  • 14. Introdução as Redes Neurais Artificiais Copyright ® Leandro Nunes de Castro 14  Um conjunto de dados pode conter objetos com comportamento distinto do comportamento geral dos dados ou de seus modelos. Estes objetos são denominados outliers. o Entretanto, há aplicações, como detecção de fraudes, onde eventos raros podem ser mais importantes que os eventos comuns. o Há técnicas específicas para a identificação de outliers.  Neste curso usaremos a nomenclatura descrita acima de forma consistente, mas enfatizando quase sempre a nomenclatura da área de RNAs. 2.1. Normalização dos Dados de Entrada  Normalização é um processo de transformação dos dados que objetiva torná-los mais apropriados ao processo de treinamento da rede.  A necessidade de normalização dos dados para o treinamento de RNAs pode ser consequência de diversos fatores como, por exemplo, evitar a saturação dos
  • 15. Introdução as Redes Neurais Artificiais Copyright ® Leandro Nunes de Castro 15 neurônios e fazer com que cada atributo dos dados de entrada tenha o mesmo domínio.  Um atributo é normalizado escalonando seus valores de forma que eles pertençam a um dado intervalo, por exemplo, [1, 1] ou [0, 1].  Vamos estudar aqui dois tipos de normalização: a) normalização max-min; e b) normalização pelo escore-z. Normalização Max-Min  A normalização max-min realiza uma transformação linear nos dados originais.  Assuma que maxa e mina são, respectivamente, os valores máximo e mínimo de um determinado atributo a.  A normalização max-min mapeia um valor a em um valor a’ no domínio [novo_mina, novo_maxa] da seguinte forma: aaa aa a novonovonovo a a min_)min_max_( minmax min '    
  • 16. Introdução as Redes Neurais Artificiais Copyright ® Leandro Nunes de Castro 16 Normalização pelo escore-z  Na normalização pelo escore-z, também conhecida por normalização de média zero, os valores de um atributo a são normalizados baseado na média e desvio padrão de a da seguinte forma: a’ = (a ā)/a, onde ā é a média e a é o desvio padrão de a.  Este método de normalização é útil quando os valores máximo e mínimo reais de um atributo são desconhecidos, ou quando há outliers dominando a normalização max-min. 3. Principais Tarefas em Aprendizagem de Máquina  Dado um conjunto de treinamento há duas principais tarefas que podem ser executadas por uma RNA: predição (classificação e estimação) e agrupamento.
  • 17. Introdução as Redes Neurais Artificiais Copyright ® Leandro Nunes de Castro 17 3.1. Predição  Predição é uma terminologia usada para se referir à construção e uso de um modelo para avaliar a classe de uma amostra não rotulada, ou para estimar o valor de um atributo de uma dada amostra. o No primeiro caso denominamos a tarefa de classificação; e o No segundo caso denominamos de regressão (em estatística) ou simplesmente estimação.  Sob esta perspectiva, classificação e regressão constituem os dois principais tipos de problemas de predição, onde a classificação é usada para predizer valores nominais ou discretos, enquanto a regressão é usada para predizer valores contínuos ou ordinais.  Exemplos: classificação (o crédito será oferecido ou não?); regressão (qual o valor do crédito a ser oferecido?).
  • 18. Introdução as Redes Neurais Artificiais Copyright ® Leandro Nunes de Castro 18 3.2. Classificação  O processo de classificação, assim como o uso das RNAs, possui duas etapas: o Na primeira etapa a rede neural é treinada, tal que ela se torne capaz de descrever e distinguir um conjunto pré-determinado de classes. A RNA é treinada usando um conjunto de treinamento rotulado, ou seja, para cada vetor de entradas a saída desejada é conhecida. Isso implica na disponibilidade de pares {(xi,ci)}i = 1,...,N, onde xi e ci i, são os vetores de entrada e as respectivas saídas desejadas. o Uma vez que a rede neural está treinada a classificar os dados de treinamento, é preciso avaliar seu desempenho quando aplicada a dados não usados no processo de treinamento da rede, conhecidos como dados de teste. O desempenho da rede quando aplicada a dados de teste oferece uma estimativa de sua capacidade de generalização.
  • 19. Introdução as Redes Neurais Artificiais Copyright ® Leandro Nunes de Castro 19  Como os rótulos das classes dos dados de treinamento são conhecidos, este processo é denominado de treinamento supervisionado (ou aprendizagem supervisionada).  Exemplos de tarefas de classificação: identificação de spams, classificação de objetos, atribuição de crédito, etc. Aprendizagem Supervisionada como Aproximação de Funções  O processo de treinamento supervisionado pode sempre ser entendido como um problema geral de aproximação de funções.  Considere o problema de aproximar uma função g(.): X  m  r por um modelo de aproximação representado pela função ĝ(,): X  P  r , onde   P (P finito) é um vetor de parâmetros.  O problema geral de aproximação pode ser formalmente apresentado como segue: o Considere a função g(): X  m  r , que mapeia pontos de um subespaço compacto X  m em pontos de um subespaço compacto g[X]  r .
  • 20. Introdução as Redes Neurais Artificiais Copyright ® Leandro Nunes de Castro 20 o Com base nos pares de vetores de entrada saída {(xi,si)}i = 1,...,N, amostrados a partir do mapeamento determinístico definido pela função g na forma: si = g(xi)+i, i = 1,...,N, e dado o modelo de aproximação ĝ(,): XP  r , determine o vetor de parâmetros *  P tal que dist(g(.), ĝ(,*))  dist(g(.), ĝ(,)), para todo   P , onde o operador dist(,) mede a distância entre duas funções definidas no espaço X. o O vetor l expressa o erro no processo de amostragem, sendo assumido ser de média zero e variância fixa. o A solução deste problema, se existir, é denominada a melhor aproximação e depende diretamente da classe de funções a qual ĝ pertence.  Em problemas de aproximação utilizando um número finito de dados amostrados e definido um modelo de aproximação ĝ(,), a distância entre a função a ser aproximada e sua aproximação dist(g(),ĝ(,)) é uma função apenas do vetor de parâmetros   P .
  • 21. Introdução as Redes Neurais Artificiais Copyright ® Leandro Nunes de Castro 21  Tomando a norma euclidiana como a medida de distância, produz-se a seguinte expressão:     N l gg N J 1 2 )θ,(ˆ)( 1 )θ( xx (1)  O funcional J: P   é denominado superfície de erro do problema de aproximação, pois pode ser interpretado como uma hipersuperfície localizada “acima” do espaço de parâmetros P , sendo que para cada ponto   P corresponde uma “altura” J().  O termo funcional corresponde a toda função f : X  n  , e por isso o problema de minimizar J() torna-se um problema de minimização funcional.  Dada a superfície de erro, o problema de aproximação passa a ser um problema de otimização cuja solução é o vetor *  P que minimiza J(), ou seja, )θ(minarg*θ θ J P   (2)
  • 22. Introdução as Redes Neurais Artificiais Copyright ® Leandro Nunes de Castro 22  Durante o processo de aproximação da função g(.) pela função ĝ(,) fornecida pela rede neural, devem ser considerados três tipos de erros:  Erro de Representação: primeiro consideremos o caso em que todo o conjunto amostral está disponível {(xi,si)}i = 1,...,. Assuma, também, que dado {(xi,si)}i = 1,...,, é possível encontrar um conjunto de parâmetros ótimo *. Neste caso, o erro vai depender da adequação e do nível de flexibilidade do modelo de aproximação ĝ(,). Este erro é também conhecido como erro de aproximação, ou efeito bias.  Erro de Generalização: em aplicações de mundo real, somente um número finito de amostras está disponível ou pode ser usado simultaneamente. Além disso, os dados podem conter ruído. Os valores de g para os quais nenhuma amostra está disponível devem ser interpolados. Devido a estes fatores pode ocorrer um erro de generalização, também conhecido como erro de estimação, ou variância.
  • 23. Introdução as Redes Neurais Artificiais Copyright ® Leandro Nunes de Castro 23  Erro de Otimização: como o conjunto de dados é limitado, o erro é avaliado somente nos pontos que pertencem ao conjunto amostral.  Dado o conjunto amostral {(xi,si)}i = 1,...,N, o vetor de parâmetros  = * deve fornecer a melhor função de aproximação possível com base na representação paramétrica ĝ(,) e na medida de distância.  Quando o processo de treinamento supervisionado é visto sob uma perspectiva de aproximação de funções, seu elenco de aplicações se estende para diversas outras áreas além da classificação e estimação, pois ele gera um mapeamento entrada- saída. o Este mapeamento pode ser aplicado, por exemplo, para determinar a saída de um controlador de um robô autônomo, especificando assim qual a próxima ação do robô.
  • 24. Introdução as Redes Neurais Artificiais Copyright ® Leandro Nunes de Castro 24 3.3. Agrupamento  Clustering é o nome dado ao processo de agrupamento de um conjunto de objetos em classes ou clusters (grupos) de objetos similares.  Diferentemente dos processos de classificação, a análise de clusters considera dados de entrada não rotulados, ou seja, a classe à qual cada padrão de entrada pertence não é conhecida a priori. o O processo de agrupamento ou clusterização é normalmente usado para identificar tais classes.  Os objetos são agrupados com o objetivo de maximizar a distância interclasse e minimizar a distância intraclasse. o Portanto, um cluster é uma coleção de objetos similares uns aos outros e dissimilares aos objetos de outros clusters.  Cada cluster formado pode ser visto como uma classe de objetos.
  • 25. Introdução as Redes Neurais Artificiais Copyright ® Leandro Nunes de Castro 25  Como os rótulos das classes dos dados de treinamento não são conhecidos, este processo é denominado de treinamento não supervisionado (ou aprendizagem não supervisionada).  A figura a seguir apresenta alguns possíveis mapeamentos de RNAs. -2.5 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5 -2.5 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5 Random
  • 26. Introdução as Redes Neurais Artificiais Copyright ® Leandro Nunes de Castro 26 -2.5 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5 -2.5 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5 K-Means 3.4. Exemplos de Áreas de Aplicação  Reconhecimento de padrões (p. ex. visão computacional, análise de sons, etc.); processamento de sinais; reconhecimento de caracteres; identificação e controle; biometria; navegação autônoma de robôs; etc.
  • 27. Introdução as Redes Neurais Artificiais Copyright ® Leandro Nunes de Castro 27 4. Alguns Conceitos em Estatística  O processo de treinamento das RNAs envolve a inicialização, geralmente aleatória, do conjunto de pesos da rede. o A partir deste conjunto inicial de pesos um algoritmo de aprendizagem é aplicado à rede para ajustar os valores dos pesos. o Portanto, cada inicialização da rede pode conduzir a um conjunto final de pesos diferente.  Além disso, há outros fatores que normalmente influenciam a determinação de conjuntos de pesos distintos para a rede a cada vez que ela é treinada, por exemplo, a ordem de apresentação dos padrões de entrada.  Conclui-se, portanto, que cada vez que a rede é treinada um desempenho distinto é apresentado.  Como consequência, o resultado do processo de treinamento da rede deve ser avaliado com base em um conjunto amostral de treinamentos e execuções da rede.
  • 28. Introdução as Redes Neurais Artificiais Copyright ® Leandro Nunes de Castro 28  Quando diferentes algoritmos de treinamento e/ou tipos de rede são aplicadas na solução de um dado problema, seus desempenhos precisam ser comparados considerando-se critérios de desempenho médio. o Uma vez determinados os desempenhos médios dos algoritmos, é preciso considerar também se há uma diferença significativa entre estes desempenhos. Para isso, são utilizados testes de significância estatística. 4.1. Conceitos Básicos  Uma população é a coleção completa de elementos a serem estudados, por exemplo, valores, medidas, cidades, etc.  Amostra é um subconjunto dos elementos extraído da população.  Uma variável aleatória x é uma variável que admite um valor numérico para cada resultado de um experimento. o A palavra aleatória indica que, normalmente, só podemos saber seu valor após a execução do experimento.
  • 29. Introdução as Redes Neurais Artificiais Copyright ® Leandro Nunes de Castro 29 o Portanto, para cada valor possível da variável há uma probabilidade associada.  Uma variável aleatória discreta admite um número finito ou contável de possíveis valores.  O termo probabilidade refere-se à frequência relativa de ocorrência de um dado ou evento qualquer, ou seja, a probabilidade associada a um evento qualquer é o número de vezes que tal evento pode ocorrer em relação ao número total de eventos.  A distribuição de probabilidade discreta P, também chamada de função de probabilidade discreta, fornece a probabilidade de ocorrência de cada valor de uma variável aleatória discreta.  Qualquer distribuição P deve satisfazer as seguintes condições: P(x) = 1, x; e 0  P(x)  1, x. (3)
  • 30. Introdução as Redes Neurais Artificiais Copyright ® Leandro Nunes de Castro 30 4.2. Medidas Resumo  Algumas medidas podem ser usadas para resumir ou sumarizar a informação contida em uma base de dados.  Dois tipos de medidas são importantes: medidas de tendência central e medidas de dispersão.  As medidas de tendência central mais comuns são: média, mediana e moda: Média:   N i ix N x 1 1 . Mediana: valor central. Moda: valor mais frequente.  As medidas de dispersão fornecem informação sobre a variabilidade dos dados. Por exemplo, a variância corresponde à variação dos dados em relação à média. Variância:   N i i xx N x 1 2 )( 1 )var( .
  • 31. Introdução as Redes Neurais Artificiais Copyright ® Leandro Nunes de Castro 31 Desvio padrão: )var()( xx  . 4.3. A Curva Normal  Em estatística, a curva normal é uma distribuição comum na qual é possível determinar a probabilidade associada a todos os pontos da linha de base da distribuição. o Ela pode ser vista como uma distribuição de frequências, onde a frequência total sob a curva é 100%. o Essa curva apresenta uma área central que circunda a média ū onde se localizam os escores mais frequentes e há, ainda, áreas progressivamente menores em ambas extremidades (caudas).
  • 32. Introdução as Redes Neurais Artificiais Copyright ® Leandro Nunes de Castro 32 ū 223 3 68,26% 95,44% 99,74% Figura 1: Curva normal com as porcentagens da área total compreendidas entre , 2 e 3.  Para calcular a porcentagem exata entre a média e diversas distâncias-sigma da curva normal é empregada uma tabela. o O cálculo da distância sigma a partir da média ū produz um valor chamado escore z ou escore padronizado, que indica, em unidades de desvio padrão, o
  • 33. Introdução as Redes Neurais Artificiais Copyright ® Leandro Nunes de Castro 33 sentido e o grau com que um dado escore bruto se afasta da média da sua distribuição de frequências: z = (u ū)/, (4) onde  é o desvio padrão da distribuição. o Exemplo: um escore z de 1,4 significa que o escore bruto está a 1,4 à direita da média. 4.4. Testes de Diferenças entre Médias  Os testes de diferença entre médias são usados para verificar se há uma diferença significativa entre uma amostra e outra. o No contexto de RNAs, ele permite-nos verificar se o desempenho apresentado por um algoritmo é significativamente superior ao desempenho de outro algoritmo ou não.  Tornou-se habitual em estatística começar pelo teste da hipótese nula, que afirma que duas amostras foram extraídas da mesma população.
  • 34. Introdução as Redes Neurais Artificiais Copyright ® Leandro Nunes de Castro 34 o De acordo com a hipótese nula, qualquer diferença entre as amostras é resultado do processo amostral. Portanto, uma diferença entre médias amostrais não representa uma verdadeira diferença entre as médias populacionais.  De forma complementar à hipótese nula, a hipótese experimental afirma existir uma verdadeira diferença populacional.  A distribuição amostral de diferenças oferece uma base sólida para testarmos hipóteses acerca da diferença média entre duas amostras aleatórias. Grandes Amostras  Vamos assumir inicialmente que estamos trabalhando com uma grande amostra, ou seja, que N  30.  Para compararmos duas amostras faremos o seguinte raciocínio: o Se a diferença média entre duas amostras situar-se ‘tão longe’ da diferença zero de forma a conferir-lhe somente uma pequena probabilidade de ocorrência na
  • 35. Introdução as Redes Neurais Artificiais Copyright ® Leandro Nunes de Castro 35 distribuição amostral de diferenças, rejeitaremos a hipótese nula, ou seja, a hipótese que afirma ser a diferença obtida apenas ação do acaso. o Analogamente, se a diferença média amostral for tão próxima de zero tal que sua probabilidade de ocorrência seja grande, então devemos aceitar a hipótese nula e tratar a diferença obtida como resultante de erro de amostragem.  Portanto, devemos procurar determinar a que distância a diferença média obtida fica da diferença média de zero.  Para decidir se a diferença amostral obtida é estatisticamente significante (ou seja, resultado de uma real diferença entre as populações e não apenas produto de erro amostral) é habitual estabelecer um nível de confiança, também chamado de nível de significância. o O nível de significância representa a probabilidade com que a hipótese nula pode ser rejeitada com confiança.
  • 36. Introdução as Redes Neurais Artificiais Copyright ® Leandro Nunes de Castro 36 o Analogamente, o nível de significância representa a probabilidade com que a hipótese experimental pode ser aceita com confiança. o Por convenção, usamos um nível de significância de 5%, mas também é comum uma escolha mais rigorosa de 1%.  Dadas duas amostras, podemos estimar de forma acurada o desvio padrão da distribuição de diferenças, designada erro padrão da diferença dif: dif = (ū1 2 + ū2 2 )½ , (5) onde dif é o erro padrão da diferença, ū1 é o erro padrão da primeira média amostral e ū2 é o erro padrão da segunda média amostral.  O erro padrão para cada média amostral é calculado através do desvio padrão das amostras: ū = s/((N 1)½ ). (6)  Uma vez que conhecemos o erro padrão para cada média amostral, podemos obter o erro padrão da diferença pela Equação (5).
  • 37. Introdução as Redes Neurais Artificiais Copyright ® Leandro Nunes de Castro 37  A diferença média amostral obtida pode ser traduzida no seu equivalente z: z = (ū1 ū2)/dif. (7)  Utilizando a tabela de porcentagem da área sob a curva normal entre ū e z, verifica- se que um escore z encontrado representa um percentual das diferenças médias para cada lado à partir da média.  Se subtrairmos essa soma de 100% encontraremos o valor dos escores-diferenças entre médias. Este valor deve ser comparado ao nível de significância pré- determinado para verificar se a hipótese nula deve ou não ser aceita.  Resumo: o Passo 1: achar a média e o desvio padrão de cada amostra. o Passo 2: achar o erro padrão de cada média (Eq. 6) o Passo 3: achar o erro padrão da diferença (Eq. 5) o Passo 4: traduzir a diferença média amostral em unidades de erro padrão da diferença (Eq. 7)
  • 38. Introdução as Redes Neurais Artificiais Copyright ® Leandro Nunes de Castro 38 o Passo 5: achar a porcentagem da área total sob a curva normal entre z e a média das diferenças. o Passo 6: subtrair de 100% para achar a porcentagem da área total associada à diferença média amostral obtida. o Conclusão: Se a probabilidade de ocorrência da diferença média é maior do que o nível de significância pré-determinado, então a hipótese nula deve ser aceita. Pequenas Amostras  Em muitos casos efetuar 30 ou mais treinamentos e execuções de uma RNA pode ser muito custoso computacionalmente.  Nestes casos, onde a quantidade de amostras é pequena, por exemplo, N = 10, a tabela que fornece a porcentagem de área sob a curva normal entre ū e z fica comprometida.
  • 39. Introdução as Redes Neurais Artificiais Copyright ® Leandro Nunes de Castro 39  Isso ocorre, pois a distribuição amostral de diferenças só assume a forma da curva normal se as amostras que a compõem forem grandes.  Esse afastamento da normalidade na distribuição de diferenças pode ser compensado estatisticamente mediante o uso do que se convencionou chamar razão t.  Assim como no caso do escore z, a razão t pode ser usada para traduzir uma diferença média amostral em unidades de erro padrão da diferença.  A razão t pode ser obtida da seguinte forma: calcular a diferença entre as médias das amostras e dividi-la pelo erro padrão da diferença: t = (ū1 ū2)/dif. (8)  Porém, ao contrário do que ocorre com a estatística z, a razão t precisa ser interpretada considerando-se o número de graus de liberdade, gl: gl = N  1, (9) onde Ni é o número de elementos da amostra i.
  • 40. Introdução as Redes Neurais Artificiais Copyright ® Leandro Nunes de Castro 40  Dado o valor de gl encontrado emprega-se uma tabela com os valores de t em função dos graus de liberdade e do nível de significância escolhidos. Esta tabela fornece os valores necessários para rejeição da hipótese nula.
  • 41. Introdução as Redes Neurais Artificiais Copyright ® Leandro Nunes de Castro 41 5. Base Biológica das RNAs  Como o cérebro processa informação? Como ele é organizado? Quais são os mecanismos envolvidos no funcionamento cerebral?  Estas são apenas algumas das perguntas mais desafiadoras para a ciência.  O cérebro é especialista em desempenhar funções como reconhecimento de padrões, controle motor, percepção, inferência, intuição, adivinhações, etc. Entretanto, o cérebro também é “preconceituoso”, lento, impreciso, realiza generalizações incorretas e, acima de tudo, é geralmente incapaz de explicar suas próprias ações (embora este seja um requisito cultural e não funcional).  Os neurônios são considerados as unidades básicas de processamento do cérebro.  De modo análogo, modelos simplificados dos neurônios biológicos constituem as unidades básicas de processamento das redes neurais artificiais (RNAs).
  • 42. Introdução as Redes Neurais Artificiais Copyright ® Leandro Nunes de Castro 42  Os neurônios biológicos estão conectados uns aos outros por meio de conexões sinápticas. Acredita-se que a capacidade das sinapses serem moduladas é a principal base para todos os processos cognitivos, como percepção, raciocínio e memória.  Sendo assim, algumas informações essenciais sobre neurônios, sinapses e organização estrutural, são importantes para o projeto de RNAs. 6. O Sistema Nervoso  Todos os organismos multicelulares possuem algum tipo de sistema nervoso, cuja complexidade e organização varia de acordo com o tipo de animal.  Mesmo os vermes, lesmas e insetos são capazes de adaptar seu comportamento e armazenar informações em seus sistemas nervosos.  O sistema nervoso é responsável por dotar o organismo, por meio de entradas sensoriais, de informações sobre o estado do ambiente no qual ele vive e se move.
  • 43. Introdução as Redes Neurais Artificiais Copyright ® Leandro Nunes de Castro 43 A informação de entrada é processada, comparada com as experiências passadas, e transformada em ações apropriadas ou absorvidas sob a forma de conhecimento.  Anatomicamente, o sistema nervoso possui duas divisões principais: sistema nervoso central e sistema nervoso periférico, sendo que a diferença básica entre eles está na localização. Brainstem: . midbrain . pons . medulla Diencephalon . thalamus . hypothalamus Cerebrum Cerebellum Forebrain
  • 44. Introdução as Redes Neurais Artificiais Copyright ® Leandro Nunes de Castro 44 6.1. Níveis de Organização no Sistema Nervoso  As estruturas que realmente constituem um nível de organização do sistema nervoso são definidas de forma empírica.  Sendo assim, algumas estruturas particularmente interessantes ao estudo das RNAs serão discutidas aqui.  O sistema nervoso pode ser organizado em diferentes níveis: moléculas, sinapses, neurônios, camadas, mapas e sistemas.  Uma estrutura facilmente identificável no sistema nervoso é o neurônio, especialista em processamento de sinais.  Dependendo das condições ambientais, os neurônios são capazes de gerar um sinal, mais especificamente um potencial elétrico, que é utilizado para transmitir informação a outras células.
  • 45. Introdução as Redes Neurais Artificiais Copyright ® Leandro Nunes de Castro 45 h Brain Network of neurons Neuron Synapse Neurônios e Sinapses  Os neurônios utilizam uma variedade de mecanismos bioquímicos para o processamento e transmissão de informação, incluindo os canais iônicos.
  • 46. Introdução as Redes Neurais Artificiais Copyright ® Leandro Nunes de Castro 46  Os canais iônicos permitem um fluxo contínuo de entrada e saída de correntes (elétricas), a geração e a propagação de potenciais de ação, e a liberação de neurotransmissores.  O processo de transmissão de sinais entre neurônios é central para a capacidade de processamento de informação do cérebro.  Uma das descobertas mais empolgantes em neurociência foi a de que a efetividade da transmissão de sinais pode ser modulada, permitindo o cérebro se adaptar a diferentes situações.  A plasticidade sináptica, ou seja, a capacidade das sinapses sofrerem modificações, é o ingrediente chave para o aprendizado da maioria das RNAs.  Os neurônios podem receber e enviar sinais a vários outros neurônios.  Os neurônios que enviam sinais, chamados de neurônios pré-sinápticos ou “enviadores”, fazem contato com os neurônios receptoress ou pós-sinápticos em regiões especializadas denominadas de sinapses.
  • 47. Introdução as Redes Neurais Artificiais Copyright ® Leandro Nunes de Castro 47 Cell body (soma) Axon Synaptic clefts Dendrites Axon hillock Mielin sheath  A sinapse é, portanto, a junção entre o axônio de um neurônio pré-sináptico e o dendrito ou corpo celular de um neurônio pós-sináptico (ver figura).  A capacidade de processamento de informação das sinapses permite que elas alterem o estado de um neurônio pós-sináptico, eventualmente gerando um pulso elétrico, denominado potencial de ação, no neurônio pós-sináptico.
  • 48. Introdução as Redes Neurais Artificiais Copyright ® Leandro Nunes de Castro 48  Portanto, um neurônio pode ser visto como um dispositivo capaz de receber estímulos (de entrada) de diversos outros neurônios e propagar sua única saída, função dos estímulos recebidos e do estado interno, a vários outros neurônios.  Existem diversos mecanismos envolvidos na transmissão de informação (sinais) entre neurônios. Como os neurônios são células encapsuladas por membranas, pequenas aberturas nestas membranas (canais) permitem a transferência de informação entre eles.  Os mecanismos básicos de processamento de informação são baseados no movimento de átomos carregados, ou íons: o Os neurônios habitam um ambiente líquido contendo certa concentração de íons, que podem entrar ou sair do neurônio através dos canais. o Um neurônio é capaz de alterar o potencial elétrico de outros neurônios, denominado de potencial de membrana, que é dado pela diferença do potencial elétrico dentro e fora do neurônio.
  • 49. Introdução as Redes Neurais Artificiais Copyright ® Leandro Nunes de Castro 49 o Quando um potencial de ação chega ao final do axônio, ele mobiliza alguns íons abrindo os canais (que são sensíveis à tensão) e permitindo fluir íons para o terminal, eventualmente resultando na liberação de íons no canal. o Estes íons promovem a liberação de neurotransmissores (substâncias químicas) na fenda sináptica que se difundem e se ligam a receptores no neurônio pós- sináptico. o Os neurotransmissores recebidos pelo neurônio pós-sináptico se propagam até o corpo celular, são integrados e o potencial de membrana resultante irá determinar a ativação do neurônio, que corresponde ao envio de um sinal de saída a outro(s) neurônio(s). o Entretanto, a ativação de um neurônio ocorre apenas quando seu potencial de membrana é maior do que um dado limiar (threshold). o Alguns neurotransmissores possuem a capacidade de ativar um neurônio enquanto outros possuem a capacidade de inibir a ativação do neurônio, levando
  • 50. Introdução as Redes Neurais Artificiais Copyright ® Leandro Nunes de Castro 50 o neurônio pós-sináptico a um estado de repouso. Este último tipo de neurotransmissor gera um potencial de repouso.  A ativação de um neurônio é também denominada de spiking, firing, ou disparo de um potencial de ação (triggering of an action potential). Redes, Camadas e Mapas  Os neurônios podem ter conexões de sentido positivo (feedforward) e/ou de sentido negativo (feedback) com outros neurônios, ou seja, as conexões podem ter um único sentido ou serem recíprocas.  Diversos neurônios interconectados geram uma estrutura em rede conhecida como rede neural. o Por exemplo, em um milímetro cúbico de tecido do córtex, existe aproximadamente 105 neurônios e 109 sinapses, com a grande maioria destas sinapses se originando de células localizadas dentro do córtex.
  • 51. Introdução as Redes Neurais Artificiais Copyright ® Leandro Nunes de Castro 51  Um agrupamento de neurônios interconectados pode exibir comportamentos complexos e uma capacidade de processamento de informação que não pode ser predita tomando-se cada neurônio individualmente.  Uma característica marcante das redes neurais é a representação distribuída de informação e seu processamento paralelo.  Redes neurais com arquiteturas específicas são incorporadas em estruturas maiores capazes de realizar tarefas ainda mais complexas.  Muitas áreas do cérebro apresentam uma organização laminar de neurônios. Lâminas são camadas de neurônios em contato com outras camadas.
  • 52. Introdução as Redes Neurais Artificiais Copyright ® Leandro Nunes de Castro 52
  • 53. Introdução as Redes Neurais Artificiais Copyright ® Leandro Nunes de Castro 53  Um dos arranjos mais comuns de neurônios é uma estrutura bidimensional em camadas organizada através de um arranjo topográfico das respostas de saída. O exemplo mais conhecido deste tipo de estrutura é o córtex humano.  O córtex corresponde à superfície externa do cérebro; uma estrutura bidimensional com vários dobramentos, fissuras e elevações.  Diferentes partes do córtex possuem diferentes funções (ver figura).  Em geral os neurônios do córtex estão organizados em camadas distintas, que são subdivididas em camada de entrada, camadas intermediárias ou escondidas e camada de saída.  A camada de entrada recebe os sinais sensoriais ou de entrada, a camada de saída envia sinais para outras partes do cérebro e as camadas intermediárias recebem (enviam) sinais de (para) outras camadas do córtex. Isso significa que as camadas intermediárias nem recebem entradas diretamente e nem produzem uma saída do tipo motora, por exemplo.
  • 54. Introdução as Redes Neurais Artificiais Copyright ® Leandro Nunes de Castro 54  Um princípio organizacional importante em vários sistemas sensoriais e motores é o mapa topográfico.
  • 55. Introdução as Redes Neurais Artificiais Copyright ® Leandro Nunes de Castro 55 o Por exemplo, neurônios em áreas visuais do córtex estão arranjados topograficamente, no sentido de que neurônios adjacentes possuem campos de recepção visual adjacentes e, coletivamente, eles constituem um mapa da retina. o Obs: Como neurônios vizinhos ocupam-se de representações similares, mapas topográficos constituem uma forma parcimoniosa de organização do cérebro (há economia de conexões, por exemplo).  A organização estrutural em redes, mapas topográficos e camadas são todos casos especiais de um princípio mais geral: a exploração das propriedades estruturais e espaço-temporais para o processamento e armazenagem de informação. 6.2. Base Biológica e Física da Aprendizagem e Memória  O sistema nervoso está continuamente sofrendo modificações e atualizações. Virtualmente todas as suas funções, incluindo percepção, controle motor, regulação térmica e raciocínio, são modificadas por estímulos.
  • 56. Introdução as Redes Neurais Artificiais Copyright ® Leandro Nunes de Castro 56  Observações comportamentais permitiram verificar graus de plasticidade do sistema nervoso: existem mudanças rápidas e fáceis, mudanças lentas e profundas, e mudanças mais permanentes (porém ainda modificáveis).  Em geral, a aprendizagem global é resultado de alterações locais nos neurônios.  Existem diversas formas de modificações possíveis em um neurônio: o Dendritos podem nascer, assim como também podem ser removidos o Alguns dendritos podem se esticar ou ser encolhidos permitindo ou eliminando, respectivamente, a conexão com outras células o Novas sinapses podem ser criadas ou sofrerem alterações o Sinapses também podem ser removidas o Todo neurônio pode morrer e também se regenerar.  Toda esta vasta gama de adaptação estrutural pode ser convenientemente condensada simplesmente referindo-se às sinapses, pois estas modificações envolvem a modificação sináptica de forma direta ou indireta.
  • 57. Introdução as Redes Neurais Artificiais Copyright ® Leandro Nunes de Castro 57  Sendo assim, a aprendizagem via modulação sináptica é o mecanismo mais importante para as redes neurais, sejam elas biológicas ou artificiais.  A modulação sináptica poderá depender de mecanismos de adaptação de neurônios individuais e de redes neurais como um todo.  Assim como a aprendizagem, a memória também é resultado de um processo adaptativo das sinapses. Ela é causada por variações da eficiência sináptica de alguns neurônios como resultado da atividade neural.  Estas alterações resultam em novos ou facilitados caminhos de desenvolvimento e transmissão de sinais através dos circuitos neurais.  Na verdade, um dos resultados de um processo de aprendizagem é a criação de um padrão mais permanente de conexões sinápticas, que, por sua vez, resulta na memorização (aprendizagem) de uma determinada experiência.  Note, portanto, que a diferença entre aprendizagem e memória é sutil: a aprendizagem pode ser vista como o processo adaptativo que resulta em uma
  • 58. Introdução as Redes Neurais Artificiais Copyright ® Leandro Nunes de Castro 58 mudança da eficiência e estrutura sináptica, enquanto a memória pode ser interpretada como o resultado deste processo adaptativo.
  • 59. Introdução as Redes Neurais Artificiais Copyright ® Leandro Nunes de Castro 59 7. Projeto de Redes Neurais Artificiais  Uma RNA pode ser definida como sendo uma estrutura de processamento (rede), passível de implementação em dispositivos eletrônicos, composta por um número de unidades interconectadas (neurônios artificiais), sendo que cada unidade apresenta um comportamento específico de entrada/saída (computação local), determinado pela sua função de transferência, pelas interconexões com outras unidades, dentro de um raio de vizinhança, e possivelmente pelas entradas externas.  Uma rede neural artificial é um circuito composto por uma grande quantidade de unidades simples de processamento inspiradas no sistema neural (Nigrin, 1993).  Uma RNA é um sistema massivamente paralelo e distribuído, composto por unidades de processamento simples que possuem uma capacidade natural de armazenar e utilizar conhecimento (Haykin, 2008).
  • 60. Introdução as Redes Neurais Artificiais Copyright ® Leandro Nunes de Castro 60 Período Pesquisadores Avanços 1943 McCulloch e Pitts Modelo lógico do neurônio 1948 Wiener Livro Cybernetics (controle, comunicação e processamento de sinais) 1949 Hebb Livro The Organization of Behavior (primeira regra de aprendizagem) 1958 Rosenblatt Perceptron convergence theorem 1960 Widrow e Hoff Least-mean square algorithm 1969 Minsky e Papert Livro Perceptrons (demonstrou limites fundamentais das redes SLP) 1979 Werbos Reverse-mode gradient computation** 1980 Grossberg A new principle of self-organization (ART) 1982 Hopfield Uso de uma função de energia para redes recorrentes com conexões simétricas 1982 Kohonen Redes competitivas e mapas auto-organizáveis de Kohonen 1983 Barto, Sutton e Anderson Reinforcement learning 1986 Rumelhart e McClelland Processamento paralelo distribuído 1988 Broomhead e Lowe Redes RBF 1992 Vapnik Máquinas de vetores suporte Tabela 2  Marcos históricos da pesquisa em Redes Neurais Artificiais
  • 61. Introdução as Redes Neurais Artificiais Copyright ® Leandro Nunes de Castro 61  As RNAs apresentam diversas características em comum com o sistema nervoso: o O processamento básico de informação ocorre em diversas unidades simples denominadas de neurônios artificiais ou simplesmente neurônios (ou nós); o Os neurônios estão interconectados gerando redes de neurônios, ou redes neurais; o A informação (sinais) é transmitida entre neurônios através de conexões ou sinapses; o A eficiência de uma sinapse, representada por um peso associado, corresponde à informação armazenada pelo neurônio e, portanto, pela rede neural; e o O conhecimento é adquirido do ambiente através de um processo de aprendizagem que é, basicamente, responsável por adaptar os pesos das conexões aos estímulos recebidos do ambiente.
  • 62. Introdução as Redes Neurais Artificiais Copyright ® Leandro Nunes de Castro 62  Uma característica importante das RNAs é o local onde o conhecimento está armazenado. Nos casos mais simples, este conhecimento é armazenado nos pesos das conexões entre neurônios.  Esta característica tem grandes implicações para a capacidade de processamento e aprendizagem da rede.  A representação do conhecimento é feita tal que o conhecimento necessariamente influencie a forma de processamento da rede, ou seja, o seu comportamento de entrada-saída.  Se o conhecimento está armazenado nos pesos das conexões, então o processo de aprendizagem corresponde a identificar um conjunto apropriado de pesos de forma que a rede se comporte como desejado.  Esta característica possui duas implicações importantes para as RNAs: a possibilidade de desenvolvimento de técnicas de aprendizagem e a representação distribuída de conhecimento.
  • 63. Introdução as Redes Neurais Artificiais Copyright ® Leandro Nunes de Castro 63  Existem tipos de redes neurais cujo treinamento (ou projeto) é mais complicado do que a simples determinação de conjuntos apropriados de pesos sinápticos.  Uma rede neural artificial pode ser projetada através de: 1. Uma definição ou escolha de um conjunto de neurônios artificiais; 2. A definição ou escolha de um padrão de conectividade entre os neurônios, ou seja, de uma arquitetura para a rede; e 3. A definição de um método de determinação dos parâmetros livres da rede, denominado de algoritmo de aprendizagem ou treinamento.  Embora seja possível projetar uma rede neural a partir da definição do papel (computação global) que ela deve desempenhar, combinando-se os efeitos individuais de todos os neurônios, uma rede neural usualmente se adapta para atingir a funcionalidade desejada a partir de uma ou mais estratégias de aprendizado, as quais vão atuar junto a parâmetros configuráveis da rede neural.
  • 64. Introdução as Redes Neurais Artificiais Copyright ® Leandro Nunes de Castro 64  É fundamental, portanto, que a rede neural possua meios de interagir com o ambiente.  Cada rede neural artificial representa uma arquitetura de processamento específica, havendo uma família de arquiteturas, cada qual adequada para funcionalidades específicas.  A diversidade de arquiteturas tem aumentado muito, sendo que as últimas gerações de redes neurais já não podem ser caracterizadas por apresentarem um grande número de unidades e conexões, com funções de transferência simples e idênticas para todas as unidades.  Portanto, a funcionalidade de uma rede neural artificial será determinada pela: o Topologia da rede o Função de transferência de cada neurônio individual o Estratégia de aprendizado o Dados de treinamento
  • 65. Introdução as Redes Neurais Artificiais Copyright ® Leandro Nunes de Castro 65  No entanto, analisar o papel de cada componente da rede neural no resultado final não é uma tarefa elementar.  É por este motivo que as mais avançadas estratégias de aprendizado passaram a ser responsáveis pela definição automática de muitas características de projeto, antes a cargo do projetista.  O projetista geralmente não possui informação a priori suficiente para definir, por exemplo, a melhor topologia da rede e as funções de transferência que devem ser utilizadas em cada neurônio, deixando apenas as conexões ajustáveis a cargo do algoritmo de treinamento.  Quando o aprendizado atua apenas modificando as conexões, ao arbitrar a topologia da rede e as funções de transferência que devem ser utilizadas em cada neurônio, o projetista está “introduzindo um conhecimento inicial”, cujo nível de adequação pode não estar a seu alcance.
  • 66. Introdução as Redes Neurais Artificiais Copyright ® Leandro Nunes de Castro 66 7.1. Neurônios Artificiais  No neurônio biológico, os sinais de entrada chegam através de canais localizados nas sinapses, permitindo a entrada e saída de íons. Um potencial de membrana aparece como resultado da integração dos sinais de entrada, que irão determinar se o neurônio irá produzir um sinal de saída (spike, pulso, ou potencial de ação) ou não. O potencial de ação resulta na liberação de neurotransmissores na sinapse sempre que o potencial de membrana for superior a um determinado limiar (threshold).  O efeito líquido de todos estes processos biológicos que ocorrem nas sinapses é representado por um peso associado. O Neurônio de McCulloch e Pitts  O modelo mais clássico de neurônio em RNAs foi proposto por McCulloch e Pitts em 1943. Eles assumiram que o neurônio está executando uma função lógica.
  • 67. Introdução as Redes Neurais Artificiais Copyright ® Leandro Nunes de Castro 67  Este trabalho, intitulado “Um cálculo lógico das ideias intrínsecas da atividade neural” é bastante famoso e exerceu grande influência na comunidade científica da época.  Foi a primeira tentativa de entender a atividade neural baseado em unidades elementares de computação. Foram supostas cinco premissas: o A atividade do neurônio é binária (“tudo-ou-nada”), podendo apresentar apenas dois estados lógicos: 1 (ativo) ou 0 (inativo); o Uma certa quantidade fixa de sinapses deve ser excitada em um período latente de adição de forma a excitar o neurônio e este número é independente da atividade prévia e da posição do neurônio; o O único atraso significativo no cérebro é o atraso do processamento sináptico; o A atividade de uma sinapse inibitória bloqueia completamente a atividade do neurônio num dado instante de tempo; o A estrutura da rede neural não varia com o tempo.
  • 68. Introdução as Redes Neurais Artificiais Copyright ® Leandro Nunes de Castro 68  McCulloch e Pitts consideraram a resposta neural como sendo equivalente a uma proposição (se A então B) adequada para estimular o neurônio. Sendo assim, eles estudaram o comportamento de diversas redes neurais utilizando a notação simbólica da lógica das proposições.  A característica binária dos neurônios era suficiente para garantir que a atividade de qualquer neurônio poderia ser expressa sob a ótica da lógica das proposições.  Obs: Uma proposição é uma sentença declarativa que pode ser verdadeira ou falsa, mas não ambas. Exemplo: Este curso é RNA. Contraexemplo: Qual seu nome?  Embora com os conhecimentos atuais sobre os mecanismos físicos e químicos envolvidos na transmissão de sinais no cérebro seja possível afirmar que nenhum tipo de lógica das proposições é realizada no cérebro, o neurônio de McCulloch e Pitts pode ser visto como um caso particular do neurônio genérico utilizado em RNAs.  Considere a representação simbólica do neurônio de McCulloch e Pitts:
  • 69. Introdução as Redes Neurais Artificiais Copyright ® Leandro Nunes de Castro 69 u y  x1 x2 f(u) Junção somadora Função de ativação Saída f(u) u Figura 2: Representação pictórica do neurônio de McCulloch e Pitts.  Cada neurônio possui um limiar (threshold) fixo  e recebe algumas entradas.  A cada iteração t, o neurônio responde a suas entradas sinápticas, que refletem o estado do neurônio pré-sináptico. Se nenhuma sinapse inibitória está ativa, o neurônio integra (soma) suas entradas, gerando a entrada líquida (ou entrada interna) u do neurônio e verifica se u é maior do que o limiar . Caso positivo, o neurônio responde com um sinal de saída de valor 1. Caso negativo, ele responde com um sinal de saída 0.
  • 70. Introdução as Redes Neurais Artificiais Copyright ® Leandro Nunes de Castro 70  Exemplo de operação: funções lógicas OR e AND. Neurônio Básico “Integrate-and-Fire”  Estes neurônios são os mais clássicos em neurociência computacional. Trata-se de modelos contínuos e não discretos de neurônios, com pequenas variantes entre si.  Considere um neurônio livre de ruído com entrada líquida u(t) sendo função do tempo e correspondente ao potencial de membrana do neurônio. Os principais efeitos de alguns canais neurais podem ser capturados através de uma simples equação de um integrador: )()( )( τ tiRtuu dt tdu mresm  , (1) onde m é a constante de tempo da membrana determinada pela condutância média dos canais; ures é o potencial de repouso do neurônio; i(t) é a corrente de entrada dada pela soma das correntes geradas pelos disparos dos neurônios pré-sinápticos; e Rm é a resistência do neurônio ao fluxo de corrente.
  • 71. Introdução as Redes Neurais Artificiais Copyright ® Leandro Nunes de Castro 71  A Equação (1) propõe que a taxa de variação do potencial de membrana do neurônio é proporcional a seu potencial atual, ao seu potencial de repouso e ao potencial gerado pelos sinais de entrada.  A corrente de entrada i(t) do neurônio é dada pela soma das correntes de entrada dependendo da eficiência das sinapses individuais, descritas pela variável wj para cada sinapse j. Portanto, a corrente total de entrada do neurônio pode ser escrita como sendo a soma das correntes individuais multiplicadas pelos pesos wj:    j t f jjf j ttfwti )()( onde a função f() parametriza a forma da resposta pós-sináptica.  Esta função foi denominada de função de ativação por McCulloch e Pitts e esta nomenclatura prevalece até os dias de hoje em praticamente todos os modelos de RNAs.  A variável tj f corresponde ao momento do disparo do neurônio pré-sináptico da sinapse j.
  • 72. Introdução as Redes Neurais Artificiais Copyright ® Leandro Nunes de Castro 72  O tempo de disparo do neurônio pós-sináptico é definido como sendo o tempo para o potencial de membrana atingir o limiar .  Para completar este modelo, basta “resetar” o valor do potencial de membrana do neurônio para seu potencial de repouso após o disparo do neurônio. O Neurônio Genérico em RNAs  O elemento computacional básico empregado na maioria das RNAs é um integrador. Trata-se de um elemento processador de informações que é fundamental para a operação das RNAs.  As principais partes do neurônio artificial genérico são: o As sinapses, caracterizadas pelos seus pesos associados; o A junção somadora; e o A função de ativação.
  • 73. Introdução as Redes Neurais Artificiais Copyright ® Leandro Nunes de Castro 73 uk yk  x1 x2 xm f(uk) Junção somadora Função de ativação Saída … wk1 wk2 wkm +1 Limiar(bias) bk Pesos das conexões Entradas Figura 3: Neurônio genérico em RNAs.  Nesta representação, o primeiro subscrito k do peso sináptico wkj corresponde ao neurônio pós-sináptico e o segundo subscrito corresponde à sinapse ligada a ele.  A junção somadora soma todos os sinais de entrada ponderados pelos pesos das conexões. Assumindo os vetores de entrada e de pesos como sendo vetores coluna, esta operação corresponde ao produto interno do vetor de entradas x pelo vetor de
  • 74. Introdução as Redes Neurais Artificiais Copyright ® Leandro Nunes de Castro 74 pesos wk, mais o limiar bk. Genericamente, trata-se de uma combinação linear das entradas pelos pesos associados, mais o limiar bk.  A função de ativação é geralmente utilizada com dois propósitos: limitar a saída do neurônio e introduzir não linearidade no modelo.  O limiar bk tem o papel de aumentar ou diminuir a influência do valor da entrada líquida para a ativação do neurônio k. o Por exemplo, no neurônio de McCulloch e Pitts a saída será 1 para u  :      contráriocaso0 θse1 )( u ufy onde u = x1 + x2.  É possível substituir o limiar (threshold)  por um limiar (bias) que será multiplicado por um valor constante de entrada igual a +1:      contráriocaso0 0se1 )( u ufy
  • 75. Introdução as Redes Neurais Artificiais Copyright ® Leandro Nunes de Castro 75 onde u = x1 + x2  b (para b negativo).  Note que a saída deste neurônio genérico é simplesmente um número, a presença de potenciais de ação (disparos) discretos é ignorada. Entretanto, existem modelos de neurônios, denominados spiking neurons, que utilizam disparos discretos.  Matematicamente, a saída do neurônio k pode ser descrita por:           k m j jkjkk bxwfufy 1 )(  É possível simplificar a notação acima de forma a incluir o bias simplesmente definindo um sinal de entrada de valor x0 = 1 com peso associado wk0 = bk:           m j jkjkk xwfufy 0 )(  Existem vários tipos de função de ativação como, por exemplo, a função linear, a função degrau, as funções sigmoidais, e as funções de base radial.
  • 76. Introdução as Redes Neurais Artificiais Copyright ® Leandro Nunes de Castro 76 uk y  x1 x2 xm f(uk) … wk1 wk2 wkm +1 wk0 = b0 Junção somadora Função de ativação Saída Pesos das conexões Entradas Figura 4: Outra representação para o neurônio genérico.
  • 77. Introdução as Redes Neurais Artificiais Copyright ® Leandro Nunes de Castro 77            0pse0 1p0se 1pse1 k kk k k pf u uu u u com p constante e positivo. a) 1/p0 b) 1/p0 p 0 Figura 5: Função semi-linear (a) e sua derivada em relação à entrada interna (b).
  • 78. Introdução as Redes Neurais Artificiais Copyright ® Leandro Nunes de Castro 78 kk k pp p k ee e fy uu u u      1 1 1 )(   01  kk k p y uu u  a) b) p=0.8 p=1.5 p=3 p=0.8 p=1.5 p=3 Figura 6: Função logística (a) e sua derivada em relação à entrada interna (b).
  • 79. Introdução as Redes Neurais Artificiais Copyright ® Leandro Nunes de Castro 79 kk kk pp pp kk ee ee pfy uu uu uu      )tanh()(   01 2  k k p y u u  a) b) p=1 p=0.6 p=2.2 p=0.6 p=1 p=2.2 Figura 7: Função tangente hiperbólica (a) e sua derivada em relação à entrada interna (b).
  • 80. Introdução as Redes Neurais Artificiais Copyright ® Leandro Nunes de Castro 80 7.2. Arquiteturas de Rede  Muito pouco é sabido sobre os padrões de conexão entre os neurônios biológicos.  Entretanto, a maioria das RNAs utilizam arquiteturas padronizadas, projetadas especialmente para resolver algumas classes de problemas.  O processo de conexão entre neurônios artificiais leva à geração de sinapses e à construção de redes neurais artificiais. w g u wij w xij i yi g yj 1 wi0 Figura 8: Processo de conexão entre neurônios.
  • 81. Introdução as Redes Neurais Artificiais Copyright ® Leandro Nunes de Castro 81  Existem basicamente três tipos de camadas em uma rede neural artificial: camada de entrada, camada(s) intermediária(s) e camada de saída. Entretanto, nem todas as RNAs possuem camadas intermediárias.  A forma pela qual os neurônios estão interconectados está intimamente relacionada ao algoritmo a ser utilizado no seu treinamento.  Existem, basicamente, três tipos principais de arquitetura em RNAs: redes feedforward de uma única camada, redes feedforward de múltiplas camadas, e redes recorrentes. Rede Feedforward com Uma Única Camada  Este caso mais simples de rede em camadas consiste em uma camada de entrada e uma camada de saída.  Geralmente os neurônios de entrada são lineares, ou seja, eles simplesmente propagam o sinal de entrada para a próxima camada. São também denominados de neurônios sensoriais.
  • 82. Introdução as Redes Neurais Artificiais Copyright ® Leandro Nunes de Castro 82 … Camada de entrada Camada de saída Neurônio sensorial Neurônio de processamento … … y1 y2 y3 yo x0 x1 x2 xm w10 w20 . . . . wom Figura 9: Rede feedforward de uma única camada.  Esta rede é denominada feedforward porque a propagação do sinal ocorre apenas da entrada para a saída, ou seja, é apenas no sentido positivo.
  • 83. Introdução as Redes Neurais Artificiais Copyright ® Leandro Nunes de Castro 83            omoo m www www    10 11110 W yi = f(wi.x) = f(j wij.xj) , j = 1,…,m. Note que a primeira coluna de W corresponde ao vetor de bias.  Em forma matricial: y = f(W.x), onde W  om , wi  1m , i = 1,…,o, x  m1 , e y  o1 . Rede Feedforward de Múltiplas Camadas  As redes de múltiplas camadas possuem uma ou mais camadas intermediárias ou escondidas. Adicionando-se camadas intermediárias não lineares é possível aumentar a capacidade de processamento de uma rede feedforward.  A saída de cada camada intermediária é utilizada como entrada para a próxima camada.
  • 84. Introdução as Redes Neurais Artificiais Copyright ® Leandro Nunes de Castro 84  Em geral o algoritmo de treinamento para este tipo de rede envolve a retropropagação do erro entre a saída da rede e uma saída desejada conhecida. … … Camada de entrada Primeira camada escondida Camada de saída Segunda camada escondida … … y1 y2 yo x0 x1 x2 xm Figura 10: Rede feedforward de múltiplas camadas.
  • 85. Introdução as Redes Neurais Artificiais Copyright ® Leandro Nunes de Castro 85  Seja Wk a matriz de pesos da camada k, contada da esquerda para a direita. o k ijw corresponde ao peso ligando o neurônio pós-sináptico i ao neurônio pré- sináptico j na camada k.  Em notação matricial, a saída da rede é dada por: y = f3 (W3 f2 (W2 f1 (W1 x)))  Note que fk , k = 1,..., M (M = número de camadas da rede) pode ser dado por uma matriz quadrada fk  ll , onde l é o número de neurônios na camada k, ou por um vetor fk  l1 , onde l é o número de neurônios na camada k.  O que acontece se as funções de ativação das unidades intermediárias forem lineares?
  • 86. Introdução as Redes Neurais Artificiais Copyright ® Leandro Nunes de Castro 86 Redes Recorrentes  O terceiro principal tipo de arquitetura de RNAs engloba as chamadas redes recorrentes, pois elas possuem, pelo menos, um laço realimentando a saída de neurônios para outros neurônios da rede. Z1 Z1 Z1 Figura 11: Rede neural recorrente de Hopfield.
  • 87. Introdução as Redes Neurais Artificiais Copyright ® Leandro Nunes de Castro 87  É claro que existem outras arquiteturas de redes neurais, como exemplo a rede abaixo. Figura 12: Rede neural arbitrária.
  • 88. Introdução as Redes Neurais Artificiais Copyright ® Leandro Nunes de Castro 88 7.3. Paradigmas de Aprendizagem  A capacidade de aprender associada a uma rede neural é uma das mais importantes qualidades destas estruturas.  Trata-se da habilidade de adaptar-se, de acordo com regras pré-existentes, ao seu ambiente, alterando seu desempenho ao longo do tempo.  Sendo assim, considera-se aprendizado o processo que adapta o comportamento e conduz a uma melhoria de desempenho.  No contexto de redes neurais artificiais, aprendizagem ou treinamento corresponde ao processo de ajuste dos parâmetros livres da rede através de um mecanismo de apresentação de estímulos ambientais, conhecidos como padrões (ou dados) de entrada ou de treinamento: estímulo  adaptação  novo comportamento da rede
  • 89. Introdução as Redes Neurais Artificiais Copyright ® Leandro Nunes de Castro 89  Nas RNAs mais simples e tradicionais, os parâmetros livres da rede correspondem apenas aos pesos sinápticos. Toda a estrutura da rede, incluindo os tipos de neurônios e suas funções de ativação, é pré-definida.  O objetivo do aprendizado em redes neurais é a obtenção de um modelo implícito do sistema em estudo, por ajuste dos parâmetros da rede.  Dada uma rede neural artificial, seja w(t) um peso sináptico de um dado neurônio, no instante de tempo t. O ajuste w(t) é aplicado ao peso sináptico w(t) no instante t, gerando o valor corrigido w(t+1), na forma: w(t+1) = w(t) + w(t)  A obtenção de w(t) pode ser feita de diversas formas. O tipo de aprendizado é determinado pela técnica empregada no processo de ajuste dos pesos sinápticos (parâmetros da rede neural).
  • 90. Introdução as Redes Neurais Artificiais Copyright ® Leandro Nunes de Castro 90  Um conjunto bem definido de regras para obtê-los é denominado um algoritmo de aprendizagem ou treinamento. Exemplos de alguns algoritmos: regra de Hebb, algoritmo de backpropagation, estratégias de competição, máquina de Boltzmann.  A maneira pela qual o ambiente influencia a rede em seu aprendizado define o paradigma de aprendizagem. Exemplos de paradigmas: aprendizado supervisionado, aprendizado por reforço e aprendizado não-supervisionado (ou auto-organizado).  Seja qual for o algoritmo ou o paradigma utilizado, ao alcançarmos o objetivo obtemos uma representação de conhecimento que obedece a uma ou mais das quatro regras de bom senso descritas abaixo: R1 entradas similares provenientes de classes similares de fenômenos ou eventos tendem a produzir representações similares dentro da rede, o que pode levar a classificá-las como pertencentes à mesma categoria.
  • 91. Introdução as Redes Neurais Artificiais Copyright ® Leandro Nunes de Castro 91 R2 itens que devem ser classificados ou processados distintamente devem provocar, de alguma forma, representações distintas dentro da rede. R3 se uma característica é importante, então devem ser alocados recursos da rede neural (por exemplo, neurônios e conexões) para representá-la devidamente. Quanto mais complexa a representação, mais recursos devem ser alocados. R4 a etapa de aprendizado pode ser simplificada caso as informações conhecidas a priori e invariâncias sejam embutidas diretamente no projeto da rede neural.  As duas primeiras regras utilizam os conceitos de similaridade e/ou de distância. Estes conceitos podem ser expressos matematicamente a partir da definição formal de um critério de medida. Em particular, a Teoria de Medidas é uma das áreas mais bem formalizadas da Matemática, juntamente com a Teoria de Conjuntos, constituindo a base de todos os métodos matemáticos.  Existem basicamente três paradigmas de aprendizado:
  • 92. Introdução as Redes Neurais Artificiais Copyright ® Leandro Nunes de Castro 92  Aprendizado supervisionado: é baseado em um conjunto de exemplos de estímulo- resposta (ou entrada-saída), ou em algum outro tipo de informação que represente o comportamento que deve ser apresentado pela rede neural;  Aprendizado por reforço: o comportamento da rede é avaliado apenas com base em algum critério numérico, fornecido em instantes espaçados de tempo;  Aprendizado não-supervisionado: é baseado apenas nos estímulos recebidos pela rede neural. Basicamente, a rede deve aprender a “categorizar” os estímulos. Aprendizagem Supervisionada  Este curso vai se ocupar com o desenvolvimento de técnicas para aprendizado supervisionado e não-supervisionado em redes neurais artificiais.  Pelo fato de serem mais intuitivas, técnicas de aprendizado supervisionado serão abordadas primeiro.  Ideia intuitiva: controle de processos (ex. pouso e decolagem de aviões)
  • 93. Introdução as Redes Neurais Artificiais Copyright ® Leandro Nunes de Castro 93  Exemplos de problemas de engenharia que podem ser apresentados na forma de um problema de aprendizado supervisionado:  classificação e reconhecimento de padrões  predição de séries temporais  identificação de sistemas  controle de processos  projeto de filtros em processamento de sinais Formalização do processo de aprendizado supervisionado  Seja dj(t) a resposta desejada para o neurônio j no instante t e yj(t) a resposta observada do neurônio j no instante t, obtida através de um estímulo x(t) presente na entrada da rede neural.  x(t) e dj(t) constituem um EXEMPLO de par estímulo-resposta apresentado ao neurônio no instante t, possivelmente extraídos de um ambiente ruidoso cujas distribuições de probabilidade são desconhecidas.
  • 94. Introdução as Redes Neurais Artificiais Copyright ® Leandro Nunes de Castro 94  ej(t) = dj(t)  yj(t) é o sinal de erro observado na saída do neurônio j no instante t. Observe que, em ambiente ruidoso, ej(t) é uma variável aleatória.  O processo de aprendizado supervisionado tem por objetivo corrigir este erro observado (em todos os neurônios) e, para tanto, busca minimizar um critério (função objetivo) baseado em ej(t), j=1,2,…,o, onde o é o número de neurônios da rede neural, de maneira que, para t suficientemente alto, yj(t), j=1,2,…,o, estejam próximos de dj(t), j=1,2,…,o, no sentido estatístico.  Um critério muito utilizado é o de erro quadrático médio:         o j j te o EJ 1 2 )( 1 .  Um conceito que está implícito em toda esta análise é a hipótese de estacionariedade dos processos aleatórios presentes.  Além disso, para minimizar J é necessário conhecer as características estatísticas do sistema.
  • 95. Introdução as Redes Neurais Artificiais Copyright ® Leandro Nunes de Castro 95 ej(t)  One or more layers of hidden neurons Output neuron j dj(t)yj(t)  + x(t) Multi-layer Feedforward Network Figura 13: Aprendizagem supervisionada.  Uma aproximação para o critério é utilizar o valor instantâneo do erro quadrático médio:   o j j ke o kJJ 1 2 )( 1 )( .  Nesta fase do curso, vamos considerar que a minimização de J(t) é realizada apenas em relação aos pesos sinápticos da rede neural.
  • 96. Introdução as Redes Neurais Artificiais Copyright ® Leandro Nunes de Castro 96 Aprendizagem Não Supervisionada  No paradigma não supervisionado ou auto-organizado não existe um supervisor para avaliar o desempenho da rede em relação aos dados de entrada.  Nenhuma medida de erro é utilizada para realimentar a rede.  Os dados são ditos não rotulados, no sentido de que as classes às quais eles pertencem ou as saídas desejadas da rede são desconhecidas.  A rede se adapta a regularidades estatísticas nos dados de entrada, desenvolvendo uma capacidade de criar representações internas que codificam as características dos dados de entrada, tornando-se, portanto, capaz de identificar a quais classes novos padrões pertencem.  Geralmente as redes auto-organizadas empregam um algoritmo competitivo de aprendizagem.  Na aprendizagem competitiva, os neurônios de saída da rede competem entre si para se tornarem ativos, com um único neurônio sendo o vencedor da competição.
  • 97. Introdução as Redes Neurais Artificiais Copyright ® Leandro Nunes de Castro 97 Input patterns Environment Neural Network Figura 14: Aprendizagem não supervisionada.  Esta propriedade é que faz com que o algoritmo seja capaz de descobrir regularidades estatísticas no conjunto de dados.  Neurônios individuais aprendem a se especializar a conjuntos (grupos ou clusters) de padrões similares. Eles se tornam detectores ou extratores de características para diferentes classes dos dados de entrada.  Ideia intuitiva: agrupamento de dados (p. ex. balões coloridos)
  • 98. Introdução as Redes Neurais Artificiais Copyright ® Leandro Nunes de Castro 98 Formalização do processo de aprendizado competitivo  Para que um neurônio i seja o vencedor a distância entre o vetor de pesos wi deste neurônio e um determinado padrão de entrada x deve ser a menor dentre todos os outros neurônios da rede, dada uma métrica de distância |||| (geralmente utiliza-se a distância Euclidiana).  A ideia é encontrar o neurônio cujo vetor de pesos seja o mais parecido ao padrão de entrada, ou seja: i = arg mini ||x  wi||, i.  Se um neurônio não responde a um padrão de entrada, ou seja, não é o vencedor, então nenhuma adaptação é sofrida por este neurônio.  Entretanto, o neurônio i que ganhou a competição sofre um ajuste wi no seu vetor de pesos na direção do vetor de entrada:
  • 99. Introdução as Redes Neurais Artificiais Copyright ® Leandro Nunes de Castro 99      competiçãoaperdese0 competiçãoaganhase)α( i ii i wx w onde  indica o tamanho do passo a ser dado na direção de x. O parâmetro  é conhecido como taxa de aprendizagem. Aprendizagem Por Reforço  A aprendizagem por reforço é distinta das outras abordagens, pois neste caso não existe uma interação direta com um supervisor ou modelo explícito do ambiente.  Geralmente, a única informação disponível é um valor escalar que indica a qualidade do desempenho da RNA.  Na aprendizagem por reforço existe um objetivo a ser alcançado. Durante o processo de aprendizagem, a rede “tenta” algumas ações (saídas) e recebe um sinal de reforço (estímulo) do ambiente que permite avaliar a qualidade de sua ação.  O sistema em aprendizagem seletivamente retém as ações que levam a uma maximização dos sinais de reforço.
  • 100. Introdução as Redes Neurais Artificiais Copyright ® Leandro Nunes de Castro 100  Ideia intuitiva: ex. ensinar animais circenses.  A cada iteração t o sistema em aprendizagem recebe uma entrada x(t) (representando o estado do ambiente), fornece uma saída y(t) e, no próximo passo, recebe um escalar de reforço r(t+1) e um novo estado do ambiente x(t+1).  Portanto, os dois conceitos básicos por trás da aprendizagem por reforço são: busca por tentativa e erro e reforço retardado. Estado do ambiente (dado de entrada) Sinal de reforço Saída da rede Ambiente Rede Neural Figura 15: Aprendizagem por reforço.
  • 101. Introdução as Redes Neurais Artificiais Copyright ® Leandro Nunes de Castro 101 8. A Regra de Hebb  Após a publicação do trabalho de McCulloch & Pitts em 1943, Norbert Wiener publicou um livro famoso, em 1948, denominado Cybernetics, seguido pela publicação do livro The Organization of Behavior por Hebb.  No livro de Hebb, foi proposta pela primeira vez uma regra de aprendizagem através da modulação (ou modificação) de pesos sinápticos.  Basicamente, Hebb propôs que a efetividade de uma sinapse aumenta devido à ativação repetida de um neurônio (por outro neurônio). Com suas próprias palavras:  “Quando o axônio de uma célula A está próximo o suficiente de excitar uma célula B ou persistentemente contribui para sua ativação, algum processo de crescimento ou variação metabólica ocorre em uma ou ambas as células, tal que a efetividade da célula A em ativar a célula B é aumentada.”
  • 102. Introdução as Redes Neurais Artificiais Copyright ® Leandro Nunes de Castro 102  Este postulado requer uma mudança no peso sináptico entre células quando as células pré- e pós-sinápticas estão ativas simultaneamente.  Hebb sugeriu que esta mudança era a base para a aprendizagem associativa, resultando em uma modificação duradoura no padrão de atividade de uma rede neural.  Esta regra é generalizada dentro da literatura de RNAs, resultando na denominada regra de Hebb generalizada. Esta regra propõe que mudanças nos pesos das conexões são dadas pelo produto da atividade pré-sináptica e pós-sináptica: wij(t) =  yi(t) xj(t), onde wij(t) é a mudança a ser aplicada no neurônio i,  é um fator multiplicativo denominado de taxa de aprendizagem, yi é a saída do neurônio i, xj é a entrada do neurônio j, e t é o índice de tempo.  Note que esta equação deixa clara a natureza correlacional ou associativa da regra de atualização de Hebb.
  • 103. Introdução as Redes Neurais Artificiais Copyright ® Leandro Nunes de Castro 103 o Sabe-se que boa parte da memória humana é associativa. Neste tipo de memória, um evento está ligado a outro evento, de forma que a ocorrência do primeiro evento resulta na ocorrência do evento ligado. o Em sua versão mais simples, um estímulo está ligado a uma resposta.  A diferença principal entre a proposta original e a regra generalizada é o fato de que no caso generalizado tanto os estímulos excitatórios quanto os inibitórios influenciam na atividade do neurônio.  A equação acima pode ser expressa de forma genérica como sendo: wij(t) = g(yi(t), xj(t)), onde g(,) é uma função de ambos os sinais, pré- e pós-sináptico.  Portanto, o peso de um neurônio i é atualizado de acordo com a seguinte regra: wij(t+1) = wij(t) + wij(t).
  • 104. Introdução as Redes Neurais Artificiais Copyright ® Leandro Nunes de Castro 104 9. O Perceptron Simples  Rosenblatt introduziu o perceptron como a arquitetura mais simples de rede neural capaz de classificar padrões linearmente separáveis.  O algoritmo de treinamento do perceptron foi o primeiro modelo de treinamento supervisionado, embora alguns perceptrons fossem auto-organizados.  Basicamente, o perceptron consiste em uma única camada de neurônios com pesos sinápticos e bias ajustáveis.  Se os padrões de entrada forem linearmente separáveis, o algoritmo de treinamento do perceptron possui convergência garantida, ou seja, é capaz de encontrar um conjunto de pesos que classifica corretamente os dados.  Os pesos dos neurônios que compõem o perceptron serão tais que as superfícies de decisão produzidas pela rede neural estarão apropriadamente posicionadas no espaço.
  • 105. Introdução as Redes Neurais Artificiais Copyright ® Leandro Nunes de Castro 105  Os neurônios do perceptron são similares ao neurônio de McCulloch & Pitts (função de ativação tipo degrau), mas possuem pesos associados, incluindo o bias. 9.1. Perceptron Simples para Classificação de Padrões  O algoritmo do perceptron funciona como a seguir. o Para cada padrão de treinamento (dado de entrada) xi, a saída da rede yi é calculada. o Em seguida, é determinado o erro ei entre a saída desejada para este padrão di e a saída da rede yi, ei = di  yi. o O vetor de pesos conectando as entradas (neurônios pré-sinápticos) a cada saída (neurônios pós-sinápticos) e o bias do neurônio são atualizados de acordo com as seguintes regras: wi(t+1) = wi(t) +  ei xi T , b(t+1) = b(t) +  ei, onde w  1m , x  m1 , e b  11 .
  • 106. Introdução as Redes Neurais Artificiais Copyright ® Leandro Nunes de Castro 106  Considere agora o caso mais simples do perceptron com um único neurônio. u y  x1 x2 xm f(u) Junção somadora Função de ativação Saída … w1 w2 wm +1 w0 = b Entradas  O objetivo desta rede, mais especificamente deste neurônio, é classificar alguns padrões de entrada como pertencentes ou não pertencentes a uma dada classe.  Considere o conjunto de dados de entrada como sendo formado por N amostras (x1,d1), (x2,d2), …, (xN,dN), onde xj é o vetor j de entradas, e dj sua saída desejada (classe) correspondente.
  • 107. Introdução as Redes Neurais Artificiais Copyright ® Leandro Nunes de Castro 107  Seja X  mN , a matriz de dados de entradas com N padrões de dimensão m cada (colunas de X), e d  1N o vetor de saídas desejadas. O algoritmo abaixo pode ser utilizado para treinar o perceptron de um único neurônio: procedure [w] = perceptron(max_it,E,,X,d) initialize w //por simplicidade, inicialize com 0 initialize b //por simplicidade, inicialize com 0 t  1 while t < max_it & E > 0 do, E  0 for i from 1 to N do, //para cada padrão de entrada yi  f(wxi + b) //determine a saída para xi ei  di  yi //determine o erro para xi w  w +  ei xi T //atualize o vetor de pesos b  b +  ei //atualize o bias E  E + ei 2 end for t  t + 1 end while end procedure Algoritmo 1: Algoritmo de treinamento para o perceptron simples.
  • 108. Introdução as Redes Neurais Artificiais Copyright ® Leandro Nunes de Castro 108 9.2. Exemplo de Aplicação e Motivação Geométrica  Considere o problema de utilizar o perceptron com um único neurônio para representar a função lógica AND. (0,1) (1,1) (0,0) (1,0) Entradas Saídas x1 x2 x1 AND x2 0 0 0 0 1 0 1 0 0 1 1 1  1000 1010 1100        dX  A saída yi do neurônio para o vetor de dados xi pode ser representada na forma: yi = f(wxi + b)  Para quaisquer valores de w e b, a função f(u) separa o espaço de entradas em duas regiões, sendo que a curva de separação (superfície de decisão) é uma linha reta.
  • 109. Introdução as Redes Neurais Artificiais Copyright ® Leandro Nunes de Castro 109  A equação desta reta é dada por: w1 x1 + w2 x2 + b = 0  Se a função de ativação do tipo sinal (degrau) possui  = 0, então w1 x1 + w2 x2 + b  0 resultará em uma saída positiva da rede.  Inicializando todos os pesos e o limiar em zero w = [0 0] e b = 0, e definindo  = 1, o algoritmo de treinamento do perceptron fornece o seguinte: w1 = 2; w2 = 1; b =  3, portanto 2x1 + 1x2  3 = 0.  Obs.: note que os pesos do perceptron também poderiam ter sido inicializados com valores aleatórios pequenos. o Neste caso, a superfície de decisão obtida seria diferente. o Considere para efeitos ilustrativos: w1 = 0.015; w2 = 0.768; b = 0.971. o A figura a seguir mostra as duas superfícies de decisão e os pesos e bias determinados pelo algoritmo de treinamento do perceptron.
  • 110. Introdução as Redes Neurais Artificiais Copyright ® Leandro Nunes de Castro 110 (0,1) (1,1) (0,0) (1,0) w1 = 2; w2 = 1; b = 3 w1 = 2.015; w2 = 0.768; b = 2.029 9.3. Perceptron com Múltiplos Neurônios  Note que a regra de aprendizagem do perceptron é do tipo supervisionada, empregando a aprendizagem por correção de erro.  Esta regra pode ser facilmente estendida para atualizar os pesos de uma rede de neurônios em uma única camada.
  • 111. Introdução as Redes Neurais Artificiais Copyright ® Leandro Nunes de Castro 111  Neste caso, para cada vetor de entrada xi haverá um vetor de saídas da rede: yi = f(Wxi + b); W  om , xi  m1 , i = 1,…,N, yi  o1 , e b  o1 , D  oN .  Existe agora um vetor de erros para cada padrão de entrada: ei = di  yi. procedure [W] = perceptron(max_it,,X,D) initialize W //for simplicity set it to zero initialize b //for simplicity set it to zero t  1 while t < max_it do, E  0 for i from 1 to N do, //para cada padrão de entrada yi  f(Wxi + b) //determine a saída da rede para xi ei  di  yi //determine o vetor de erros para xi W  W +  ei xi T //atualize a matriz de pesos b  b +  ei //atualize o vetor de bias E  E + sum(eij 2 ) //j = 1,...,o end for t  t + 1 end while end procedure Algoritmo 2: Algoritmo de treinamento para o perceptron com múltiplas saídas.
  • 112. Introdução as Redes Neurais Artificiais Copyright ® Leandro Nunes de Castro 112 9.4. Exemplo de Aplicação: Reconhecimento de Caracteres  Considere o problema de aplicar o perceptron com múltiplas saídas ao problema de classificação (reconhecimento) dos seguintes caracteres binários:  Cada um destes oito padrões de entrada possui uma resolução de 1210 pixels e as classes a que eles pertencem (0,1,2,3,4,6,,9) estão pré-definidas.  Vamos projetar um perceptron com oito neurônios de saída, onde cada neurônio irá corresponder a uma classe. Temos então X  1208 e D  88 (matriz diagonal).  O algoritmo de treinamento do perceptron será responsável então por definir uma hipersuperfície de decisão em um espaço de dimensão 120 capaz de classificar os dados corretamente.