Introdução às RNAs em

Introdução as Redes Neurais Artificiais
Copyright ® Leandro Nunes de Castro 1
INTRODUÇÃO ÀS REDES NEURAIS
ARTIFICIAIS
Este material foi desenvolvido com base na seguinte referência bibliográfica: DE CASTRO, L.
N. Fundamentals of Natural Computing: Basic Concepts, Algorithms, and Applications.
Capítulo 4, CRC Press, 2006. Estes slides foram gerados em 2002 em conjunto com o Prof.
Fernando José Von Zuben da Unicamp, a quem atribuo os devidos créditos e agradecimentos.
Versões mais atuais do material são utilizadas em disciplinas de pós-graduação do Programa de
Pós-Graduação em Engenharia Elétrica (PPGEE) da Universidade Presbiteriana Mackenzie e
da Pós-Graduação da FEEC/Unicamp. O uso deste material para fins acadêmicos é livre e
gratuito, desde que sejam mantidas as informações originais de autoria. A sugestão de citação é:
“L. N. de Castro (2014), Introdução às Redes Neurais Artificiais, Material de Apoio do Curso
de Redes Neurais do PPGEE/Universidade Mackenzie, Disponível online em
http://www.slideshare.net/lndecastro, p. 464.” As referências citadas e não listadas podem ser
encontradas no livro supracitado. Outros cursos do autor, como “Fundamentos de Computação
Natural” e “A Nova Escola do Empreendedorismo” estão disponíveis no mesmo Slideshare.
Mais informações sobre o tema podem ser encontradas no site do Laboratório de Computação
Natural (LCoN): http://www.mackenzie.br/lcon.html.

Sumário
1. Introdução as Redes Neurais Artificiais ............................................................. 9
2. Nomenclatura dos Dados.................................................................................. 11
2.1. Normalização dos Dados de Entrada ........................................................ 14
3. Principais Tarefas em Aprendizagem de Máquina ........................................... 16
3.1. Predição.................................................................................................... 17
3.2. Classificação............................................................................................. 18
3.3. Agrupamento ............................................................................................ 24
3.4. Exemplos de Áreas de Aplicação ............................................................. 26
4. Alguns Conceitos em Estatística....................................................................... 27
4.1. Conceitos Básicos..................................................................................... 28
4.2. Medidas Resumo ...................................................................................... 30
4.3. A Curva Normal ....................................................................................... 31
4.4. Testes de Diferenças entre Médias ........................................................... 33
5. Base Biológica das RNAs................................................................................. 41
6. O Sistema Nervoso........................................................................................... 42
6.1. Níveis de Organização no Sistema Nervoso ............................................. 44
6.2. Base Biológica e Física da Aprendizagem e Memória.............................. 55
7. Projeto de Redes Neurais Artificiais................................................................. 59
7.1. Neurônios Artificiais ................................................................................ 66

7.2. Arquiteturas de Rede ................................................................................ 80
7.3. Paradigmas de Aprendizagem................................................................... 88
8. A Regra de Hebb ............................................................................................ 101
9. O Perceptron Simples ..................................................................................... 104
9.1. Perceptron Simples para Classificação de Padrões................................. 105
9.2. Exemplo de Aplicação e Motivação Geométrica.................................... 108
9.3. Perceptron com Múltiplos Neurônios ..................................................... 110
9.4. Exemplo de Aplicação: Reconhecimento de Caracteres......................... 112
9.5. Aspectos Práticos do Treinamento do Perceptron................................... 113
10. Adaline ........................................................................................................... 115
10.1. A Regra Delta......................................................................................... 115
10.2. Superfícies de Erro ................................................................................. 118
11. Redes Neurais Competitivas: Introdução........................................................ 121
11.1. Quantização Vetorial .............................................................................. 123
12. Rede Neural Competitiva: Algoritmo Básico ................................................. 125
13. Mapas Auto-Organizáveis de Kohonen.......................................................... 130
13.1. Fundamentos........................................................................................... 130
13.2. Projeto de Mapas Auto-Organizáveis ..................................................... 135
13.3. Fase Competitiva .................................................................................... 141
13.4. Fase Cooperativa .................................................................................... 144
13.5. Fase Adaptativa ...................................................................................... 148

14. Exemplos de Aplicação .................................................................................. 151
14.1. Agrupamento de dados (Clusterização) .................................................. 151
14.2. O Problema da Identificação dos grupos ................................................ 154
14.3. Ordenamento de pontos em espaços multidimensionais......................... 156
14.4. Problemas Combinatoriais (Caixeiro Viajante) ...................................... 157
14.5. Questões a serem investigadas................................................................ 158
15. Quantização Vetorial Supervisionada............................................................. 159
16. Referências sobre Redes Auto-Organizadas................................................... 160
17. Introdução às Redes de Hopfield.................................................................... 162
18. Fundamentos de Sistemas Dinâmicos Não Lineares....................................... 164
18.1. Noções Elementares sobre Estabilidade ................................................. 164
18.2. Sistemas Dinâmicos................................................................................ 166
18.3. Sistemas Não lineares Multidimensionais .............................................. 169
18.4. Análise de Sistemas Não lineares ........................................................... 172
18.5. Exemplos de Comportamentos Dinâmicos Não lineares ........................ 174
18.6. Estado Estacionário em Sistemas Não lineares....................................... 177
19. Redes Neurais Recorrentes como Sistemas Dinâmicos Não lineares ............. 194
19.1. Modelos Derivados da Física Estatística ................................................ 196
19.2. Modelo Aditivo de Neurônio.................................................................. 198
19.3. Adaptação para a Rede de Hopfield........................................................ 200
20. Rede de Hopfield Discreta.............................................................................. 206

20.1. Características Operacionais da Rede de Hopfield ................................. 209
20.2. Fase 1: Armazenagem de Padrões (memórias fundamentais)................. 211
20.3. Fase 2: Recuperação dos Padrões (estados de equilíbrio estáveis) ......... 212
20.4. Resumo................................................................................................... 213
20.5. A Emergência de Memória Associativa.................................................. 214
20.6. Atratores Espúrios .................................................................................. 217
20.7. Capacidade de Memória da Rede de Hopfield........................................ 218
20.8. Regra da Projeção................................................................................... 221
21. Referências sobre Redes de Hopfield ............................................................. 222
22. Introdução às Redes RBF ............................................................................... 225
23. Regressão........................................................................................................ 227
23.1. Modelos Lineares de Regressão.............................................................. 231
23.2. Interpolação ............................................................................................ 234
23.3. Redes Neurais para Interpolação ............................................................ 236
23.4. A Função de Base Radial........................................................................ 243
24. Teoria de Regularização ................................................................................. 246
24.1. Aprendizagem Supervisionada como Problema Mal-Comportado......... 246
24.2. Regularização ......................................................................................... 249
24.3. Redes Regularizadoras............................................................................ 254
25. Redes RBF Generalizadas .............................................................................. 257
25.1. Aproximação Universal das Redes RBF................................................. 261

25.2. Maldição da Dimensionalidade............................................................... 262
25.3. Propriedades das Redes RBF.................................................................. 263
26. Treinamento de Redes RBF Generalizadas .................................................... 264
26.1. Seleção de Centros por Auto-Organização ............................................. 266
26.2. Treinamento Supervisionado da Rede RBF............................................ 268
26.3. Um Exemplo de Aproximação Usando Redes RBF ............................... 270
27. Referências sobre Redes RBF ........................................................................ 272
28. Introdução às Redes MLP............................................................................... 275
29. Derivação do Algoritmo de Backpropagation ................................................ 280
29.1. Capacidade de Aproximação Universal.................................................. 287
29.2. Exemplo de Aproximação Universal ...................................................... 291
29.3. Virtudes e Limitações das Redes MLP................................................... 301
30. Aspectos Práticos do Treinamento de Redes MLP......................................... 314
30.1. Treinamento Local ou em Lote............................................................... 314
30.2. Critérios de Parada.................................................................................. 317
30.3. Arquitetura da Rede................................................................................ 321
30.4. Validação Cruzada.................................................................................. 323
30.5. Normalização dos Dados de Entrada ...................................................... 328
30.6. Inicialização dos Vetores de Pesos e Limiares (Bias)............................. 329
31. Referências sobre Redes MLP........................................................................ 334

32. Técnicas de Otimização Não Linear Irrestrita para o Treinamento de Redes
MLP........................................................................................................................ 336
32.1. Série de Taylor e Derivadas de Primeira e Segunda Ordem ................... 339
32.2. Exemplo de aproximação (expansão) em série de Taylor:...................... 340
33. Aproximação de Funções ............................................................................... 343
33.1. Avaliação do Nível de Aproximação...................................................... 344
34. Técnicas de Otimização Não linear Irrestrita.................................................. 347
34.1. Métodos Sem Diferenciação................................................................... 353
34.2. Métodos de Primeira Ordem................................................................... 353
34.3. Métodos de Segunda Ordem................................................................... 358
35. Busca Iterativa da Taxa de Aprendizagem ..................................................... 381
35.1. Busca Simples do Passo.......................................................................... 382
35.2. Método de Fibonacci .............................................................................. 384
35.3. Método da Seção Áurea.......................................................................... 388
35.4. Método da Falsa Posição ........................................................................ 390
36. Comparação de Desempenho ......................................................................... 391
36.1. Desempenho: Velocidade de Convergência............................................ 392
36.2. Capacidade de Generalização ................................................................. 395
37. Referências sobre Otimização Não Linear para Treinamento de Redes MLP 398
38. Máquinas de Vetores Suporte......................................................................... 400
39. Otimização e Produto Interno Kernel ............................................................. 402

39.1. Conceitos de Otimização ........................................................................ 402
39.2. Produto Interno Kernel ........................................................................... 411
40. Teoria do Aprendizado Estatístico.................................................................. 419
40.1. Dimensão VC ......................................................................................... 426
41. O Hiperplano Ótimo....................................................................................... 429
41.1. Hiperplano Ótimo para Classes Linearmente Separáveis ....................... 429
41.2. Hiperplano Ótimo para Classes Não linearmente Separáveis ................. 434
42. SVMs para Classificação................................................................................ 439
42.1. Caso 1: Classes Linearmente Separáveis ................................................ 441
42.2. Caso 2: Classes Não linearmente Separáveis.......................................... 451
42.3. Discussão................................................................................................ 461
43. Referências sobre SVM.................................................................................. 464

1. Introdução as Redes Neurais Artificiais
 A capacidade de aprendizagem ou adaptação (a estímulos recebidos do ambiente)
das redes neurais biológicas (RNBs) é uma de suas mais importantes e marcantes
características.
 Para que uma RNB aprenda é preciso que haja um processo de estimulação
externa, ou seja, é preciso que sejam apresentados exemplos à rede de forma que
ela extraia informação destes exemplos e construa seu ‘modelo interno’ do
ambiente.
 O princípio de funcionamento das redes neurais artificiais (RNAs) é similar ao das
redes neurais biológicas:
o Dado um conjunto de exemplos de entrada, são feitos ajustes nos parâmetros
livres da rede de forma que ela crie um modelo interno capaz de representar os
exemplos de entrada adequadamente.

o O processo de apresentação de dados de entrada e ajuste de parâmetros da rede é
denominado de aprendizagem ou treinamento.
o Este tipo de aprendizagem é conhecido, portanto, como aprendizagem a partir
de dados (learning from data).
 O uso de uma RNA para a solução de um dado problema envolve duas fases:
treinamento e aplicação.
 Assim como no caso das redes biológicas, a aprendizagem de um determinado
conteúdo leva a uma possibilidade de aplicação desta rede a um novo problema,
similar ao aprendido, mas ainda desconhecido.
o Este processo de uso da rede para avaliar novos dados é denominado de
aplicação da rede, e a qualidade (ou desempenho) da rede quando aplicada a
dados não usados no treinamento (novos dados) é conhecida como capacidade
de generalização.

o A capacidade de generalização da rede é uma de suas características essenciais,
pois ela permite que uma RNA seja treinada com um conjunto conhecido de
dados de entrada e posteriormente aplicada na avaliação de novos dados.
o Uma rede com baixa capacidade de generalização pode não ter utilidade prática.
Por exemplo, quando os dados de treinamento possuem muito ruído.
2. Nomenclatura dos Dados
 Os conjuntos de dados ou exemplos usados para o treinamento de redes neurais são
normalmente denominados por dados de treinamento ou dados de entrada.
 Por exemplo, a Tabela 1 apresenta parte de uma base de dados (cadastros) para
solicitação de crédito (financiamento) para pagamento em 36 meses.

Tabela 1: Solicitação de crédito para pagamento em 36 meses.
Salário
R$
Idade Estado
civil
Cartão
de
crédito
Imóveis Veículos Nro de
filhos
Possui
cheque
especial
Financiamento
Pretendido R$
Crédito
autorizado
350 21 Sol. 0 0 0 0 Sim 10.000 Não
3700 52 Cas. 1 1 2 2 Sim 7.000 Sim
1200 26 Cas. 1 0 1 1 Não 10.000 Não
700 25 Sol. 0 0 0 0 Não 5.000 Sim
8500 50 Cas. 2 1 2 2 Sim 40.000 Sim
1800 27 Sol. 1 0 1 0 Sim 20.000 Não
350 20 Sol. 0 0 0 0 Não 10.000 Não
 A nomenclatura usada para descrever cada item desta tabela depende, dentre outros
fatores, da área de pesquisa (disciplina).
 Cada linha desta tabela corresponde a um registro, amostra, exemplo, instância,
objeto, vetor de entradas ou padrão (de entrada ou treinamento). Em mineração

de dados a nomenclatura mais comum é registro, amostra, objeto ou instância.
Em RNAs é mais usual denominar de amostra, padrão de treinamento, padrão de
entrada ou vetor de entradas.
 Cada coluna corresponde a um atributo, característica, entrada ou variável. Em
mineração de dados normalmente denominamos as colunas por atributo ou
variáveis independentes, enquanto em estatística normalmente denominamos por
características (features). Em RNAs geralmente chamamos as colunas de
entradas ou variáveis de entrada, pois cada atributo corresponde a uma das
entradas da rede neural artificial.
 Nota: a representação dos padrões nas linhas é uma convenção da literatura, mas os
padrões também poderiam estar dispostos nas colunas da matriz, desde que isso
seja explicitado.

 Um conjunto de dados pode conter objetos com comportamento distinto do
comportamento geral dos dados ou de seus modelos. Estes objetos são
denominados outliers.
o Entretanto, há aplicações, como detecção de fraudes, onde eventos raros podem
ser mais importantes que os eventos comuns.
o Há técnicas específicas para a identificação de outliers.
 Neste curso usaremos a nomenclatura descrita acima de forma consistente, mas
enfatizando quase sempre a nomenclatura da área de RNAs.
2.1. Normalização dos Dados de Entrada
 Normalização é um processo de transformação dos dados que objetiva torná-los
mais apropriados ao processo de treinamento da rede.
 A necessidade de normalização dos dados para o treinamento de RNAs pode ser
consequência de diversos fatores como, por exemplo, evitar a saturação dos

neurônios e fazer com que cada atributo dos dados de entrada tenha o mesmo
domínio.
 Um atributo é normalizado escalonando seus valores de forma que eles pertençam
a um dado intervalo, por exemplo, [1, 1] ou [0, 1].
 Vamos estudar aqui dois tipos de normalização: a) normalização max-min; e b)
normalização pelo escore-z.
Normalização Max-Min
 A normalização max-min realiza uma transformação linear nos dados originais.
 Assuma que maxa e mina são, respectivamente, os valores máximo e mínimo de
um determinado atributo a.
 A normalização max-min mapeia um valor a em um valor a’ no domínio
[novo_mina, novo_maxa] da seguinte forma:
aaa
aa
a
novonovonovo
a
a min_)min_max_(
minmax
min
' 




Normalização pelo escore-z
 Na normalização pelo escore-z, também conhecida por normalização de média
zero, os valores de um atributo a são normalizados baseado na média e desvio
padrão de a da seguinte forma:
a’ = (a ā)/a,
onde ā é a média e a é o desvio padrão de a.
 Este método de normalização é útil quando os valores máximo e mínimo reais de
um atributo são desconhecidos, ou quando há outliers dominando a normalização
max-min.
3. Principais Tarefas em Aprendizagem de
Máquina
 Dado um conjunto de treinamento há duas principais tarefas que podem ser
executadas por uma RNA: predição (classificação e estimação) e agrupamento.

3.1. Predição
 Predição é uma terminologia usada para se referir à construção e uso de um
modelo para avaliar a classe de uma amostra não rotulada, ou para estimar o valor
de um atributo de uma dada amostra.
o No primeiro caso denominamos a tarefa de classificação; e
o No segundo caso denominamos de regressão (em estatística) ou simplesmente
estimação.
 Sob esta perspectiva, classificação e regressão constituem os dois principais tipos
de problemas de predição, onde a classificação é usada para predizer valores
nominais ou discretos, enquanto a regressão é usada para predizer valores
contínuos ou ordinais.
 Exemplos: classificação (o crédito será oferecido ou não?); regressão (qual o valor
do crédito a ser oferecido?).

3.2. Classificação
 O processo de classificação, assim como o uso das RNAs, possui duas etapas:
o Na primeira etapa a rede neural é treinada, tal que ela se torne capaz de
descrever e distinguir um conjunto pré-determinado de classes. A RNA é
treinada usando um conjunto de treinamento rotulado, ou seja, para cada vetor
de entradas a saída desejada é conhecida. Isso implica na disponibilidade de
pares {(xi,ci)}i = 1,...,N, onde xi e ci i, são os vetores de entrada e as respectivas
saídas desejadas.
o Uma vez que a rede neural está treinada a classificar os dados de treinamento, é
preciso avaliar seu desempenho quando aplicada a dados não usados no
processo de treinamento da rede, conhecidos como dados de teste. O
desempenho da rede quando aplicada a dados de teste oferece uma estimativa de
sua capacidade de generalização.

 Como os rótulos das classes dos dados de treinamento são conhecidos, este
processo é denominado de treinamento supervisionado (ou aprendizagem
supervisionada).
 Exemplos de tarefas de classificação: identificação de spams, classificação de
objetos, atribuição de crédito, etc.
Aprendizagem Supervisionada como Aproximação de Funções
 O processo de treinamento supervisionado pode sempre ser entendido como um
problema geral de aproximação de funções.
 Considere o problema de aproximar uma função g(.): X  m
 r
por um
modelo de aproximação representado pela função ĝ(,): X  P
 r
, onde  
P
(P finito) é um vetor de parâmetros.
 O problema geral de aproximação pode ser formalmente apresentado como segue:
o Considere a função g(): X  m
 r
, que mapeia pontos de um subespaço
compacto X  m
em pontos de um subespaço compacto g[X]  r
.

o Com base nos pares de vetores de entrada saída {(xi,si)}i = 1,...,N, amostrados a
partir do mapeamento determinístico definido pela função g na forma:
si = g(xi)+i, i = 1,...,N, e dado o modelo de aproximação ĝ(,): XP
 r
,
determine o vetor de parâmetros *  P
tal que
dist(g(.), ĝ(,*))  dist(g(.), ĝ(,)), para todo   P
, onde o operador dist(,)
mede a distância entre duas funções definidas no espaço X.
o O vetor l expressa o erro no processo de amostragem, sendo assumido ser de
média zero e variância fixa.
o A solução deste problema, se existir, é denominada a melhor aproximação e
depende diretamente da classe de funções a qual ĝ pertence.
 Em problemas de aproximação utilizando um número finito de dados amostrados e
definido um modelo de aproximação ĝ(,), a distância entre a função a ser
aproximada e sua aproximação dist(g(),ĝ(,)) é uma função apenas do vetor de
parâmetros   P
.

 Tomando a norma euclidiana como a medida de distância, produz-se a seguinte
expressão:
 


N
l
gg
N
J
1
2
)θ,(ˆ)(
1
)θ( xx (1)
 O funcional J: P
  é denominado superfície de erro do problema de
aproximação, pois pode ser interpretado como uma hipersuperfície localizada
“acima” do espaço de parâmetros P
, sendo que para cada ponto   P
corresponde uma “altura” J().
 O termo funcional corresponde a toda função f : X  n
 , e por isso o
problema de minimizar J() torna-se um problema de minimização funcional.
 Dada a superfície de erro, o problema de aproximação passa a ser um problema de
otimização cuja solução é o vetor *  P
que minimiza J(), ou seja,
)θ(minarg*θ
θ
J
P

 (2)

 Durante o processo de aproximação da função g(.) pela função ĝ(,) fornecida
pela rede neural, devem ser considerados três tipos de erros:
 Erro de Representação: primeiro consideremos o caso em que todo o conjunto
amostral está disponível {(xi,si)}i = 1,...,. Assuma, também, que dado
{(xi,si)}i = 1,...,, é possível encontrar um conjunto de parâmetros ótimo *. Neste
caso, o erro vai depender da adequação e do nível de flexibilidade do modelo de
aproximação ĝ(,). Este erro é também conhecido como erro de aproximação,
ou efeito bias.
 Erro de Generalização: em aplicações de mundo real, somente um número finito
de amostras está disponível ou pode ser usado simultaneamente. Além disso, os
dados podem conter ruído. Os valores de g para os quais nenhuma amostra está
disponível devem ser interpolados. Devido a estes fatores pode ocorrer um erro
de generalização, também conhecido como erro de estimação, ou variância.

 Erro de Otimização: como o conjunto de dados é limitado, o erro é avaliado
somente nos pontos que pertencem ao conjunto amostral.
 Dado o conjunto amostral {(xi,si)}i = 1,...,N, o vetor de parâmetros  = * deve
fornecer a melhor função de aproximação possível com base na representação
paramétrica ĝ(,) e na medida de distância.
 Quando o processo de treinamento supervisionado é visto sob uma perspectiva de
aproximação de funções, seu elenco de aplicações se estende para diversas outras
áreas além da classificação e estimação, pois ele gera um mapeamento entrada-
saída.
o Este mapeamento pode ser aplicado, por exemplo, para determinar a saída de um
controlador de um robô autônomo, especificando assim qual a próxima ação do
robô.

3.3. Agrupamento
 Clustering é o nome dado ao processo de agrupamento de um conjunto de objetos
em classes ou clusters (grupos) de objetos similares.
 Diferentemente dos processos de classificação, a análise de clusters considera
dados de entrada não rotulados, ou seja, a classe à qual cada padrão de entrada
pertence não é conhecida a priori.
o O processo de agrupamento ou clusterização é normalmente usado para
identificar tais classes.
 Os objetos são agrupados com o objetivo de maximizar a distância interclasse e
minimizar a distância intraclasse.
o Portanto, um cluster é uma coleção de objetos similares uns aos outros e
dissimilares aos objetos de outros clusters.
 Cada cluster formado pode ser visto como uma classe de objetos.

 Como os rótulos das classes dos dados de treinamento não são conhecidos, este
processo é denominado de treinamento não supervisionado (ou aprendizagem não
supervisionada).
 A figura a seguir apresenta alguns possíveis mapeamentos de RNAs.
-2.5 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5
-2.5
-2
-1.5
-1
-0.5
0
0.5
1
1.5
2
2.5
Random

-2.5 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5
-2.5
-2
-1.5
-1
-0.5
0
0.5
1
1.5
2
2.5
K-Means
3.4. Exemplos de Áreas de Aplicação
 Reconhecimento de padrões (p. ex. visão computacional, análise de sons, etc.);
processamento de sinais; reconhecimento de caracteres; identificação e controle;
biometria; navegação autônoma de robôs; etc.

4. Alguns Conceitos em Estatística
 O processo de treinamento das RNAs envolve a inicialização, geralmente aleatória,
do conjunto de pesos da rede.
o A partir deste conjunto inicial de pesos um algoritmo de aprendizagem é
aplicado à rede para ajustar os valores dos pesos.
o Portanto, cada inicialização da rede pode conduzir a um conjunto final de pesos
diferente.
 Além disso, há outros fatores que normalmente influenciam a determinação de
conjuntos de pesos distintos para a rede a cada vez que ela é treinada, por exemplo,
a ordem de apresentação dos padrões de entrada.
 Conclui-se, portanto, que cada vez que a rede é treinada um desempenho distinto é
apresentado.
 Como consequência, o resultado do processo de treinamento da rede deve ser
avaliado com base em um conjunto amostral de treinamentos e execuções da rede.

 Quando diferentes algoritmos de treinamento e/ou tipos de rede são aplicadas na
solução de um dado problema, seus desempenhos precisam ser comparados
considerando-se critérios de desempenho médio.
o Uma vez determinados os desempenhos médios dos algoritmos, é preciso
considerar também se há uma diferença significativa entre estes desempenhos.
Para isso, são utilizados testes de significância estatística.
4.1. Conceitos Básicos
 Uma população é a coleção completa de elementos a serem estudados, por
exemplo, valores, medidas, cidades, etc.
 Amostra é um subconjunto dos elementos extraído da população.
 Uma variável aleatória x é uma variável que admite um valor numérico para cada
resultado de um experimento.
o A palavra aleatória indica que, normalmente, só podemos saber seu valor após a
execução do experimento.

o Portanto, para cada valor possível da variável há uma probabilidade associada.
 Uma variável aleatória discreta admite um número finito ou contável de possíveis
valores.
 O termo probabilidade refere-se à frequência relativa de ocorrência de um dado
ou evento qualquer, ou seja, a probabilidade associada a um evento qualquer é o
número de vezes que tal evento pode ocorrer em relação ao número total de
eventos.
 A distribuição de probabilidade discreta P, também chamada de função de
probabilidade discreta, fornece a probabilidade de ocorrência de cada valor de
uma variável aleatória discreta.
 Qualquer distribuição P deve satisfazer as seguintes condições:
P(x) = 1, x; e 0  P(x)  1, x. (3)

4.2. Medidas Resumo
 Algumas medidas podem ser usadas para resumir ou sumarizar a informação
contida em uma base de dados.
 Dois tipos de medidas são importantes: medidas de tendência central e medidas de
dispersão.
 As medidas de tendência central mais comuns são: média, mediana e moda:
Média: 

N
i
ix
N
x
1
1
.
Mediana: valor central.
Moda: valor mais frequente.
 As medidas de dispersão fornecem informação sobre a variabilidade dos dados.
Por exemplo, a variância corresponde à variação dos dados em relação à média.
Variância: 

N
i
i xx
N
x
1
2
)(
1
)var( .

Desvio padrão: )var()( xx  .
4.3. A Curva Normal
 Em estatística, a curva normal é uma distribuição comum na qual é possível
determinar a probabilidade associada a todos os pontos da linha de base da
distribuição.
o Ela pode ser vista como uma distribuição de frequências, onde a frequência total
sob a curva é 100%.
o Essa curva apresenta uma área central que circunda a média ū onde se localizam
os escores mais frequentes e há, ainda, áreas progressivamente menores em
ambas extremidades (caudas).

ū 223 3
68,26%
95,44%
99,74%
Figura 1: Curva normal com as porcentagens da área total compreendidas entre , 2 e 3.
 Para calcular a porcentagem exata entre a média e diversas distâncias-sigma da
curva normal é empregada uma tabela.
o O cálculo da distância sigma a partir da média ū produz um valor chamado
escore z ou escore padronizado, que indica, em unidades de desvio padrão, o

sentido e o grau com que um dado escore bruto se afasta da média da sua
distribuição de frequências:
z = (u ū)/, (4)
onde  é o desvio padrão da distribuição.
o Exemplo: um escore z de 1,4 significa que o escore bruto está a 1,4 à direita
da média.
4.4. Testes de Diferenças entre Médias
 Os testes de diferença entre médias são usados para verificar se há uma diferença
significativa entre uma amostra e outra.
o No contexto de RNAs, ele permite-nos verificar se o desempenho apresentado
por um algoritmo é significativamente superior ao desempenho de outro
algoritmo ou não.
 Tornou-se habitual em estatística começar pelo teste da hipótese nula, que afirma
que duas amostras foram extraídas da mesma população.

o De acordo com a hipótese nula, qualquer diferença entre as amostras é resultado
do processo amostral. Portanto, uma diferença entre médias amostrais não
representa uma verdadeira diferença entre as médias populacionais.
 De forma complementar à hipótese nula, a hipótese experimental afirma existir
uma verdadeira diferença populacional.
 A distribuição amostral de diferenças oferece uma base sólida para testarmos
hipóteses acerca da diferença média entre duas amostras aleatórias.
Grandes Amostras
 Vamos assumir inicialmente que estamos trabalhando com uma grande amostra, ou
seja, que N  30.
 Para compararmos duas amostras faremos o seguinte raciocínio:
o Se a diferença média entre duas amostras situar-se ‘tão longe’ da diferença zero
de forma a conferir-lhe somente uma pequena probabilidade de ocorrência na

distribuição amostral de diferenças, rejeitaremos a hipótese nula, ou seja, a
hipótese que afirma ser a diferença obtida apenas ação do acaso.
o Analogamente, se a diferença média amostral for tão próxima de zero tal que sua
probabilidade de ocorrência seja grande, então devemos aceitar a hipótese nula e
tratar a diferença obtida como resultante de erro de amostragem.
 Portanto, devemos procurar determinar a que distância a diferença média obtida
fica da diferença média de zero.
 Para decidir se a diferença amostral obtida é estatisticamente significante (ou seja,
resultado de uma real diferença entre as populações e não apenas produto de erro
amostral) é habitual estabelecer um nível de confiança, também chamado de nível
de significância.
o O nível de significância representa a probabilidade com que a hipótese nula
pode ser rejeitada com confiança.

o Analogamente, o nível de significância representa a probabilidade com que a
hipótese experimental pode ser aceita com confiança.
o Por convenção, usamos um nível de significância de 5%, mas também é comum
uma escolha mais rigorosa de 1%.
 Dadas duas amostras, podemos estimar de forma acurada o desvio padrão da
distribuição de diferenças, designada erro padrão da diferença dif:
dif = (ū1
2
+ ū2
2
)½
, (5)
onde dif é o erro padrão da diferença, ū1 é o erro padrão da primeira média
amostral e ū2 é o erro padrão da segunda média amostral.
 O erro padrão para cada média amostral é calculado através do desvio padrão das
amostras:
ū = s/((N 1)½
). (6)
 Uma vez que conhecemos o erro padrão para cada média amostral, podemos obter
o erro padrão da diferença pela Equação (5).

 A diferença média amostral obtida pode ser traduzida no seu equivalente z:
z = (ū1 ū2)/dif. (7)
 Utilizando a tabela de porcentagem da área sob a curva normal entre ū e z, verifica-
se que um escore z encontrado representa um percentual das diferenças médias
para cada lado à partir da média.
 Se subtrairmos essa soma de 100% encontraremos o valor dos escores-diferenças
entre médias. Este valor deve ser comparado ao nível de significância pré-
determinado para verificar se a hipótese nula deve ou não ser aceita.
 Resumo:
o Passo 1: achar a média e o desvio padrão de cada amostra.
o Passo 2: achar o erro padrão de cada média (Eq. 6)
o Passo 3: achar o erro padrão da diferença (Eq. 5)
o Passo 4: traduzir a diferença média amostral em unidades de erro padrão da
diferença (Eq. 7)

o Passo 5: achar a porcentagem da área total sob a curva normal entre z e a média
das diferenças.
o Passo 6: subtrair de 100% para achar a porcentagem da área total associada à
diferença média amostral obtida.
o Conclusão: Se a probabilidade de ocorrência da diferença média é maior do
que o nível de significância pré-determinado, então a hipótese nula deve ser
aceita.
Pequenas Amostras
 Em muitos casos efetuar 30 ou mais treinamentos e execuções de uma RNA pode
ser muito custoso computacionalmente.
 Nestes casos, onde a quantidade de amostras é pequena, por exemplo, N = 10, a
tabela que fornece a porcentagem de área sob a curva normal entre ū e z fica
comprometida.

 Isso ocorre, pois a distribuição amostral de diferenças só assume a forma da curva
normal se as amostras que a compõem forem grandes.
 Esse afastamento da normalidade na distribuição de diferenças pode ser
compensado estatisticamente mediante o uso do que se convencionou chamar
razão t.
 Assim como no caso do escore z, a razão t pode ser usada para traduzir uma
diferença média amostral em unidades de erro padrão da diferença.
 A razão t pode ser obtida da seguinte forma: calcular a diferença entre as médias
das amostras e dividi-la pelo erro padrão da diferença:
t = (ū1 ū2)/dif. (8)
 Porém, ao contrário do que ocorre com a estatística z, a razão t precisa ser
interpretada considerando-se o número de graus de liberdade, gl:
gl = N  1, (9)
onde Ni é o número de elementos da amostra i.

 Dado o valor de gl encontrado emprega-se uma tabela com os valores de t em
função dos graus de liberdade e do nível de significância escolhidos. Esta tabela
fornece os valores necessários para rejeição da hipótese nula.

5. Base Biológica das RNAs
 Como o cérebro processa informação? Como ele é organizado? Quais são os
mecanismos envolvidos no funcionamento cerebral?
 Estas são apenas algumas das perguntas mais desafiadoras para a ciência.
 O cérebro é especialista em desempenhar funções como reconhecimento de
padrões, controle motor, percepção, inferência, intuição, adivinhações, etc.
Entretanto, o cérebro também é “preconceituoso”, lento, impreciso, realiza
generalizações incorretas e, acima de tudo, é geralmente incapaz de explicar suas
próprias ações (embora este seja um requisito cultural e não funcional).
 Os neurônios são considerados as unidades básicas de processamento do cérebro.
 De modo análogo, modelos simplificados dos neurônios biológicos constituem as
unidades básicas de processamento das redes neurais artificiais (RNAs).

 Os neurônios biológicos estão conectados uns aos outros por meio de conexões
sinápticas. Acredita-se que a capacidade das sinapses serem moduladas é a
principal base para todos os processos cognitivos, como percepção, raciocínio e
memória.
 Sendo assim, algumas informações essenciais sobre neurônios, sinapses e
organização estrutural, são importantes para o projeto de RNAs.
6. O Sistema Nervoso
 Todos os organismos multicelulares possuem algum tipo de sistema nervoso, cuja
complexidade e organização varia de acordo com o tipo de animal.
 Mesmo os vermes, lesmas e insetos são capazes de adaptar seu comportamento e
armazenar informações em seus sistemas nervosos.
 O sistema nervoso é responsável por dotar o organismo, por meio de entradas
sensoriais, de informações sobre o estado do ambiente no qual ele vive e se move.

A informação de entrada é processada, comparada com as experiências passadas, e
transformada em ações apropriadas ou absorvidas sob a forma de conhecimento.
 Anatomicamente, o sistema nervoso possui duas divisões principais: sistema
nervoso central e sistema nervoso periférico, sendo que a diferença básica entre
eles está na localização.
Brainstem:
. midbrain
. pons
. medulla
Diencephalon
. thalamus
. hypothalamus
Cerebrum
Cerebellum
Forebrain

6.1. Níveis de Organização no Sistema Nervoso
 As estruturas que realmente constituem um nível de organização do sistema
nervoso são definidas de forma empírica.
 Sendo assim, algumas estruturas particularmente interessantes ao estudo das RNAs
serão discutidas aqui.
 O sistema nervoso pode ser organizado em diferentes níveis: moléculas, sinapses,
neurônios, camadas, mapas e sistemas.
 Uma estrutura facilmente identificável no sistema nervoso é o neurônio,
especialista em processamento de sinais.
 Dependendo das condições ambientais, os neurônios são capazes de gerar um
sinal, mais especificamente um potencial elétrico, que é utilizado para transmitir
informação a outras células.

h
Brain
Network of
neurons
Neuron
Synapse
Neurônios e Sinapses
 Os neurônios utilizam uma variedade de mecanismos bioquímicos para o
processamento e transmissão de informação, incluindo os canais iônicos.

 Os canais iônicos permitem um fluxo contínuo de entrada e saída de correntes
(elétricas), a geração e a propagação de potenciais de ação, e a liberação de
neurotransmissores.
 O processo de transmissão de sinais entre neurônios é central para a capacidade de
processamento de informação do cérebro.
 Uma das descobertas mais empolgantes em neurociência foi a de que a efetividade
da transmissão de sinais pode ser modulada, permitindo o cérebro se adaptar a
diferentes situações.
 A plasticidade sináptica, ou seja, a capacidade das sinapses sofrerem
modificações, é o ingrediente chave para o aprendizado da maioria das RNAs.
 Os neurônios podem receber e enviar sinais a vários outros neurônios.
 Os neurônios que enviam sinais, chamados de neurônios pré-sinápticos ou
“enviadores”, fazem contato com os neurônios receptoress ou pós-sinápticos em
regiões especializadas denominadas de sinapses.

Cell body
(soma)
Axon
Synaptic
clefts
Dendrites
Axon hillock
Mielin sheath
 A sinapse é, portanto, a junção entre o axônio de um neurônio pré-sináptico e o
dendrito ou corpo celular de um neurônio pós-sináptico (ver figura).
 A capacidade de processamento de informação das sinapses permite que elas
alterem o estado de um neurônio pós-sináptico, eventualmente gerando um pulso
elétrico, denominado potencial de ação, no neurônio pós-sináptico.

 Portanto, um neurônio pode ser visto como um dispositivo capaz de receber
estímulos (de entrada) de diversos outros neurônios e propagar sua única saída,
função dos estímulos recebidos e do estado interno, a vários outros neurônios.
 Existem diversos mecanismos envolvidos na transmissão de informação (sinais)
entre neurônios. Como os neurônios são células encapsuladas por membranas,
pequenas aberturas nestas membranas (canais) permitem a transferência de
informação entre eles.
 Os mecanismos básicos de processamento de informação são baseados no
movimento de átomos carregados, ou íons:
o Os neurônios habitam um ambiente líquido contendo certa concentração de íons,
que podem entrar ou sair do neurônio através dos canais.
o Um neurônio é capaz de alterar o potencial elétrico de outros neurônios,
denominado de potencial de membrana, que é dado pela diferença do potencial
elétrico dentro e fora do neurônio.

o Quando um potencial de ação chega ao final do axônio, ele mobiliza alguns íons
abrindo os canais (que são sensíveis à tensão) e permitindo fluir íons para o
terminal, eventualmente resultando na liberação de íons no canal.
o Estes íons promovem a liberação de neurotransmissores (substâncias químicas)
na fenda sináptica que se difundem e se ligam a receptores no neurônio pós-
sináptico.
o Os neurotransmissores recebidos pelo neurônio pós-sináptico se propagam até o
corpo celular, são integrados e o potencial de membrana resultante irá
determinar a ativação do neurônio, que corresponde ao envio de um sinal de
saída a outro(s) neurônio(s).
o Entretanto, a ativação de um neurônio ocorre apenas quando seu potencial de
membrana é maior do que um dado limiar (threshold).
o Alguns neurotransmissores possuem a capacidade de ativar um neurônio
enquanto outros possuem a capacidade de inibir a ativação do neurônio, levando

o neurônio pós-sináptico a um estado de repouso. Este último tipo de
neurotransmissor gera um potencial de repouso.
 A ativação de um neurônio é também denominada de spiking, firing, ou disparo de
um potencial de ação (triggering of an action potential).
Redes, Camadas e Mapas
 Os neurônios podem ter conexões de sentido positivo (feedforward) e/ou de
sentido negativo (feedback) com outros neurônios, ou seja, as conexões podem ter
um único sentido ou serem recíprocas.
 Diversos neurônios interconectados geram uma estrutura em rede conhecida como
rede neural.
o Por exemplo, em um milímetro cúbico de tecido do córtex, existe
aproximadamente 105
neurônios e 109
sinapses, com a grande maioria destas
sinapses se originando de células localizadas dentro do córtex.

 Um agrupamento de neurônios interconectados pode exibir comportamentos
complexos e uma capacidade de processamento de informação que não pode ser
predita tomando-se cada neurônio individualmente.
 Uma característica marcante das redes neurais é a representação distribuída de
informação e seu processamento paralelo.
 Redes neurais com arquiteturas específicas são incorporadas em estruturas maiores
capazes de realizar tarefas ainda mais complexas.
 Muitas áreas do cérebro apresentam uma organização laminar de neurônios.
Lâminas são camadas de neurônios em contato com outras camadas.

 Um dos arranjos mais comuns de neurônios é uma estrutura bidimensional em
camadas organizada através de um arranjo topográfico das respostas de saída. O
exemplo mais conhecido deste tipo de estrutura é o córtex humano.
 O córtex corresponde à superfície externa do cérebro; uma estrutura bidimensional
com vários dobramentos, fissuras e elevações.
 Diferentes partes do córtex possuem diferentes funções (ver figura).
 Em geral os neurônios do córtex estão organizados em camadas distintas, que são
subdivididas em camada de entrada, camadas intermediárias ou escondidas e
camada de saída.
 A camada de entrada recebe os sinais sensoriais ou de entrada, a camada de saída
envia sinais para outras partes do cérebro e as camadas intermediárias recebem
(enviam) sinais de (para) outras camadas do córtex. Isso significa que as camadas
intermediárias nem recebem entradas diretamente e nem produzem uma saída do
tipo motora, por exemplo.

 Um princípio organizacional importante em vários sistemas sensoriais e motores é
o mapa topográfico.

o Por exemplo, neurônios em áreas visuais do córtex estão arranjados
topograficamente, no sentido de que neurônios adjacentes possuem campos de
recepção visual adjacentes e, coletivamente, eles constituem um mapa da retina.
o Obs: Como neurônios vizinhos ocupam-se de representações similares, mapas
topográficos constituem uma forma parcimoniosa de organização do cérebro (há
economia de conexões, por exemplo).
 A organização estrutural em redes, mapas topográficos e camadas são todos casos
especiais de um princípio mais geral: a exploração das propriedades estruturais e
espaço-temporais para o processamento e armazenagem de informação.
6.2. Base Biológica e Física da Aprendizagem e Memória
 O sistema nervoso está continuamente sofrendo modificações e atualizações.
Virtualmente todas as suas funções, incluindo percepção, controle motor,
regulação térmica e raciocínio, são modificadas por estímulos.

 Observações comportamentais permitiram verificar graus de plasticidade do
sistema nervoso: existem mudanças rápidas e fáceis, mudanças lentas e profundas,
e mudanças mais permanentes (porém ainda modificáveis).
 Em geral, a aprendizagem global é resultado de alterações locais nos neurônios.
 Existem diversas formas de modificações possíveis em um neurônio:
o Dendritos podem nascer, assim como também podem ser removidos
o Alguns dendritos podem se esticar ou ser encolhidos permitindo ou eliminando,
respectivamente, a conexão com outras células
o Novas sinapses podem ser criadas ou sofrerem alterações
o Sinapses também podem ser removidas
o Todo neurônio pode morrer e também se regenerar.
 Toda esta vasta gama de adaptação estrutural pode ser convenientemente
condensada simplesmente referindo-se às sinapses, pois estas modificações
envolvem a modificação sináptica de forma direta ou indireta.

 Sendo assim, a aprendizagem via modulação sináptica é o mecanismo mais
importante para as redes neurais, sejam elas biológicas ou artificiais.
 A modulação sináptica poderá depender de mecanismos de adaptação de neurônios
individuais e de redes neurais como um todo.
 Assim como a aprendizagem, a memória também é resultado de um processo
adaptativo das sinapses. Ela é causada por variações da eficiência sináptica de
alguns neurônios como resultado da atividade neural.
 Estas alterações resultam em novos ou facilitados caminhos de desenvolvimento e
transmissão de sinais através dos circuitos neurais.
 Na verdade, um dos resultados de um processo de aprendizagem é a criação de um
padrão mais permanente de conexões sinápticas, que, por sua vez, resulta na
memorização (aprendizagem) de uma determinada experiência.
 Note, portanto, que a diferença entre aprendizagem e memória é sutil: a
aprendizagem pode ser vista como o processo adaptativo que resulta em uma

mudança da eficiência e estrutura sináptica, enquanto a memória pode ser
interpretada como o resultado deste processo adaptativo.

7. Projeto de Redes Neurais Artificiais
 Uma RNA pode ser definida como sendo uma estrutura de processamento (rede),
passível de implementação em dispositivos eletrônicos, composta por um número
de unidades interconectadas (neurônios artificiais), sendo que cada unidade
apresenta um comportamento específico de entrada/saída (computação local),
determinado pela sua função de transferência, pelas interconexões com outras
unidades, dentro de um raio de vizinhança, e possivelmente pelas entradas
externas.
 Uma rede neural artificial é um circuito composto por uma grande quantidade de
unidades simples de processamento inspiradas no sistema neural (Nigrin, 1993).
 Uma RNA é um sistema massivamente paralelo e distribuído, composto por
unidades de processamento simples que possuem uma capacidade natural de
armazenar e utilizar conhecimento (Haykin, 2008).

Período Pesquisadores Avanços
1943 McCulloch e Pitts Modelo lógico do neurônio
1948 Wiener
Livro Cybernetics (controle, comunicação e
processamento de sinais)
1949 Hebb
Livro The Organization of Behavior (primeira
regra de aprendizagem)
1958 Rosenblatt Perceptron convergence theorem
1960 Widrow e Hoff Least-mean square algorithm
1969 Minsky e Papert
Livro Perceptrons (demonstrou limites
fundamentais das redes SLP)
1979 Werbos Reverse-mode gradient computation**
1980 Grossberg A new principle of self-organization (ART)
1982 Hopfield
Uso de uma função de energia para redes
recorrentes com conexões simétricas
1982 Kohonen
Redes competitivas e mapas auto-organizáveis de
Kohonen
1983 Barto, Sutton e Anderson Reinforcement learning
1986 Rumelhart e McClelland Processamento paralelo distribuído
1988 Broomhead e Lowe Redes RBF
1992 Vapnik Máquinas de vetores suporte
Tabela 2  Marcos históricos da pesquisa em Redes Neurais Artificiais

 As RNAs apresentam diversas características em comum com o sistema nervoso:
o O processamento básico de informação ocorre em diversas unidades simples
denominadas de neurônios artificiais ou simplesmente neurônios (ou nós);
o Os neurônios estão interconectados gerando redes de neurônios, ou redes
neurais;
o A informação (sinais) é transmitida entre neurônios através de conexões ou
sinapses;
o A eficiência de uma sinapse, representada por um peso associado, corresponde
à informação armazenada pelo neurônio e, portanto, pela rede neural; e
o O conhecimento é adquirido do ambiente através de um processo de
aprendizagem que é, basicamente, responsável por adaptar os pesos das
conexões aos estímulos recebidos do ambiente.

 Uma característica importante das RNAs é o local onde o conhecimento está
armazenado. Nos casos mais simples, este conhecimento é armazenado nos pesos
das conexões entre neurônios.
 Esta característica tem grandes implicações para a capacidade de processamento e
aprendizagem da rede.
 A representação do conhecimento é feita tal que o conhecimento necessariamente
influencie a forma de processamento da rede, ou seja, o seu comportamento de
entrada-saída.
 Se o conhecimento está armazenado nos pesos das conexões, então o processo de
aprendizagem corresponde a identificar um conjunto apropriado de pesos de
forma que a rede se comporte como desejado.
 Esta característica possui duas implicações importantes para as RNAs: a
possibilidade de desenvolvimento de técnicas de aprendizagem e a representação
distribuída de conhecimento.

 Existem tipos de redes neurais cujo treinamento (ou projeto) é mais complicado do
que a simples determinação de conjuntos apropriados de pesos sinápticos.
 Uma rede neural artificial pode ser projetada através de:
1. Uma definição ou escolha de um conjunto de neurônios artificiais;
2. A definição ou escolha de um padrão de conectividade entre os neurônios, ou
seja, de uma arquitetura para a rede; e
3. A definição de um método de determinação dos parâmetros livres da rede,
denominado de algoritmo de aprendizagem ou treinamento.
 Embora seja possível projetar uma rede neural a partir da definição do papel
(computação global) que ela deve desempenhar, combinando-se os efeitos
individuais de todos os neurônios, uma rede neural usualmente se adapta para
atingir a funcionalidade desejada a partir de uma ou mais estratégias de
aprendizado, as quais vão atuar junto a parâmetros configuráveis da rede neural.

 É fundamental, portanto, que a rede neural possua meios de interagir com o
ambiente.
 Cada rede neural artificial representa uma arquitetura de processamento
específica, havendo uma família de arquiteturas, cada qual adequada para
funcionalidades específicas.
 A diversidade de arquiteturas tem aumentado muito, sendo que as últimas
gerações de redes neurais já não podem ser caracterizadas por apresentarem um
grande número de unidades e conexões, com funções de transferência simples e
idênticas para todas as unidades.
 Portanto, a funcionalidade de uma rede neural artificial será determinada pela:
o Topologia da rede
o Função de transferência de cada neurônio individual
o Estratégia de aprendizado
o Dados de treinamento

 No entanto, analisar o papel de cada componente da rede neural no resultado final
não é uma tarefa elementar.
 É por este motivo que as mais avançadas estratégias de aprendizado passaram a
ser responsáveis pela definição automática de muitas características de projeto,
antes a cargo do projetista.
 O projetista geralmente não possui informação a priori suficiente para definir, por
exemplo, a melhor topologia da rede e as funções de transferência que devem ser
utilizadas em cada neurônio, deixando apenas as conexões ajustáveis a cargo do
algoritmo de treinamento.
 Quando o aprendizado atua apenas modificando as conexões, ao arbitrar a
topologia da rede e as funções de transferência que devem ser utilizadas em cada
neurônio, o projetista está “introduzindo um conhecimento inicial”, cujo nível de
adequação pode não estar a seu alcance.

7.1. Neurônios Artificiais
 No neurônio biológico, os sinais de entrada chegam através de canais localizados
nas sinapses, permitindo a entrada e saída de íons. Um potencial de membrana
aparece como resultado da integração dos sinais de entrada, que irão determinar se
o neurônio irá produzir um sinal de saída (spike, pulso, ou potencial de ação) ou
não. O potencial de ação resulta na liberação de neurotransmissores na sinapse
sempre que o potencial de membrana for superior a um determinado limiar
(threshold).
 O efeito líquido de todos estes processos biológicos que ocorrem nas sinapses é
representado por um peso associado.
O Neurônio de McCulloch e Pitts
 O modelo mais clássico de neurônio em RNAs foi proposto por McCulloch e Pitts
em 1943. Eles assumiram que o neurônio está executando uma função lógica.

 Este trabalho, intitulado “Um cálculo lógico das ideias intrínsecas da atividade
neural” é bastante famoso e exerceu grande influência na comunidade científica da
época.
 Foi a primeira tentativa de entender a atividade neural baseado em unidades
elementares de computação. Foram supostas cinco premissas:
o A atividade do neurônio é binária (“tudo-ou-nada”), podendo apresentar apenas
dois estados lógicos: 1 (ativo) ou 0 (inativo);
o Uma certa quantidade fixa de sinapses deve ser excitada em um período latente
de adição de forma a excitar o neurônio e este número é independente da
atividade prévia e da posição do neurônio;
o O único atraso significativo no cérebro é o atraso do processamento sináptico;
o A atividade de uma sinapse inibitória bloqueia completamente a atividade do
neurônio num dado instante de tempo;
o A estrutura da rede neural não varia com o tempo.

 McCulloch e Pitts consideraram a resposta neural como sendo equivalente a uma
proposição (se A então B) adequada para estimular o neurônio. Sendo assim, eles
estudaram o comportamento de diversas redes neurais utilizando a notação
simbólica da lógica das proposições.
 A característica binária dos neurônios era suficiente para garantir que a atividade
de qualquer neurônio poderia ser expressa sob a ótica da lógica das proposições.
 Obs: Uma proposição é uma sentença declarativa que pode ser verdadeira ou falsa,
mas não ambas. Exemplo: Este curso é RNA. Contraexemplo: Qual seu nome?
 Embora com os conhecimentos atuais sobre os mecanismos físicos e químicos
envolvidos na transmissão de sinais no cérebro seja possível afirmar que nenhum
tipo de lógica das proposições é realizada no cérebro, o neurônio de McCulloch e
Pitts pode ser visto como um caso particular do neurônio genérico utilizado em
RNAs.
 Considere a representação simbólica do neurônio de McCulloch e Pitts:

u y

x1
x2
f(u)
Junção
somadora
Função de
ativação
Saída
f(u)
u
Figura 2: Representação pictórica do neurônio de McCulloch e Pitts.
 Cada neurônio possui um limiar (threshold) fixo  e recebe algumas entradas.
 A cada iteração t, o neurônio responde a suas entradas sinápticas, que refletem o
estado do neurônio pré-sináptico. Se nenhuma sinapse inibitória está ativa, o
neurônio integra (soma) suas entradas, gerando a entrada líquida (ou entrada
interna) u do neurônio e verifica se u é maior do que o limiar . Caso positivo, o
neurônio responde com um sinal de saída de valor 1. Caso negativo, ele responde
com um sinal de saída 0.

 Exemplo de operação: funções lógicas OR e AND.
Neurônio Básico “Integrate-and-Fire”
 Estes neurônios são os mais clássicos em neurociência computacional. Trata-se de
modelos contínuos e não discretos de neurônios, com pequenas variantes entre si.
 Considere um neurônio livre de ruído com entrada líquida u(t) sendo função do
tempo e correspondente ao potencial de membrana do neurônio. Os principais
efeitos de alguns canais neurais podem ser capturados através de uma simples
equação de um integrador:
)()(
)(
τ tiRtuu
dt
tdu
mresm  , (1)
onde m é a constante de tempo da membrana determinada pela condutância média
dos canais; ures é o potencial de repouso do neurônio; i(t) é a corrente de entrada dada
pela soma das correntes geradas pelos disparos dos neurônios pré-sinápticos; e Rm é a
resistência do neurônio ao fluxo de corrente.

 A Equação (1) propõe que a taxa de variação do potencial de membrana do
neurônio é proporcional a seu potencial atual, ao seu potencial de repouso e ao
potencial gerado pelos sinais de entrada.
 A corrente de entrada i(t) do neurônio é dada pela soma das correntes de entrada
dependendo da eficiência das sinapses individuais, descritas pela variável wj para
cada sinapse j. Portanto, a corrente total de entrada do neurônio pode ser escrita
como sendo a soma das correntes individuais multiplicadas pelos pesos wj:
   j t
f
jjf
j
ttfwti )()(
onde a função f() parametriza a forma da resposta pós-sináptica.
 Esta função foi denominada de função de ativação por McCulloch e Pitts e esta
nomenclatura prevalece até os dias de hoje em praticamente todos os modelos de
RNAs.
 A variável tj
f
corresponde ao momento do disparo do neurônio pré-sináptico da
sinapse j.

 O tempo de disparo do neurônio pós-sináptico é definido como sendo o tempo para
o potencial de membrana atingir o limiar .
 Para completar este modelo, basta “resetar” o valor do potencial de membrana do
neurônio para seu potencial de repouso após o disparo do neurônio.
O Neurônio Genérico em RNAs
 O elemento computacional básico empregado na maioria das RNAs é um
integrador. Trata-se de um elemento processador de informações que é
fundamental para a operação das RNAs.
 As principais partes do neurônio artificial genérico são:
o As sinapses, caracterizadas pelos seus pesos associados;
o A junção somadora; e
o A função de ativação.

uk yk

x1
x2
xm
f(uk)
Junção
somadora
Função de
ativação
Saída
…
wk1
wk2
wkm
+1 Limiar(bias)
bk
Pesos das
conexões
Entradas
Figura 3: Neurônio genérico em RNAs.
 Nesta representação, o primeiro subscrito k do peso sináptico wkj corresponde ao
neurônio pós-sináptico e o segundo subscrito corresponde à sinapse ligada a ele.
 A junção somadora soma todos os sinais de entrada ponderados pelos pesos das
conexões. Assumindo os vetores de entrada e de pesos como sendo vetores coluna,
esta operação corresponde ao produto interno do vetor de entradas x pelo vetor de

pesos wk, mais o limiar bk. Genericamente, trata-se de uma combinação linear das
entradas pelos pesos associados, mais o limiar bk.
 A função de ativação é geralmente utilizada com dois propósitos: limitar a saída do
neurônio e introduzir não linearidade no modelo.
 O limiar bk tem o papel de aumentar ou diminuir a influência do valor da entrada
líquida para a ativação do neurônio k.
o Por exemplo, no neurônio de McCulloch e Pitts a saída será 1 para u  :


 

contráriocaso0
θse1
)(
u
ufy
onde u = x1 + x2.
 É possível substituir o limiar (threshold)  por um limiar (bias) que será
multiplicado por um valor constante de entrada igual a +1:


 

contráriocaso0
0se1
)(
u
ufy

onde u = x1 + x2  b (para b negativo).
 Note que a saída deste neurônio genérico é simplesmente um número, a presença
de potenciais de ação (disparos) discretos é ignorada. Entretanto, existem modelos
de neurônios, denominados spiking neurons, que utilizam disparos discretos.
 Matematicamente, a saída do neurônio k pode ser descrita por:








 
k
m
j
jkjkk bxwfufy
1
)(
 É possível simplificar a notação acima de forma a incluir o bias simplesmente
definindo um sinal de entrada de valor x0 = 1 com peso associado wk0 = bk:








 
m
j
jkjkk xwfufy
0
)(
 Existem vários tipos de função de ativação como, por exemplo, a função linear, a
função degrau, as funções sigmoidais, e as funções de base radial.

uk y

x1
x2
xm
f(uk)
…
wk1
wk2
wkm
+1
wk0 = b0
Junção
somadora
Função de
ativação
Saída
Pesos das
conexões
Entradas
Figura 4: Outra representação para o neurônio genérico.

 









0pse0
1p0se
1pse1
k
kk
k
k pf
u
uu
u
u
com p constante e positivo.
a)
1/p0
b)
1/p0
p
0
Figura 5: Função semi-linear (a) e sua derivada em relação à entrada interna (b).

kk
k
pp
p
k
ee
e
fy uu
u
u 




1
1
1
)(   01  kk
k
p
y
uu
u

a) b)
p=0.8
p=1.5
p=3
p=0.8
p=1.5
p=3
Figura 6: Função logística (a) e sua derivada em relação à entrada interna (b).

kk
kk
pp
pp
kk
ee
ee
pfy uu
uu
uu 



 )tanh()(   01 2
 k
k
p
y
u
u

a) b)
p=1
p=0.6
p=2.2
p=0.6
p=1
p=2.2
Figura 7: Função tangente hiperbólica (a) e sua derivada em relação à entrada interna (b).

7.2. Arquiteturas de Rede
 Muito pouco é sabido sobre os padrões de conexão entre os neurônios biológicos.
 Entretanto, a maioria das RNAs utilizam arquiteturas padronizadas, projetadas
especialmente para resolver algumas classes de problemas.
 O processo de conexão entre neurônios artificiais leva à geração de sinapses e à
construção de redes neurais artificiais.
w
g
u
wij
w
xij
i yi
g
yj
1 wi0
Figura 8: Processo de conexão entre neurônios.

 Existem basicamente três tipos de camadas em uma rede neural artificial: camada
de entrada, camada(s) intermediária(s) e camada de saída. Entretanto, nem todas
as RNAs possuem camadas intermediárias.
 A forma pela qual os neurônios estão interconectados está intimamente relacionada
ao algoritmo a ser utilizado no seu treinamento.
 Existem, basicamente, três tipos principais de arquitetura em RNAs: redes
feedforward de uma única camada, redes feedforward de múltiplas camadas, e
redes recorrentes.
Rede Feedforward com Uma Única Camada
 Este caso mais simples de rede em camadas consiste em uma camada de entrada e
uma camada de saída.
 Geralmente os neurônios de entrada são lineares, ou seja, eles simplesmente
propagam o sinal de entrada para a próxima camada. São também denominados de
neurônios sensoriais.

…
Camada de
entrada
Camada de
saída
Neurônio
sensorial
Neurônio de
processamento
…
…
y1
y2
y3
yo
x0
x1
x2
xm
w10
w20
.
.
.
.
wom
Figura 9: Rede feedforward de uma única camada.
 Esta rede é denominada feedforward porque a propagação do sinal ocorre apenas
da entrada para a saída, ou seja, é apenas no sentido positivo.












omoo
m
www
www



10
11110
W
yi = f(wi.x) = f(j wij.xj) , j = 1,…,m.
Note que a primeira coluna de W corresponde ao vetor de bias.
 Em forma matricial:
y = f(W.x),
onde W  om
, wi  1m
, i = 1,…,o, x  m1
, e y  o1
.
Rede Feedforward de Múltiplas Camadas
 As redes de múltiplas camadas possuem uma ou mais camadas intermediárias ou
escondidas. Adicionando-se camadas intermediárias não lineares é possível
aumentar a capacidade de processamento de uma rede feedforward.
 A saída de cada camada intermediária é utilizada como entrada para a próxima
camada.

 Em geral o algoritmo de treinamento para este tipo de rede envolve a
retropropagação do erro entre a saída da rede e uma saída desejada conhecida.
… …
Camada de
entrada Primeira
camada
escondida
Camada de
saída
Segunda
camada
escondida
…
… y1
y2
yo
x0
x1
x2
xm
Figura 10: Rede feedforward de múltiplas camadas.

 Seja Wk
a matriz de pesos da camada k, contada da esquerda para a direita.
o
k
ijw corresponde ao peso ligando o neurônio pós-sináptico i ao neurônio pré-
sináptico j na camada k.
 Em notação matricial, a saída da rede é dada por:
y = f3
(W3
f2
(W2
f1
(W1
x)))
 Note que fk
, k = 1,..., M (M = número de camadas da rede) pode ser dado por uma
matriz quadrada fk
 ll
, onde l é o número de neurônios na camada k, ou por um
vetor fk
 l1
, onde l é o número de neurônios na camada k.
 O que acontece se as funções de ativação das unidades intermediárias forem
lineares?

Redes Recorrentes
 O terceiro principal tipo de arquitetura de RNAs engloba as chamadas redes
recorrentes, pois elas possuem, pelo menos, um laço realimentando a saída de
neurônios para outros neurônios da rede.
Z1
Z1
Z1
Figura 11: Rede neural recorrente de Hopfield.

 É claro que existem outras arquiteturas de redes neurais, como exemplo a rede
abaixo.
Figura 12: Rede neural arbitrária.

7.3. Paradigmas de Aprendizagem
 A capacidade de aprender associada a uma rede neural é uma das mais importantes
qualidades destas estruturas.
 Trata-se da habilidade de adaptar-se, de acordo com regras pré-existentes, ao seu
ambiente, alterando seu desempenho ao longo do tempo.
 Sendo assim, considera-se aprendizado o processo que adapta o comportamento e
conduz a uma melhoria de desempenho.
 No contexto de redes neurais artificiais, aprendizagem ou treinamento corresponde
ao processo de ajuste dos parâmetros livres da rede através de um mecanismo de
apresentação de estímulos ambientais, conhecidos como padrões (ou dados) de
entrada ou de treinamento:
estímulo  adaptação  novo comportamento da rede

 Nas RNAs mais simples e tradicionais, os parâmetros livres da rede correspondem
apenas aos pesos sinápticos. Toda a estrutura da rede, incluindo os tipos de
neurônios e suas funções de ativação, é pré-definida.
 O objetivo do aprendizado em redes neurais é a obtenção de um modelo implícito
do sistema em estudo, por ajuste dos parâmetros da rede.
 Dada uma rede neural artificial, seja w(t) um peso sináptico de um dado neurônio,
no instante de tempo t. O ajuste w(t) é aplicado ao peso sináptico w(t) no instante
t, gerando o valor corrigido w(t+1), na forma:
w(t+1) = w(t) + w(t)
 A obtenção de w(t) pode ser feita de diversas formas. O tipo de aprendizado é
determinado pela técnica empregada no processo de ajuste dos pesos sinápticos
(parâmetros da rede neural).

 Um conjunto bem definido de regras para obtê-los é denominado um algoritmo de
aprendizagem ou treinamento. Exemplos de alguns algoritmos: regra de Hebb,
algoritmo de backpropagation, estratégias de competição, máquina de Boltzmann.
 A maneira pela qual o ambiente influencia a rede em seu aprendizado define o
paradigma de aprendizagem. Exemplos de paradigmas: aprendizado
supervisionado, aprendizado por reforço e aprendizado não-supervisionado (ou
auto-organizado).
 Seja qual for o algoritmo ou o paradigma utilizado, ao alcançarmos o objetivo
obtemos uma representação de conhecimento que obedece a uma ou mais das
quatro regras de bom senso descritas abaixo:
R1 entradas similares provenientes de classes similares de fenômenos ou eventos
tendem a produzir representações similares dentro da rede, o que pode levar a
classificá-las como pertencentes à mesma categoria.

R2 itens que devem ser classificados ou processados distintamente devem
provocar, de alguma forma, representações distintas dentro da rede.
R3 se uma característica é importante, então devem ser alocados recursos da rede
neural (por exemplo, neurônios e conexões) para representá-la devidamente.
Quanto mais complexa a representação, mais recursos devem ser alocados.
R4 a etapa de aprendizado pode ser simplificada caso as informações conhecidas a
priori e invariâncias sejam embutidas diretamente no projeto da rede neural.
 As duas primeiras regras utilizam os conceitos de similaridade e/ou de distância.
Estes conceitos podem ser expressos matematicamente a partir da definição formal
de um critério de medida. Em particular, a Teoria de Medidas é uma das áreas mais
bem formalizadas da Matemática, juntamente com a Teoria de Conjuntos,
constituindo a base de todos os métodos matemáticos.
 Existem basicamente três paradigmas de aprendizado:

 Aprendizado supervisionado: é baseado em um conjunto de exemplos de estímulo-
resposta (ou entrada-saída), ou em algum outro tipo de informação que represente
o comportamento que deve ser apresentado pela rede neural;
 Aprendizado por reforço: o comportamento da rede é avaliado apenas com base
em algum critério numérico, fornecido em instantes espaçados de tempo;
 Aprendizado não-supervisionado: é baseado apenas nos estímulos recebidos pela
rede neural. Basicamente, a rede deve aprender a “categorizar” os estímulos.
Aprendizagem Supervisionada
 Este curso vai se ocupar com o desenvolvimento de técnicas para aprendizado
supervisionado e não-supervisionado em redes neurais artificiais.
 Pelo fato de serem mais intuitivas, técnicas de aprendizado supervisionado serão
abordadas primeiro.
 Ideia intuitiva: controle de processos (ex. pouso e decolagem de aviões)

 Exemplos de problemas de engenharia que podem ser apresentados na forma de
um problema de aprendizado supervisionado:
 classificação e reconhecimento de padrões
 predição de séries temporais
 identificação de sistemas
 controle de processos
 projeto de filtros em processamento de sinais
Formalização do processo de aprendizado supervisionado
 Seja dj(t) a resposta desejada para o neurônio j no instante t e yj(t) a resposta
observada do neurônio j no instante t, obtida através de um estímulo x(t) presente
na entrada da rede neural.
 x(t) e dj(t) constituem um EXEMPLO de par estímulo-resposta apresentado ao
neurônio no instante t, possivelmente extraídos de um ambiente ruidoso cujas
distribuições de probabilidade são desconhecidas.

 ej(t) = dj(t)  yj(t) é o sinal de erro observado na saída do neurônio j no instante t.
Observe que, em ambiente ruidoso, ej(t) é uma variável aleatória.
 O processo de aprendizado supervisionado tem por objetivo corrigir este erro
observado (em todos os neurônios) e, para tanto, busca minimizar um critério
(função objetivo) baseado em ej(t), j=1,2,…,o, onde o é o número de neurônios da
rede neural, de maneira que, para t suficientemente alto, yj(t), j=1,2,…,o, estejam
próximos de dj(t), j=1,2,…,o, no sentido estatístico.
 Um critério muito utilizado é o de erro quadrático médio: 





 
o
j
j te
o
EJ
1
2
)(
1
.
 Um conceito que está implícito em toda esta análise é a hipótese de
estacionariedade dos processos aleatórios presentes.
 Além disso, para minimizar J é necessário conhecer as características estatísticas
do sistema.

ej(t)

One or more
layers of
hidden
neurons
Output
neuron
j
dj(t)yj(t)
 +
x(t)
Multi-layer Feedforward Network
Figura 13: Aprendizagem supervisionada.
 Uma aproximação para o critério é utilizar o valor instantâneo do erro quadrático
médio: 

o
j
j ke
o
kJJ
1
2
)(
1
)( .
 Nesta fase do curso, vamos considerar que a minimização de J(t) é realizada
apenas em relação aos pesos sinápticos da rede neural.

Aprendizagem Não Supervisionada
 No paradigma não supervisionado ou auto-organizado não existe um supervisor
para avaliar o desempenho da rede em relação aos dados de entrada.
 Nenhuma medida de erro é utilizada para realimentar a rede.
 Os dados são ditos não rotulados, no sentido de que as classes às quais eles
pertencem ou as saídas desejadas da rede são desconhecidas.
 A rede se adapta a regularidades estatísticas nos dados de entrada, desenvolvendo
uma capacidade de criar representações internas que codificam as características
dos dados de entrada, tornando-se, portanto, capaz de identificar a quais classes
novos padrões pertencem.
 Geralmente as redes auto-organizadas empregam um algoritmo competitivo de
aprendizagem.
 Na aprendizagem competitiva, os neurônios de saída da rede competem entre si
para se tornarem ativos, com um único neurônio sendo o vencedor da competição.

Input
patterns
Environment
Neural
Network
Figura 14: Aprendizagem não supervisionada.
 Esta propriedade é que faz com que o algoritmo seja capaz de descobrir
regularidades estatísticas no conjunto de dados.
 Neurônios individuais aprendem a se especializar a conjuntos (grupos ou clusters)
de padrões similares. Eles se tornam detectores ou extratores de características
para diferentes classes dos dados de entrada.
 Ideia intuitiva: agrupamento de dados (p. ex. balões coloridos)

Formalização do processo de aprendizado competitivo
 Para que um neurônio i seja o vencedor a distância entre o vetor de pesos wi deste
neurônio e um determinado padrão de entrada x deve ser a menor dentre todos os
outros neurônios da rede, dada uma métrica de distância |||| (geralmente utiliza-se
a distância Euclidiana).
 A ideia é encontrar o neurônio cujo vetor de pesos seja o mais parecido ao padrão
de entrada, ou seja:
i = arg mini ||x  wi||, i.
 Se um neurônio não responde a um padrão de entrada, ou seja, não é o vencedor,
então nenhuma adaptação é sofrida por este neurônio.
 Entretanto, o neurônio i que ganhou a competição sofre um ajuste wi no seu
vetor de pesos na direção do vetor de entrada:



 

competiçãoaperdese0
competiçãoaganhase)α(
i
ii
i
wx
w
onde  indica o tamanho do passo a ser dado na direção de x. O parâmetro  é
conhecido como taxa de aprendizagem.
Aprendizagem Por Reforço
 A aprendizagem por reforço é distinta das outras abordagens, pois neste caso não
existe uma interação direta com um supervisor ou modelo explícito do ambiente.
 Geralmente, a única informação disponível é um valor escalar que indica a
qualidade do desempenho da RNA.
 Na aprendizagem por reforço existe um objetivo a ser alcançado. Durante o
processo de aprendizagem, a rede “tenta” algumas ações (saídas) e recebe um sinal
de reforço (estímulo) do ambiente que permite avaliar a qualidade de sua ação.
 O sistema em aprendizagem seletivamente retém as ações que levam a uma
maximização dos sinais de reforço.

 Ideia intuitiva: ex. ensinar animais circenses.
 A cada iteração t o sistema em aprendizagem recebe uma entrada x(t)
(representando o estado do ambiente), fornece uma saída y(t) e, no próximo passo,
recebe um escalar de reforço r(t+1) e um novo estado do ambiente x(t+1).
 Portanto, os dois conceitos básicos por trás da aprendizagem por reforço são:
busca por tentativa e erro e reforço retardado.
Estado do ambiente
(dado de entrada)
Sinal de reforço
Saída da rede
Ambiente
Rede
Neural
Figura 15: Aprendizagem por reforço.

8. A Regra de Hebb
 Após a publicação do trabalho de McCulloch & Pitts em 1943, Norbert Wiener
publicou um livro famoso, em 1948, denominado Cybernetics, seguido pela
publicação do livro The Organization of Behavior por Hebb.
 No livro de Hebb, foi proposta pela primeira vez uma regra de aprendizagem
através da modulação (ou modificação) de pesos sinápticos.
 Basicamente, Hebb propôs que a efetividade de uma sinapse aumenta devido à
ativação repetida de um neurônio (por outro neurônio). Com suas próprias
palavras:
 “Quando o axônio de uma célula A está próximo o suficiente de excitar uma célula
B ou persistentemente contribui para sua ativação, algum processo de crescimento
ou variação metabólica ocorre em uma ou ambas as células, tal que a efetividade
da célula A em ativar a célula B é aumentada.”

 Este postulado requer uma mudança no peso sináptico entre células quando as
células pré- e pós-sinápticas estão ativas simultaneamente.
 Hebb sugeriu que esta mudança era a base para a aprendizagem associativa,
resultando em uma modificação duradoura no padrão de atividade de uma rede
neural.
 Esta regra é generalizada dentro da literatura de RNAs, resultando na denominada
regra de Hebb generalizada. Esta regra propõe que mudanças nos pesos das
conexões são dadas pelo produto da atividade pré-sináptica e pós-sináptica:
wij(t) =  yi(t) xj(t),
onde wij(t) é a mudança a ser aplicada no neurônio i,  é um fator multiplicativo
denominado de taxa de aprendizagem, yi é a saída do neurônio i, xj é a entrada do
neurônio j, e t é o índice de tempo.
 Note que esta equação deixa clara a natureza correlacional ou associativa da regra
de atualização de Hebb.

o Sabe-se que boa parte da memória humana é associativa. Neste tipo de memória,
um evento está ligado a outro evento, de forma que a ocorrência do primeiro
evento resulta na ocorrência do evento ligado.
o Em sua versão mais simples, um estímulo está ligado a uma resposta.
 A diferença principal entre a proposta original e a regra generalizada é o fato de
que no caso generalizado tanto os estímulos excitatórios quanto os inibitórios
influenciam na atividade do neurônio.
 A equação acima pode ser expressa de forma genérica como sendo:
wij(t) = g(yi(t), xj(t)),
onde g(,) é uma função de ambos os sinais, pré- e pós-sináptico.
 Portanto, o peso de um neurônio i é atualizado de acordo com a seguinte regra:
wij(t+1) = wij(t) + wij(t).

9. O Perceptron Simples
 Rosenblatt introduziu o perceptron como a arquitetura mais simples de rede neural
capaz de classificar padrões linearmente separáveis.
 O algoritmo de treinamento do perceptron foi o primeiro modelo de treinamento
supervisionado, embora alguns perceptrons fossem auto-organizados.
 Basicamente, o perceptron consiste em uma única camada de neurônios com pesos
sinápticos e bias ajustáveis.
 Se os padrões de entrada forem linearmente separáveis, o algoritmo de treinamento
do perceptron possui convergência garantida, ou seja, é capaz de encontrar um
conjunto de pesos que classifica corretamente os dados.
 Os pesos dos neurônios que compõem o perceptron serão tais que as superfícies de
decisão produzidas pela rede neural estarão apropriadamente posicionadas no
espaço.

 Os neurônios do perceptron são similares ao neurônio de McCulloch & Pitts
(função de ativação tipo degrau), mas possuem pesos associados, incluindo o bias.
9.1. Perceptron Simples para Classificação de Padrões
 O algoritmo do perceptron funciona como a seguir.
o Para cada padrão de treinamento (dado de entrada) xi, a saída da rede yi é
calculada.
o Em seguida, é determinado o erro ei entre a saída desejada para este padrão di e a
saída da rede yi, ei = di  yi.
o O vetor de pesos conectando as entradas (neurônios pré-sinápticos) a cada saída
(neurônios pós-sinápticos) e o bias do neurônio são atualizados de acordo com
as seguintes regras:
wi(t+1) = wi(t) +  ei xi
T
,
b(t+1) = b(t) +  ei,
onde w  1m
, x  m1
, e b  11
.

 Considere agora o caso mais simples do perceptron com um único neurônio.
u y

x1
x2
xm
f(u)
Junção
somadora
Função de
ativação
Saída
…
w1
w2
wm
+1
w0 = b
Entradas
 O objetivo desta rede, mais especificamente deste neurônio, é classificar alguns
padrões de entrada como pertencentes ou não pertencentes a uma dada classe.
 Considere o conjunto de dados de entrada como sendo formado por N amostras
(x1,d1), (x2,d2), …, (xN,dN), onde xj é o vetor j de entradas, e dj sua saída desejada
(classe) correspondente.

 Seja X  mN
, a matriz de dados de entradas com N padrões de dimensão m cada
(colunas de X), e d  1N
o vetor de saídas desejadas. O algoritmo abaixo pode
ser utilizado para treinar o perceptron de um único neurônio:
procedure [w] = perceptron(max_it,E,,X,d)
initialize w //por simplicidade, inicialize com 0
initialize b //por simplicidade, inicialize com 0
t  1
while t < max_it & E > 0 do,
E  0
for i from 1 to N do, //para cada padrão de entrada
yi  f(wxi + b) //determine a saída para xi
ei  di  yi //determine o erro para xi
w  w +  ei xi
T
//atualize o vetor de pesos
b  b +  ei //atualize o bias
E  E + ei
2
end for
t  t + 1
end while
end procedure
Algoritmo 1: Algoritmo de treinamento para o perceptron simples.

9.2. Exemplo de Aplicação e Motivação Geométrica
 Considere o problema de utilizar o perceptron com um único neurônio para
representar a função lógica AND.
(0,1) (1,1)
(0,0) (1,0)
Entradas Saídas
x1 x2 x1 AND x2
0 0 0
0 1 0
1 0 0
1 1 1
 1000
1010
1100






 dX
 A saída yi do neurônio para o vetor de dados xi pode ser representada na forma:
yi = f(wxi + b)
 Para quaisquer valores de w e b, a função f(u) separa o espaço de entradas em duas
regiões, sendo que a curva de separação (superfície de decisão) é uma linha reta.

 A equação desta reta é dada por:
w1 x1 + w2 x2 + b = 0
 Se a função de ativação do tipo sinal (degrau) possui  = 0, então
w1 x1 + w2 x2 + b  0
resultará em uma saída positiva da rede.
 Inicializando todos os pesos e o limiar em zero w = [0 0] e b = 0, e definindo
 = 1, o algoritmo de treinamento do perceptron fornece o seguinte:
w1 = 2; w2 = 1; b =  3, portanto 2x1 + 1x2  3 = 0.
 Obs.: note que os pesos do perceptron também poderiam ter sido inicializados com
valores aleatórios pequenos.
o Neste caso, a superfície de decisão obtida seria diferente.
o Considere para efeitos ilustrativos: w1 = 0.015; w2 = 0.768; b = 0.971.
o A figura a seguir mostra as duas superfícies de decisão e os pesos e bias
determinados pelo algoritmo de treinamento do perceptron.

(0,1) (1,1)
(0,0) (1,0)
w1 = 2; w2 = 1; b = 3
w1 = 2.015; w2 = 0.768; b = 2.029
9.3. Perceptron com Múltiplos Neurônios
 Note que a regra de aprendizagem do perceptron é do tipo supervisionada,
empregando a aprendizagem por correção de erro.
 Esta regra pode ser facilmente estendida para atualizar os pesos de uma rede de
neurônios em uma única camada.

 Neste caso, para cada vetor de entrada xi haverá um vetor de saídas da rede:
yi = f(Wxi + b); W  om
, xi  m1
, i = 1,…,N, yi  o1
, e b  o1
, D  oN
.
 Existe agora um vetor de erros para cada padrão de entrada: ei = di  yi.
procedure [W] = perceptron(max_it,,X,D)
initialize W //for simplicity set it to zero
initialize b //for simplicity set it to zero
t  1
while t < max_it do,
E  0
for i from 1 to N do, //para cada padrão de entrada
yi  f(Wxi + b) //determine a saída da rede para xi
ei  di  yi //determine o vetor de erros para xi
W  W +  ei xi
T
//atualize a matriz de pesos
b  b +  ei //atualize o vetor de bias
E  E + sum(eij
2
) //j = 1,...,o
end for
t  t + 1
end while
end procedure
Algoritmo 2: Algoritmo de treinamento para o perceptron com múltiplas saídas.

9.4. Exemplo de Aplicação: Reconhecimento de Caracteres
 Considere o problema de aplicar o perceptron com múltiplas saídas ao problema de
classificação (reconhecimento) dos seguintes caracteres binários:
 Cada um destes oito padrões de entrada possui uma resolução de 1210 pixels e as
classes a que eles pertencem (0,1,2,3,4,6,,9) estão pré-definidas.
 Vamos projetar um perceptron com oito neurônios de saída, onde cada neurônio irá
corresponder a uma classe. Temos então X  1208
e D  88
(matriz diagonal).
 O algoritmo de treinamento do perceptron será responsável então por definir uma
hipersuperfície de decisão em um espaço de dimensão 120 capaz de classificar os
dados corretamente.

Introdução às RNAs em

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (20)

Similar to Introdução às RNAs em

Similar to Introdução às RNAs em (20)

More from Leandro de Castro

More from Leandro de Castro (11)

Introdução às RNAs em