Aprendizagem Supervisionada I

  • 2,459 views
Uploaded on

 

  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
No Downloads

Views

Total Views
2,459
On Slideshare
0
From Embeds
0
Number of Embeds
0

Actions

Shares
Downloads
49
Comments
0
Likes
1

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. AprendizagemAutomática
    Mestrado em Engenharia Informática
  • 2. Sumário
    Aprendizagem Supervisionada
    18-10-2010
    Aprendizagem Automática / Machine Learning
    2
  • 3. Tipos de Aprendizagem (revisão)
    Procura
    Dado um espaço de soluções, procurar a melhor (ou uma aceitável)
    Aprendizagem por Reforço
    Interagir com um ambiente e descobrir qual a melhor acção para cada estado
    Aprendizagem Não supervisionada
    Dados vários padrões descobrir semelhanças entre eles, agrupá-los
    Reduzir número de atributos considerados
    Aprendizagem Supervisionada
    Sabendo o que se passou no passado, prever o que se segue
    Induzir uma regra dados exemplos
    18-10-2010
    Aprendizagem Automática / Machine Learning
    3
  • 4. K-NearestNeighbours (K-NN)
    Descobrir os K padrões mais semelhantes ao que queremos classificar
    Seleccionar uma classe de entre os padrões conhecidos (como? média? votação?)
    Problemas:
    definir a distância,
    definir o modo de selecção,
    algumas dificuldades com problemas não lineares
  • 5. Quantização Vectorial (Learning Vector Quantization)
    Problema: Dada uma imagem representada com 16 milhões de cores, quais as melhores 256 cores a usar para perder o mínimo de qualidade?
    Treino supervisionado para encontrar a melhor "capacidade de reconstrução de um conjunto específico de imagens"
    Semelhante a online K-Means, ... mas o representante é aproximado se a classificação é correcta e afastado caso contrário)
    Problemas:
    • Definição de “semelhança”
    • 6. não é muito fiável quando há “ruído”
    Usado com sucesso na compressão de dados e classificação de documentação.
    18-10-2010
    Aprendizagem Automática / Machine Learning
    5
  • 7. Aprendizagem Supervisionada
    Existe (no treino) o resultado esperado para cada exemplo
    Ex: Dado um conjunto de letras escritas à mão que foram identificadas por uma pessoa, criar um modelo para identificação de letras escritas à mão
    Erro de classificação
    Quantas letras falhou no conjunto?
    Erro médio
    As letras escolhidas por engano eram "parecidas" com as desejadas?
    18-10-2010
    Aprendizagem Automática / Machine Learning
    6
  • 8. ClassificaçãoConjunto positivo (geral)
    1 < x
    18-10-2010
    Aprendizagem Automática / Machine Learning
    7
    -
    -
    +
    +
    -
    -
    +
    -
    +
    -
    +
    +
    -
    +
    -
  • 9. Conjunto positivo (específico)
    1 < x < 2 && 0 < y < 2
    18-10-2010
    Aprendizagem Automática / Machine Learning
    8
    -
    -
    +
    +
    -
    -
    +
    -
    +
    -
    +
    +
    -
    +
    -
  • 10. Conjunto negativo
    0 < x < 1 && 0 < y < 2
    18-10-2010
    Aprendizagem Automática / Machine Learning
    9
    -
    -
    +
    +
    -
    -
    +
    -
    +
    -
    +
    +
    -
    +
    -
  • 11. Conjunto positivo
    1 < x < 2 && 1 < y < 2 – mais específica
    0.8 < x < 2.3 && 0.6 < y < 2.1 – mais geral
    18-10-2010
    Aprendizagem Automática / Machine Learning
    10
    -
    -
    +
    -
    +
    -
    +
    +
    -
    +
    +
    +
    -
    -
    -
  • 12. Ruído?
    Pode ser apenas um erro … ou não
    18-10-2010
    Aprendizagem Automática / Machine Learning
    11
    -
    -
    +
    +
    -
    -
    +
    -
    +
    +
    +
    +
    -
    -
    -
  • 13. Generalização e overfitting
    Forma geral, …
    mas com erro
    Forma sem erro, …
    mas muito específica
    18-10-2010
    Aprendizagem Automática / Machine Learning
    12
    -
    -
    -
    -
    +
    +
    +
    -
    -
    +
    -
    -
    +
    -
    +
    -
    +
    +
    +
    +
    +
    +
    +
    +
    -
    -
    -
    -
    -
    -
  • 14. Aprendizagem Supervisionada
    Dado um conjunto de exemplos, será que é possível descobrir o padrão que os gera? Exemplo simples:
  • 15. Valores
    Valores possíveis, por atributo
  • 16. Pre-processamento
    Discretizar, quantificar, normalizar …
  • 17. Case-BasedReasoning(matéria de IA)
    Semelhante ao K-NN, mas …
    Não guarda todos os exemplos, antes cria “casos-padrão”:
    Quando um padrão de entrada “está incluído” num “caso” guardado, é ignorado;
    Quando um padrão de entrada “é semelhante” a um “caso” guardado, o caso é estendido para incluir o novo padrão;
    Quando um padrão de entrada “não é semelhante” a nenhum “caso” guardado, é criado um novo caso;
    Tipicamente tem valores de entrada/saída complexos (e.g. grafos);
    Permite “combinar” valores de saída de vários exemplos de um modo complexo;
    Implementação sempre intimamente ligada a um domínio.
  • 18. Aprendizagem Supervisionada
    Sair = (Previsão == Limpo E Humidade == Normal) OU (Previsão == Nublado) OU (Previsão == Chuva E Vento == Fraco)
    Solução representável por uma condição lógica
  • 19. Árvores de Decisão(DecisionTrees)
    A cada nó está associado, durante o treino, o conjunto de exemplos que é classificado por este nó
    Céu
    Chuva
    Limpo
    Nublado
    Vento
    Humidade
    Sim
    Forte
    Fraco
    Normal
    Alta
    Sair = (Previsão == Limpo E Humidade == Normal) OU (Previsão == Nublado) OU (Previsão == Chuva E Vento == Fraco)
    Sim
    Não
    Sim
    Não
  • 20. Árvores de Decisão(DecisionTrees)
    Céu
    Chuva
    Limpo
    Nublado
    Vento
    Humidade
    Vento
    Forte
    Fraco
    Normal
    Alta
    Forte
    Fraco
    Sim
    Não
    Sim
    Não
    Sim
    Não
  • 21. DecisionTrees: Quando se usam?
    Instâncias representadas por atributos com valores discretos
    Pequenos conjuntos de valores possíveis para cada atributo
    Pretende-se uma classificação das instâncias (de preferência booleana)
    Dados podem conter erros e valores indefinidos
    Solução pode ser representada por uma expressão booleana ou uma classificação, e.g.: (Previsão = Limpo E Humidade = Normal) OU (Previsão = nublado) OU (Previsão = Chuva E Vento = Fraco)
  • 22. DecisionTrees: Construção
    Qual o atributo que melhor separa as instâncias numa decisão booleana?
    Entropia(S) = - p+ log2 (p+) - p- log2 (p-)
    S : Conjunto de exemplos de um conceito
    p+ : Percentagem de exemplos positivos
    p- : Percentagem de exemplos negativos
  • 23. DecisionTrees: Construção
    Quanto mais equilibrado o conjunto (p+ = p-), maior a entropia, i.e. menor a probabilidade de prever de que classe é um exemplo tirado ao acaso.
  • 24. DecisionTrees: Construção
    Entropia relativa à classificação em c partes, com base num atributo com c valores diferentes (pretende-se minimizar a entropia):
    X : Conjunto de exemplos de um conceito (e.g. “Sair?”)
    c: nº de valores possíveis para o conceito a
    pi : Percentagem de exemplos em que: a = vi
  • 25. Ganho de informação
    Ganho de informação de um atributo a em relação a um conjunto X:
    v: valores possíveis para a
    Xv: Subconjunto de X em que o valor de a é igual a v
    |X|: nº de elementos de X
  • 26. Ganho de informação
    a = Vento
    v = {Forte, Fraco}
    nº de instâncias de X (total) = 14 (9+, 5-)
    nº de instâncias de X em que (Vento = Forte) = 6 (3+, 3-)
    nº de instâncias de X em que (Vento = Fraco) = 8 (6+, 2-)
    G(X,Vento) = 0.94 – [(8*0.811) + (6*1.0)] /14 = 0.048
    Fraco
    Forte
  • 27. ID3
    ID3(Exemplos, Atributo-Alvo, Atributos)
    Criar a raíz
    Se p+ = 1: raíz = +
    Se p- = 1: raíz = -
    Se Atributos = Ø, raíz = valor mais comum do alvo em exemplos
    A <- Atributo que melhor classifica os exemplos de acordo com o ganho de informação
    Raíz = A
    Para cada valor (v) possível de A:
    Adicionar novo ramo A = v
    Exemplosv = Conjunto de exemplos em que A=v
    Se Exemplosv = Ø: adicionar ramo com valor mais comum do alvo em Exemplosv
    senão ramo = ID3(Exemplosv, Atributo-Alvo, Atributos – {A})
  • 28. C4.5/C5.0
    Semelhante ao ID3, mas …
    Atributos contínuos: cria uma série de classes para um atributo contínuo dividindo o seu domínio em partes [Quinlan, 96]
    Permite a utilização quando há valores em falta: não são usados no cálculo da entropia.
    Permite que os atributos tenham custos diferentes.
    Remoção (a posteriori) de nós que não são úteis.
    [Quinlan, 96] J. R. Quinlan. Improved use of continuous attributes in c4.5. Journal of Artificial Intelligence Research, 4:77-90, 1996.
  • 29. (Mitchell 97) Tom Mitchell, "MachineLearning", McGrawHill, 1997, capítulos 2, 3 e 8
    R. Duda and P. Hart. Pattern Classification and Scene Analysis. Wiley & Sons, Inc, 1973.
    "Self-Organizing Maps and Learning Vector Quantization for Feature Sequences", P. Somervuo and T. Kohonen, Neural Processing Letters, 10(2), 1999, pp. 151-159.
    J.R. Quinlan, Induction of Decision Trees, Machine Learning, vol. 1, no. 1, pp. 81-106, 1986.
    Giorgio Ingargiola, Building Classification Models: ID3 and C4.5, Computer and Information Science Department, Temple University, Philadelphia.
    Referências-base
    28
    AA/ML, Luís Nunes, DCTI/ISCTE
  • 30. Referências
    Some CompetitiveLearningMethods, BerndFritzke, SystemsBiophysicsInstitute for Neural Computation, Ruhr-UniversitätBochum, April 5, 1997
    Hinton, G. E. and Salakhutdinov, R. R Reducing the dimensionality of data with neural networks. Science, Vol. 313. no. 5786, pp. 504 - 507, 28 July 2006.
    S. Lloyd, LastsquarequantizationinPCM’s. BellTelephoneLaboratoriesPaper (1957). Publishedinjournalmuchlater: S. P. Lloyd. Leastsquaresquantizationin PCM. Specialissueonquantization, IEEE Trans. Inform. Theory, 28:129–137, 1982.
    WEBSOM Publications
    Bilmes, J. A Gentle Tutorial on the EM Algorithm and its Application to Parameter Estimation for Gaussian Mixture and Hidden Markov Models. Technical Report, University of Berkeley, ICSI-TR-97-021, 1997. http://citeseer.ist.psu.edu/bilmes98gentle.ht
    [Rumelhart and Zipser 86] Feature discovery by competitive learning, in Mit Press Computational Models Of Cognition And Perception Series, Parallel distributed processing: explorations in the microstructure of cognition, vol. 1: foundations, pp.151 – 193, (1986), ISBN:0-262-68053-X Authors D. E. RumelhartD. Zipser, Pub. MIT Press   Cambridge, MA, USA
    Jonathon Shlens, A Tutorial on Principal Component Analysis, Systems Neurobiology Laboratory, Salk Insitute for Biological Studies, 2005
  • 31. Sumário
    Aprendizagem Supervisionada
    18-10-2010
    Aprendizagem Automática / Machine Learning
    30