Apprendimento di movimenti della testa tramite Hidden Markov Model

1,903 views

Published on

Apprendimento di movimenti della testa tramite Hidden Markov Model (Anna Belardinelli)

Published in: Technology
1 Comment
0 Likes
Statistics
Notes
  • Be the first to like this

No Downloads
Views
Total views
1,903
On SlideShare
0
From Embeds
0
Number of Embeds
2
Actions
Shares
0
Downloads
41
Comments
1
Likes
0
Embeds 0
No embeds

No notes for slide

Apprendimento di movimenti della testa tramite Hidden Markov Model

  1. 1. ` UNIVERSITA DEGLI STUDI DI ROMA “LA SAPIENZA” Facolt` di Ingegneria a Corso di Laurea in Ingegneria Informatica Apprendimento di movimenti della testa tramite Hidden Markov Model Relatore: Candidato: Prof.ssa Fiora Pirri Anna Belardinelli matricola 786894 Anno Accademico 2004-2005
  2. 2. Indice Introduzione 7 1 L’apprendimento automatico 10 1.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 1.2 Tipi di approccio e di apprendimento . . . . . . . . . . . . . . 12 1.3 Apprendimento supervisionato . . . . . . . . . . . . . . . . . . 14 1.4 Apprendimento non supervisionato . . . . . . . . . . . . . . . 18 1.5 Apprendimento con rinforzo . . . . . . . . . . . . . . . . . . . 20 1.6 Apprendimento Bayesiano . . . . . . . . . . . . . . . . . . . . 24 2 L’apprendimento per imitazione 27 2.1 Introduzione: problemi e questioni dell’apprendimento per i- mitazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 2.2 L’imitazione: la prospettiva delle scienze cognitive . . . . . . . 29 2.3 L’apprendimento per imitazione nei sistemi artificiali . . . . . 34 2.4 Tecniche ed applicazioni . . . . . . . . . . . . . . . . . . . . . 38 2.5 Un approccio innovativo: un modello probabilistico dell’imi- tazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 2.6 Prospettive future . . . . . . . . . . . . . . . . . . . . . . . . . 42 3 Strumenti teorici e metodologici 43 3.1 Markov Chain Monte Carlo per l’apprendimento automatico . 43 3.1.1 Il principio di Monte Carlo . . . . . . . . . . . . . . . . 47 3.2 L’algoritmo di Metropolis-Hastings . . . . . . . . . . . . . . . 48 2
  3. 3. 3.3 Hidden Markov Model . . . . . . . . . . . . . . . . . . . . . . 50 3.3.1 Processi di Markov discreti . . . . . . . . . . . . . . . . 51 3.3.2 Elementi di un HMM . . . . . . . . . . . . . . . . . . . 52 3.3.3 La procedura Forward-Backward . . . . . . . . . . . . 55 3.3.4 L’algoritmo di Viterbi . . . . . . . . . . . . . . . . . . 58 3.3.5 Le formule di Baum-Welch . . . . . . . . . . . . . . . . 59 4 Stato dell’arte e genesi del modello 64 4.1 Le architetture cognitive . . . . . . . . . . . . . . . . . . . . . 64 4.2 Perch` apprendere per imitazione a spostare il fuoco attentivo e 69 4.3 Decomposizione del compito di attenzione condivisa . . . . . . 71 4.4 Apprendere i movimenti della testa: un confronto con la let- teratura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74 4.5 Costruzione del modello e dell’architettura cognitiva per l’e- sperimento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75 5 Contributo sperimentale 80 5.1 Obiettivi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80 5.2 L’apparato sperimentale . . . . . . . . . . . . . . . . . . . . . 81 5.3 La segmentazione . . . . . . . . . . . . . . . . . . . . . . . . . 81 5.4 La metrica per i movimenti . . . . . . . . . . . . . . . . . . . 82 5.5 Produzione dei dati per l’addestramento . . . . . . . . . . . . 84 5.6 Modellazione con HMM . . . . . . . . . . . . . . . . . . . . . 86 5.7 L’addestramento . . . . . . . . . . . . . . . . . . . . . . . . . 89 5.8 Risultati di riconoscimento e imitazione . . . . . . . . . . . . . 90 Conclusioni e sviluppi futuri 94 A L’algoritmo K-mean per il clustering 96 B Codice Matlab 98 B.1 calcolo deltac.m . . . . . . . . . . . . . . . . . . . . . . . . . . 98 B.2 segm imm.m . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99 3
  4. 4. B.3 face crop.m . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100 B.4 metropolis.m . . . . . . . . . . . . . . . . . . . . . . . . . . . 102 B.5 campionidelta.m . . . . . . . . . . . . . . . . . . . . . . . . . . 103 B.6 trovaframe.m . . . . . . . . . . . . . . . . . . . . . . . . . . . 103 B.7 elaborastati.m . . . . . . . . . . . . . . . . . . . . . . . . . . . 104 B.8 calcolacentro.m . . . . . . . . . . . . . . . . . . . . . . . . . . 105 B.9 elaboraemissioni.m . . . . . . . . . . . . . . . . . . . . . . . . 106 B.10 hmmstima.m . . . . . . . . . . . . . . . . . . . . . . . . . . . 106 B.11 hmmstima2.m . . . . . . . . . . . . . . . . . . . . . . . . . . . 107 B.12 hmmtraining.m . . . . . . . . . . . . . . . . . . . . . . . . . . 108 B.13 hmmtraining2.m . . . . . . . . . . . . . . . . . . . . . . . . . 109 B.14 viterbi.m . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109 B.15 mostraris.m . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110 Bibliografia 112 4
  5. 5. Elenco delle figure 1.1 Albero di decisione per una funzione booleana . . . . . . . . . 15 1.2 Rete neurale multistrato . . . . . . . . . . . . . . . . . . . . . 16 1.3 Struttura dell’apprendimento con rinforzo . . . . . . . . . . . 22 3.1 Grafo di transizione per una catena di Markov a tre stati . . . 45 3.2 Sequenza di operazioni necessarie per il calcolo della variabile forward . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 3.3 Sequenza di operazioni necessarie per il calcolo di ξt (i, j) . . . 61 4.1 Decomposizione dell’abilit` di attenzione congiunta in quattro a sotto-compiti . . . . . . . . . . . . . . . . . . . . . . . . . . . 72 4.2 Schema di apprendimento implementato . . . . . . . . . . . . 77 4.3 L’architettura cognitiva del sistema implementato : sono pre- senti cinque aree e le relazioni intercorrenti . . . . . . . . . . . 78 5.1 Segmentazione del frame in 3 classi . . . . . . . . . . . . . . . 83 5.2 Sequenza di frame segmentati . . . . . . . . . . . . . . . . . . 85 5.3 Posizione del viso nel frame attuale e possibili movimenti nel frame successivo . . . . . . . . . . . . . . . . . . . . . . . . . . 87 5.4 Visualizzazione degli stati imitati (frame 1-36) . . . . . . . . . 92 5.5 Visualizzazione degli stati imitati (frame 41-76) . . . . . . . . 93 A.1 Schema dei passi che compongono l’algoritmo K-mean per il clustering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97 5
  6. 6. Elenco delle tabelle 5.1 Matrice delle transizioni di stato . . . . . . . . . . . . . . . . . 88 5.2 Matrice delle emissioni . . . . . . . . . . . . . . . . . . . . . . 88 5.3 Matrice delle transizioni dopo l’addestramento . . . . . . . . . 89 5.4 Matrice delle emissioni dopo l’addestramento . . . . . . . . . . 90 5.5 Confronto tra stati effettivi e stati ricostruiti . . . . . . . . . . 90 6
  7. 7. Introduzione What is a system? As any poet knows, a system is a way of looking at the world. -Gerald M.Weinberg, An Introduction to General Systems Thinking L’intelligenza artificiale ` una delle branche della scienza che ha fatto pi` e u progressi negli ultimi anni, offrendo possibilit` e scenari prima ascrivibili al a solo campo della fantascienza. Le prospettive di un mondo in cui esseri umani e sistemi artificiali siano pienamente integrati e possano collaborare in modo efficiente e naturale sono visibili per ora solo proiettando lo sguardo verso l’orizzonte, ma le fondamenta di questa visione vengono gettate oggi e inevitabilmente pog- giano sui contributi di diversi campi scientifici, tecnologie e approcci inter- e multidisciplinari. Una delle esigenze emergenti della ricerca nel campo delle scienze cogni- tive e dell’intelligenza artificiale e’ l’integrazione e cooperazione fra diverse aree di ricerca per capire approfonditamente i meccanismi e i principi del- l’apprendimento animale ed essere cosi’ in grado di riprodurli nei sistemi artificiali. Un ambito che si ` fortemente giovato di stimoli ed idee provenienti dalle e scienze cognitive, biologiche e neurofisiologiche ` sicuramente quello dell’ap- e prendimento automatico. Affrontando la descrizione, la formalizzazione e la 7
  8. 8. 8 riproduzione di un’attivit` peculiarmente umana, per quanto, spesso, con a scopi e modalit` che esulano dalla prospettiva prettamente antropocentri- a ca, l’apprendimento automatico `, all’interno dell’intelligenza artificiale, uno e dei campi di ricerca in maggiore fermento e, tra quelli in grado, non solo di mutuare elementi da altre scienze, ma anche di fornire in risposta spun- ti, quando non soluzioni o giustificazioni scientifiche, a questioni riguardanti l’uomo come sistema naturale. Accanto ad approcci collaudati ed ampiamente esplorati, come l’apprendi- mento supervisionato, non supervisionato e con rinforzo, nella comunit` a scientifica si stanno attualmente indagando le possibilit` e i risvolti com- a putazionalmente vantaggiosi offerti dall’apprendimento per imitazione. I tempi per una ricerca del genere sono stati accelerati dall’estensione alla visione artificiale, al decision-making e al ragionamento e all’apprendimento automatici di metodi di statistica inferenziale Bayesiana. Queste tecniche hanno permesso la realizzazione di sistemi predittivi e imitativi, basandosi sull’evidenza che, implicitamente, anche l’uomo compie calcoli probabilistici in molti processi cognitivi. Partendo da queste premesse e con l’entusiasmo che accompagna i progetti dotati di aspetti pionieristici, grazie alla guida della mia relatrice ho approfondito queste tematiche e sviluppato l’idea del lavoro sperimentale presentato in questa tesi. E’ esperienza comune il bisogno di stabilire un contatto visivo e imparare a seguire i movimenti dell’interlocutore per poter interagire con lui. Questa necessit` si presenta tanto pi` impellente nel caso di sistemi artificiali che, a u progettati per servire l’uomo, devono apprendere ad imitarlo nella sua fisi- cit`, sia che si tratti di sistemi robotici mobili, che di piattaforme fisse che a interagiscono con utenti seduti. Apprendere i movimenti della testa ` perci` e o risultato un compito necessario per mantenere l’attenzione del sistema foca- lizzata su un punto cruciale per l’osservazione o l’inferenza delle intenzioni umane. Diversi approcci sono stati implementati in letteratura, in mancanza di una comprensione completa delle molteplici sfaccettature del problema e di una teoria unificata per descriverlo. In questo lavoro l’architettura co-
  9. 9. 9 gnitiva scelta ` basata sull’utilizzo degli Hidden Markov Model, una tecnica e relativamente recente ma che ci ` sembrata ideale per modellizzare gli aspetti e probabilistici e sequenziali del problema.
  10. 10. Capitolo 1 L’apprendimento automatico 1.1 Introduzione Hilgard e Bower (1970), psicologi comportamentisti, hanno definito l’ap- prendimento come ”una modifica del comportamento, ovvero delle relazioni tra stimoli e risposte, che si instaura in seguito ad opportune stimolazioni esterne e non ` riconducibile a processi di maturazione biologica, a malattie e o all’assunzione di sostanze chimiche”. Il concetto di apprendimento copre una vasta gamma di processi che ` difficile definire precisamente. Zoologi e e psicologi hanno studiato l’apprendimento negli animali e negli uomini. Ci sono molti paralleli tra l’apprendimento automatico e quello animale. Varie tecniche di apprendimento implementate in sistemi artificiali derivano dagli sforzi degli psicologi di affinare le teorie sull’apprendimento umano ed animale attraverso modelli computazionali. In maniera inversa, concetti e tecniche studiate dai ricercatori nell’apprendimento automatico possono chiarire certi aspetti dell’apprendimento biologico (Nilsson,1996, [23]). Riguardo ai sistemi artificiali, si pu` dire, molto in generale, che una o macchina impara quando cambia la sua struttura, i programmi o i dati (in base agli input o in risposta a informazioni esterne) in maniera tale che le prestazioni successive migliorano. Alcuni di questi cambiamenti, come l’ag- giunta di un record in un data base, ricadono nell’ambito di altre discipline 10
  11. 11. CAPITOLO 1. L’APPRENDIMENTO AUTOMATICO 11 e non sono necessariamente esempi di apprendimento. Quando, per`, i risul- o tati di una macchina per il riconoscimento del parlato, ad esempio, miglio- rano dopo aver sentito diversi esempi del parlato di una persona, ci si sente abbastanza giustificati nel dire che quella macchina ha imparato. Ci si potrebbe chiedere perch´ le macchine debbano imparare, invece di e progettarle sin dall’inizio per svolgere i compiti desiderati. In molti casi questo ` difficile se non impossibile. T. Dietterich ([12]) divide questi casi in e quattro categorie. In primo luogo, ci sono problemi per cui non esistono esperti umani. Per esempio nelle produzioni manifatturiere automatizzate si presenta il bisogno di predire i guasti alle macchine prima che accadano, analizzando le misure dei sensori. Poich´ le macchine sono nuove, non ci sono esperti umani che e possono essere consultati da un programmatore per ottenere la conoscenza necessaria a costruire un sistema informatico. Un sistema in grado di ap- prendere pu` studiare i dati registrati e i successivi guasti alle macchine e o imparare le regole per prevederli. In secondo luogo, ci sono problemi per cui esistono esperti umani, ma questi non sono in grado di spiegare la loro esperienza. Questo avviene in molti compiti percettivi, come il riconoscimento del parlato, riconoscimento della calligrafia o la comprensione del linguaggio naturale. In genere ogni uomo ha capacit` da esperto in questi compiti, ma nessuno sa descrivere i passi a dettagliati che segue per raggiungere l’obiettivo. Fortunatamente, gli uomini possono fornire alle macchine degli esempi di input e output corretti, cosicch´ e gli algoritmi di apprendimento automatico possono imparare a mappare gli input sugli output. Nella terza categoria vengono inclusi i problemi in cui i fenomeni cambiano rapidamente. Nella finanza, per esempio, le persone vorrebbero predire il comportamento futuro del mercato azionario, della domanda di acquisto o dei tassi di cambio. Questi comportamenti cambiano frequentemente, per- tanto, anche se un programmatore potesse realizzare un buon programma di predizione, questo andrebbe riscritto frequentemente. Un programma che
  12. 12. CAPITOLO 1. L’APPRENDIMENTO AUTOMATICO 12 apprende pu` sollevare il programmatore da questo carico modificando e ag- o giustando costantemente un insieme di regole di predizione apprese. Da ultimo, ci sono applicazioni che hanno bisogno di essere personalizzate separatamente per ogni utente. Ad esempio, un programma che filtra la posta elettronica. Non ` ragionevole aspettarsi che ogni utente programmi e le proprie regole di filtraggio. Un sistema che apprende pu` imparare quali o messaggi l’utente scarta e acquisire automaticamente le regole di filtraggio. 1.2 Tipi di approccio e di apprendimento Gli studi sull’apprendimento automatico provengono da diverse discipline, che hanno introdotto differenti approcci, metodologie e nomenclature. Tra i campi coinvolti ci sono la statistica, il data mining, la psicologia, l’intelligenza artificiale, il brain modeling, la teoria del controllo. Nella scienza cognitiva contemporanea si sono distinti due tipi di approcci alla soluzione dei problemi di apprendimento (Pessa, [24]): • l’approccio simbolico, che descrive stimoli e risposte a livello macro- scopico, rappresenta la conoscenza in modo localizzato tramite sim- boli e prevede che l’apprendimento consista in processi computazionali agenti sui simboli. • l’approccio connessionistico, che descrive stimoli e risposte a livello microscopico, rappresenta la conoscenza in maniera distribuita tramite le relazioni tra micro-unit` cognitive (i nodi delle reti neurali), e fa a consistere l’apprendimento in particolari processi computazionali che modificano i valori dei pesi della rete. I modelli pi` comuni sono basati su macchine a stati finiti e grammatiche u generative, modelli simbolici basati su regole o programmi logici, model- li probabilistici e funzionali. In generale, affrontando il problema del cosa apprendere si assume che l’oggetto dell’apprendimento sia una struttura computazionale di qualche sorta ([23]). Le strutture pi` comuni sono: u
  13. 13. CAPITOLO 1. L’APPRENDIMENTO AUTOMATICO 13 • funzioni • programmi logici o insiemi di regole • macchine a stati finiti • grammatiche • sistemi di problem solving E’ stata fatta anche una distinzione basata sul tipo di compiti da ap- prendere ([12]). L’apprendimento analitico non richiede input esterni, men- tre l’apprendimento empirico si fonda su una qualche forma di esperienza esterna. Nel primo il programma ` in grado di migliorare le prestazioni sem- e plicemente analizzando il problema (per esempio nel gioco degli scacchi). Nel secondo gli algoritmi non possono inferire analiticamente le regole del gioco, ma devono interagire con un insegnante per apprenderle. La classificazione comunemente pi` accettata ` comunque quella che vede u e l’apprendimento supervisionato applicato ai problemi di decision-making di- screto e di predizione continua, l’apprendimento con rinforzo per i problemi di decision-making sequenziale e l’apprendimento non supervisionato, spesso applicato a problemi di clusterizzazione o di stima di distribuzioni di proba- bilit` (Dietterich, 1999, [14]). Nei prossimi paragrafi approfondiremo questa a suddivisione, ricordando che nello sviluppare un sistema di apprendimento automatico bisogna rispondere a quattro domande: 1. Come viene rappresentato il classificatore? 2. Come vengono rappresentati gli esempi? 3. Quale funzione obiettivo dovrebbe essere utilizzata per valutare i clas- sificatori candidati? 4. Quale algoritmo di ricerca dovrebbe essere usato?
  14. 14. CAPITOLO 1. L’APPRENDIMENTO AUTOMATICO 14 1.3 Apprendimento supervisionato L’apprendimento supervisionato per la classificazione ` uno dei compiti di e apprendimento automatico pi` semplici e meglio approfonditi. Esso si basa u su un certo numero di esempi pre-classificati, in cui, cio`, ` nota a priori la e e categoria alla quale deve appartenere ciascuno degli input usati come esem- pi. Il nodo cruciale in questo caso ` il problema della generalizzazione: dopo e l’analisi di un campione (spesso piccolo) di esempi, il sistema dovrebbe pro- durre un classificatore1 che lavori bene su tutti i possibili input. Una coppia costituita da un oggetto e dalla classe associata ` detto esempio etichetta- e to. L’insieme degli esempi etichettati forniti all’algoritmo di apprendimento viene detto training set. Una volta somministrato il training set all’algorit- mo e ottenuto in output il classificatore, come si pu` valutarne la bont`? o a In genere si fornisce un secondo insieme di esempi etichettati (test set) e si misura la percentuale di esempi classificati correttamente e la percentuale di esempi di test mal classificati. Nell’ambito dell’apprendimento supervisionato sono inclusi non solo i classi- ficatori ma anche l’apprendimento di funzioni che predicono valori numerici. Questo compito viene di solito chiamato regressione. In questo caso ogni esempio etichettato per l’addestramento ` una coppia formata da un ogget- e to e dal valore numerico associato. La qualit` della funzione di predizione a appresa ` in genere misurata come il quadrato della differenza tra il valore e predetto e il valore reale, sebbene a volte venga preso invece il valore assoluto di questa differenza. Ci sono diversi algoritmi di apprendimento che sono stati sviluppati per la classificazione e la regressione supervisionate. Si possono raggruppare in base al formalismo adoperato per rappresentare il classificatore o il predit- tore appreso: alberi di decisione, regole di decisione, reti neurali, funzioni discriminanti lineari, reti Bayesiane. In particolare, gli alberi di decisione sono uno degli algoritmi pi` versatili ed efficienti. In un albero di ricerca u 1 programma che associa un oggetto dato in input ad una determinata classe
  15. 15. CAPITOLO 1. L’APPRENDIMENTO AUTOMATICO 15 Figura 1.1: Albero di decisione per una funzione booleana ogni nodo verifica il valore di una delle componenti del vettore in ingresso e indirizza ad uno dei nodi figli, in base al risultato del test. Un nuovo esempio viene classificato partendo dalla radice dell’albero e applicando il test a quel nodo. Se il test ` positivo si passa al figlio sinistro, altrimenti al destro. Poi si e applica il test del nodo figlio, ricorsivamente fino a che si raggiunge un nodo foglia, che fornisce la classificazione dell’esempio. Tipicamente gli alberi di decisione sono costruiti incrementalmente con una procedura top-down. Un esempio raffigurante una funzione booleana ` visibile in fig. 1.1. e L’apprendimento supervisionato ` la forma di apprendimento in cui le reti e neurali hanno ottenuto maggior successo. In particolare, i percettroni multi- strato costituiscono le reti pi` popolari ([24]). Nella loro forma pi` tipica sono u u composti da tre strati di unit`: uno strato di ingresso, uno strato di uscita a ed uno o pi` strati nascosti, tra i primi due (fig. 1.2). Le connessioni tra gli u strati sono di tipo feed-forward, ovvero senza cicli e con l’output dipendente
  16. 16. CAPITOLO 1. L’APPRENDIMENTO AUTOMATICO 16 Figura 1.2: Rete neurale multistrato solo dall’input, e le unit` di uscita eo nascoste hanno leggi di attivazione a non lineare. Gli algoritmi di apprendimento pi` usati si basano su training u set di vettori di input e di corrispondenti output desiderati. L’apprendimento consiste nell’esplorare varie volte il training set, aggiustando gradualmente i pesi delle connessioni in modo tale che l’output si avvicini sempre pi` a quello u desiderato. Il problema di trovare valori ottimali dei pesi in funzione degli esempi presentati viene risolto con leggi di apprendimento supervisionato: la pi` famosa di queste leggi ` la regola di error-backpropagation. Secondo u e questa regola l’errore delle unit` di uscita viene propagato all’indietro per a produrre una stima di quanto una data unit` nascosta abbia contribuito al- a l’errore. Queste stime vengono poi usate per aggiustare i pesi (Arbib, [2]). Questa regola, per`, presenta l’inconveniente di non poter garantire, all’au- o mentare delle iterazioni, la convergenza verso l’errore minimo possibile. Gli esempi visti fino adesso corrispondono, secondo un’ulteriore classificazione, ad un apprendimento di tipo induttivo, detto inductive concept learning. In questi casi, cio`, il training set in genere non esaurisce lo spazio degli esempi e
  17. 17. CAPITOLO 1. L’APPRENDIMENTO AUTOMATICO 17 possibili. Questi metodi sono definiti induttivi perch´ inferiscono un concetto e generale sulla base di un insieme di esempi; poich´ resta comunque aperto il e problema della falsificazione (Popper, 1959, [25]), l’apprendimento indutti- vo soffre di problemi di overfitting. Altre forme di apprendimento induttivo sono gli ID3 e il ”Version Space” di Mitchell ( [20], [21]). In contrasto con essi c’` una forma di apprendimento deduttivo, in cui da un insieme di fatti ∆ e viene dedotto una proposizione φ. Implicitamente φ era gi` nota, conoscen- a do ∆, ma poteva non essere ovvia. Da un insieme di ipotesi o conoscenza di base ∆ viene dedotto un enunciato φ. Se la deduzione ` fatta nella lo- e gica classica, per la monotonicit` della deduzione logica φ e’ implicitamente a contenuto in ∆, quindi l’inferenza non pu` essere assimilata ad alcuna for- o ma di apprendimento. Viceversa se la deduzione ` ”non-classica” e dunque e non-monotona allora φ ` ottenuta aggiungendo a ∆ nuove ipotesi. Le ipotesi e aggiunte possono considerarsi come delle spiegazioni apprese. Un sistema di apprendimento deduttivo conserva φ in memoria, in caso possa servire successivamente. Questo processo pu` essere considerato apprendimento? o Dietterich l’ha chiamato speed-up learning. Esso ` analogo all’acquisizione di e abilit` da parte delle persone. L’obiettivo di questo apprendimento ` ana- a e lizzare e ricordare ricerche passate in modo da risolvere pi` velocemente i u problemi successivi. Una forma di speed-up learning ` l’explanation-based e learning, che si basa sulla disponibilit` di conoscenza pregressa per spiegare a perch´ un particolare passo ha successo o fallisce. Il processo di apprendi- e mento consiste nello ”specializzare” parti della teoria di un dominio al fine di spiegare un esempio; poi si generalizza la spiegazione per produrre un altro elemento della teoria del dominio, che potr` essere utile per esempi simili. a Un compito pi` complesso di apprendimento supervisionato si ` rivela- u e to l’apprendimento di sequenze, serie temporali e dati spaziali ([12]). Un esempio di questo tipo ` il riconoscimento del parlato: un sistema progettato e per questo scopo deve poter apprendere non solo come mettere in relazione il segnale vocale con i fonemi, ma anche come mettere in relazione i fonemi tra di loro. Gli Hidden Markov Model (cfr. cap.3) sono un esempio di clas-
  18. 18. CAPITOLO 1. L’APPRENDIMENTO AUTOMATICO 18 sificatore che pu` apprendere entrambi gli aspetti. Problemi simili nascono o nell’analisi di serie temporali. Ad esempio nell’analisi di misure legate alle condizioni metereologiche per imparare a predire il tempo futuro. Sarebbe un errore, anche in questo caso, trattare gli esempi etichettati come se fos- sero indipendenti. I dati spaziali, a loro volta, presentano problemi simili ai dati sequenziali, ma in due dimensioni. Spesso i dati di addestramento sono immagini in cui ogni pixel viene etichettato secondo i vari scopi di classifi- cazione. Metodi come i Markov Random Field possono essere applicati per cogliere le relazioni tra pixel adiacenti. 1.4 Apprendimento non supervisionato L’apprendimento non supervisionato studia come i sistemi possano imparare a rappresentare particolari modelli dati in input in un modo che rifletta la struttura statistica dell’intera collezione di modelli (Dayan, [9]). Contraria- mente all’apprendimento supervsionato o a quello con rinforzo non ci sono espliciti output-obiettivo o valutazioni ambientali associati ad ogni input; piuttosto, l’apprendimento non supervisionato porta a produrre bias a priori come aspetti della struttura dell’input che dovrebbero essere catturati nel- l’output. Questo tipo di apprendimento ` importante perch´ probabilmente nel cervel- e e lo umano ` molto pi` comune che l’apprendimento supervisionato. Gli unici e u oggetti del dominio dei modelli di apprendimento, in questo caso, sono i dati x osservati in input, che spesso si assume siano campioni indipendenti di una distribuzione di probabilit` sottostante sconosciuta, P (x), e alcune a informazioni a priori implicite o esplicite. Sono state suggerite due classi di metodi per l’apprendimento non supervisionato. Le tecniche di stima di densit` di probabilit` costruiscono modelli statistici (come le reti Bayesiane) a a di come le cause sottostanti possano creare gli input osservati. Le tecniche di estrazione di features, invece, cercano di estrarre regolarit` statistiche (o, a talvolta, irregolarit`) direttamente dagli input. a
  19. 19. CAPITOLO 1. L’APPRENDIMENTO AUTOMATICO 19 La classe pi` ampia di metodi per l’apprendimento non supervisionato con- u siste in tecniche di stima della densit` con il maximum likelihood (ML). Tutte a queste tecniche si basano sulla costruzione di modelli parametrizzati P (x; ϑ) (dove ϑ indica i parametri) della distribuzione di probabilit` PI (x), dove a le forme del modello (e possibilmente le distribuzioni a priori dei parametri ϑ ) sono vincolate da informazioni a priori. Questi sono chiamati modelli sintetici o generativi, perch´ dato un valore particolare di ϑ , essi specificano e come sintetizzare o generare campioni x da P (x; ϑ), la statistica dei quali dovrebbe corrispondere a P (x). Un modello tipico ha la struttura: P (x; ϑ) = P (x|y; ϑ) P (y; ϑ) y dove y rappresenta tutte le cause potenziali dell’input x. Dato un modello x con parametri ϑ in input, l’output pi` generale di questo modello ` la u e distribuzione a posteriori P (y|x; ϑ), che riconosce quale particolare causa potrebbe essere alla base di x, usando la regola di Bayes. Oltre alla stima di densit` con ML e alla rilevazione di anomalie, ci sono a diversi altri compiti cui ` stato applicato l’apprendimento non supervisiona- e to. Data un’ampia collezione di oggetti, spesso si vuole essere in grado di com- prenderli e visualizzare le loro relazioni. Il compito del clustering gerarchico divide un insieme di oggetti in una gerarchia tale che oggetti simili sono rag- gruppati insieme. Un approccio standard consiste nel definire una misura di similarit` tra due oggetti qualunque e quindi cercare cluster di oggetti che a sono pi` simili tra loro, rispetto agli oggetti negli altri cluster. Un altro ap- u proccio per comprendere e visualizzare dati consiste nel collocare gli oggetti in uno spazio di dimensione minore (per esempio, passare da uno spazio a dimensione 5 ad un piano bidimensionale) in modo da raggruppare in base ad una misura di distanza (per esempio, la distanza Euclidea) gli oggetti vicini. Anche applicazioni di completamento di oggetti e di recupero di informazioni si basano sul clustering e sulla stima di densit`. Il primo compito consiste nel a predire le parti mancanti di un oggetto data una sua descrizione parziale. Il
  20. 20. CAPITOLO 1. L’APPRENDIMENTO AUTOMATICO 20 secondo recupera oggetti rilevanti (documenti, immagini, impronte digitali) da una vasta collezione, data una descrizione parziale o pochi esempi degli oggetti cercati. 1.5 Apprendimento con rinforzo L’apprendimento con rinforzo ` un approccio all’intelligenza artificiale che e enfatizza l’apprendimento da parte di un agente tramite le sue interazioni con l’ambiente. Questo ` in contrasto con gli approcci classici all’apprendi- e mento automatico, concentrati piuttosto sull’apprendimento da un esperto o sul ragionamento su un modello completo dell’ambiente (Sutton, [32]). La ricerca attuale sull’apprendimento con rinforzo ` fortemente interdisciplinare, e include ricercatori specializzati in algoritmi genetici, reti neurali, psicologia e ingegneria del controllo. In tutti i sistemi di apprendimento questo si manifesta come un’aumenta- ta capacit` di prendere decisioni. Nei compiti di apprendimento supervisio- a nato e non supervisionato visti le decisioni prese dal sistema di elaborazione, in seguito all’apprendimento, sono non sequenziali. Questo significa che se il sistema compie un errore in una decisione, esso non influenza le decisioni successive. Compiti di decision-making sequenziale sorgono in vari domini, in cui si renda necessario controllare un sistema (per esempio, guidare ro- bot, macchine o veicoli spaziali; controlli automatici in raffinerie petrolifere, impianti chimici o fabbriche; gestione di pazienti in terapia intensiva)([12]). L’apprendimento con rinforzo ha come scopo l’imparare cosa fare-come map- pare situazioni in azioni-in modo da massimizzare una funzione di ricompen- sa. Al sistema non viene detto quale azione intraprendere, piuttosto esso deve scoprire quali azioni portano ad una maggiore ricompensa, provandole. Nei casi pi` interessanti le azioni possono influenzare non solo la ricompensa u immediata ma anche la situazione successiva e, attraverso questa, le ricom- pense seguenti. Queste due caratteristiche, la ricerca trial and error e la ricompensa ritardata, sono le due componenti distintive dell’apprendimento
  21. 21. CAPITOLO 1. L’APPRENDIMENTO AUTOMATICO 21 con rinforzo ([32]). Una delle questioni che sorgono in questo tipo di apprendimento riguarda il bilanciamento tra esplorazione e sfruttamento. Per ottenere una grossa ri- compensa, un agente deve preferire le azioni che ha provato in passato e che sono risultate efficaci e remunerative in termini di ricompensa. Per scoprire quali sono queste azioni, per`, deve selezionare delle azioni che non ha ancora o provato. L’agente deve cio` sfruttare quanto gi` sa per ottenere la ricom- e a pensa, ma deve anche esplorare in modo da poter fare una migliore selezione delle azioni in futuro. Il problema ` che n´ lo sfruttamento n´ l’esplorazione e e e possono essere perseguite esclusivamente senza fallire l’obiettivo. La ricerca attuale sull’apprendimento con rinforzo usa la struttura formale dei Markov Decision Process, in cui l’agente e l’ambiente interagiscono in una sequenza di passi a tempo discreto, t=0,1,2,3,.... Ad ogni passo l’agente percepisce che l’ambiente si trova in uno stato, st , che riassume tutte le varia- bili del sistema, e seleziona un’azione, at . In risposta, l’ambiente compie una transizione stocastica verso un nuovo stato, st+1 , e stocasticamente emette una ricompensa numerica, rt+1 ∈ , una misura del costo dell’azione e della desiderabilit` dello stato attuale (cfr. fig.1.3). L’agente cerca di massimizzare a la ricompensa che riceve nel lungo termine. Ad esempio, l’obiettivo pi` u comune ` scegliere ogni azione at in modo da massimizzare il valore atteso e della ricompensa scontata: E rt+1 + γrt+2 + γ 2 rt+3 + . . . dove γ ` un parametro di tasso di sconto, 0 ≤ γ ≤ 1, simile ad un tasso di e interesse in economia. Questa struttura vuole trovare in maniera semplice le componenti essenziali del problema dell’apprendimento da interazione. Com- prende percezioni ed azioni, cause ed effetti e un obiettivo esplicito per agire sull’ambiente. L’incertezza esiste sia all’interno dell’ambiente (poich´ ` sto- ee castico), sia riguardo l’ambiente (poich´ le probabilit` di transizione potreb- e a bero non essere del tutto note). Semplici estensioni di questo problema com- prendono il caso di percezioni incomplete e limiti computazionali. Nel caso in cui lo stato del sistema non possa essere interamente osservato ad ogni
  22. 22. CAPITOLO 1. L’APPRENDIMENTO AUTOMATICO 22 Figura 1.3: Struttura dell’apprendimento con rinforzo
  23. 23. CAPITOLO 1. L’APPRENDIMENTO AUTOMATICO 23 passo si parla di Partially Observable Markov Decision Process. In ogni stato l’agente prende le sue decisioni secondo una politica di controllo, che indica l’azione da compiere. La politica ottimale ` quella che massimizza e la somma delle ricompense. L’apprendimento con rinforzo consiste nell’im- parare una politica di controllo interagendo con un ambiente sconosciuto. Si pu` definire il valore di trovarsi in uno stato s sotto la politica π come il o guadagno scontato considerato partendo in quello stato e seguendo la poli- tica π. La funzione che fa corrispondere a tutti gli stati i loro valori ` detta e funzione stato-valore per la politica: V π = Eπ rt+1 + γrt+2 + γ 2 rt+3 + . . . |st = s . I valori degli stati definiscono un ordinamento naturale per le politiche. Una politica π ` migliore o uguale ad una politica π se e solo se V π (s) ≥ V π (s) e per ogni stato s. Ci sono due approcci principali all’apprendimento per rinforzo: i metodi model-based e i metodi model-free ([12]). Nei metodi model-based, il sistema segue una poltica allo scopo di appren- dere informazioni sull’ambiente. Ogni volta esegue un’azione a nello stato s e osserva la ricompensa risultante r e lo stato successivo s’. Si memoriz- za la quadrupla (s,a,r,s’ ) che descrive l’esperienza. Quando ha un numero sufficiente di queste quadruple, il sistema pu` apprendere una funzione proba- o bilit` di transizione, P (s |s, a), e una funzione di ricompensa, R (s, a, s ). La a prima indica che se l’azione a viene eseguita nello stato s, allora l’ambiente passer` nello stato s’ con probabilit` P (s |s, a). La seconda fornisce il valore a a medio della ricompensa che sar` ricevuta se quanto descritto sopra accade. a Date queste due funzioni, ` possibile applicare algoritmi di programmazione e dinamica per calcolare la politica ottima. Gli algoritmi model-free apprendono la politica direttamente interagendo con l’ambiente, senza memorizzare quadruple o apprendere P o R. L’algoritmo pi` noto ` il Q-learning. Nella sua forma pi` semplice esso usa l’esperienza u e u di ogni stato per aggiornare un elemento di una matrice. Questa matrice, indicata con Q, contiene un elemento, Q (s, a), per ogni coppia stato-azione.
  24. 24. CAPITOLO 1. L’APPRENDIMENTO AUTOMATICO 24 Nella transizione st → st+1 , compiuta l’azione at e ricevuta la ricompensa rt+1 , l’algoritmo opera l’aggiornamento Q (st , at ) ← (1 − α) Q (st , at ) + α [rt+1 + γ max Q (st+1 , at )] dove α ` un parametro positivo. Sotto appropriate condizioni (assicurando e un’esplorazione sufficiente e una riduzione di α nel tempo), questo processo converge in modo che la politica golosa 2 rispetto a Q ` ottimale. In questo e modo l’algoritmo fornisce un modo per trovare una politica ottima basandosi puramente sull’esperienza, senza modelli della dinamica dell’ambiente. Metodi pi` sofisticati implementano Q non come una tabella, ma come una u funzione parametrizzata addestrabile, come una rete neurale. Questo permet- te la generalizzazione tra gli stati, che pu` ridurre fortemente il tempo di o apprendimento e i requisiti di memoria. L’apprendimento con rinforzo si ` dimostrato un approccio promettente e anche per la pianificazione e il problem solving. In questo caso un modello dell’ambiente viene usato per simulare un’interazione estensiva tra l’ambiente stesso e l’agente. Quest’esperienza simulata viene poi elaborata con metodi di apprendimento con rinforzo proprio come se fosse veramente avvenuta. Il risultato ` una sorta di ”pianificazione per ogni momento” in cui la politica e dell’agente migliora gradualmente col tempo e con lo sforzo computazionale. 1.6 Apprendimento Bayesiano L’approccio Bayesiano, diversamente dall’approccio ML, si basa sul principio che sia possibile stabilire inizialmente alcune caratteristiche del modello che poi saranno aggiustate o verificate dall’esperienza. Esso considera tutti i modelli di apprendimento (di parametri, di strutture o di entrambi) come la riduzione dell’incertezza dell’utente riguardo al modello, dati i dati. Inoltre, codifica tutte le incertezze sui parametri e sulla struttura del modello come probabilit`. a 2 Politica che sceglie in ogni stato s l’azione a per cui si ha che Q (s, a) ` massimo e
  25. 25. CAPITOLO 1. L’APPRENDIMENTO AUTOMATICO 25 L’apprendimento Bayesiano presenta due vantaggi rispetto all’apprendi- mento classico (Heckerman, 1999, [17]): 1. combina la conoscenza a priori e i dati; 2. i metodi di apprendimento Bayesiano contengono insitamente la strut- tura del rasoio di Occam. Consideriamo un problema il cui dominio consiste nelle variabili X = (X1 , X2 , . . . , Xn ). Inoltre immaginiamo di disporre dei dati D = (x1 , x2 , . . . , xN ), che rappresentano un campione casuale di qualche distribuzione di proba- bilit` ignota per X. Si assume che la distribuzione di probabilit` ignota pos- a a sa essere codificata da un qualche modello statistico con la struttura m e i parametri ϑm . L’incertezza riguardo la struttura e i parametri del model- lo vengono codificati nell’approccio Bayesiano usando delle probabilit`. In a particolare definiamo la variabile discreta M, i cui stati m corrispondono ai possibili modelli veri, e denotiamo la nostra incertezza su M con la di- stribuzione di probabilit` p (m|ξ), con ξ indicante le informazioni in nostro a possesso. Inoltre, per ogni struttura del modello m, definiamo una variabile continua in forma di vettore Θm , le cui configurazioni ϑm corrispondono ai possibili parametri veri. Rappresentiamo la nostra incertezza riguardo a Θm con la funzione di densit` di probabilit` p (ϑm |m, ξ). a a Dato un campione casuale D, calcoliamo la distribuzione a posteriori per ogni m e ϑm usando la regola di Bayes: p (m|ξ) p (D|m, ξ) p (m|D, ξ) = m p (m|ξ) p (D|m, ξ) p (ϑm |m, ξ) p (D|ϑm , m, ξ) p (ϑm |D, m, ξ) = p (D|mξ) dove p (D|m, ξ) = p (D|ϑm , m, ξ) p (ϑm |m, ξ) dϑm ` il likelihood marginale. Date alcune ipotesi di interesse, h, determiniamo la e probabilit` che h sia vera dati i dati D facendo la media su tutti i possibili a modelli e i loro parametri secondo le regole della probabilit`: a
  26. 26. CAPITOLO 1. L’APPRENDIMENTO AUTOMATICO 26 p (h|D, ξ) = p (m|D, ξ) p (h|D, m, ξ) m p (h|D, m, ξ) = p (h|ϑm , m, ξ) p (ϑm |D, m, ξ) dϑm . Ad esempio, h potrebbe essere l’evento che la prossima osservazione sia xN +1 . In questa situazione si ottiene p (xN +1 |D, ξ) = p (m|D, ξ) p (xN +1 |ϑm , m, ξ) p (ϑm |D, m, ξ) dϑm , m dove p (dN +1 |ϑm , m, ξ) ` il likelihood del modello. Questo approccio ` spesso e e chiamato Bayesian model averaging. Si noti che nessuna singola struttura viene appresa, ma tutti i modelli possibili vengono pesati secondo la loro probabilit` a posteriori. a Sotto certe condizioni, la probabilit` a posteriori dei parametri e il like- a lihood marginale possono essere calcolati efficientemente e in forma chiusa. Ad esempio questo avviene quando il likelihood ` dato da reti Bayesiane. e Quando sono possibili troppe strutture del modello, le sommatorie nelle equazioni sopra possono essere intrattabili. In queste situazioni si pu` cercare o una o pi` strutture del modello con grandi probabilit` a posteriori e usare u a questi modelli come se fossero esaustivi (model selection).
  27. 27. Capitolo 2 L’apprendimento per imitazione 2.1 Introduzione: problemi e questioni del- l’apprendimento per imitazione Le societ` hanno dimostrato modi efficienti per assicurare la sopravvivenza a delle specie. Essenzialmente hanno sviluppato una conoscenza usata per ri- solvere i problemi sociali. Pertanto il trasferimento e l’adattamento di questa conoscenza a problemi inerenti differenti contesti hanno permesso che gli indi- vidui sviluppassero un comportamento intelligente. Di conseguenza, il com- portamento di ogni individuo nella societ` ` influenzato da questa conoscenza ae sociale e l’individuo stesso inoltre influenza il comportamento di altri membri della societ` (Calderon et al., 2003, [6]). a Fino ad ora nelle societ` sono gi` stati sviluppati una serie di meccanismi a a per l’apprendimento di comportamenti, compresi condizionamento e rinfor- zo. Comunque, nessuno di questi meccanismi ` stato usato tanto quanto e l’imitazione per l’acquisizione di conoscenza. Di solito l’imitazione viene vista come la capacit` di apprendere nuove abilit` dall’osservazione delle a a azioni dei propri simili. L’imitazione permette agli individui di acquisire nuove capacit`, incoraggia l’interazione sociale e la trasmissione della cul- a 27
  28. 28. CAPITOLO 2. L’APPRENDIMENTO PER IMITAZIONE 28 tura. Questa forma di adattamento aumenta le opportunit` dell’individuo a di essere accettato come parte della societ` e di sopravvivere in essa. Perci` a o comportamenti utili per la sopravvivenza della societ` possono essere rapi- a damente diffusi e trasmessi alla generazione successiva. Dato che l’imitazione richiede significative capacit` percettive, cognitive e a motorie, emulazione e preparazione, essa ` limitata ad alcuni animali -come e primati, cetacei e uomini- capaci di far fronte alla crescente complessit` del- a l’interazione tra l’ambiente e gli individui (Byrne e Russon, 1998, [5]). Alcune di queste abilit` vengono sviluppate incrementalmente durante la vita. Di- a versi sono i vantaggi derivanti dall’imitazione sia per gli individui che per le societ` ([6]): a • velocizzazione del processo di apprendimento • adattamento • nessuna interruzione delle attivit` dell’individuo imitato. a • apprendimento simultaneo • comunicazione implicita • compatibilit` con altri meccanismi di apprendimento a • apprendimento efficiente • comportamenti intelligenti • interazione sociale R. Price (2002, [26]) riporta la definizione di Mitchell secondo cui un certo comportamento C viene appreso per imitazione se: 1. C, copia del comportamento, viene prodotto da un organismo 2. C ` simile ad M, il modello del comportamento e
  29. 29. CAPITOLO 2. L’APPRENDIMENTO PER IMITAZIONE 29 3. l’osservazione di M ` necessaria per la produzione di C (non solo livelli e base di C che si presentano spontaneamente) 4. C ` pensata per essere simile a M e 5. il comportamento C deve essere un comportamento nuovo, non gi` a organizzato in quel preciso modo nel repertorio dell’organismo. Gli esperti di robotica ritengono che sia possibile acquisire preziose in- tuizioni sul modo in cui le competenze sociali e comunicative possano essere apprese dalle macchine guardando al campo dello sviluppo cognitivo e sociale umano. Per un sistema artificale potrebbe esser possibile partire da una ca- pacit` imitativa per arrivare ad inferire le reazioni emotive dell’uomo con cui a interagisce e poi usare le proprie valutazioni sulle emozioni per determinare il proprio comportamento ([4]). 2.2 L’imitazione: la prospettiva delle scienze cognitive Recentemente c’` stata un’esplosione della ricerca sullo sviluppo, l’evoluzione e e le basi cognitive dell’imitazione. L’imitazione coinvolge operazioni cogni- tive complesse e non comprese ancora appieno. La ricerca sull’imitazione negli animali ` stata sviluppata in due direzioni: 1) cos’` l’imitazione e come e e pu` essere distinta da altre forme di apprendimento sociale? 2) quali animali o sono capaci di imitare e dove si trovano nella scala naturale dell’intelligenza? C’` un grosso disaccordo su entrambe le questioni. L’imitazione ` stata usata e e come etichetta per una variet` di fenomeni sociali, inclusi certi che potreb- a bero essere spiegati con altri processi pi` semplici, come condizionamento u osservativo o apprendimento strumentale. Diversi esperimenti con topi, pic- cioni, delfini, scimmie e altri animali hanno affermato che questi esseri hanno la capacit` di imitare. a La situazione ` piuttosto diversa per la ricerca sull’uomo(Meltzoff, 1999,[18], e
  30. 30. CAPITOLO 2. L’APPRENDIMENTO PER IMITAZIONE 30 Rao, 2004, [28]). Si d` per scontato che gli umani siano capaci di imitare e gli a studi sono per lo pi` rivolti al quando, perch´ e come essi imitino. Gli esseri u e umani sono altamente imitativi. Le teorie classiche dello sviluppo cognitivo affermavano che i neonati non potessero comprendere la somiglianza tra se stessi e gli altri. Si diceva che i neonati fossero ’solipsisti’ nello sperimentare le loro sensazioni interne e nel vedere i movimenti degli altri, senza colle- gare le due cose . Una delle teorie pi` importanti sullo sviluppo di capacit` u a imitative ` quella di Piaget (1951), che afferma che queste capacit` si svilup- e a pano per stadi. Secondo questa teoria i bambini nascono con la capacit` di a imitare comportamenti in cui sia l’azione del modello che dell’infante pu` o essere comparata nella stessa modalit` sensoriale (per esempio, imitazione a vocale o dei movimenti delle mani). Dopo un anno il bambino acquista la capacit` di rilevare equivalenze cross-modali e imita azioni che richiedono a un’associazione cross-modale del genere (per esempio, l’imitazione facciale: l’infante non ` capace di vedere se stesso per confrontare visivamente i due e atti, si affida alle informazioni propriocettive per farlo). Infine tra i 18 e i 24 mesi di et` diventa possibile l’imitazione ritardata, ovvero di atti non pi` a u presenti nel campo percettivo del bambino. Al contrario, recenti osservazioni (Meltzoff e Moore, 1997, [19]) hanno di- mostrato che infanti a soli quarantadue minuti dalla nascita imitano espres- sioni facciali degli adulti. Com’` possibile l’imitazione? Una possibile rispos- e ta, secondo Meltzoff e Moore, ` l’active intermodal mapping. Il punto cru- e ciale ` che l’infante riesce a rappresentarsi l’espressione facciale dell’adulto e e cerca attivamente di conformare la sua a quella vista. Ovviamente, i bam- bini non riescono a vedere i propri movimenti facciali ma possono usare la propriocezione per monitorare le loro azioni non visibili e correggere il loro comportamento. Meltzoff e Moore (1997) suggeriscono quattro stadi di capa- cit` progressive di imitazione: 1) body babbling (apprendimento di come il a movimento di specifici muscoli produce configurazioni elementari del corpo; questo processo pu` iniziare nell’utero), 2) imitazione di movimenti del corpo o (rilevata dai 42 minuti alle 36 ore dalla nascita), 3) imitazione di azioni su
  31. 31. CAPITOLO 2. L’APPRENDIMENTO PER IMITAZIONE 31 oggetti (dopo vari mesi), 4) imitazione basata sull’inferenza delle intenzioni degli altri; ` la forma pi` sofisticata di imitazione, riscontrata a circa 18 mesi e u di et`. a Le scoperte sull’imitazione suggeriscono una comune codifica ’supramodale’ per la percezione e la produzione di atti e possono essere direttamente com- parate tra loro. Ricerche su adulti tramite analisi di zone del cervello e di meccanismi cognitivi coinvolti nell’imitazione, percezione e immaginazione di atti umani suggeriscono che queste operazioni insistano sugli stessi processi . I meccanismi neurali che sottendono alla comprensione ed all’imitazione di un’azione sono stati oggetti anche di interessanti studi di neuroimaging, negli ultimi anni . Sebbene questa capacit` potrebbe semplicemente im- a plicare l’analisi visiva dell’azione, e’ stato dibattuto ed infine provato che l’informazione visiva viene mappata nella sua rappresentazione motoria nel nostro sistema nervoso. E’ ormai acclarata l’esistenza di un pool neuronale detto ”mirror system” che pare predisposto a tale funzione di mapping nei primati e negli esseri umani. I neuroni mirror sono una particolare classe di neuroni viso-motori scoperti originariamente nella corteccia ventrale premo- toria delle scimmie, chiamata area F5. Alcuni neuroni di F5 appartengono alla corteccia motoria, altri invece rispondono agli stimoli visivi (Rizzolatti et al., 2001,[29]). I primi sono attivati dalla presentazione di oggetti tridimen- sionali, laddove altri (i neuroni mirror) richiedono l’osservazione di un’azione vera e propria per attivarsi. I mirror sono neuroni correlati in maniera stretta con il movimento. Questo modello suggerisce, infatti una codifica comune tra le azioni percepite e le azioni eseguite (Breazeal et al., 2004, [4]). Questi neuroni potrebbero giocare un ruolo molto importante nei meccanismi usati dagli uomini e da altri animali per mettere in relazione le loro azioni con quelle degli altri. Al momento non ` noto se i mirror neuron siano innati e nell’uomo, addestrati attraverso l’esperienza o entrambe le cose. Attivandosi le stesse aree neurali sia durante la percezione che durante l’ese- cuzione di un’azione potrebbe essere non solo possibile ma anche necessario ricreare gli stati mentali che sono frequentemente associati con quell’azione.
  32. 32. CAPITOLO 2. L’APPRENDIMENTO PER IMITAZIONE 32 Una struttura tipo i neuroni mirror potrebbe essere un elemento impor- tante in un meccanismo per fare predizioni riguardo le intenzioni di un’altra persona. L’imitazione in et` infantile ha delle implicazioni con il problema filosofi- a co della mente degli altri. L’imitazione mostra che i bambini piccoli sono sensibili ai movimenti loro e di altre persone e che possono mappare isomor- fismi tra s´ e gli altri a livello di azioni. Attraverso l’esperienza possono e imparare che, quando agiscono in un certo modo, loro stessi hanno certi sta- ti interni concomitanti (propriocezioni, emozioni, intenzioni, ecc.). Avendo rilevato questa regolarit`, gli infanti hanno motivo di compiere l’inferenza a che, quando vedono una persona agire nello stesso modo in cui agiscono loro, la persona ha degli stati interni simili ai loro. Con questo non ` necessario e accettare la tesi di Fodor (1987) che la Teoria Della Mente1 (TOM) deve essere innata nell’uomo (perch` non pu` essere imparata tramite le classiche e o procedure con rinforzo). L’imitazione di movimenti del corpo, vocalizzazioni e altri comportamenti orientati ad un obiettivo fornisce agli infanti un mezzo per scoprire che le altre persone sono ”come me”, con stati interni proprio come il S´. L’imitazione infantile potrebbe essere la base per sviluppare una e teoria della mente. Cosa spinge i bambini ad imitare gli altri? L’imitazione ` utile per diverse e funzioni cognitive e sociali ma una possibilit` ` che bambini molto piccoli usi- ae no l’imitazione di comportamenti per classificare l’identit` delle persone. I a neonati sono interessati a determinare l’identit` degli oggetti che si muovono a nello spazio, scompaiono e ricompaiono. Ricerche dimostrano che i bambini piccoli usano l’imitazione delle azioni di una persona per aiutarsi a distinguere un individuo dall’altro e riconoscere le persone in incontri successivi. Gli in- fanti usano le azioni distintive delle persone come fossero propriet` funzionali a che possono essere scoperte attraverso l’interazione. Per questo i bambini identificano una persona non solo da caratteristiche fisiche (labbra, occhi, 1 Branca della scienza cognitiva che riguarda la comprensione delle nostre menti e di quelle degli altri.
  33. 33. CAPITOLO 2. L’APPRENDIMENTO PER IMITAZIONE 33 capelli), ma da come quell’individuo agisce e reagisce. Da adulti possiamo attribuire ad altri degli stati mentali. Una tecnica per indagare l’origine della Teoria Della Mente si basa sulla propensione umana all’imitazione. Usando questa tecnica l’adulto prova a compiere certe azioni- obiettivo, ma fallisce. I risultati mostrano che bambini di diciotto mesi i- mitano ci` che l’adulto ”sta cercando di fare”, non ci` che l’adulto effetti- o o vamente fa. Questo prova che i bambini piccoli non sono concentrati solo sul comportamento superficiale delle persone. A quell’et` i bambini hanno a gi` adottato un aspetto fondamentale della folk psychology 2 : le azioni delle a persone vengono comprese all’interno di una struttura che coinvolge anche scopi e intenzioni. L’imitazione chiarisce anche la natura della memoria preverbale. In alcu- ni test gli infanti sono stati messi di fronte aduna serie di azioni su oggetti nuovi, senza che fosse loro permesso di toccarli. Si ` poi interposto intervallo e di giorni o settimane. I bambini dai sei ai quindici mesi di et` hanno attua- a to un’imitazione ritardata dopo un intervallo temporale, dimostrando una capacit` di ricordare preverbale, non un semplice riconoscimento di oggetti a (Meltzoff, 1995). Le scoperte suggeriscono che i bambini operino con quel- la che i neuroscienziati chiamano memoria dichiarativa in opposizione alla memoria procedurale o abituale, in maniera tale che apprendimento e ricordo di nuovo materiale avvengono dopo una breve osservazione senza addestra- mento motorio. Negli umani anche aspetti dello sviluppo linguistico dipendono dall’imitazione. L’imitazione vocale ` il mezzo principale di apprendimento dell’inventario fo- e netico e della struttura prosodica della lingua madre. Una sfida attuale per l’intelligenza artificiale ` la creazione di robot che e possano imparare per imitazione . Creare dispositivi pi` ”simili all’uomo” u potrebbe dipendere dall’implementazione di una delle pietre angolari della 2 Insieme di concetti (desideri, opinioni, intenzioni, speranze) di uso quotidiano per il pensiero su noi stessi e gli altri
  34. 34. CAPITOLO 2. L’APPRENDIMENTO PER IMITAZIONE 34 mente umana, la capacit` di imitare. a 2.3 L’apprendimento per imitazione nei sis- temi artificiali L’interesse nel campo dell’apprendimento robotico ` cresciuto costantemente e negli ultimi anni. L’aggiunta di capacit` di apprendimento nei robot presenta a alcuni benefici, come: • aumento della capacit` di destreggiarsi in un ambiente dinamico dove a una conoscenza del mondo preprogrammata pu` divenire obsoleta o del o tutto inadeguata. • riduzione del costo di programmazione dei robot per svolgere compiti specifici. • aumento della capacit` di affrontare cambiamenti nelle proprie speci- a fiche, come, ad esempio, l’alterazione dei sensori. Inoltre ci sono dei vantaggi teorici nella spinta ad occuparsi della questione dell’integrazione di tecnologie multi-componente, come percezione, pianifi- cazione, azione ed apprendimento. I robot, come gli umani e altri animali, possono apprendere una vasta conoscen- za osservando ed imitando altri agenti (umani o robot)(Demiris e Hayes, 1996, [10]). L’apprendimento per imitazione possiede alcune caratteristiche desiderabili. Innanzi tutto velocizza il processo di apprendimento. Un robot in teoria potrebbe imparare qualunque compito tramite apprendimento con rinforzo, dato tempo ed energia sufficiente, per` la presenza di un ”esperto” o potrebbe essere utilizzata in modo che la sua conoscenza venga passata al robot. L”’esperto” pu` dimostrare come ottenere la soluzione di un compito o e l’ ”apprendista” pu` imparare osservando eo imitando. L’apprendimen- o to, in questo senso, non richiede che l’esperto spenda tempo ad insegnare al robot come svolgere il compito. L’esperto pu` continuare a compiere il o
  35. 35. CAPITOLO 2. L’APPRENDIMENTO PER IMITAZIONE 35 suo lavoro come al solito e l’apprendista pu` osservare e imitare senza in- o terrompere l’esperto. Inoltre, non ` richiesta alcuna comunicazione esplicita e tra i due, perci` questo tipo di apprendimento pu` essere usato anche in o o situazioni dove le comunicazioni possono essere costose o impossibili. Alla luce delle teorie psicologiche viste sopra si ` cercato di progettare ed e implementare un meccanismo del tipo active intermodal mapping in robot mobili con due obiettivi: • fornire ai robot la capacit` di far corrispondere le azioni percepite alle a loro azioni equivalenti. Con ci` si apre la possibilit` dell’apprendimento o a per imitazione con tutti i vantaggi visti sopra. • rendere espliciti i requisiti affinch´ queste capacit` siano presenti. e a Si considera l’imitazione in sistemi naturali ed artificiali come un processo che coinvolge tre diverse questioni: • il meccanismo dell’associazione: come pu` un agente far combaciare le o azioni percepite con le sue azioni equivalenti? • come viene sviluppato questo meccanismo? Qual ` il punto di inizio, e perch´ cambia successivamente e come cambia? e • come pu` l’agente usare questo meccanismo per migliorare nel tempo o il suo comportamento o la sua conoscenza? Nell’ affrontare il problema della dotazione della capacit` di apprendere a per imitazione ai robot o ad altri sistemi artificiali Demiris e Haynes ([10]) propongono una serie di considerazioni sulla questione. Innanzitutto, ci sono differenti livelli di imitazione, cui non sottendono necessariamente gli stessi meccanismi. Si possono individuare almeno tre livelli:
  36. 36. CAPITOLO 2. L’APPRENDIMENTO PER IMITAZIONE 36 1. Imitazione di base, intesa come riproduzione dello stimolo percepito, per esempio, imitazione di movimenti del corpo o di fonemi verbali. In questo caso alcuni autori parlano di mimetismo. 2. Imitazione funzionale, ad esempio raccogliere un oggetto, muover- si verso una porta, produrre un suono per spaventare un predatore, ecc. Essenzialmente in questo livello non viene riprodotto lo stimo- lo ma piuttosto l’effetto che questo ha. In questo caso si parlato di assimilazione motoria. 3. Imitazione astratta o sintonizzazione sociale, ovvero imitazione non dell’azione esterna ma dello stato interno presunto del partner (ad e- sempio, fare una faccia triste quando l’altro sta piangendo, sorridere se l’altro ride). E’ possibile in questo caso parlare di empatia. E’ necessario un meccanismo che selezioni dinamicamente il livello a cui il ro- bot deve imitare, secondo le condizioni sociali del momento o i propri bisogni e scopi correnti (dipende, tra l’altro, se l’imitazione ` al momento un gio- e co, un metodo di circoscrivere uno spazio di ricerca o un modo di ottenere accettazione sociale). L’imitazione potrebbe non essere sempre possibile su tutti i livelli (a meno che non si incorporino elementi di predizione nell’ar- chitettura), perch´ lo scopo dell’azione potrebbe non essere evidente al suo e inizio. Il robot dovrebbe avere un’idea del proprio corpo e del corpo dell’agente che sta cercando di imitare. Queste immagini del corpo del robot non de- vono necessariamente essere predefinite, possono invece essere apprese. Le due rappresentazioni dei corpi e il loro sviluppo sono strettamente collegate (se non addirittura istanze dello stesso modello corporeo). Questo pu` essere o fatto anche in maniera distribuita, che preservi la topografia ([10]). Dato che il robot percepisce il proprio corpo principalmente tramite pro- priocezione (e spesso tramite visione), mentre sta percependo l’altro agente attraverso sensori esterni, ci deve essere un meccanismo di adattamento cross-
  37. 37. CAPITOLO 2. L’APPRENDIMENTO PER IMITAZIONE 37 modale che recepisca le equivalenze tra le due modalit` e possa passare da a una all’altra. Ci sono due forme differenti di apprendimento associato all’imitazione: apprendere ad imitare e apprendere tramite imitazione. Nella prima, il ro- bot impara cosa deve fare il suo sistema motorio per fare quello che sta facendo l’altro agente. Nella seconda, il robot impara imitando l’altro agente e associando le esperienze percettive (ambientali eo proprie, come emozioni, feedback biologici del proprio organismo) con quell’atto motorio. Come sostenere il processo di imitazione? L’imitazione ` raramente un’atti- e vit` unidirezionale e tantomeno avviene in assenza di altri processi di ap- a prendimento. Neonati e bambini piccoli non solo imitano i genitori e al- tri adulti ma spesso sono imitati da questi, coinvolti in giochi di mutua imitazione. Inoltre c’` un forte collegamento tra imitazione,comunicazione e cooperazione: non solo l’imitazione pu` essere usata come un buon meto- o do per sviluppare la comunicazione e fornire all’imitatore una conoscenza sufficiente sul compito in modo da poterlo infine svolgere in cooperazione con altri agenti, ma, all’inverso, la comunicazione pu` a sua volta aiutare il o processo di imitazione, influenzando il modo in cui l’imitatore comprende il compito affidatogli, cosicch´ possa essere selezionato un livello appropriato e di imitazione. Ad esempio, l’azione dell’imitatore pu` essere monitorata dal o dimostratore che pu` restituire dei feedback all’imitatore, sia sulla qualit` o a dell’imitazione (fornendogli cos` opportunit` di imparare come imitare), sia i ı a su due aspetti cruciali menzionati sopra, quando imitare e quando fare l’as- sociazione tra cosa l’agente percepisce e cosa esso fa. L’apprendimento per imitazione ` spesso combinato con altri processi di ap- e prendimento; in tal caso il processo imitativo pu` velocizzare gli altri. Inol- o tre, le stesse capacit` e le conoscenze dell’imitatore, ottenute parzialmente a da altri processi (incluso l’apprendimento trial-and-error ), influenzano (e, si spera, facilitano) il modo in cui il processo di imitazione avr` luogo. a Questo suggerisce che porre architetture per l’imitazione all’interno di un pi` u
  38. 38. CAPITOLO 2. L’APPRENDIMENTO PER IMITAZIONE 38 ampio contesto di apprendimento sociale potrebbe aiutarci a risolvere alcune difficili questioni relative all’imitazione robotica. Per permettere ai robot di raggiungere il grado di imitazione presente nelle societ` naturali, bisogna a fornire loro livelli comparabili di supporto sociale. 2.4 Tecniche ed applicazioni Diversi ricercatori hanno sviluppato robot capaci di assolvere a compiti in domini specifici. In pratica, molte applicazioni richiedono che i robot lavorino in squadra per risolvere un comune problema, per esempio, esplorazione di ambienti pericolosi, gestione di emergenze, costruzione di edifici, ecc. Questi compiti richiedono comunicazione e coordinazione sia tra i robot che tra i robot e gli uomini. I robot dovrebbero essere in grado di destreggiarsi non solo con oggetti, ma anche con altri robot nello stesso ambiente. Gli approcci tradizionali a queste questioni (strategie di programmazione ed apprendimento) si sono dimostrati molto complessi e limitati nelle conoscen- ze. Per questo ci si ` rivolti all’apprendimento per imitazione, implementato e in vari modi e per varie applicazioni ([6]): vediamone alcuni esempi. Basan- dosi sull’apprendimento con rinforzo, Schaal ([31]) ha presentato un modello capace di ottenere l’imitazione dell’atto di tenere in equilibrio un’asta; per questo compito ` stato usato un braccio robotico e un dimostratore umano. e Dautenhahn ([8]) ha presentato agenti che attraversano una zona collinosa attaccati ad un insegnante da cui imparano le traiettorie. Dopo un certo tempo gli agenti sono in grado di riconoscere gli insegnanti adatti. Hayes e Demiris ([16]) hanno usato un meccanismo di imitazione che mappa i movi- menti osservati dell’insegnante nei movimenti dell’apprendista. Il loro ap- proccio si basa su um comportamento che consiste nell’associare gli stimoli presenti nell’ambiente al momento con l’azione appropriata. Hanno svilup- pato un meccanismo per l’attenzione che identifica ogni evento significativo nella percezione. La strategia adottata prevede che l’apprendista segua il
  39. 39. CAPITOLO 2. L’APPRENDIMENTO PER IMITAZIONE 39 dimostratore nella navigazione non guidata, usando simulazioni e robot rea- li. Il loro lavoro si ` basato sul meccanismo di accoppiamento proposto da e Meltzoff e Moore, che, essenzialmente, mappa le azioni percepite (dell’inse- gnante) nelle equivalenti azioni dell’apprendista. Gli esperimenti sono stati estesi anche ad un robot che imita i movimenti umani della testa. Gaussier e altri (1997, [15]) hanno presentato un’architettura che impara tramite associazioni senso-motorie con una ricompensa ritardata. Il loro la- voro ` stato ispirato dalle neuroscienze, in particolare dalle funzioni esercitate e dall’ippocampo e dal cervelletto. In tal senso, essi hanno implementato un sistema con apprendimento non supervisionato on-line, in cui sia il processo di apprendimento che l’esecuzione della sequenza appresa erano provocati da uno stato interno (Motivazione o Emozione). Il compito era seguire un sentiero. La precisione dei risultati ` diminuita al decrescere del tempo degli e intervalli. Crabbe e Dyer (2000) hanno progettato un’architettura che im- para una sequenza di passi osservando un insegnante. Diversamente da altri approcci, l’imitatore identifica gli scopi invece di imitare solo i movimenti. L’obiettivo presentato era costruire un muro. Nonostante l’apprendista sia capace di imparare una sequenza con un solo passo dell’insegnante, il sistema non ` in grado di inventare o modificare la sequenza osservata. e Il gruppo di ricerca sull’imitazione della University of Southern California ha proposto alcune idee di ricerca sostenute dalle scienze cognitive e dalle neuro- scienze. Il loro modello di imitazione ` il risultato delle strutture di controllo e motorio evolutivo e di un meccanismo per la semplice mimesi. I ”mirror neu- rons” sono il meccanismo deputato all’ottenimento della mimesi; come visto nel par.2, questi neuroni mappano la relazione tra l’apparato senso-motore delle azioni dell’insegnante e quello delle azioni dell’apprendista. Inoltre forniscono un meccanismo di apprendimento della classificazione per nuove primitive motorie. Il loro modello ` stato implementato in diversi sistemi e di prova (test-beds) come umanoidi basati sulla fisica, umanoidi Avantars (Simulation), cani robot (Sony AIBO) e robot su ruote (Pioneer). I loro esperimenti comprendono movimenti degli arti, ballo della Macarena, imi-
  40. 40. CAPITOLO 2. L’APPRENDIMENTO PER IMITAZIONE 40 tazione di movimenti di braccia e dita e imitazione di una marionetta. Oltre a queste applicazioni di sistemi di controllo per robot, tecniche di imitazione sono state impiegate per l’accelerazione dell’apprendimento con rinforzo generico. Altri usi meno tradizionali includono meccanismi di at- tenzione congiunta per sviluppare capacit` sociali (Scassellati, [30]) ed imi- a tazione di mimica facciale ([4]). L’imitazione ` stata inoltre oggetto di ricerca da parte di A.Billard e altri e (1997, [3]) per l’acquisizione e la trasmissione del linguaggio. 2.5 Un approccio innovativo: un modello prob- abilistico dell’imitazione Negli ultimi anni i modelli probabilistici hanno fornito eleganti spiegazioni per una variet` di fenomeni neurobiologici e di illusioni percettive. C’` un a e numero crescente di prove che il cervello utilizza principi come probability matching e la regola di Bayes per raggiungere una vasta gamma di obiet- tivi nell’elaborazione sensoriale, nel controllo senso-motore e nella presa di decisioni (decision-making). La regola di Bayes in particolare si ` dimostra- e to utile specialmente nello spiegare come il cervello combini la conoscenza a priori riguardo un compito con le informazioni sensoriali correnti e come le informazioni provenienti da diversi canali sensoriali vengano combinate basandosi sulle statistiche del rumore in quei canali. Allo stesso tempo, gli approcci probabilistici mutuano dalla fisica e soprattutto dalla meccanica statistica metodi formali particolarmente adatti per modellare l’interazione con ambienti reali e non strutturati, dunque basati su incertezza ed errore. Questi metodi si sono dimostrati pi` duttili dei metodi formali classici, e u l’odierna ricerca in Intelligenza Artificiale se ne avvale ampiamente. Gli ap- procci tradizionali all’IA non hanno avuto successo, una volta riprodotti in ambienti realistici e rumorosi, per via della loro incapacit` di memorizzare, a elaborare e ragionare sulle incertezze del mondo reale. La natura stocasti- ca della maggior parte degli ambienti del mondo reale rende la capacit` di a
  41. 41. CAPITOLO 2. L’APPRENDIMENTO PER IMITAZIONE 41 gestire gli imprevisti praticamente indispensabile per i sistemi intelligenti au- tonomi. Questa consapevolezza ha acceso un grande interesse per i metodi probabilistici di inferenza e apprendimento nell’intelligenza artificiale e nella robotica negli ultimi anni. Nuovi potenti strumenti, come i modelli grafici e le reti Bayesiane, hanno trovato larga applicabilit` in ambiti che vanno a dal data mining e dalla computer vision alla bioinformatica e alla robotica mobile. Queste reti permettono di inferire le probabilit` di vari eventi e gli a effetti direttamente dai dati in ingresso, basandosi sulle leggi della proba- bilit` e su una rappresentazione basata su grafi. a Dato il recente successo dei metodi probabilistici nell’intelligenza artificiale e nei modelli per il cervello, una struttura probabilistica per l’imitazione pu` o non solo fornire nuovi metodi per l’apprendimento imitativo dei robot ma an- che aumentare la nostra comprensione dell’imitazione umana (Rao, Schon, Meltzoff, 2004, [28]). L’approccio probabilistico ` molto adatto all’apprendi- e mento per imitazione in ambienti realistici, tipicamente dinamici e rumorosi. Il successo di recenti applicazioni nella navigazione e nel controllo robotici possono essere attribuiti a tecniche probabilistiche per la gestione dell’in- certezza, come il filtro di Kalman e il particle filtering. Similmente, tecniche basate sull’apprendimento statistico costituiscono la spina dorsale di diver- si nuovi sistemi di computer vision per il tracciamento e il riconoscimento di persone. Un approccio probabilistico all’apprendimento per imitazione pu` fornire molti vantaggi a questi sistemi, compresa la capacit` di gestire o a la mancanza di dati, la robustezza al rumore, la capacit` di fare predizioni a basate sui modelli appresi, ecc. L’approccio probabilistico, inoltre, apre la possibilit` di applicare le metodolo- a gie Bayesiane, come la manipolazione delle probabilit` a priori di compiti a alternativi, per raggiungere una comprensione pi` profonda dell’imitazione u negli uomini. Queste manipolazioni hanno portato preziose informazioni riguardo al tipo di prior e di modelli interni che il cervello di un adulto usa nella percezione e nell’apprendimento motorio.
  42. 42. CAPITOLO 2. L’APPRENDIMENTO PER IMITAZIONE 42 2.6 Prospettive future L’applicazione delle metodologie viste all’imitazione pu` chiarire degli aspetti o nella questione di come i neonati acquisiscono modelli interiori delle persone e delle cose che incontrano nel mondo. Viceversa, modelli ispirati alla biologia possono aiutare a disegnare l’architettura e gli algoritmi usati per risolvere l’apprendimento basato su imitazione nei robot. Ad esempio, i quattro sta- di dell’imitazione di Meltzoff e Moore suggeriscono un approccio gerarchico all’imitazione robotica, partendo dall’apprendimento di modelli interni del proprio movimento fino a modelli pi` sofisticati dell’interazione con agenti u che operano attivamente. L’imitazione ` un dominio particolarmente fruttuoso per la collaborazione in- e terdisciplinare tra robotica e scienza dello sviluppo). E’ un’attivit` percettiva a e motoria di grande valore adattativo ed ` un mezzo per l’apprendimento che e si presta alla modellazione computazionale. Inoltre rappresenta un’interes- sante sfida per la robotica e offre una modalit` fortemente versatile e flessibile a di programmare i sistemi artificiali.
  43. 43. Capitolo 3 Strumenti teorici e metodologici 3.1 Markov Chain Monte Carlo per l’apprendi- mento automatico I metodi Markov Chain Monte Carlo (MCMC) sono formati da un’ampia classe di algoritmi di campionamento ed hanno avuto un ruolo significati- vo nell’ultimo ventennio in statistica, economia, fisica ed informatica. Ci sono diversi problemi multidimensionali per cui la simulazione dei MCMC ` e l’unico approccio generale noto per raggiungere una soluzione in un tempo ragionevole (polinomiale nella dimensione del problema) ([1]). Nel 1946 Stan Ulam svilupp` l’idea di selezionare un campione statistico o per approssimare un problema fortemente combinatoriale con un problema molto pi` semplice. Questo approccio ` la base della moderna simulazione u e Monte Carlo. Successivamente Ulam contatt` J.Von Neumann che comprese o il grande potenziale di quest’idea. Insieme svilupparono molti degli algoritmi Monte Carlo. Anche N.Metropolis fu affascinato da questi metodi e pubblic` o vari articoli, alcuni in collaborazione con Ulam. All’inizio degli anni ’50 pro- pose l’algoritmo di che porta il suo nome, generalizzato nel 1970 da Hastings. Gli studi proseguirono, ma solo dagli anni ’80 in poi i MCMC ebbero un im- 43
  44. 44. CAPITOLO 3. STRUMENTI TEORICI E METODOLOGICI 44 patto significativo in intelligenza artificiale, statistica, computer vision e nelle reti neurali. Le tecniche MCMC vengono spesso applicate per risolvere problemi di integrazione e ottimizzazione in spazi a molte dimensioni. Questi due tipi di problemi giocano un ruolo fondamentale nell’apprendimento automatico, in fisica ed in statistica. Altre applicazioni importanti sono state fatte nella simulazione di sistemi fisici. I metodi MCMC forniscono una strategia per generare campioni x(i) durante l’esplorazione di uno spazio di stato X usando un meccanismo a catena di Markov. Questo meccanismo ` costruito in modo e tale che la catena passi pi` tempo nelle regioni pi` importanti. In particolare u u esso ` tale che i campioni x(i) simulano campioni estratti da una distribuzione e obiettivo p (x). E’ importante sottolineare che si usano i MCMC quando non si possono estrarre campioni direttamente da p (x), ma si pu` valutare p (x) o a meno di una costante di normalizzazione. In uno spazio di stato finito , in cui x(i) pu` assumere solo s valori discreti, o ovvero x(i) ∈ X = {x1 , x2 , . . . , xs }, il processo stocastico x(i) ` detto catena e di Markov se p x(i) |x(i−1) , . . . , x(1) = T x(i) |x(i−1) . La catena ` omogenea se la matrice T =T x(i) |x(i−1) rimane invariante per e ˙ ogni i, con x(i) T x(i) |x(i−1) = 1 per ogni i. L’evoluzione della catena nello spazio X , cio`, dipende unicamente dallo stato corrente della catena e e da una matrice di transizione fissata. Ad esempio, consideriamo una catena di Markov formata da 3 stati (s=3) e un grafo di transizione come quello in figura 3.1. La matrice di transizione per questo esempio sia   0 1 0   T = 0 0.1 0.9   0.6 0.4 0 Se il vettore di probabilit` per lo stato iniziale ` µ x(1) = (0.5, 0.2, 0.3), a e ne segue che, approssimando, µ x(1) T = (0.2, 0.6, 0.2) e, dopo varie i- terazioni (moltiplicazioni per T ), il prodotto µ x(1) T t converge a p (x) =
  45. 45. CAPITOLO 3. STRUMENTI TEORICI E METODOLOGICI 45 Figura 3.1: Grafo di transizione per una catena di Markov a tre stati
  46. 46. CAPITOLO 3. STRUMENTI TEORICI E METODOLOGICI 46 (0.2, 0.4, 0.4). Non importa quale sia la distribuzione iniziale µ x(1) usata, la catena di stabilizzer` su p (x) = (0.2, 0.4, 0.4). Questo risultato di stabilit` a a gioca un ruolo fondamentale nella simulazione MCMC. Per qualunque punto di inizio, la catena converger` alla distribuzione invariante p (x), fintanto che a T ` una matrice stocastica che presenta le seguenti propriet`: e a 1. irriducibilit` : per ogni stato della catena, esiste una probabilit` posi- a a tiva di visitare tutti gli altri stati. In altre parole, la matrice T non pu` essere ridotta a matrici separate pi` piccole, ovvero il grafo di o u transizione ` connesso. e 2. aperiodicit` : la catena non dovrebbe restare bloccata in cicli. a Una condizione sufficiente, ma non necessaria, per assicurare che una particolare p (x) sia la distribuzione invariante desiderata ` la condizione di e reversibilit` (detailed balance) seguente a p x(i) T x(i−1) |x(i) = p x(i−1) T x(i) |x(i−1) . Sommando entrambi i membri su x(i−1) si ottiene p x(i) = p x(i−1) T x(i) |x(i−1) . x(i−1) I campionatori MCMC sono catene di Markov irriducibili e aperiodiche che hanno la distribuzione obiettivo come distribuzione invariante. Un modo di progettare questi campionatori consiste nell’assicurare che la condizione di reversibilit` sia rispettata. Inoltre ` importante progettarli in modo che a e convergano velocemente. In uno spazio di stato continuo la matrice di transizione T diventa il kernel di un integrale, K, e p (x) diventa l’autofunzione corrispondente p x(i) K x(i+1) |x(i) dx(i) = p x(i+1) . Il kernel K ` la densit` condizionata di x(i+1) dato il valore x(i) . e a
  47. 47. CAPITOLO 3. STRUMENTI TEORICI E METODOLOGICI 47 3.1.1 Il principio di Monte Carlo L’idea della simulazione di Monte Carlo ` quella di estrarre un insieme di cam- e N pioni x(i) i=1 da una densit` obiettivo p (x) definita su uno spazio a pi` di- a u mensioni X (ad esempio, le possibili configurazioni di un sistema, lo spazio su cui ` definita la probabilit` a posteriori o l’insieme combinatoriale di soluzioni e a praticabili). Questi N campioni possono essere usati per approssimare la densit` obiettivo con la seguente funzione empirica punto-massa a N 1 pN = δx(i) (x) N i=1 dove δx(i) denota il delta di Dirac centrato in x(i) . Di conseguenza, si pos- sono approssimare gli integrali (o le sommatorie molto grandi) I (f ) con le sommatorie trattabili IN (f ) che convergono come segue N 1 IN (f ) = f x(i) −→N →∞ I (f ) = f (x) p (x) dx. N i=1 X Questo significa che, se la stima di IN (f ) non ` parziale e secondo la legge dei e grandi numeri, converger` quasi sicuramente a I (f ). Se la varianza (nel caso a univariato, per semplicit`) di f (x) soddisfa σf = Ep(x) (f 2 (x)) − I 2 (f ) < ∞, a 2 2 σf allora la varianza della stima IN (f ) ` uguale a var (IN (f )) = e N e il teorema del limite centrale garantisce la convergenza in distribuzione dell’errore √ 2 N (IN (f ) − I (f )) =⇒N →∞ N 0, σf , dove =⇒ indica la convergenza in distribuzione. Il vantaggio dell’integrazione di Monte Carlo sull’integrazione deterministica nasce dal fatto che la prima posiziona la griglia di integrazione (i campioni) in regioni ad alta probabilit`. a Gli N campioni possono essere usati anche per ottenere un massimo della funzione obiettivo p (x) nel modo seguente x = arg ˆ max p x(i) . x(i) ;i=1,...,N Comunque si pu` mostrare che ` possibile costruire algoritmi di simu- o e lated annealing che permettono di campionare approssimativamente da una distribuzione il cui supporto ` l’insieme di massimi globali. e
  48. 48. CAPITOLO 3. STRUMENTI TEORICI E METODOLOGICI 48 3.2 L’algoritmo di Metropolis-Hastings L’algoritmo di Metropolis-Hastings ` il pi` popolare dei metodi Monte Carlo e u (Hastings, 1970; Metropolis et al., 1953). Un passo di questo algoritmo con la distribuzione invariante p (x) e la distribuzione proposta q (x |x) consiste nel campionare un valore candidato x dato il corrente valore di x secondo q (x |x). La catena di Markov a quel punto si muove verso x con una probabilit` di accettazione A (x, x ) = a min 1, [p (x) q (x |x)]−1 p (x ) q (x|x ) , altrimenti rimane su x. Questo ` lo e pseudo-codice: 1. si inizializza x(0) . 2. for i =0 to N -1 • campionare dalla distribuzione uniforme u ∼ U[0,1] . • campionare x ∼ q x |x(i) . p(x )q (x(i) |x ) • if u < A x(i) , x = min 1, p x(i) q x |x(i) ( )( ) x(i+1) = x else x(i+1) = xi . L’algoritmo MH ` molto semplice, ma richiede una scelta attenta della e distribuzione proposta q x |x(i) . Il kernel di transizione per l’algoritmo MH ` e KM H x(i+1) |x(i) = q x(i+1) |x(i) A x(i) , x(i+1) + δx(i) x(i+1) r x(i) , dove δx(i) denota un delta di Dirac centrato in x(i) e r x(i) ` il termine e associato al rigetto (rejection) r x(i) = q x |x(i) 1 − A x(i) , x dx . X

×