INTRODUZIONE ALLE RETI
                       NEURALI ARTIFICIALI


          Marco Gori   Nonostante gli straordinari suc...
0


ficile formalizzazione. L’esempio indicato in
figura 1 illustra, inoltre, un livello di sofistica-
zione dell’analisi ...
0


                                   2. LA METAFORA                                                      da un corpo det...
0


eventualmente recuperate, almeno in parte,              trattabile perfino in caso di semplici gram-
con successivi pr...
0


                                        I era                                 Eventi significativi

                  ...
0


                                                        i                                                             ...
0


                                            degli anni ’60 e non differiscono sostanzial-                   co con un ...
0


                             11                                         u2
                                           ...
0


                                forte connessione con i sistemi dinamici li-                strato in figura un’immagi...
0


classificazione di insetti illustrato in figura         mente, garanzia di un altrettanto soddisfa-
13. La rete neural...
0


         della dimensione della rete la capacità di ge-              motivi di efficienza computazionale. Si richie-
 ...
0


locare 8 regine su una scacchiera in configu-                                                                   Neuron...
0


         versa e di fornire soluzioni con uno sforzo re-    compatta da utilizzare in ingresso alla rete
         lati...
0


              Settore applicativo                                          Prodotto

   Marketing                     ...
0



                                                                                                                    C...
0


                                                                        Segmentazione della targa




                ...
0


                                 zionale contesto discreto. Il PAC (Probably                [2]   Anderson J., Rosenfe...
Upcoming SlideShare
Loading in …5
×

Introduzione Alle Reti Neurali Artificiali

2,761 views

Published on

Introduzione Alle Reti Neurali Artificiali (Marco Gori)

Published in: Technology
1 Comment
1 Like
Statistics
Notes
No Downloads
Views
Total views
2,761
On SlideShare
0
From Embeds
0
Number of Embeds
10
Actions
Shares
0
Downloads
89
Comments
1
Likes
1
Embeds 0
No embeds

No notes for slide

Introduzione Alle Reti Neurali Artificiali

  1. 1. INTRODUZIONE ALLE RETI NEURALI ARTIFICIALI Marco Gori Nonostante gli straordinari successi dell'elaborazione dell'informazione, che stanno esercitando un impatto di portata storica nella vita quotidiana, competenze percettive quali localizzare un oggetto in una scena, ricono- scere la voce in ordinarie condizioni reali, prendere decisioni basate sul “senso comune”, risultano ancora compiti estremamente difficili per le macchine. Nel seguito, viene presentato un quadro generale dell'elabora- 3.6 zione neurale: successi, fallimenti e prospettive applicative. 1. IL MONDO SOTTO-SIMBOLICO colo simbolico alla base degli attuali elabo- G li odierni sistemi di elaborazione del- l’informazione hanno compiuto prodigi che sono sotto gli occhi di tutti. Le macchine ratori. Si consideri, per esempio, il problema della descrizione dell’informazione presente in hanno automatizzato perfettamente pro- un’immagine che richiede la localizzazione e cessi considerati tipicamente di pertinenza il riconoscimento di oggetti significativi per umana, quali recuperare informazione in un l’uomo. Tale processo richiede la capacità di archivio ed eseguire calcoli. Con l’intelligen- segmentazione che, tuttavia, non può aver za artificiale si sono spinte verso l’automa- luogo solo con operazioni di basso livello ba- zione del ragionamento simbolico, fino ai si- sate, per esempio, sul rilievo di variazioni di stemi esperti, in grado di modellare e ren- luminosità. La segmentazione in una scena dere fruibile la conoscenza di esperti in spe- non può prescindere da processi cognitivi in cifici settori. Ma nonostante i formidabili ri- grado di esibire competenza sugli oggetti e, sultati conseguiti nell’automazione di alcu- più generalmente, del mondo oggetto dell’e- ni processi intelligenti, soprattutto di alto li- laborazione. Inoltre, soprattutto nel mondo vello, le macchine offrono ancora un com- tridimensionale, gli oggetti si propongono portamento piuttosto primitivo e incompa- con molteplici viste e, di nuovo, la loro perce- rabile con l’uomo nella simulazione della zione, sembra richiedere modelli ben più so- maggioranza dei processi percettivi. La dif- fisticati di semplici comparazioni con oggetti ficoltà di automatizzare tali processi è spes- di un dizionario. L’analisi attenta della nozio- so trascurata per il fatto che già nel mondo ne di similarità di oggetti o quotidiane acqui- animale sono presenti capacità percettive sizioni quali, per esempio, “la facciata di una talvolta straordinarie. Tali capacità, svilup- casa” (Figura 1) indicano lo sviluppo di com- pate in secoli di processi evolutivi, risultano petenze che non sono basate su elaborazio- difficili da replicare usando i modelli di cal- ne simbolica e ragionamenti qualitativi di dif- 4 M O N D O D I G I T A L E • n . 4 - d i c e m b r e 2 0 0 3
  2. 2. 0 ficile formalizzazione. L’esempio indicato in figura 1 illustra, inoltre, un livello di sofistica- zione dell’analisi umana delle scene che ri- sulta molto difficile da trasferire alle macchi- ne: con uno sguardo attento si riconosce fa- cilmente che le case nella scena sono, in realtà, miniature. La foto ritrae un paesaggio di un piccolo paese della montagna pistoiese in occasione del Natale, ma discernere il 1 mondo artificiale miniaturizzato dal mondo reale è un compito realmente arduo per le macchine. Il problema del riconoscimento automatico della voce offre difficoltà simili. Il segnale vocale rappresentato in figura 2, as- sieme al suo spettrogramma, illustra alcuni aspetti della difficoltà del problema. Si pre- FIGURA 1 0 senta di nuovo il problema della segmenta- Un paesaggio della montagna pistoiese durante il Natale zione; anche in questo caso non si può fare affidamento su elementari elaborazioni di 0.0a 0.2a 0.3a 0.4a 0.5a 0.6a 0.1a 0.7a basso livello del segnale, quale per esempio il controllo del livello per separare le parole. Segmentazione spuria Infatti, basta per esempio la presenza di oc- clusive sorde all’interno di una parola per il fallimento della segmentazione; la parola compute (si veda, a tal proposito, il segnale corrispondente a una sua pronuncia in figura 2) verrebbe, infatti, spezzata in due parti per la presenza dell’occlusiva sorda “p”. Per via dell’enorme variabilità dovuta alla velocità di pronuncia, alla prosodia, al parlatore e a va- rie altre condizioni di rumore, le parole, inol- Compute p tre, non sono facilmente rappresentabili me- diante un dizionario di centroidi, ovvero di “istanze medie” di riferimento delle parole gnificato degli ingressi e dalla loro conse- FIGURA 2 del dizionario. guente elaborazione mediante algoritmi. Segnale I problemi menzionati si presentano ormai in Non è, tuttavia, sempre possibile, o comun- e spettrogramma molteplici applicazioni nelle quali l’elabora- que verosimile, associare agli ingressi un si- relativo alla zione di informazione multimediale assume gnificato e una conseguente caratterizzazio- pronuncia del verbo un ruolo sempre più rilevante. Si pensi, per ne simbolica1. Serve, dunque, dotare i calco- “to computequot; esempio, alla navigazione autonoma di un latori di processi computazionali che non sia- robot, ai data base visuali, alla definizione di no necessariamente basati sulla metafora interfacce personalizzate, alla gestione di im- dell’algoritmo, secondo cui la soluzione di un magini di documenti, alla concezione di mo- problema avviene mediante un processo co- delli per l’estrazione di informazione dal struttivo atto ad esplicitare, simbolicamente, web. I problemi menzionati, assieme ad altri, le elaborazioni sugli ingressi caratterizzati hanno in comune il fatto che non sembrano simbolicamente. Per alcuni problemi, questo naturalmente affrontabili mediante soluzioni approccio non appare naturale e risulta di basate su elaborazione simbolica. L’informa- zione da elaborare si presenta con una codifi- difficile, se non impossibile, formalizzazione. 1 ca a cui non è semplice attaccare significato. Il prodigio della scienza dei calcolatori pro- viene tipicamente dalla conoscenza del si- 1 Nelle scienze cognitive questo problema è noto come the symbol ground problem. 0 5 M O N D O D I G I T A L E • n . 4 - d i c e m b r e 2 0 0 3
  3. 3. 0 2. LA METAFORA da un corpo detto soma e da due tipi di dira- NEUROBIOLOGICA mazioni: i dentriti e il cilindrasse o assone. Allo stato attuale, a differenza delle macchine, Nel cervello umano sono presenti tipica- l’uomo è un ottimo esempio di “sistema” in mente oltre 100 miliardi di neuroni, ciascu- grado di elaborare informazione sotto-simbo- no interconnesso a circa altri 10.000. Nelle liche. Tali elaborazioni, come ogni altro pro- interconnessioni ha luogo la sinapsi, un cesso cognitivo, hanno sede nel cervello, una processo elettrochimico atto a rinforzare o 1 complessa struttura neurobiologica, attual- mente decifrata in modo piuttosto accurato inibire l’interazione cellulare. I segnali rile- vabili hanno un potenziale dell’ordine di al- per quanto riguarda gli aspetti anatomici. È cune decine di millVolt e si presentano co- noto che c’è un “mattone elementare” che ca- me treni di impulsi con frequenza intorno ai ratterizza tutte le strutture cerebrali, una cel- 100 Hz, con opportune modulazioni. Sono lula, denominata neurone, che è sede di pro- noti modelli sofisticati che esprimono il po- cessi elettrochimici responsabili per la gene- tenziale della cella (attivazione) in funzione 0 razione di campi elettromagnetici. Come è il- lustrato in figura 3, i neuroni sono composti del potenziale delle celle interconnesse. È opinione condivisa da ricercatori nel mondo delle scienze cognitive che i segnali elettrici Soma presenti nei neuroni siano alla base dell’ela- Assone borazione dell’informazione a livello cere- brale. Le capacità cognitive sarebbero, dun- que, in relazione all’elaborazione dei segna- li presenti nei neuroni. Inoltre, c’è evidenza Sinapsi sperimentale per sostenere che la struttura cerebrale e le sinapsi siano influenzate dal- Dentriti la vita degli individui, dalle loro esperienze, dall’apprendimento di compiti specifici. È il particolare pattern di interconnessioni e la forza delle connessioni sinaptiche che defi- nisce le proprietà funzionali di una partico- lare porzione del cervello. Si è, infatti, verifi- cato sperimentalmente che le funzioni co- gnitive risiedono in particolari zone e che FIGURA 3 tali funzioni possono essere perdute a se- Neurone e sua struttura cellulare con soma, dentriti e connessioni sinaptiche guito della “rottura” dei legami sinaptici ed Corteccia motoria Solco centrale Corteccia primaria primaria somoestetica Area premotoria Area del gusto Area di associazione somoestetica Area di associazione visiva Area prefrontale Corteccia visiva Area motoria della parola 1 FIGURA 4 Organizzazione del (area di Broca) Area sensoriale della parola (area di Wernicke) Area di associazione cervello umano e uditiva Corteccia uditiva 0 sua localizzazione funzionale [13] primaria 6 M O N D O D I G I T A L E • n . 4 - d i c e m b r e 2 0 0 3
  4. 4. 0 eventualmente recuperate, almeno in parte, trattabile perfino in caso di semplici gram- con successivi processi di apprendimento matiche [3]. atti a instaurare nuovi pattern di intercon- Era, tuttavia, ben chiaro ai padri dell’informa- nessione sinaptica (Figura 4). tica che non è necessaria una perfetta emula- Dato che la struttura cerebrale e il compor- zione dei processi neurobiologici per l’emer- tamento elettromagnetico delle singole genza di capacità cognitive. Molti modelli celle neuronali sono noti, i ricercatori si so- connessionistici sono, infatti, solo ispirati dal no ben preso chiesti se si possono operare induzioni sui comportamenti collettivi del- paradigma biologico a livello di unità neuro- nale e si basano sulla struttura indicata in fi- 1 le cellule neuronali, e dunque del cervello gura 3, dove si eredita il principio che l’attiva- umano, e se si possono trarre utili suggeri- zione neuronale (potenziale associato all’u- menti e ispirazioni per la costruzione di nità) è soggetta a eccitazioni e inibizioni dal- macchine in grado di replicare compiti con- le unità connesse. In particolare, l’attivazio- notati da una forte componente di elabora- ne dell’unità i dipende dall’attivazione della zione sotto-simbolica, attualmente di diffi- cile soluzione per i calcolatori. Il lavoro di generica unità j mediante un parametro as- sociato alla connessione tra le due unità, che 0 McCulloch & Pitts [8] è forse il primo signi- modella il principio elettrochimico della sina- ficativo passo in questa direzione, la prima psi. In seguito, sarà illustrato come l’utilizzo analisi completa, soprattutto dal punto di di modelli di calcolo basati su reti neurali ar- vista formale, che fa intuire come semplici tificiali sia in grado di esibire quello che Lotfi unità con sinapsi eccitatorie e inibitorie e Zadeh ha definito softcomputing secondo con apposita soglia siano in grado, in virtù cui il requisito “trova sempre la soluzione di un processo collettivo, di rappresentare esatta” diventa “trova spesso una soluzione complesse proposizioni. E questo sembra approssimata”. indurli a un certo ottimismo anche per le La ricerca sulle reti neurali artificiali si è evo- possibili implicazioni sulla comprensione luta attraverso alterne vicende. Sin dagli al- dei processi cognitivi umani: “Mind no lon- bori dell’informatica, l’elaborazione basata ger goes more ghostly than a ghost”. Tut- su algoritmi e i modelli neurali centrati sul- tavia il lavoro di McCulluch e Pitt sembra l’apprendimento da esempi si sono sviluppa- essere stato più rilevante per gli sviluppi ti in parallelo. Verso la fine degli anni ’60, nel settore dei calcolatori che non delle Marvin Minsky e Simon Paper [10] pubblica- scienze cognitive. Carpire i segreti della no “Perceptrons”, un libro che analizza con mente dall’osservazione dell’attivazione grande lucidità ed elegante formalizzazione cerebrale è una sfida affascinante, ma que- le capacità computazionali del percettrone di sto problema di reverse engineering sem- Rosenblatt. La comunità scientifica recepisce bra essere terribilmente intrappolato nella principalmente l’analisi critica del percettro- complessità del sistema neuronale umano. ne e segue una fase di stagnazione che si Si tratta sostanzialmente di indurre regola- protrae fino agli inizi degli anni ’80. L’interes- rità e leggi dall’osservazione, come in altri se rifiorisce, in particolare, per i lavori di Hop- settori delle scienze. Questo problema field e del Parallel Distributed Research Cen- possiede, tuttavia, un’infinità di sfaccetta- ter sulle reti neurali multistrato con l’algorit- ture e, soprattutto, richiede un processo di mo di apprendimento Backpropagation. Al- induzione che sembra inerentemente in- tre tappe importanti della ricerca nel settore trappolato nella complessità dei sistemi di- sono riassunte nella tabella 1. namici oggetto dello studio. Inferire regole dagli esempi sembra essere difficile anche 3. ARCHITETTURE NEURALI in casi elementari; si pensi, a titolo di esempio, al problema dell’inferenza indut- tiva di grammatiche, che consiste nel de- Le neuroscienze hanno permesso di stabili- re che la struttura cerebrale è caratterizzata 1 terminare la grammatica che genera un lin- dalla presenza di cellule neuronali con com- guaggio presentato mediante esempi. Sfortunatamente, questo problema è in- portamenti vari e, soprattutto, da pattern di interconnessioni neuronali diversi a secon- 0 7 M O N D O D I G I T A L E • n . 4 - d i c e m b r e 2 0 0 3
  5. 5. 0 I era Eventi significativi 1943 McCulloch and Pitts, formalizzazione del neurone artificiale [8] 1949 D. Hebb e l’apprendimento per auto-organizzazione [6] 1956 “Dartmouth Summer Research Project on AI” con (Minsky, McCarty, Rochester, Shannon) 1960 Widrow: ADALINE [14] 1 1962 Il perceptron di Rosenblatt [11] 1969 “Perceptrons”, Minsky & Papert (edizione espansa [10]) 70s Periodo “buio”: degni di nota gli associatori di Anderson, i modelli per apprendimento senza supervisione di Kohonen, gli studi di Grossberg II era Eventi significativi 0 1982 Reti di Hopfield: memorie associative e soluzione di problemi [7] 1986 PDP e diffusione di Backpropagation [12] 1987 La prima conferenza significativa dell'IEEE a San Diego (II era) 1989 I chip neurali si affacciano sul mercato: Analog VLSI and Neural Systems [9] TABELLA 1 Alcuni eventi 1990 J. Pollack e le reti neurali che elaborano strutture dati significativi che 1994 Prima Conferenza Mondiale sull’Intelligenza Computazionale (Orlando) hanno marcato la 1994 Nasce il progetto NeuroCOLT (Computational Learning Theory) storia delle reti 2001 L’IEEE approva la creazione della “Neural Networks Society” neurali artificiali do del compito cognitivo. Per i modelli artifi- effettivamente una genesi biologica, ma ciali è stata seguita una metafora simile: so- l’attivazione deve interpretarsi come la fre- no stati studiati diversi tipi di neuroni e di- quenza di treni di impulsi più che come un verse architetture associandovi le modalità valore assoluto di potenziale. Sono stati an- di elaborazione concepite per implementa- che studiati modelli formali, denominati re un determinato compito cognitivo. In fi- spiking neurons che producono, a differen- gura 5 sono illustrati i due tipici neuroni ar- za dei due precedenti tipi di neuroni, treni di tificiali che risultano, attualmente, i più in- impulsi come i neuroni biologici. Gli studi teressanti dal punto di vista applicativo. Il sulle aggregazioni di tali neuroni e sui mo- primo, denominato neurone sigmoidale, è delli di apprendimento costituiscono un in- l’evoluzione del percettrone di Rosenblatt teressante settore di ricerca che, tuttavia, [11], in cui il processo di decisione ha luogo non ha, ad oggi, prodotto risultati applicati- mediante una funzione a gradino, invece, vi paragonabili a quelli conseguiti con i mo- della funzione sigmoidale illustrata. Questi delli semplificati in figura 5. neuroni si eccitano per punti che sono si- tuati sopra il piano di separazione, dove si 3.1. I percettroni annulla l’attivazione, e si inibiscono per I singoli neuroni descritti in precedenza pos- punti situati al di sotto. Le unità del secondo sono essere utilizzati per il calcolo di sempli- tipo si eccitano per punti contigui al centro ci predicati, ma non possono certamente (wia; wib; wic) e si inibiscono quando ci si al- soddisfare molte significative esigenze reali. lontana, con una velocità commisurata al Per esempio, è immediato verificare che i 1 parametro radiale σi. È interessante notare che nei neuroni biolo- neuroni sigmoidali non possono calcolare tutte le funzioni booleane di due variabili. In ––––– gici l’attivazione ha la tipica forma di “un particolare, le funzioni x1 ⊗ x2 e x1 ⊗ x2 non 0 treno” di impulsi. La dipendenza dalle con- nessioni sinaptiche illustrata in figura 5 ha sono linearmente separabili, mentre, come è illustrato in figura 6 A, lo sono tutte le 14 altre 8 M O N D O D I G I T A L E • n . 4 - d i c e m b r e 2 0 0 3
  6. 6. 0 i i xi xi σi l ai ai 1 l bi x xw ia x w ib x w ic – w ia – w ib – w ic 0 xa xb xc xa xb xc FIGURA 5 Due classici esempi A B di neuroni artificiali rimanenti. Più complesso è stabilire il com- 1 1 1 1 portamento del neurone di Rosenblatt nel caso di interessanti compiti cognitivi, quali il riconoscimento di forme. 0 1 0 1 0 1 0 1 Nella figura 6 B l’immagine è pre-elaborata 1 1 1 1 mediante l’operatore di pre-processing Φ(x) che fornisce feature significative. Tale condi- 0 1 0 1 0 1 0 1 zione impone, ovviamente, che il dominio 1 1 1 1 dell’operatore sia limitato in modo da stabili- re feature locali presenti nell’immagine indi- pendentemente da traslazioni e rotazioni. In- 0 1 0 1 0 1 0 1 dipendentemente dalla scelta dell’operato- 1 1 1 1 re, Minsky & Papert [10] hanno dimostrato che alcuni predicati topologici importanti, 0 1 0 1 0 1 0 1 quali stabilire la connessione di una figura, A non possono essere calcolati. Nella seconda metà degli anni ’80, grazie soprattutto agli studi del Parallel Distributed Processing re- search group, sono state studiate, in modo sistematico, architetture neurali con architet- tura a grafo aciclico, in cui è definito un ordi- namento parziale sui vertici. In tali architet- ture, un neurone può avere per genitori sia unità che ingressi (per esempio, il nodo 4, in Figura 7 A). Lo schema di calcolo si basa sulla x φ (x) “propagazione in avanti” delle attivazioni dei neuroni seguendo l’ordinamento parziale del grafo aciclico. B 1 Per reti multi-strato lo schema di calcolo si ri- FIGURA 6 duce a una pipe sui livelli. Tali architetture erano, in realtà, già state concepite agli inizi Due esempi delle limitazioni del percettrone. A Funzioni booleane a due variabili; B Un percettrone con il compito di stabilire se la figura elaborata è connessa 0 9 M O N D O D I G I T A L E • n . 4 - d i c e m b r e 2 0 0 3
  7. 7. 0 degli anni ’60 e non differiscono sostanzial- co con un numero sufficientemente grande di mente dallo schema illustrato in figura 6 B. neuroni. Purtroppo, non sono disponibili Tuttavia, in quegli anni, si faceva riferimento concrete indicazioni di progetto, ma la pro- a una sola unità neuronale in cui aveva luogo prietà di computazione universale può esse- l’apprendimento e le altre unità erano sem- re facilmente compresa almeno in due casi plicemente il risultato di una pre-elaborazio- notevoli. ne definita in modo esplicito, senza appren- 1. Funzioni booleane 1 dimento. Nelle reti neurali di figura 7 le unità sono tutte uguali e sia la precedente elabora- È facile rendersi conto che le reti feedforward possono realizzare ogni funzione booleana. zione in avanti che l’apprendimento hanno Infatti, ogni funzione booleana si può espri- luogo in modo omogeneo sui neuroni. mere in prima forma canonica. A titolo di È stato dimostrato che le reti neurali feed-for- esempio, in figura 8 è illustrata la realizzazio- word hanno un potere computazionale uni- ne della funzione XOR. versale, ovvero sono in grado di calcolare 2. Funzioni di appartenenza 0 ogni funzione di ragionevole interesse prati- Una funzioni di appartenenza è tale che fU (u) = 1 se e solo se u ∈ U [fU (u) = 0 ⇔ u ∈ U]. ¯ Per domini convessi (Figura 9) l’uscita si può x4 = σ (w43 x34 + w42 x2 + w4c xc) determinare come AND di opportuni neuroni 7 dello strato nascosto. Per domini non con- 6 nessi (Figura 10) e/o concavi l’uscita si può 5 determinare come l’OR di opportune unità nascoste (3 strati - eccetto l’ingresso). Si noti 3 Calcolo a “pipe” che questo metodo si basa su un processo costruttivo e che, dunque, non si può conclu- dere che servono necessariamente due strati 2 1 6 a b c A B 3 4 5 FIGURA 7 A Rete feedforward con struttura a grafo aciclico. B Rete multistrato 5 x5 3 4 1 2 x3 x4 5 1 2 u1 u2 4 u2 x4 4 3 1 1 1 1 u1 1 x3 3 FIGURA 9 0 FIGURA 8 Realizzazione mediante percettrone multistrato della funzione booleana XOR Tre unità nascoste che originano i tre iperpiani necessari per definire il dominio convesso 10 M O N D O D I G I T A L E • n . 4 - d i c e m b r e 2 0 0 3
  8. 8. 0 11 u2 8 7 9 10 3 4 5 6 7 8 6 5 T2 3 T1 4 1 u1 u2 u1 11 u2 9 10 T2 0 3 4 5 6 7 6 FIGURA 10 4 7 Domini non T1 5 3 connessi possono u1 u2 essere ottenuti, per u1 esempio, con due strati nascosti nascosti per il calcolo di tali funzioni di ap- partenenza. Simili elaborazioni si possono Stato Rete multistrato eseguire anche usando neuroni a simmetria radiale di figura 5 B. Ritardo 3.2 Reti neurali ricorsive Rete multistrato Le architetture neurali descritte in prece- denza presuppongono schemi di “calcolo in avanti”, basati su un ordinamento delle unità. Come per le funzioni booleane, la pre- A senza di cicli conduce a elaborazioni più complesse che coinvolgono sequenze e non singoli pattern. Una tipica situazione in cui risulta naturale un’elaborazione sequenzia- le è quella del riconoscimento di fonemi illu- strata in figura 11. L’elaborazione è sincronizzata in corrispon- denza a ogni frame. I neuroni sono ancora del tipo illustrato in figura 5, ma oltre agli ingres- si provenienti dal frame corrente, ai neuroni dello strato nascosto afferiscono anche co- Frequenza me ingresso il valore delle uscite relative al frame precedente. Le reti neurali ricorsive presentano strette connessioni con gli automi, ma il calcolo che Tempo 1 B ha luogo nelle unità neuronali ha natura con- tinua e non discreta. In virtù di tale natura, le reti neurali ricorsive presentano anche una FIGURA 11 A Architettura di una generica rete ricorsiva. B Una rete neurale ricorsiva 0 11 M O N D O D I G I T A L E • n . 4 - d i c e m b r e 2 0 0 3
  9. 9. 0 forte connessione con i sistemi dinamici li- strato in figura un’immagine, che raffigura neari, anche se la loro struttura dinamica è un pattern corrotto da rumore, viene pre- orientata a processi decisionali. sentata in ingresso alla rete ricorsiva. L’in- Le reti ricorsive non elaborano solo sequenze gresso è costituito dai pixel dell’immagine ma, direttamente, anche grafi i cui nodi con- o, più in generale, da una forma de-campio- tengono un vettore di numeri reali. Si potreb- nata a risoluzione più bassa dell’originale. be sempre ricondurre l’elaborazione di strut- Con opportune scelte dei pesi delle connes- sioni2, mantenendo l’ingresso costante, la 1 ture a quella di opportune sequenze. Tutta- via, rappresentando un grafo come una se- rete ricorsiva procede ad aggiornamenti quenza si nascondono caratteristiche discri- delle attivazioni dei neuroni finché, dopo minanti per l’apprendimento. Inoltre, si può una fase di rilassamento, raggiunge un pun- mostrare che la riduzione a lunghe sequenze to di equilibrio. Com’è illustrato in figura, il derivante dalla codifica di strutture a grafo in punto di equilibrio corrisponde all’immagi- stringhe rende il problema dell’apprendi- ne filtrata dal rumore. In pratica, una rete di 0 mento da esempi più costoso. L’elaborazio- ne su grafi ha luogo estendendo il concetto Hopfield con N ingressi, permette in modo affidabile di memorizzare un numero di pat- di calcolo dello stato in un automa a stati fini- tern intorno a 0, 15N e può, pertanto, essere ti dal caso di sequenze a quello di alberi e, utilizzata come memoria associativa. più generalmente, di grafi aciclici ordinati [5]. Per le architetture illustrate l’aggiornamen- 4. APPRENDIMENTO DA ESEMPI to dello stato avviene in modo sincrono ri- spetto all’alimentazione di un nuovo ingres- Nelle reti neurali artificiali, le architetture il- so della sequenza o della struttura dati. La lustrate nel paragrafo precedente, assieme struttura di una rete neurale ricorsiva può, ai corrispondenti schemi computazionali, tuttavia, operare anche elaborazioni se- sono di scarso interesse senza il paradigma quenziali, mediante aggiornamento dello centrale dell’apprendimento, che viene ispi- stato, di ingressi tenuti fissi. L’esempio più rato a corrispondente paradigma neurobi- classico è quello delle reti di Hopfield, illu- liogico. Apprendere in una rete neurale arti- strate in figura 12. Si noti che l’uscita di ogni ficiale corrisponde a modificare il valore dei neurone è connessa a tutti gli altri e che non pesi delle connessioni sinaptiche. Tale pro- c’è connessione locale. Nell’esempio illu- cesso è influenzato dagli esempi che con- corrono a sviluppare concetti. I dati e l’inte- razione con l’ambiente concorrono con di- versi protocolli allo sviluppo di competenze cognitive. In particolare, si individuano tre diverse modalità di apprendimento a secon- da del ruolo esercitato dal supervisore del concetto: l’apprendimento con supervisio- ne, l’apprendimento con rinforzo e l’appren- dimento senza supervisione. 4.1. Protocolli di apprendimento Nell’apprendimento con supervisione e con rinforzo, la rete neurale deve sviluppare un concetto sulla base delle interazioni con un supervisore, che provvede a istruire la rete, fornendo informazioni sul concetto. 1 Si consideri, per esempio, il problema della 0 FIGURA 12 Rete di Hopfield utilizzata come memoria associativa per filtrare il rumore 2 In particolare, la matrice delle connessioni è sim- metrica. 12 M O N D O D I G I T A L E • n . 4 - d i c e m b r e 2 0 0 3
  10. 10. 0 classificazione di insetti illustrato in figura mente, garanzia di un altrettanto soddisfa- 13. La rete neurale esibisce la sua classifica- cente funzionamento su altri dati relativi allo zione e interagisce con il supervisore che stesso concetto, ma non utilizzati nella fase può fornire un’informazione completa o par- di apprendimento (insieme di test). Inoltre, è ziale sul concetto. Quando l’informazione è evidente che l’architettura della rete neurale parziale si parla di “apprendimento con gioca un ruolo fondamentale per l’efficienza rinforzo”; tale informazione deve essere uti- della fase di apprendimento. Si consideri, ad lizzata nell’apprendimento per rinforzare comportamenti corretti e penalizzare quelli esempio, il caso delle reti feedforward e il lo- ro comportamento al variare del numero del- 1 che originano errori. le unità nascoste. In virtù della loro capacità Nell’“apprendimento con supervisione”, in- universale di approssimazione, tali reti pos- vece, il supervisore fornisce l’informazione sono calcolare ogni concetto. Quando il nu- completa sul concetto, definendo, in questo mero delle unità nascoste cresce, non solo caso, esattamente la classe di appartenenza. aumenta il potere computazionale, ma si L’apprendimento di un concetto non richiede necessariamente l’interazione con un super- può dimostrare che il problema della pre- senza dei minimi locali diventa progressiva- 0 visore e può aver luogo anche mediante mente meno rilevante. Tuttavia, al crescere un’auto-organizzazione degli esempi. Ap- prendere senza supervisione significa aggre- Sbagliato! gare esempi simili in regioni neuronali topo- logicamente vicine. In figura 14 è illustrata l’auto-organizzazione di esempi di classi di- verse e l’eccitazione dei neuroni spazialmen- Ragno te correlati al concetto. Mentre per i due pre- Mosca cedenti protocolli di apprendimento la varia- Zanzara zione delle connessioni sinaptiche avviene Altro cercando di ottimizzare l’errore rispetto al- l’informazione fornita dal supervisore: in È un ragno!!! questo caso, l’apprendimento è guidato da criteri di “similarità” nei dati. In generale, i tre protocolli di apprendimento descritti sono formulabili come ottimizzazio- ne di una funzione dei pesi della rete neurale. Nel caso dell’apprendimento con rinforzo e dell’apprendimento con supervisione, per rendere il comportamento della rete neurale conforme alla supervisione occorre minimiz- FIGURA 13 zare una funzione di errore che dipende dalla Il paradigma di apprendimento con supervisione e con rinforzo scelta dei pesi e misura l’errore rispetto alle informazioni del supervisore. Nel caso del- l’apprendimento senza supervisione, l’auto- organizzazione per similarità dei dati può an- cora, generalmente, formularsi come l’otti- mizzazione di una funzione di armonia. Il pro- blema di ottimizzare funzioni in grossi spazi è generalmente difficile per la potenziale pre- senza di minimi locali, che può rendere ineffi- caci le classiche euristiche di ottimizzazione basate sulla tecnica di massima discesa del 1 gradiente. FIGURA 14 Il corretto funzionamento di una neurale sul- l’insieme di apprendimento non offre, ovvia- Apprendimento senza supervisione 0 13 M O N D O D I G I T A L E • n . 4 - d i c e m b r e 2 0 0 3
  11. 11. 0 della dimensione della rete la capacità di ge- motivi di efficienza computazionale. Si richie- neralizzare su nuovi esempi tende a diminui- de, in sostanza, che lo schema di aggiorna- re dato che il fitting sull’insieme di apprendi- mento dei pesi preveda, per ogni neurone, mento ha luogo in un enorme spazio di para- l’uso di informazione disponibile per mezzo metri vincolati solo da pochi esempi. Questo delle sole unità che sono direttamente colle- origina una sorta di principio di indetermina- gate (località spaziale) e che tale informazio- zione dell’apprendimento secondo il quale ne sia riferita solo all’istante di tempo prece- 1 non è possibile al variare dei pesi della rete neurale ottenere funzioni di errore senza mi- dente (località temporale). Per reti ricorsive con architettura generica ri- nimi locali ed eccellente generalizzazione sulta difficile concepire schemi di apprendi- per nuovi esempi. mento in grado di coniugare entrambe que- ste proprietà, mentre questo è possibile per 4.2. Algoritmi di apprendimento architetture speciali, quali ad esempio quella La formulazione dell’apprendimento come di figura 11 B, in cui le connessioni che produ- 0 ottimizzazione della funzione errore rispetto alla supervisione permette di attingere all’e- cono la ricorsività sono solo locali ai neuroni. Nei protocolli di apprendimento, considera- norme letteratura di analisi numerica per la ti fino a questo punto, si è assunto che l’ap- ricerca degli algoritmi più opportuni. Tutta- prendimento consiste solo nella variazione via, dato che in pratica si opera con reti neu- dei pesi e che questo ha luogo a partire da rali che possono raggiungere centinaia di mi- una rete neurale con architettura predefini- gliaia di variabili3, si restringe di solito l’at- ta. Il principio di indeterminazione, prece- tenzione all’uso dell’euristica di massima di- dentemente menzionato, suggerisce, tutta- scesa del gradiente che, essendo una tecnica via, che la definizione stessa dell’architettu- del primo ordine permette di limitare spazio ra possa ragionevolmente costituire ogget- e tempo di calcolo. Algoritmi di apprendi- to del processo di apprendimento. Tale as- mento direttamente basati su tecniche itera- sunzione, che ha solide basi neurobiologi- tive, come il gradiente, prendono il nome di che, conduce dunque allo studio di algorit- algoritmi di tipo batch. In tali algoritmi, la va- mi atti creare e cancellare connessioni si- riazione dei pesi avviene solo dopo aver ela- naptiche oltre che a variarne il peso corri- borato tutti gli esempi dell’insieme di ap- spondente. Sono stati concepiti algoritmi di prendimento. Si possono, però, concepire al- growing e di pruning delle connessioni ba- goritmi nei quali i pesi sono aggiornati in cor- sati tipicamente sul principio della sensibi- rispondenza della presentazione di ogni lità dei pesi rispetto al comportamento del- esempio (algoritmi di tipo on-line). la rete. Sono stati anche proposti algoritmi L’entità di variazione dei pesi in corrispon- genetici per sviluppare l’architettura ade- denza degli esempi può condurre, in questo guata a un certo “task”. Infine, la supervi- caso, a enfatizzare il comportamento corret- sione può essere fornita in modo più sofisti- to sugli “ultimi” esempi presentati, dimenti- cato mediante uno schema di insegnamen- cando i vecchi esempi su cui la rete aveva ap- to, che mira a presentare il desiderato tar- preso. È evidente che tale entità deve anche get in modo progressivo. essere commisurata alla numerosità dell’in- sieme di apprendimento. Un aspetto partico- 5. PROBLEM SOLVING larmente rilevante degli algoritmi di appren- dimento, che è talvolta sottovalutato, è costi- L’architettura ricorsiva della rete di Hopfield tuito dalle proprietà di località spaziale e descritta nel paragrafo 3 è stata oggetto di temporale che sono tipicamente gradite per molti studi non soltanto per le sue proprietà di memoria associativa, ma anche perché 1 3 ben si presta alla soluzione di molti interes- santi problemi di soddisfacimento di vincoli, In alcuni esperimenti di riconoscimento vocale, nel gruppo di ricerca di Herve Bourlard (IDIAP, che hanno spesso natura combinatoriale. Per 0 Svizzera) sono state utilizzate reti neurali con cir- ca un milione di pesi. illustrare questa interessante proprietà si consideri il classico problema di scacchi di al- 14 M O N D O D I G I T A L E • n . 4 - d i c e m b r e 2 0 0 3
  12. 12. 0 locare 8 regine su una scacchiera in configu- Neuroni di riga razione di non attacco, ovvero in modo tale che non si mangino4 (Figura 15). Questo è un problema di soddisfacimento Neuroni diagonali di vincoli. Occorre, infatti, che, per ogni re- gina, non siano presenti regine sulla stessa riga, la stessa colonna e le due diagonali. Neuroni diagonali La soluzione del problema si ottiene me- diante una rete ricorsiva con un numero di 1 neuroni pari al numero di caselle della Neuroni di colonna scacchiera. L’eccitazione di un neurone cor- risponde alla presenza della regina sulla casella, l’inibizione corrisponde, invece, al- spondono a soluzioni del problema. Come FIGURA 15 la casella vuota. Per risolvere il problema nel caso dell’apprendimento tuttavia, la Il problema delle 8 occorre tradurre i vincoli del problema in corrispondenti vincoli sul valore delle atti- funzione può essere popolata da minimi lo- cali, offrendo pertanto soluzioni spurie. La regine e la sua soluzione mediante 0 vazioni dei 64 neuroni. Le connessioni della soluzione sommariamente illustrata per il una rete di Hopfield rete neurale, solo inibitorie, si costruiscono problema delle 8 regine può essere estesa associando a ogni neurone un peso negati- con metodologie generali per risolvere ge- vo proveniente dai neuroni associati alle nerici problemi di soddisfacimento di vin- caselle che si trovano sulla stessa riga, sul- coli, tipicamente molto complessi dal pun- la stessa colonna e sulle stesse due diago- to di vista computazionale quali, per esem- nali cui appartiene la casella associata al pio, il problema del commesso viaggiatore neurone in oggetto. Non ci sono, dunque, e il knapsack. Le soluzioni offerte da que- auto-connessioni e, inoltre, la matrice dei sto approccio sono estremamente efficienti pesi è simmetrica; se l’unità i è connessa oltre a permettere una computazione paral- all’unità j da un peso wij allora vale anche il lela per ogni passo del processo dinamico. viceversa, cioè wji = wij. Si noti che a diffe- Il problema fondamentale, tuttavia, è che, renza del caso in cui la rete di Hopfield ope- come per l’apprendimento, si hanno talvol- ra da memoria associativa, in questo caso ta soluzioni sub-ottime che possono non ri- non ci sono ingressi collegati e che la codi- sultare soddisfacenti. In sostanza, con so- fica del problema è tradotta nel pattern di luzioni basate su reti di Hopfield, una volta interconnessioni. Si può dimostrare che “programmate” le connessioni per codifica- con un simile insieme di collegamenti, par- re il problema da risolvere, si può anche tendo da una qualunque configurazione conseguire in modo efficiente una soluzio- iniziale, la dinamica della rete neurale evol- ne per problemi intrattabili, ma questo non ve verso un punto stabile in cui la soluzione è ovviamente garantito5. rappresenta configurazioni con regine in posizione di “non attacco”. Tuttavia, par- 6. LE APPLICAZIONI tendo da una configurazione casuale, l’evo- luzione della dinamica della rete non ga- Uno dei motivi del successo delle reti neurali rantisce che tutte le 8 regine siano piazzate artificiali è probabilmente da ricercarsi nel lo- sulla scacchiera. Si può anche dimostrare ro massiccio utilizzo in innumerevoli applica- che l’evoluzione della dinamica corrispon- zioni. Il paradigma di apprendimento da de alla minimizzazione di una funzione esempi su cui si basano permette, infatti, di energia e che i suoi minimi globali corri- affrontare problemi di natura anche molto di- 4 La generalizzazione di questo problema al caso di N regine è stato per anni oggetto di congetture. Si riteneva 1 si trattasse di un problema computazionalmente intrattabile, ma a metà degli anni novanta si è dimostrato 5 che esiste una soluzione polinomiale per la determinazione di una configurazione. Si tratta, in sostanza, di una delle caratteristiche fondamentali del softcomputing menzionata nel paragrafo 2. 0 15 M O N D O D I G I T A L E • n . 4 - d i c e m b r e 2 0 0 3
  13. 13. 0 versa e di fornire soluzioni con uno sforzo re- compatta da utilizzare in ingresso alla rete lativamente limitato. neurale. La limitazione del numero degli in- Questo è anche stato reso possibile dalla gressi risulta particolarmente importante grande diffusione di pacchetti software per per limitare il numero degli esempi necessa- la simulazione dei modelli più importanti. I ri per una corretta generalizzazione delle re- principali modelli neurali sono oggi disponi- te a nuovi esempi. bili anche in molti tool per data mining di- Nella figura 16, è illustrato l’uso di un percet- 1 sponibili nei principali sistemi per basi di dati quali il DB2 (Database2). Oltre alla si- trone multistrato per la classificazione di lo- go aziendali in 4 categorie. La rete ha 256 in- mulazione software, sono state studiate di- gressi e 4 uscite, codificate in modo esclusi- verse soluzioni per l’implementazione in vo, ovvero (1; 0; 0; 0); (0; 1; 0; 0); (0; 0; 1; 0); hardware di architetture neurali e dei corri- (0; 0; 0; 1). Il numero di neuroni nascosti si spondenti algoritmi di apprendimento. Mol- determina per tentativi utilizzando un test di ti studi si sono concentrati su come utilizza- validazione statistica. 0 re gli attuali modelli di calcolo parallelo per l’implementazione dello schema neurale, Il percettrone multistrato dimostra eccellenti capacità di discriminazione di classi, ma non intrinsecamente parallelo. Sono fiorite in- risulta efficace per attribuire un livello di con- numerevoli soluzioni nei laboratori di ricer- fidenza nella sua decisione. ca che hanno avuto anche un certo impatto In altri termini, mentre molte applicazioni commerciale permettendo lo sviluppo di ac- ne hanno dimostrato la grande efficacia nel- celeratori neurali per integrare le capacità di la discriminazione di classi note a priori, si è calcolo di elaboratori tradizionali. Tali acce- ormai accumulata evidenza sperimentale e leratori sono tipicamente gestite da alcuni supporto teorico per concludere che il per- simulatori commerciali. L’impressionante cettrone non è in grado di attribuire in modo evoluzione dei microprocessori che ha avu- affidabile un peso alle sue decisioni. Que- to luogo anche negli anni ’90 ha, tuttavia, sto rende tale rete neurale usata come clas- sostanzialmente ridimensionato l’impor- sificatore inadatta a problemi in cui è neces- tanza di tali soluzioni. sario un comportamento di reiezione di pat- Si è anche assistito alla nascita di chip neura- tern che non appartengono alle classi pre- li analogici in grado di implementare i para- stabilite. digmi di calcolo direttamente con variabili Sempre usando il percettrone multistrato, si analogiche, senza bisogno di codifica discre- può ovviare a questo inconveniente median- ta. In particolare, è degno di nota l’INTEL te la configurazione ad autoassociatore illu- 80170, sviluppato nei laboratori INTEL all’ini- strata in figura 17. zio degli anni novanta. Studi simili sono stati computi soprattutto da Synaptics, (Object 6.2. Sistemi ibridi Recognizer Chip) e, in Italia, (TOTEM) della Molte delle applicazioni delle reti neurali a NeuriCam. problemi reali richiedono un’opportuna or- Uno dei problemi che ha, tuttavia, limitato lo ganizzazione di sistema e non semplicemen- sviluppo di chip tipo l’INTEL 80170 è la limita- te l’utilizzo diretto dei modelli descritti in ta precisione disponibile, che costituisce un questo articolo. Per esempio, l’estrazione problema soprattutto per gli algoritmi di ap- dell’informazione da una fattura acquisita prendimento. mediante uno scanner richiede un opportu- no sistema per la gestione documentale, do- 6.1. Applicazioni al riconoscimento ve le reti neurali possono giocare un ruolo di forme strategico in alcune parti critiche. Per illustrare la metodologia alla base di A titolo di esempio, si consideri il problema 1 molte delle applicazioni riportate in tabella 2, si consideri il caso del riconoscimento di del riconoscimento di targhe automobilisti- che acquisite mediante ordinarie telecamere simboli grafici, eventualmente corrotti da in ambiente autostradale. Tale applicazione 0 rumore. Occorre pre-elaborare il pattern in modo da fornirne una rappresentazione più è, per esempio, interessante per le società di gestione del traffico autostradale in corri- 16 M O N D O D I G I T A L E • n . 4 - d i c e m b r e 2 0 0 3
  14. 14. 0 Settore applicativo Prodotto Marketing Airline Marketing Assistant, BehavHeuristics Inc Add-ins per Microsoft Excel, NeuroXL, 1998 AREAS, valutazione automatica immobili, HNC Software Previsioni finanziarie Neurodimension www.nd.com, 1991 NetProfit (profittaker.con), Neur. Appl. Corp. Appl. 1 Optical Character Recognition Audre Neural Network, Audre Rec. Systems Appl. OmniPage 6.0 and 7.0 Pro for Windows, Caere OmniPage 6.0 Pro for MacOS AnyFax OCR engine FaxMaster, Delrina Technology Inc. VeriFone Oynx, lettore di assegni, Synaptics 0 Riconoscimento caratteri QuickStroke, ric. caratt. cinesi, Synaptics manoscritti Teleform: ric. caratteri per fax, Cardiff Software Application, 1991 Riconoscimento manoscritti Apple Newton 120, Apple on-line Lexicus Longhand, Lexicus (Motorola) Nasi elettronici AromaScan electronic nose, AromaScan Bloodhound Electronic Nose, Bloodhound Sensors Ltd e-NOSE 4000 electronic nose, Neotronics Scientific Controllo di qualità cibi test qualità birra Anheuser-Busch Bond portfolio management Global Bond, Econostat Ltd. Controllo frodi (assegni) Dunn and Bradstreet Controllo frodi (carte credito) Falcon, HNC Software Nestor In. Verifica firma Check Signature Verification System, NeuroMetric Vision System Inc. Gestione rischio Colleague, Aquarius, HNC Software Predizione del consumo elettrico Bayernwerk AG Application Controllo chip microelettr. INTEL Controllo qualità gomme Dunlop Cancellazione di eco AT&T/Lucent Riconoscimento di banconote BANK, D.F. Elettronica 1 Riconoscimento di targhe PLARE, Società Autostrade e DII (Università di Siena) TABELLA 2 Una lista di applicazioni di reti neurali che hanno dato origine a prodotti apparsi sul mercato 0 17 M O N D O D I G I T A L E • n . 4 - d i c e m b r e 2 0 0 3
  15. 15. 0 Classe 1 Classe 2 Classe 3 Classe 4 FIGURA 16 4 1 Classificazione di loghi aziendali N con un percettrone 256 multistrato 0 FIGURA 17 Autoassociatori Distanze Classe 1 Classe 2 Classe 3 Classe 4 neurali spondenza delle stazioni di esazione a segui- se. La struttura può integrarsi dinamica- ti di infrazioni in impianti automatici. mente quando si presenta una eventuale In figura 18, è illustrata l’architettura com- altra classe. Tale modulo ha la funzione di plessiva di un sistema per il riconoscimento stabilire una lista di classi candidate, men- di targhe in sperimentazione presso il Di- tre il modulo a fianco, basato su percettroni partimento di Ingegneria dell’Informazione multistrato con struttura a classificatore, dell’Università di Siena. Il sistema è com- serve a raffinare la decisione. posto da moduli sviluppati con tecnologia Tali classificatori sono tipicamente invocati neurale (in rosa), da moduli basati su clas- dal modulo centrale quando i candidati si ri- sici approcci di elaborazione delle immagi- feriscono a classi tipicamente molto confu- ni e da motori inferenziali. Un modulo di se. In tal caso, appositi classificatori assol- controllo provvede a sincronizzare le ope- vono unicamente al compito di eliminare razioni dei moduli slave delegati ad assol- l’ambiguità derivante da classi molto confu- vere le funzioni di segmentazione della tar- se. Si noti che tali classificatori possono ga, dei caratteri e riconoscimento dei carat- operare sulla stessa finestra di elaborazio- teri. Altri moduli esprimono vincoli gram- ne del modulo precedente, ma anche su op- maticali sulle stringhe possibili oltre a una portune finestre, decise dal modulo centra- probabilità a priori che si presenti una data le, per enfatizzare le parti del pattern dove 1 targa. Il riconoscimento dei caratteri, che costituisce ovviamente l’attività critica, è si localizzano verosimilmente le differenze. È anche interessante notare che il processo basato su due moduli. Il primo contiene di segmentazione dei caratteri è raffinato 0 percettroni multistrato con struttura ad au- toassociatore, che modellano le classi atte- dagli autoassociatori che posizionano la fi- nestra in un intorno della posizione indicata 18 M O N D O D I G I T A L E • n . 4 - d i c e m b r e 2 0 0 3
  16. 16. 0 Segmentazione della targa Segmentazione caratteri Adattamento segmentazione AB 416 CV Sistema di controllo a regole 1 Stringa riconosciuta Vincoli grammaticali A B 0 FIGURA 18 0 Probabilità Architettura a priori del sistema per il riconoscimento di targhe dal modulo di segmentazione, a seguito di all’euristica del gradiente, alla base di molti elaborazioni atte a stabilire la zona di mas- schemi di ottimizzazione utilizzati per le reti sima risonanza. neurali e dettati dall’esigenza di ottimizzare in spazi di enorme dimensione. Una volta for- mulato nell’ambito dell’apprendimento neu- 7. LIMITI E PROSPETTIVE DI RICERCA rale, la complessità inerente di un problema si rivela in termini della dimensione dello La ricerca nel settore delle reti neurali artifi- spazio dei pesi e della forma della superficie ciali ha raggiunto un certo grado di maturità errore da ottimizzare. L’ostacolo fondamen- sia per quanto riguarda lo sviluppo sistema- tale per l’euristica del gradiente è dovuto alla tico delle metodologie fondamentali che il lo- presenza di minimi locali sub-ottimi che in- ro utilizzo in ambito applicativo. La compren- trappolano gli algoritmi di apprendimento. sione dei limiti fondamentali sembra essere Per problemi complessi, l’esplosione del nu- un passo fondamentale per lo sviluppo ulte- mero di tali minimi locali rende inverosimile riore del settore. Soprattutto in ambito appli- la determinazione di soluzioni efficienti. Si è cativo, tali tecnologie sono state utilizzate già accumulata evidenza teorica e sperimen- talvolta in modo acritico confidando sul prin- tale che, a fronte di problemi “complessi”, la cipio che la “forza bruta” derivante dall’im- forma della superficie errore si “regolarizza” pressionante sviluppo della microelettronica e diminuisce la presenza di minimi sub-ottimi e il sogno della computazione inerentemente all’aumentare della dimensione dello spazio parallela potessero coniugarsi con l’appren- dei pesi. Tuttavia, tale aumento di dimensio- dimento automatico per risolvere importanti ne non solo conduce a un incremento di com- problemi aperti con significativo risvolto ap- plessità nel calcolo del gradiente, ma intro- plicativo. Un’analisi teorica dettagliata sug- duce il problema addizionale dell’over-trai- gerisce la presenza di enormi ostacoli per un ning, secondo cui l’apprendimento in pre- ulteriore sviluppo di approcci basati sugli at- senza di spazi dei parametri troppo grossi tuali schemi di apprendimento automatico. Alcuni interessanti limiti erano già stati se- non garantisce una corretta generalizzazione a nuovi esempi. È forse il momento di co- 1 gnalati da Marvin Minsky nella sua edizione struire teorie computazionali dell’apprendi- espansa di Perceptrons [10]. In particolare, Minsky aveva già individuato problemi legati mento adatte al calcolo neurale, tipicamente definito nel continuo, invece, che nel tradi- 0 19 M O N D O D I G I T A L E • n . 4 - d i c e m b r e 2 0 0 3
  17. 17. 0 zionale contesto discreto. Il PAC (Probably [2] Anderson J., Rosenfeld E.: Neurocomputing: Approximately Correct) learning, ampiamen- Foundations of Research. MIT Press, Cambrid- ge, (Eds. 1988). te utilizzato fin qui per la comprensione della complessità, sembra piuttosto sterile e non [3] Angluin D., Smith C.: Inductive inference: Theory and methods. Computing Surveys, Vol. appare molto efficace per la comprensione di 15, n. 3, 1983, p. 237-269. tipici contesti applicativi6. Sembra, inoltre, [4] Boden M.: Horses of a different colour? In Artifi- importante procedere nella direzione di svi- cial Intelligence and Neural Networks. V. Honavar 1 luppare architetture e algoritmi di apprendi- mento nel contesto di ingressi strutturati, op- [5] and L. Uhr, Eds. Academic Press, 1994, p. 3-19. Frasconi P., Gori M., Sperduti A.: A general fra- portunamente rappresentati. Questo favori- mework for adaptive processing of data struc- sce per altro lo sviluppo di integrazioni più tures. IEEE Transactions on Neural Networks, forti tra modelli simboli e sotto-simbolici e Vol. 9, 1998, p. 768-786. sembra suggerire, in generale, la formulazio- [6] Hebb D.: The Organization of Behavior. Wiley, ne di teorie più generali per il trattamento di New York, 1949. Partially reprinted in [Anderson 0 dati continui. A tal proposito, Margaret Bo- den, con riferimento alla novella del “Mago [7] and Rosenfeld, 1988]. Hopfield J.: Neural networks and physical sy- di Oz” scrive “[...] the pretty creature was visi- stems with emergent collective computational abilities. Proceedings of the National Academy bly the same horse, changing colour as it of Sciences, USA, Vol. 79, 1982, p. 2554-2558. trotted along. ... AI is one beast, like the Wi- Also in Neurocomputing, The MIT Press, 1988. zard’s pony”, [4] proponendo il parallelo dei [8] McCulloch W., Pitts W.: A logical calculus of colori del pony con i diversi colori dell’intelli- ideas immanent in nervous activity. Bulletin of genza artificiale. Servono forse nuove inte- Mathematical Biophysics, Vol. 5, 1943. Reprin- ressanti miscele di colori, servono schemi ted in [Anderson and Rosenfeld, 1988]. per modellare in modo più naturale l’incer- [9] Mead C.: Analog VLSI and Neural Systems. Ad- tezza, serve comprendere più a fondo l’ingre- dison Wesley, Reading, 1989. diente evoluzionistico delle specie per coniu- [10] Minsky M., Papert S.: Perceptrons - Expanded garlo con l’apprendimento automatico. E an- Edition. MIT Press, Cambridge, 1988. che gli schemi di apprendimento devono ve- [11] Rosenblatt F.: Principles of Neurodynamics: rosimilmente risultare meno rigidi e, soprat- Perceptrons and the Theory of Brain Mechani- tutto, devono risultare attivi, permettendo sm. Spartan Books, Washington D.C, 1962. un’interazione tra la macchina che apprende [12] Rumelhart D., Hinton G., Williams R.: Learning e il suo supervisore7. Forse non importa il internal representations by error propagation. In Parallel Distributed Processing, D. Rumelhart “colore” del pony; le reti neurali, e più in ge- and J. McClelland, Eds. Vol. 1. MIT Press, Cam- nerale la computational intelligence, devono bridge, Chapter, Vol. 8, 1986, p. 318-362. Re- integrarsi in modo più forte con i classici mo- printed in [Anderson and Rosenfeld, 1988]. delli simbolici. L’ibrido può non solo risultare [13] Seeley R., Stephens T., Tate P.: Essentials of vincente nelle applicazioni, ma può originare Anatomy and Physiology, McGraw-Hill, 2002. nuove miscele di colori, ben distinte dai com- [14] Widrow B., Hoff M.: Adaptive switching circuits. ponenti. In IRE WESCON Convention Record. IRE, New York, Vol. 4, 1960, p. 96-104. Bibliografia [1] Ablameyko S., Goras L., Gori M., Piuri V.: Limita- MARCO GORI è professore ordinario all’Università di tions and Future Trends in Neural Computation. Siena presso il Dipartimento di Ingegneria del- IOS Publishing, (Eds 2003). l’Informazione. Ha ottenuto il Dottorato di ricerca all’Università di Bologna, completando la formazio- ne presso la “School of Computer Science” di Mc- 1 6 Per lo stato dell’arte sui limiti e sulle prospettive del calcolo neurale si può far riferimento a Ablameyko et al. [1]. Gill University, Montreal. I suoi interessi di ricerca riguardano l’intelligenza artificiale e le sue applica- zioni. È attualmente chair del capitolo italiano della 7 La ricerca nel settore del learning from queries and examples ha già for- Neural Networks Society ed è presidente dell’Asso- 0 nito promettenti indicazioni di riduzione di complessità, ma sembra an- cora essere in una fase incipiente, soprattutto per le ricadute applicative. ciazione Italiana Intelligenza Artificiale. marco@dii.unisi.it 20 M O N D O D I G I T A L E • n . 4 - d i c e m b r e 2 0 0 3

×