SlideShare a Scribd company logo
1 of 17
Download to read offline
INTRODUZIONE ALLE RETI
                       NEURALI ARTIFICIALI


          Marco Gori   Nonostante gli straordinari successi dell'elaborazione dell'informazione,
                       che stanno esercitando un impatto di portata storica nella vita quotidiana,
                       competenze percettive quali localizzare un oggetto in una scena, ricono-
                       scere la voce in ordinarie condizioni reali, prendere decisioni basate sul
                       “senso comune”, risultano ancora compiti estremamente difficili per le
                       macchine. Nel seguito, viene presentato un quadro generale dell'elabora-
    3.6                zione neurale: successi, fallimenti e prospettive applicative.



                       1. IL MONDO SOTTO-SIMBOLICO                         colo simbolico alla base degli attuali elabo-

                       G    li odierni sistemi di elaborazione del-
                            l’informazione hanno compiuto prodigi
                       che sono sotto gli occhi di tutti. Le macchine
                                                                           ratori.
                                                                           Si consideri, per esempio, il problema della
                                                                           descrizione dell’informazione presente in
                       hanno automatizzato perfettamente pro-              un’immagine che richiede la localizzazione e
                       cessi considerati tipicamente di pertinenza         il riconoscimento di oggetti significativi per
                       umana, quali recuperare informazione in un          l’uomo. Tale processo richiede la capacità di
                       archivio ed eseguire calcoli. Con l’intelligen-     segmentazione che, tuttavia, non può aver
                       za artificiale si sono spinte verso l’automa-       luogo solo con operazioni di basso livello ba-
                       zione del ragionamento simbolico, fino ai si-       sate, per esempio, sul rilievo di variazioni di
                       stemi esperti, in grado di modellare e ren-         luminosità. La segmentazione in una scena
                       dere fruibile la conoscenza di esperti in spe-      non può prescindere da processi cognitivi in
                       cifici settori. Ma nonostante i formidabili ri-     grado di esibire competenza sugli oggetti e,
                       sultati conseguiti nell’automazione di alcu-        più generalmente, del mondo oggetto dell’e-
                       ni processi intelligenti, soprattutto di alto li-   laborazione. Inoltre, soprattutto nel mondo
                       vello, le macchine offrono ancora un com-           tridimensionale, gli oggetti si propongono
                       portamento piuttosto primitivo e incompa-           con molteplici viste e, di nuovo, la loro perce-
                       rabile con l’uomo nella simulazione della           zione, sembra richiedere modelli ben più so-
                       maggioranza dei processi percettivi. La dif-        fisticati di semplici comparazioni con oggetti
                       ficoltà di automatizzare tali processi è spes-      di un dizionario. L’analisi attenta della nozio-
                       so trascurata per il fatto che già nel mondo        ne di similarità di oggetti o quotidiane acqui-
                       animale sono presenti capacità percettive           sizioni quali, per esempio, “la facciata di una
                       talvolta straordinarie. Tali capacità, svilup-      casa” (Figura 1) indicano lo sviluppo di com-
                       pate in secoli di processi evolutivi, risultano     petenze che non sono basate su elaborazio-
                       difficili da replicare usando i modelli di cal-     ne simbolica e ragionamenti qualitativi di dif-



4
                                                          M O N D O   D I G I T A L E   •   n . 4   -   d i c e m b r e   2 0 0 3
0


ficile formalizzazione. L’esempio indicato in
figura 1 illustra, inoltre, un livello di sofistica-
zione dell’analisi umana delle scene che ri-
sulta molto difficile da trasferire alle macchi-
ne: con uno sguardo attento si riconosce fa-
cilmente che le case nella scena sono, in
realtà, miniature. La foto ritrae un paesaggio
di un piccolo paese della montagna pistoiese
in occasione del Natale, ma discernere il                                                                                                         1
mondo artificiale miniaturizzato dal mondo
reale è un compito realmente arduo per le
macchine. Il problema del riconoscimento
automatico della voce offre difficoltà simili. Il
segnale vocale rappresentato in figura 2, as-
sieme al suo spettrogramma, illustra alcuni
aspetti della difficoltà del problema. Si pre-           FIGURA 1
                                                                                                                                                  0
senta di nuovo il problema della segmenta-               Un paesaggio della montagna pistoiese durante il Natale
zione; anche in questo caso non si può fare
affidamento su elementari elaborazioni di                    0.0a          0.2a 0.3a 0.4a 0.5a       0.6a
                                                                    0.1a                                    0.7a
basso livello del segnale, quale per esempio
il controllo del livello per separare le parole.                                                                   Segmentazione spuria
Infatti, basta per esempio la presenza di oc-
clusive sorde all’interno di una parola per il
fallimento della segmentazione; la parola
compute (si veda, a tal proposito, il segnale
corrispondente a una sua pronuncia in figura
2) verrebbe, infatti, spezzata in due parti per
la presenza dell’occlusiva sorda “p”. Per via
dell’enorme variabilità dovuta alla velocità di
pronuncia, alla prosodia, al parlatore e a va-
rie altre condizioni di rumore, le parole, inol-                           Compute               p
tre, non sono facilmente rappresentabili me-
diante un dizionario di centroidi, ovvero di
“istanze medie” di riferimento delle parole              gnificato degli ingressi e dalla loro conse-               FIGURA 2
del dizionario.                                          guente elaborazione mediante algoritmi.                    Segnale
I problemi menzionati si presentano ormai in             Non è, tuttavia, sempre possibile, o comun-                e spettrogramma
molteplici applicazioni nelle quali l’elabora-           que verosimile, associare agli ingressi un si-             relativo alla
zione di informazione multimediale assume                gnificato e una conseguente caratterizzazio-               pronuncia del verbo
un ruolo sempre più rilevante. Si pensi, per             ne simbolica1. Serve, dunque, dotare i calco-              “to computequot;
esempio, alla navigazione autonoma di un                 latori di processi computazionali che non sia-
robot, ai data base visuali, alla definizione di         no necessariamente basati sulla metafora
interfacce personalizzate, alla gestione di im-          dell’algoritmo, secondo cui la soluzione di un
magini di documenti, alla concezione di mo-              problema avviene mediante un processo co-
delli per l’estrazione di informazione dal               struttivo atto ad esplicitare, simbolicamente,
web. I problemi menzionati, assieme ad altri,            le elaborazioni sugli ingressi caratterizzati
hanno in comune il fatto che non sembrano                simbolicamente. Per alcuni problemi, questo
naturalmente affrontabili mediante soluzioni             approccio non appare naturale e risulta di
basate su elaborazione simbolica. L’informa-
zione da elaborare si presenta con una codifi-
                                                         difficile, se non impossibile, formalizzazione.                                      1
ca a cui non è semplice attaccare significato.
Il prodigio della scienza dei calcolatori pro-
viene tipicamente dalla conoscenza del si-
                                                         1
                                                              Nelle scienze cognitive questo problema è noto
                                                              come the symbol ground problem.
                                                                                                                                                  0

                                                                                                                                          5
M O N D O    D I G I T A L E   •   n . 4   -   d i c e m b r e      2 0 0 3
0


                                   2. LA METAFORA                                                      da un corpo detto soma e da due tipi di dira-
                                   NEUROBIOLOGICA                                                      mazioni: i dentriti e il cilindrasse o assone.
                                   Allo stato attuale, a differenza delle macchine,                    Nel cervello umano sono presenti tipica-
                                   l’uomo è un ottimo esempio di “sistema” in                          mente oltre 100 miliardi di neuroni, ciascu-
                                   grado di elaborare informazione sotto-simbo-                        no interconnesso a circa altri 10.000. Nelle
                                   liche. Tali elaborazioni, come ogni altro pro-                      interconnessioni ha luogo la sinapsi, un
                                   cesso cognitivo, hanno sede nel cervello, una                       processo elettrochimico atto a rinforzare o

    1                              complessa struttura neurobiologica, attual-
                                   mente decifrata in modo piuttosto accurato
                                                                                                       inibire l’interazione cellulare. I segnali rile-
                                                                                                       vabili hanno un potenziale dell’ordine di al-
                                   per quanto riguarda gli aspetti anatomici. È                        cune decine di millVolt e si presentano co-
                                   noto che c’è un “mattone elementare” che ca-                        me treni di impulsi con frequenza intorno ai
                                   ratterizza tutte le strutture cerebrali, una cel-                   100 Hz, con opportune modulazioni. Sono
                                   lula, denominata neurone, che è sede di pro-                        noti modelli sofisticati che esprimono il po-
                                   cessi elettrochimici responsabili per la gene-                      tenziale della cella (attivazione) in funzione
    0                              razione di campi elettromagnetici. Come è il-
                                   lustrato in figura 3, i neuroni sono composti
                                                                                                       del potenziale delle celle interconnesse. È
                                                                                                       opinione condivisa da ricercatori nel mondo
                                                                                                       delle scienze cognitive che i segnali elettrici
                                                            Soma                                       presenti nei neuroni siano alla base dell’ela-
                                             Assone                                                    borazione dell’informazione a livello cere-
                                                                                                       brale. Le capacità cognitive sarebbero, dun-
                                                                                                       que, in relazione all’elaborazione dei segna-
                                                                                                       li presenti nei neuroni. Inoltre, c’è evidenza
                       Sinapsi                                                                         sperimentale per sostenere che la struttura
                                                                                                       cerebrale e le sinapsi siano influenzate dal-
                                                                        Dentriti                       la vita degli individui, dalle loro esperienze,
                                                                                                       dall’apprendimento di compiti specifici. È il
                                                                                                       particolare pattern di interconnessioni e la
                                                                                                       forza delle connessioni sinaptiche che defi-
                                                                                                       nisce le proprietà funzionali di una partico-
                                                                                                       lare porzione del cervello. Si è, infatti, verifi-
                                                                                                       cato sperimentalmente che le funzioni co-
                                                                                                       gnitive risiedono in particolari zone e che
            FIGURA 3                                                                                   tali funzioni possono essere perdute a se-
            Neurone e sua struttura cellulare con soma, dentriti e connessioni sinaptiche              guito della “rottura” dei legami sinaptici ed

                                                                           Corteccia motoria    Solco centrale Corteccia primaria
                                                                               primaria                          somoestetica
                                                      Area premotoria                                                         Area del gusto
                                                                                                                                      Area di associazione
                                                                                                                                         somoestetica

                                                                                                                                          Area di associazione
                                                                                                                                                  visiva
                                               Area
                                            prefrontale

                                                                                                                                              Corteccia visiva

                                           Area motoria della parola

    1                 FIGURA 4
             Organizzazione del
                                                (area di Broca)
                                                                                                                                  Area sensoriale della parola
                                                                                                                                      (area di Wernicke)
                                                            Area di associazione
               cervello umano e                                    uditiva
                                                                                       Corteccia uditiva
    0         sua localizzazione
                 funzionale [13]
                                                                                           primaria




        6
                                                                                   M O N D O     D I G I T A L E     •    n . 4   -      d i c e m b r e         2 0 0 3
0


eventualmente recuperate, almeno in parte,              trattabile perfino in caso di semplici gram-
con successivi processi di apprendimento                matiche [3].
atti a instaurare nuovi pattern di intercon-            Era, tuttavia, ben chiaro ai padri dell’informa-
nessione sinaptica (Figura 4).                          tica che non è necessaria una perfetta emula-
Dato che la struttura cerebrale e il compor-            zione dei processi neurobiologici per l’emer-
tamento elettromagnetico delle singole                  genza di capacità cognitive. Molti modelli
celle neuronali sono noti, i ricercatori si so-         connessionistici sono, infatti, solo ispirati dal
no ben preso chiesti se si possono operare
induzioni sui comportamenti collettivi del-
                                                        paradigma biologico a livello di unità neuro-
                                                        nale e si basano sulla struttura indicata in fi-              1
le cellule neuronali, e dunque del cervello             gura 3, dove si eredita il principio che l’attiva-
umano, e se si possono trarre utili suggeri-            zione neuronale (potenziale associato all’u-
menti e ispirazioni per la costruzione di               nità) è soggetta a eccitazioni e inibizioni dal-
macchine in grado di replicare compiti con-             le unità connesse. In particolare, l’attivazio-
notati da una forte componente di elabora-              ne dell’unità i dipende dall’attivazione della
zione sotto-simbolica, attualmente di diffi-
cile soluzione per i calcolatori. Il lavoro di
                                                        generica unità j mediante un parametro as-
                                                        sociato alla connessione tra le due unità, che
                                                                                                                      0
McCulloch & Pitts [8] è forse il primo signi-           modella il principio elettrochimico della sina-
ficativo passo in questa direzione, la prima            psi. In seguito, sarà illustrato come l’utilizzo
analisi completa, soprattutto dal punto di              di modelli di calcolo basati su reti neurali ar-
vista formale, che fa intuire come semplici             tificiali sia in grado di esibire quello che Lotfi
unità con sinapsi eccitatorie e inibitorie e            Zadeh ha definito softcomputing secondo
con apposita soglia siano in grado, in virtù            cui il requisito “trova sempre la soluzione
di un processo collettivo, di rappresentare             esatta” diventa “trova spesso una soluzione
complesse proposizioni. E questo sembra                 approssimata”.
indurli a un certo ottimismo anche per le               La ricerca sulle reti neurali artificiali si è evo-
possibili implicazioni sulla comprensione               luta attraverso alterne vicende. Sin dagli al-
dei processi cognitivi umani: “Mind no lon-             bori dell’informatica, l’elaborazione basata
ger goes more ghostly than a ghost”. Tut-               su algoritmi e i modelli neurali centrati sul-
tavia il lavoro di McCulluch e Pitt sembra              l’apprendimento da esempi si sono sviluppa-
essere stato più rilevante per gli sviluppi             ti in parallelo. Verso la fine degli anni ’60,
nel settore dei calcolatori che non delle               Marvin Minsky e Simon Paper [10] pubblica-
scienze cognitive. Carpire i segreti della              no “Perceptrons”, un libro che analizza con
mente dall’osservazione dell’attivazione                grande lucidità ed elegante formalizzazione
cerebrale è una sfida affascinante, ma que-             le capacità computazionali del percettrone di
sto problema di reverse engineering sem-                Rosenblatt. La comunità scientifica recepisce
bra essere terribilmente intrappolato nella             principalmente l’analisi critica del percettro-
complessità del sistema neuronale umano.                ne e segue una fase di stagnazione che si
Si tratta sostanzialmente di indurre regola-            protrae fino agli inizi degli anni ’80. L’interes-
rità e leggi dall’osservazione, come in altri           se rifiorisce, in particolare, per i lavori di Hop-
settori delle scienze. Questo problema                  field e del Parallel Distributed Research Cen-
possiede, tuttavia, un’infinità di sfaccetta-           ter sulle reti neurali multistrato con l’algorit-
ture e, soprattutto, richiede un processo di            mo di apprendimento Backpropagation. Al-
induzione che sembra inerentemente in-                  tre tappe importanti della ricerca nel settore
trappolato nella complessità dei sistemi di-            sono riassunte nella tabella 1.
namici oggetto dello studio. Inferire regole
dagli esempi sembra essere difficile anche
                                                        3. ARCHITETTURE NEURALI
in casi elementari; si pensi, a titolo di
esempio, al problema dell’inferenza indut-
tiva di grammatiche, che consiste nel de-
                                                        Le neuroscienze hanno permesso di stabili-
                                                        re che la struttura cerebrale è caratterizzata
                                                                                                                  1
terminare la grammatica che genera un lin-              dalla presenza di cellule neuronali con com-
guaggio presentato mediante esempi.
Sfortunatamente, questo problema è in-
                                                        portamenti vari e, soprattutto, da pattern di
                                                        interconnessioni neuronali diversi a secon-                   0

                                                                                                              7
M O N D O   D I G I T A L E   •   n . 4   -   d i c e m b r e   2 0 0 3
0


                                        I era                                 Eventi significativi

                                      1943       McCulloch and Pitts, formalizzazione del neurone artificiale [8]
                                      1949       D. Hebb e l’apprendimento per auto-organizzazione [6]
                                      1956       “Dartmouth Summer Research Project on AI” con (Minsky, McCarty,
                                                 Rochester, Shannon)
                                      1960       Widrow: ADALINE [14]
    1                                 1962       Il perceptron di Rosenblatt [11]
                                      1969       “Perceptrons”, Minsky & Papert (edizione espansa [10])
                                      70s        Periodo “buio”: degni di nota gli associatori di Anderson, i modelli per
                                                 apprendimento senza supervisione di Kohonen, gli studi di Grossberg

                                        II era                                Eventi significativi

    0                                 1982       Reti di Hopfield: memorie associative e soluzione di problemi [7]
                                      1986       PDP e diffusione di Backpropagation [12]
                                      1987       La prima conferenza significativa dell'IEEE a San Diego (II era)
                                      1989       I chip neurali si affacciano sul mercato: Analog VLSI and Neural Systems [9]
                  TABELLA 1
                 Alcuni eventi        1990       J. Pollack e le reti neurali che elaborano strutture dati

              significativi che       1994       Prima Conferenza Mondiale sull’Intelligenza Computazionale (Orlando)
            hanno marcato la          1994       Nasce il progetto NeuroCOLT (Computational Learning Theory)
               storia delle reti
                                      2001       L’IEEE approva la creazione della “Neural Networks Society”
             neurali artificiali

                                   do del compito cognitivo. Per i modelli artifi-        effettivamente una genesi biologica, ma
                                   ciali è stata seguita una metafora simile: so-         l’attivazione deve interpretarsi come la fre-
                                   no stati studiati diversi tipi di neuroni e di-        quenza di treni di impulsi più che come un
                                   verse architetture associandovi le modalità            valore assoluto di potenziale. Sono stati an-
                                   di elaborazione concepite per implementa-              che studiati modelli formali, denominati
                                   re un determinato compito cognitivo. In fi-            spiking neurons che producono, a differen-
                                   gura 5 sono illustrati i due tipici neuroni ar-        za dei due precedenti tipi di neuroni, treni di
                                   tificiali che risultano, attualmente, i più in-        impulsi come i neuroni biologici. Gli studi
                                   teressanti dal punto di vista applicativo. Il          sulle aggregazioni di tali neuroni e sui mo-
                                   primo, denominato neurone sigmoidale, è                delli di apprendimento costituiscono un in-
                                   l’evoluzione del percettrone di Rosenblatt             teressante settore di ricerca che, tuttavia,
                                   [11], in cui il processo di decisione ha luogo         non ha, ad oggi, prodotto risultati applicati-
                                   mediante una funzione a gradino, invece,               vi paragonabili a quelli conseguiti con i mo-
                                   della funzione sigmoidale illustrata. Questi           delli semplificati in figura 5.
                                   neuroni si eccitano per punti che sono si-
                                   tuati sopra il piano di separazione, dove si           3.1. I percettroni
                                   annulla l’attivazione, e si inibiscono per             I singoli neuroni descritti in precedenza pos-
                                   punti situati al di sotto. Le unità del secondo        sono essere utilizzati per il calcolo di sempli-
                                   tipo si eccitano per punti contigui al centro          ci predicati, ma non possono certamente
                                   (wia; wib; wic) e si inibiscono quando ci si al-       soddisfare molte significative esigenze reali.
                                   lontana, con una velocità commisurata al               Per esempio, è immediato verificare che i
    1                              parametro radiale σi.
                                   È interessante notare che nei neuroni biolo-
                                                                                          neuroni sigmoidali non possono calcolare
                                                                                          tutte le funzioni booleane di due variabili. In
                                                                                                                                –––––
                                   gici l’attivazione ha la tipica forma di “un           particolare, le funzioni x1 ⊗ x2 e x1 ⊗ x2 non

    0                              treno” di impulsi. La dipendenza dalle con-
                                   nessioni sinaptiche illustrata in figura 5 ha
                                                                                          sono linearmente separabili, mentre, come è
                                                                                          illustrato in figura 6 A, lo sono tutte le 14 altre



        8
                                                                      M O N D O     D I G I T A L E   •   n . 4   -   d i c e m b r e   2 0 0 3
0


                                                        i                                                                         i
                        xi                                                                            xi




                                                                           σi
                                                                                l


                        ai                                                                             ai
                                                                                                                                                                               1
  l          bi
       x




              xw
                ia
                             x w
                                ib
                                              x w
                                                  ic
                                                                                          – w
                                                                                             ia
                                                                                                            – w
                                                                                                               ib
                                                                                                                        – w
                                                                                                                            ic                                                 0
       xa                    xb                        xc                       xa                          xb                   xc
                                                                                                                                              FIGURA 5
                                                                                                                                              Due classici esempi
 A                                                                                                                                        B
                                                                                                                                              di neuroni artificiali

rimanenti. Più complesso è stabilire il com-
                                                                   1                      1                 1           1
portamento del neurone di Rosenblatt nel
caso di interessanti compiti cognitivi, quali il
riconoscimento di forme.                                               0             1        0   1             0   1       0         1
Nella figura 6 B l’immagine è pre-elaborata                        1                      1                 1           1
mediante l’operatore di pre-processing Φ(x)
che fornisce feature significative. Tale condi-
                                                                       0             1        0   1             0   1       0         1
zione impone, ovviamente, che il dominio
                                                                   1                      1                 1           1
dell’operatore sia limitato in modo da stabili-
re feature locali presenti nell’immagine indi-
pendentemente da traslazioni e rotazioni. In-                          0             1        0   1             0   1       0         1
dipendentemente dalla scelta dell’operato-                         1                      1                 1           1
re, Minsky & Papert [10] hanno dimostrato
che alcuni predicati topologici importanti,
                                                                       0             1        0   1             0   1       0         1
quali stabilire la connessione di una figura,                                                                                                 A
non possono essere calcolati. Nella seconda
metà degli anni ’80, grazie soprattutto agli
studi del Parallel Distributed Processing re-
search group, sono state studiate, in modo
sistematico, architetture neurali con architet-
tura a grafo aciclico, in cui è definito un ordi-
namento parziale sui vertici. In tali architet-
ture, un neurone può avere per genitori sia
unità che ingressi (per esempio, il nodo 4, in
Figura 7 A). Lo schema di calcolo si basa sulla                   x
                                                                                         φ (x)
“propagazione in avanti” delle attivazioni dei
neuroni seguendo l’ordinamento parziale del
grafo aciclico.                                                                                                                               B
                                                                                                                                                                           1
Per reti multi-strato lo schema di calcolo si ri-                FIGURA 6
duce a una pipe sui livelli. Tali architetture
erano, in realtà, già state concepite agli inizi
                                                                 Due esempi delle limitazioni del percettrone. A Funzioni booleane a due variabili;
                                                                 B Un percettrone con il compito di stabilire se la figura elaborata è connessa                                0

                                                                                                                                                                       9
M O N D O   D I G I T A L E       •   n . 4     -      d i c e m b r e          2 0 0 3
0


                                            degli anni ’60 e non differiscono sostanzial-                   co con un numero sufficientemente grande di
                                            mente dallo schema illustrato in figura 6 B.                    neuroni. Purtroppo, non sono disponibili
                                            Tuttavia, in quegli anni, si faceva riferimento                 concrete indicazioni di progetto, ma la pro-
                                            a una sola unità neuronale in cui aveva luogo                   prietà di computazione universale può esse-
                                            l’apprendimento e le altre unità erano sem-                     re facilmente compresa almeno in due casi
                                            plicemente il risultato di una pre-elaborazio-                  notevoli.
                                            ne definita in modo esplicito, senza appren-                    1. Funzioni booleane

    1                                       dimento. Nelle reti neurali di figura 7 le unità
                                            sono tutte uguali e sia la precedente elabora-
                                                                                                            È facile rendersi conto che le reti feedforward
                                                                                                            possono realizzare ogni funzione booleana.
                                            zione in avanti che l’apprendimento hanno                       Infatti, ogni funzione booleana si può espri-
                                            luogo in modo omogeneo sui neuroni.                             mere in prima forma canonica. A titolo di
                                            È stato dimostrato che le reti neurali feed-for-                esempio, in figura 8 è illustrata la realizzazio-
                                            word hanno un potere computazionale uni-                        ne della funzione XOR.
                                            versale, ovvero sono in grado di calcolare                      2. Funzioni di appartenenza
    0                                       ogni funzione di ragionevole interesse prati-                   Una funzioni di appartenenza è tale che fU (u) =
                                                                                                            1 se e solo se u ∈ U [fU (u) = 0 ⇔ u ∈ U].
                                                                                                                                                   ¯
                                                                                                            Per domini convessi (Figura 9) l’uscita si può
                               x4 = σ (w43 x34 + w42 x2 + w4c xc)
                                                                                                            determinare come AND di opportuni neuroni
                           7                                                                                dello strato nascosto. Per domini non con-
          6                                                                                                 nessi (Figura 10) e/o concavi l’uscita si può
                                   5
                                                                                                            determinare come l’OR di opportune unità
                                                                                                            nascoste (3 strati - eccetto l’ingresso). Si noti
              3
                                                                                   Calcolo a “pipe”         che questo metodo si basa su un processo
                                                                                                            costruttivo e che, dunque, non si può conclu-
                                                                                                            dere che servono necessariamente due strati
                                        2
                      1
                                                                                                                                  6


                  a                 b                 c
          A                                                                                        B
                                                                                                                     3            4                         5
         FIGURA 7
         A Rete feedforward con struttura a grafo aciclico. B Rete multistrato

                                                          5   x5

                                                 3                  4                                                        1                      2
                                        x3                               x4


                                                                                                                                                                5
                                                1                    2
                                                 u1                 u2                                           4
                          u2                                                  x4
                                            4

                                                          3              1
                      1



    1                                       1
                                                              u1
                                                                                   1
                                                                                                x3
                                                                                                                                                    3

                                                                                                            FIGURA 9

    0    FIGURA 8
         Realizzazione mediante percettrone multistrato della funzione booleana XOR
                                                                                                            Tre unità nascoste che originano i tre iperpiani
                                                                                                            necessari per definire il dominio convesso



    10
                                                                                       M O N D O       D I G I T A L E   •    n . 4   -   d i c e m b r e       2 0 0 3
0


                             11                                         u2
                                                                                                   8              7

                9                              10

    3       4            5        6       7             8                                                                        6

                                                                        5                                                   T2

                                                                         3
                                                                                    T1
                                                                                                   4
                                                                                                                                                                                  1
                    u1                    u2                                                                                         u1


                             11                                          u2

                9                              10
                                                                                                             T2                                                                   0
        3       4            5        6             7
                                                                                                                        6
                                                                                                                                                      FIGURA 10
                                                                                                        4
                                                                                                                       7                              Domini non
                                                                                          T1   5
                                                                              3                                                                       connessi possono
                    u1                    u2                                                                                                          essere ottenuti, per
                                                                                                                                     u1
                                                                                                                                                      esempio, con due
                                                                                                                                                      strati nascosti

nascosti per il calcolo di tali funzioni di ap-
partenenza. Simili elaborazioni si possono                                                                             Stato
                                                                                                                                          Rete multistrato
eseguire anche usando neuroni a simmetria
radiale di figura 5 B.
                                                                                                   Ritardo
3.2 Reti neurali ricorsive                                                                                   Rete multistrato
Le architetture neurali descritte in prece-
denza presuppongono schemi di “calcolo in
avanti”, basati su un ordinamento delle
unità. Come per le funzioni booleane, la pre-                                       A
senza di cicli conduce a elaborazioni più
complesse che coinvolgono sequenze e non
singoli pattern. Una tipica situazione in cui
risulta naturale un’elaborazione sequenzia-
le è quella del riconoscimento di fonemi illu-
strata in figura 11.
L’elaborazione è sincronizzata in corrispon-
denza a ogni frame. I neuroni sono ancora del
tipo illustrato in figura 5, ma oltre agli ingres-
si provenienti dal frame corrente, ai neuroni
dello strato nascosto afferiscono anche co-                                                                                                              Frequenza
me ingresso il valore delle uscite relative al
frame precedente.
Le reti neurali ricorsive presentano strette
connessioni con gli automi, ma il calcolo che                                                                         Tempo
                                                                                                                                                                              1
                                                                                    B
ha luogo nelle unità neuronali ha natura con-
tinua e non discreta. In virtù di tale natura, le
reti neurali ricorsive presentano anche una
                                                                                  FIGURA 11
                                                                                  A Architettura di una generica rete ricorsiva. B Una rete neurale ricorsiva                     0

                                                                                                                                                                             11
M O N D O           D I G I T A L E                 •       n . 4   -   d i c e m b r e    2 0 0 3
0


                                forte connessione con i sistemi dinamici li-                strato in figura un’immagine, che raffigura
                                neari, anche se la loro struttura dinamica è                un pattern corrotto da rumore, viene pre-
                                orientata a processi decisionali.                           sentata in ingresso alla rete ricorsiva. L’in-
                                Le reti ricorsive non elaborano solo sequenze               gresso è costituito dai pixel dell’immagine
                                ma, direttamente, anche grafi i cui nodi con-               o, più in generale, da una forma de-campio-
                                tengono un vettore di numeri reali. Si potreb-              nata a risoluzione più bassa dell’originale.
                                be sempre ricondurre l’elaborazione di strut-               Con opportune scelte dei pesi delle connes-
                                                                                            sioni2, mantenendo l’ingresso costante, la
    1                           ture a quella di opportune sequenze. Tutta-
                                via, rappresentando un grafo come una se-                   rete ricorsiva procede ad aggiornamenti
                                quenza si nascondono caratteristiche discri-                delle attivazioni dei neuroni finché, dopo
                                minanti per l’apprendimento. Inoltre, si può                una fase di rilassamento, raggiunge un pun-
                                mostrare che la riduzione a lunghe sequenze                 to di equilibrio. Com’è illustrato in figura, il
                                derivante dalla codifica di strutture a grafo in            punto di equilibrio corrisponde all’immagi-
                                stringhe rende il problema dell’apprendi-                   ne filtrata dal rumore. In pratica, una rete di
    0                           mento da esempi più costoso. L’elaborazio-
                                ne su grafi ha luogo estendendo il concetto
                                                                                            Hopfield con N ingressi, permette in modo
                                                                                            affidabile di memorizzare un numero di pat-
                                di calcolo dello stato in un automa a stati fini-           tern intorno a 0, 15N e può, pertanto, essere
                                ti dal caso di sequenze a quello di alberi e,               utilizzata come memoria associativa.
                                più generalmente, di grafi aciclici ordinati [5].
                                Per le architetture illustrate l’aggiornamen-
                                                                                            4. APPRENDIMENTO DA ESEMPI
                                to dello stato avviene in modo sincrono ri-
                                spetto all’alimentazione di un nuovo ingres-                Nelle reti neurali artificiali, le architetture il-
                                so della sequenza o della struttura dati. La                lustrate nel paragrafo precedente, assieme
                                struttura di una rete neurale ricorsiva può,                ai corrispondenti schemi computazionali,
                                tuttavia, operare anche elaborazioni se-                    sono di scarso interesse senza il paradigma
                                quenziali, mediante aggiornamento dello                     centrale dell’apprendimento, che viene ispi-
                                stato, di ingressi tenuti fissi. L’esempio più              rato a corrispondente paradigma neurobi-
                                classico è quello delle reti di Hopfield, illu-             liogico. Apprendere in una rete neurale arti-
                                strate in figura 12. Si noti che l’uscita di ogni           ficiale corrisponde a modificare il valore dei
                                neurone è connessa a tutti gli altri e che non              pesi delle connessioni sinaptiche. Tale pro-
                                c’è connessione locale. Nell’esempio illu-                  cesso è influenzato dagli esempi che con-
                                                                                            corrono a sviluppare concetti. I dati e l’inte-
                                                                                            razione con l’ambiente concorrono con di-
                                                                                            versi protocolli allo sviluppo di competenze
                                                                                            cognitive. In particolare, si individuano tre
                                                                                            diverse modalità di apprendimento a secon-
                                                                                            da del ruolo esercitato dal supervisore del
                                                                                            concetto: l’apprendimento con supervisio-
                                                                                            ne, l’apprendimento con rinforzo e l’appren-
                                                                                            dimento senza supervisione.

                                                                                            4.1. Protocolli di apprendimento
                                                                                            Nell’apprendimento con supervisione e con
                                                                                            rinforzo, la rete neurale deve sviluppare un
                                                                                            concetto sulla base delle interazioni con un
                                                                                            supervisore, che provvede a istruire la rete,
                                                                                            fornendo informazioni sul concetto.
    1                                                                                       Si consideri, per esempio, il problema della



    0    FIGURA 12
         Rete di Hopfield utilizzata come memoria associativa per filtrare il rumore
                                                                                            2
                                                                                                In particolare, la matrice delle connessioni è sim-
                                                                                                metrica.



    12
                                                                         M O N D O     D I G I T A L E    •   n . 4   -   d i c e m b r e   2 0 0 3
0


classificazione di insetti illustrato in figura         mente, garanzia di un altrettanto soddisfa-
13. La rete neurale esibisce la sua classifica-         cente funzionamento su altri dati relativi allo
zione e interagisce con il supervisore che              stesso concetto, ma non utilizzati nella fase
può fornire un’informazione completa o par-             di apprendimento (insieme di test). Inoltre, è
ziale sul concetto. Quando l’informazione è             evidente che l’architettura della rete neurale
parziale si parla di “apprendimento con                 gioca un ruolo fondamentale per l’efficienza
rinforzo”; tale informazione deve essere uti-           della fase di apprendimento. Si consideri, ad
lizzata nell’apprendimento per rinforzare
comportamenti corretti e penalizzare quelli
                                                        esempio, il caso delle reti feedforward e il lo-
                                                        ro comportamento al variare del numero del-                                        1
che originano errori.                                   le unità nascoste. In virtù della loro capacità
Nell’“apprendimento con supervisione”, in-              universale di approssimazione, tali reti pos-
vece, il supervisore fornisce l’informazione            sono calcolare ogni concetto. Quando il nu-
completa sul concetto, definendo, in questo             mero delle unità nascoste cresce, non solo
caso, esattamente la classe di appartenenza.            aumenta il potere computazionale, ma si
L’apprendimento di un concetto non richiede
necessariamente l’interazione con un super-
                                                        può dimostrare che il problema della pre-
                                                        senza dei minimi locali diventa progressiva-
                                                                                                                                           0
visore e può aver luogo anche mediante                  mente meno rilevante. Tuttavia, al crescere
un’auto-organizzazione degli esempi. Ap-
prendere senza supervisione significa aggre-
                                                                                       Sbagliato!
gare esempi simili in regioni neuronali topo-
logicamente vicine. In figura 14 è illustrata
l’auto-organizzazione di esempi di classi di-
verse e l’eccitazione dei neuroni spazialmen-                                                                              Ragno
te correlati al concetto. Mentre per i due pre-                                                                            Mosca
cedenti protocolli di apprendimento la varia-                                                                              Zanzara
zione delle connessioni sinaptiche avviene                                                                                 Altro

cercando di ottimizzare l’errore rispetto al-
l’informazione fornita dal supervisore: in                      È un ragno!!!
questo caso, l’apprendimento è guidato da
criteri di “similarità” nei dati.
In generale, i tre protocolli di apprendimento
descritti sono formulabili come ottimizzazio-
ne di una funzione dei pesi della rete neurale.
Nel caso dell’apprendimento con rinforzo e
dell’apprendimento con supervisione, per
rendere il comportamento della rete neurale
conforme alla supervisione occorre minimiz-             FIGURA 13
zare una funzione di errore che dipende dalla           Il paradigma di apprendimento con supervisione e con rinforzo
scelta dei pesi e misura l’errore rispetto alle
informazioni del supervisore. Nel caso del-
l’apprendimento senza supervisione, l’auto-
organizzazione per similarità dei dati può an-
cora, generalmente, formularsi come l’otti-
mizzazione di una funzione di armonia. Il pro-
blema di ottimizzare funzioni in grossi spazi è
generalmente difficile per la potenziale pre-
senza di minimi locali, che può rendere ineffi-
caci le classiche euristiche di ottimizzazione
basate sulla tecnica di massima discesa del
                                                                                                                                       1
gradiente.                                                                                                       FIGURA 14
Il corretto funzionamento di una neurale sul-
l’insieme di apprendimento non offre, ovvia-
                                                                                                                 Apprendimento
                                                                                                                 senza supervisione        0

                                                                                                                                      13
M O N D O   D I G I T A L E   •   n . 4   -   d i c e m b r e     2 0 0 3
0


         della dimensione della rete la capacità di ge-              motivi di efficienza computazionale. Si richie-
         neralizzare su nuovi esempi tende a diminui-                de, in sostanza, che lo schema di aggiorna-
         re dato che il fitting sull’insieme di apprendi-            mento dei pesi preveda, per ogni neurone,
         mento ha luogo in un enorme spazio di para-                 l’uso di informazione disponibile per mezzo
         metri vincolati solo da pochi esempi. Questo                delle sole unità che sono direttamente colle-
         origina una sorta di principio di indetermina-              gate (località spaziale) e che tale informazio-
         zione dell’apprendimento secondo il quale                   ne sia riferita solo all’istante di tempo prece-

    1    non è possibile al variare dei pesi della rete
         neurale ottenere funzioni di errore senza mi-
                                                                     dente (località temporale).
                                                                     Per reti ricorsive con architettura generica ri-
         nimi locali ed eccellente generalizzazione                  sulta difficile concepire schemi di apprendi-
         per nuovi esempi.                                           mento in grado di coniugare entrambe que-
                                                                     ste proprietà, mentre questo è possibile per
         4.2. Algoritmi di apprendimento                             architetture speciali, quali ad esempio quella
         La formulazione dell’apprendimento come                     di figura 11 B, in cui le connessioni che produ-
    0    ottimizzazione della funzione errore rispetto
         alla supervisione permette di attingere all’e-
                                                                     cono la ricorsività sono solo locali ai neuroni.
                                                                     Nei protocolli di apprendimento, considera-
         norme letteratura di analisi numerica per la                ti fino a questo punto, si è assunto che l’ap-
         ricerca degli algoritmi più opportuni. Tutta-               prendimento consiste solo nella variazione
         via, dato che in pratica si opera con reti neu-             dei pesi e che questo ha luogo a partire da
         rali che possono raggiungere centinaia di mi-               una rete neurale con architettura predefini-
         gliaia di variabili3, si restringe di solito l’at-          ta. Il principio di indeterminazione, prece-
         tenzione all’uso dell’euristica di massima di-              dentemente menzionato, suggerisce, tutta-
         scesa del gradiente che, essendo una tecnica                via, che la definizione stessa dell’architettu-
         del primo ordine permette di limitare spazio                ra possa ragionevolmente costituire ogget-
         e tempo di calcolo. Algoritmi di apprendi-                  to del processo di apprendimento. Tale as-
         mento direttamente basati su tecniche itera-                sunzione, che ha solide basi neurobiologi-
         tive, come il gradiente, prendono il nome di                che, conduce dunque allo studio di algorit-
         algoritmi di tipo batch. In tali algoritmi, la va-          mi atti creare e cancellare connessioni si-
         riazione dei pesi avviene solo dopo aver ela-               naptiche oltre che a variarne il peso corri-
         borato tutti gli esempi dell’insieme di ap-                 spondente. Sono stati concepiti algoritmi di
         prendimento. Si possono, però, concepire al-                growing e di pruning delle connessioni ba-
         goritmi nei quali i pesi sono aggiornati in cor-            sati tipicamente sul principio della sensibi-
         rispondenza della presentazione di ogni                     lità dei pesi rispetto al comportamento del-
         esempio (algoritmi di tipo on-line).                        la rete. Sono stati anche proposti algoritmi
         L’entità di variazione dei pesi in corrispon-               genetici per sviluppare l’architettura ade-
         denza degli esempi può condurre, in questo                  guata a un certo “task”. Infine, la supervi-
         caso, a enfatizzare il comportamento corret-                sione può essere fornita in modo più sofisti-
         to sugli “ultimi” esempi presentati, dimenti-               cato mediante uno schema di insegnamen-
         cando i vecchi esempi su cui la rete aveva ap-              to, che mira a presentare il desiderato tar-
         preso. È evidente che tale entità deve anche                get in modo progressivo.
         essere commisurata alla numerosità dell’in-
         sieme di apprendimento. Un aspetto partico-
                                                                     5. PROBLEM SOLVING
         larmente rilevante degli algoritmi di appren-
         dimento, che è talvolta sottovalutato, è costi-             L’architettura ricorsiva della rete di Hopfield
         tuito dalle proprietà di località spaziale e                descritta nel paragrafo 3 è stata oggetto di
         temporale che sono tipicamente gradite per                  molti studi non soltanto per le sue proprietà
                                                                     di memoria associativa, ma anche perché
    1    3
                                                                     ben si presta alla soluzione di molti interes-
                                                                     santi problemi di soddisfacimento di vincoli,
             In alcuni esperimenti di riconoscimento vocale,
             nel gruppo di ricerca di Herve Bourlard (IDIAP,         che hanno spesso natura combinatoriale. Per

    0        Svizzera) sono state utilizzate reti neurali con cir-
             ca un milione di pesi.
                                                                     illustrare questa interessante proprietà si
                                                                     consideri il classico problema di scacchi di al-



    14
                                                  M O N D O     D I G I T A L E   •   n . 4   -   d i c e m b r e   2 0 0 3
0


locare 8 regine su una scacchiera in configu-                                                                   Neuroni di riga
razione di non attacco, ovvero in modo tale
che non si mangino4 (Figura 15).
Questo è un problema di soddisfacimento
                                                                                                  Neuroni diagonali
di vincoli. Occorre, infatti, che, per ogni re-
gina, non siano presenti regine sulla stessa
riga, la stessa colonna e le due diagonali.                                                                             Neuroni diagonali
La soluzione del problema si ottiene me-
diante una rete ricorsiva con un numero di                                                                                                         1
neuroni pari al numero di caselle della
                                                                                                                  Neuroni di colonna
scacchiera. L’eccitazione di un neurone cor-
risponde alla presenza della regina sulla
casella, l’inibizione corrisponde, invece, al-              spondono a soluzioni del problema. Come                    FIGURA 15
la casella vuota. Per risolvere il problema                 nel caso dell’apprendimento tuttavia, la                   Il problema delle 8
occorre tradurre i vincoli del problema in
corrispondenti vincoli sul valore delle atti-
                                                            funzione può essere popolata da minimi lo-
                                                            cali, offrendo pertanto soluzioni spurie. La
                                                                                                                       regine e la sua
                                                                                                                       soluzione mediante
                                                                                                                                                   0
vazioni dei 64 neuroni. Le connessioni della                soluzione sommariamente illustrata per il                  una rete di Hopfield
rete neurale, solo inibitorie, si costruiscono              problema delle 8 regine può essere estesa
associando a ogni neurone un peso negati-                   con metodologie generali per risolvere ge-
vo proveniente dai neuroni associati alle                   nerici problemi di soddisfacimento di vin-
caselle che si trovano sulla stessa riga, sul-              coli, tipicamente molto complessi dal pun-
la stessa colonna e sulle stesse due diago-                 to di vista computazionale quali, per esem-
nali cui appartiene la casella associata al                 pio, il problema del commesso viaggiatore
neurone in oggetto. Non ci sono, dunque,                    e il knapsack. Le soluzioni offerte da que-
auto-connessioni e, inoltre, la matrice dei                 sto approccio sono estremamente efficienti
pesi è simmetrica; se l’unità i è connessa                  oltre a permettere una computazione paral-
all’unità j da un peso wij allora vale anche il             lela per ogni passo del processo dinamico.
viceversa, cioè wji = wij. Si noti che a diffe-             Il problema fondamentale, tuttavia, è che,
renza del caso in cui la rete di Hopfield ope-              come per l’apprendimento, si hanno talvol-
ra da memoria associativa, in questo caso                   ta soluzioni sub-ottime che possono non ri-
non ci sono ingressi collegati e che la codi-               sultare soddisfacenti. In sostanza, con so-
fica del problema è tradotta nel pattern di                 luzioni basate su reti di Hopfield, una volta
interconnessioni. Si può dimostrare che                     “programmate” le connessioni per codifica-
con un simile insieme di collegamenti, par-                 re il problema da risolvere, si può anche
tendo da una qualunque configurazione                       conseguire in modo efficiente una soluzio-
iniziale, la dinamica della rete neurale evol-              ne per problemi intrattabili, ma questo non
ve verso un punto stabile in cui la soluzione               è ovviamente garantito5.
rappresenta configurazioni con regine in
posizione di “non attacco”. Tuttavia, par-
                                                            6. LE APPLICAZIONI
tendo da una configurazione casuale, l’evo-
luzione della dinamica della rete non ga-                   Uno dei motivi del successo delle reti neurali
rantisce che tutte le 8 regine siano piazzate               artificiali è probabilmente da ricercarsi nel lo-
sulla scacchiera. Si può anche dimostrare                   ro massiccio utilizzo in innumerevoli applica-
che l’evoluzione della dinamica corrispon-                  zioni. Il paradigma di apprendimento da
de alla minimizzazione di una funzione                      esempi su cui si basano permette, infatti, di
energia e che i suoi minimi globali corri-                  affrontare problemi di natura anche molto di-


4
    La generalizzazione di questo problema al caso di N regine è stato per anni oggetto di congetture. Si riteneva
                                                                                                                                               1
    si trattasse di un problema computazionalmente intrattabile, ma a metà degli anni novanta si è dimostrato

5
    che esiste una soluzione polinomiale per la determinazione di una configurazione.
    Si tratta, in sostanza, di una delle caratteristiche fondamentali del softcomputing menzionata nel paragrafo 2.
                                                                                                                                                   0

                                                                                                                                              15
M O N D O      D I G I T A L E   •   n . 4   -   d i c e m b r e   2 0 0 3
0


         versa e di fornire soluzioni con uno sforzo re-    compatta da utilizzare in ingresso alla rete
         lativamente limitato.                              neurale. La limitazione del numero degli in-
         Questo è anche stato reso possibile dalla          gressi risulta particolarmente importante
         grande diffusione di pacchetti software per        per limitare il numero degli esempi necessa-
         la simulazione dei modelli più importanti. I       ri per una corretta generalizzazione delle re-
         principali modelli neurali sono oggi disponi-      te a nuovi esempi.
         bili anche in molti tool per data mining di-       Nella figura 16, è illustrato l’uso di un percet-

    1    sponibili nei principali sistemi per basi di
         dati quali il DB2 (Database2). Oltre alla si-
                                                            trone multistrato per la classificazione di lo-
                                                            go aziendali in 4 categorie. La rete ha 256 in-
         mulazione software, sono state studiate di-        gressi e 4 uscite, codificate in modo esclusi-
         verse soluzioni per l’implementazione in           vo, ovvero (1; 0; 0; 0); (0; 1; 0; 0); (0; 0; 1; 0);
         hardware di architetture neurali e dei corri-      (0; 0; 0; 1). Il numero di neuroni nascosti si
         spondenti algoritmi di apprendimento. Mol-         determina per tentativi utilizzando un test di
         ti studi si sono concentrati su come utilizza-     validazione statistica.
    0    re gli attuali modelli di calcolo parallelo per
         l’implementazione dello schema neurale,
                                                            Il percettrone multistrato dimostra eccellenti
                                                            capacità di discriminazione di classi, ma non
         intrinsecamente parallelo. Sono fiorite in-        risulta efficace per attribuire un livello di con-
         numerevoli soluzioni nei laboratori di ricer-      fidenza nella sua decisione.
         ca che hanno avuto anche un certo impatto          In altri termini, mentre molte applicazioni
         commerciale permettendo lo sviluppo di ac-         ne hanno dimostrato la grande efficacia nel-
         celeratori neurali per integrare le capacità di    la discriminazione di classi note a priori, si è
         calcolo di elaboratori tradizionali. Tali acce-    ormai accumulata evidenza sperimentale e
         leratori sono tipicamente gestite da alcuni        supporto teorico per concludere che il per-
         simulatori commerciali. L’impressionante           cettrone non è in grado di attribuire in modo
         evoluzione dei microprocessori che ha avu-         affidabile un peso alle sue decisioni. Que-
         to luogo anche negli anni ’90 ha, tuttavia,        sto rende tale rete neurale usata come clas-
         sostanzialmente ridimensionato l’impor-            sificatore inadatta a problemi in cui è neces-
         tanza di tali soluzioni.                           sario un comportamento di reiezione di pat-
         Si è anche assistito alla nascita di chip neura-   tern che non appartengono alle classi pre-
         li analogici in grado di implementare i para-      stabilite.
         digmi di calcolo direttamente con variabili        Sempre usando il percettrone multistrato, si
         analogiche, senza bisogno di codifica discre-      può ovviare a questo inconveniente median-
         ta. In particolare, è degno di nota l’INTEL        te la configurazione ad autoassociatore illu-
         80170, sviluppato nei laboratori INTEL all’ini-    strata in figura 17.
         zio degli anni novanta. Studi simili sono stati
         computi soprattutto da Synaptics, (Object          6.2. Sistemi ibridi
         Recognizer Chip) e, in Italia, (TOTEM) della       Molte delle applicazioni delle reti neurali a
         NeuriCam.                                          problemi reali richiedono un’opportuna or-
         Uno dei problemi che ha, tuttavia, limitato lo     ganizzazione di sistema e non semplicemen-
         sviluppo di chip tipo l’INTEL 80170 è la limita-   te l’utilizzo diretto dei modelli descritti in
         ta precisione disponibile, che costituisce un      questo articolo. Per esempio, l’estrazione
         problema soprattutto per gli algoritmi di ap-      dell’informazione da una fattura acquisita
         prendimento.                                       mediante uno scanner richiede un opportu-
                                                            no sistema per la gestione documentale, do-
         6.1. Applicazioni al riconoscimento                ve le reti neurali possono giocare un ruolo
         di forme                                           strategico in alcune parti critiche.
         Per illustrare la metodologia alla base di         A titolo di esempio, si consideri il problema
    1    molte delle applicazioni riportate in tabella
         2, si consideri il caso del riconoscimento di
                                                            del riconoscimento di targhe automobilisti-
                                                            che acquisite mediante ordinarie telecamere
         simboli grafici, eventualmente corrotti da         in ambiente autostradale. Tale applicazione

    0    rumore. Occorre pre-elaborare il pattern in
         modo da fornirne una rappresentazione più
                                                            è, per esempio, interessante per le società di
                                                            gestione del traffico autostradale in corri-



    16
                                           M O N D O   D I G I T A L E   •   n . 4   -   d i c e m b r e   2 0 0 3
0


              Settore applicativo                                          Prodotto

   Marketing                                        Airline Marketing Assistant, BehavHeuristics Inc
                                                    Add-ins per Microsoft Excel, NeuroXL, 1998
                                                    AREAS, valutazione automatica immobili, HNC
                                                    Software

   Previsioni finanziarie                           Neurodimension www.nd.com, 1991
                                                    NetProfit (profittaker.con), Neur. Appl. Corp. Appl.         1
   Optical Character Recognition                    Audre Neural Network, Audre Rec. Systems Appl.
                                                    OmniPage 6.0 and 7.0 Pro for Windows, Caere
                                                    OmniPage 6.0 Pro for MacOS
                                                    AnyFax OCR engine
                                                    FaxMaster, Delrina Technology Inc.
                                                    VeriFone Oynx, lettore di assegni, Synaptics
                                                                                                                 0
   Riconoscimento caratteri                         QuickStroke, ric. caratt. cinesi, Synaptics
   manoscritti
                                                    Teleform: ric. caratteri per fax, Cardiff Software
                                                    Application, 1991

   Riconoscimento manoscritti                       Apple Newton 120, Apple
   on-line
                                                    Lexicus Longhand, Lexicus (Motorola)

   Nasi elettronici                                 AromaScan electronic nose, AromaScan
                                                    Bloodhound Electronic Nose, Bloodhound Sensors Ltd
                                                    e-NOSE 4000 electronic nose, Neotronics Scientific

   Controllo di qualità cibi                        test qualità birra Anheuser-Busch

   Bond portfolio management                        Global Bond, Econostat Ltd.

   Controllo frodi (assegni)                        Dunn and Bradstreet

   Controllo frodi (carte credito)                  Falcon, HNC Software
                                                    Nestor In.

   Verifica firma                                   Check Signature Verification System, NeuroMetric
                                                    Vision System Inc.

   Gestione rischio                                 Colleague, Aquarius, HNC Software

   Predizione del consumo elettrico                 Bayernwerk AG Application

   Controllo chip microelettr.                      INTEL

   Controllo qualità gomme                          Dunlop

   Cancellazione di eco                             AT&T/Lucent

   Riconoscimento di banconote                      BANK, D.F. Elettronica
                                                                                                             1
   Riconoscimento di targhe                         PLARE, Società Autostrade e DII (Università di Siena)

TABELLA 2
Una lista di applicazioni di reti neurali che hanno dato origine a prodotti apparsi sul mercato                  0

                                                                                                            17
M O N D O     D I G I T A L E       •   n . 4   -     d i c e m b r e   2 0 0 3
0



                                                                                                                    Classe 1
                                                                                                                    Classe 2
                                                                                                                    Classe 3
                                                                                                                    Classe 4
                 FIGURA 16                                                                                      4

    1        Classificazione
           di loghi aziendali
                                                                                                N


         con un percettrone                                                   256
                  multistrato




    0




               FIGURA 17
            Autoassociatori            Distanze Classe 1           Classe 2            Classe 3                     Classe 4
                   neurali

                                spondenza delle stazioni di esazione a segui-       se. La struttura può integrarsi dinamica-
                                ti di infrazioni in impianti automatici.            mente quando si presenta una eventuale
                                In figura 18, è illustrata l’architettura com-      altra classe. Tale modulo ha la funzione di
                                plessiva di un sistema per il riconoscimento        stabilire una lista di classi candidate, men-
                                di targhe in sperimentazione presso il Di-          tre il modulo a fianco, basato su percettroni
                                partimento di Ingegneria dell’Informazione          multistrato con struttura a classificatore,
                                dell’Università di Siena. Il sistema è com-         serve a raffinare la decisione.
                                posto da moduli sviluppati con tecnologia           Tali classificatori sono tipicamente invocati
                                neurale (in rosa), da moduli basati su clas-        dal modulo centrale quando i candidati si ri-
                                sici approcci di elaborazione delle immagi-         feriscono a classi tipicamente molto confu-
                                ni e da motori inferenziali. Un modulo di           se. In tal caso, appositi classificatori assol-
                                controllo provvede a sincronizzare le ope-          vono unicamente al compito di eliminare
                                razioni dei moduli slave delegati ad assol-         l’ambiguità derivante da classi molto confu-
                                vere le funzioni di segmentazione della tar-        se. Si noti che tali classificatori possono
                                ga, dei caratteri e riconoscimento dei carat-       operare sulla stessa finestra di elaborazio-
                                teri. Altri moduli esprimono vincoli gram-          ne del modulo precedente, ma anche su op-
                                maticali sulle stringhe possibili oltre a una       portune finestre, decise dal modulo centra-
                                probabilità a priori che si presenti una data       le, per enfatizzare le parti del pattern dove
    1                           targa. Il riconoscimento dei caratteri, che
                                costituisce ovviamente l’attività critica, è
                                                                                    si localizzano verosimilmente le differenze.
                                                                                    È anche interessante notare che il processo
                                basato su due moduli. Il primo contiene             di segmentazione dei caratteri è raffinato

    0                           percettroni multistrato con struttura ad au-
                                toassociatore, che modellano le classi atte-
                                                                                    dagli autoassociatori che posizionano la fi-
                                                                                    nestra in un intorno della posizione indicata



    18
                                                                 M O N D O    D I G I T A L E       •   n . 4   -   d i c e m b r e   2 0 0 3
0


                                                                        Segmentazione della targa




                                                                            Segmentazione caratteri




                                                                                                          Adattamento segmentazione
               AB 416 CV
                                                Sistema
                                               di controllo
                                                a regole
                                                                                                                                                                1
            Stringa riconosciuta




               Vincoli
            grammaticali


                                                                        A          B                  0                               FIGURA 18
                                                                                                                                                                0
             Probabilità                                                                                                              Architettura
               a priori
                                                                                                                                      del sistema per il
                                                                                                                                      riconoscimento di
                                                                                                                                      targhe

dal modulo di segmentazione, a seguito di                       all’euristica del gradiente, alla base di molti
elaborazioni atte a stabilire la zona di mas-                   schemi di ottimizzazione utilizzati per le reti
sima risonanza.                                                 neurali e dettati dall’esigenza di ottimizzare
                                                                in spazi di enorme dimensione. Una volta for-
                                                                mulato nell’ambito dell’apprendimento neu-
7. LIMITI E PROSPETTIVE
DI RICERCA                                                      rale, la complessità inerente di un problema
                                                                si rivela in termini della dimensione dello
La ricerca nel settore delle reti neurali artifi-               spazio dei pesi e della forma della superficie
ciali ha raggiunto un certo grado di maturità                   errore da ottimizzare. L’ostacolo fondamen-
sia per quanto riguarda lo sviluppo sistema-                    tale per l’euristica del gradiente è dovuto alla
tico delle metodologie fondamentali che il lo-                  presenza di minimi locali sub-ottimi che in-
ro utilizzo in ambito applicativo. La compren-                  trappolano gli algoritmi di apprendimento.
sione dei limiti fondamentali sembra essere                     Per problemi complessi, l’esplosione del nu-
un passo fondamentale per lo sviluppo ulte-                     mero di tali minimi locali rende inverosimile
riore del settore. Soprattutto in ambito appli-                 la determinazione di soluzioni efficienti. Si è
cativo, tali tecnologie sono state utilizzate                   già accumulata evidenza teorica e sperimen-
talvolta in modo acritico confidando sul prin-                  tale che, a fronte di problemi “complessi”, la
cipio che la “forza bruta” derivante dall’im-                   forma della superficie errore si “regolarizza”
pressionante sviluppo della microelettronica                    e diminuisce la presenza di minimi sub-ottimi
e il sogno della computazione inerentemente                     all’aumentare della dimensione dello spazio
parallela potessero coniugarsi con l’appren-                    dei pesi. Tuttavia, tale aumento di dimensio-
dimento automatico per risolvere importanti                     ne non solo conduce a un incremento di com-
problemi aperti con significativo risvolto ap-                  plessità nel calcolo del gradiente, ma intro-
plicativo. Un’analisi teorica dettagliata sug-                  duce il problema addizionale dell’over-trai-
gerisce la presenza di enormi ostacoli per un                   ning, secondo cui l’apprendimento in pre-
ulteriore sviluppo di approcci basati sugli at-                 senza di spazi dei parametri troppo grossi
tuali schemi di apprendimento automatico.
Alcuni interessanti limiti erano già stati se-
                                                                non garantisce una corretta generalizzazione
                                                                a nuovi esempi. È forse il momento di co-
                                                                                                                                                            1
gnalati da Marvin Minsky nella sua edizione                     struire teorie computazionali dell’apprendi-
espansa di Perceptrons [10]. In particolare,
Minsky aveva già individuato problemi legati
                                                                mento adatte al calcolo neurale, tipicamente
                                                                definito nel continuo, invece, che nel tradi-                                                   0

                                                                                                                                                           19
M O N D O    D I G I T A L E       •   n . 4      -   d i c e m b r e   2 0 0 3
0


                                 zionale contesto discreto. Il PAC (Probably                [2]   Anderson J., Rosenfeld E.: Neurocomputing:
                                 Approximately Correct) learning, ampiamen-                       Foundations of Research. MIT Press, Cambrid-
                                                                                                  ge, (Eds. 1988).
                                 te utilizzato fin qui per la comprensione della
                                 complessità, sembra piuttosto sterile e non                [3]   Angluin D., Smith C.: Inductive inference:
                                                                                                  Theory and methods. Computing Surveys, Vol.
                                 appare molto efficace per la comprensione di
                                                                                                  15, n. 3, 1983, p. 237-269.
                                 tipici contesti applicativi6. Sembra, inoltre,
                                                                                            [4]   Boden M.: Horses of a different colour? In Artifi-
                                 importante procedere nella direzione di svi-                     cial Intelligence and Neural Networks. V. Honavar
    1                            luppare architetture e algoritmi di apprendi-
                                 mento nel contesto di ingressi strutturati, op-            [5]
                                                                                                  and L. Uhr, Eds. Academic Press, 1994, p. 3-19.
                                                                                                  Frasconi P., Gori M., Sperduti A.: A general fra-
                                 portunamente rappresentati. Questo favori-                       mework for adaptive processing of data struc-
                                 sce per altro lo sviluppo di integrazioni più                    tures. IEEE Transactions on Neural Networks,
                                 forti tra modelli simboli e sotto-simbolici e                    Vol. 9, 1998, p. 768-786.
                                 sembra suggerire, in generale, la formulazio-              [6]   Hebb D.: The Organization of Behavior. Wiley,
                                 ne di teorie più generali per il trattamento di                  New York, 1949. Partially reprinted in [Anderson

    0                            dati continui. A tal proposito, Margaret Bo-
                                 den, con riferimento alla novella del “Mago                [7]
                                                                                                  and Rosenfeld, 1988].
                                                                                                  Hopfield J.: Neural networks and physical sy-
                                 di Oz” scrive “[...] the pretty creature was visi-               stems with emergent collective computational
                                                                                                  abilities. Proceedings of the National Academy
                                 bly the same horse, changing colour as it
                                                                                                  of Sciences, USA, Vol. 79, 1982, p. 2554-2558.
                                 trotted along. ... AI is one beast, like the Wi-                 Also in Neurocomputing, The MIT Press, 1988.
                                 zard’s pony”, [4] proponendo il parallelo dei
                                                                                            [8]   McCulloch W., Pitts W.: A logical calculus of
                                 colori del pony con i diversi colori dell’intelli-               ideas immanent in nervous activity. Bulletin of
                                 genza artificiale. Servono forse nuove inte-                     Mathematical Biophysics, Vol. 5, 1943. Reprin-
                                 ressanti miscele di colori, servono schemi                       ted in [Anderson and Rosenfeld, 1988].
                                 per modellare in modo più naturale l’incer-                [9]   Mead C.: Analog VLSI and Neural Systems. Ad-
                                 tezza, serve comprendere più a fondo l’ingre-                    dison Wesley, Reading, 1989.
                                 diente evoluzionistico delle specie per coniu-             [10] Minsky M., Papert S.: Perceptrons - Expanded
                                 garlo con l’apprendimento automatico. E an-                     Edition. MIT Press, Cambridge, 1988.
                                 che gli schemi di apprendimento devono ve-                 [11] Rosenblatt F.: Principles of Neurodynamics:
                                 rosimilmente risultare meno rigidi e, soprat-                   Perceptrons and the Theory of Brain Mechani-
                                 tutto, devono risultare attivi, permettendo                     sm. Spartan Books, Washington D.C, 1962.
                                 un’interazione tra la macchina che apprende                [12] Rumelhart D., Hinton G., Williams R.: Learning
                                 e il suo supervisore7. Forse non importa il                     internal representations by error propagation.
                                                                                                 In Parallel Distributed Processing, D. Rumelhart
                                 “colore” del pony; le reti neurali, e più in ge-
                                                                                                 and J. McClelland, Eds. Vol. 1. MIT Press, Cam-
                                 nerale la computational intelligence, devono                    bridge, Chapter, Vol. 8, 1986, p. 318-362. Re-
                                 integrarsi in modo più forte con i classici mo-                 printed in [Anderson and Rosenfeld, 1988].
                                 delli simbolici. L’ibrido può non solo risultare           [13] Seeley R., Stephens T., Tate P.: Essentials of
                                 vincente nelle applicazioni, ma può originare                   Anatomy and Physiology, McGraw-Hill, 2002.
                                 nuove miscele di colori, ben distinte dai com-             [14] Widrow B., Hoff M.: Adaptive switching circuits.
                                 ponenti.                                                        In IRE WESCON Convention Record. IRE, New
                                                                                                 York, Vol. 4, 1960, p. 96-104.

                                 Bibliografia
                                 [1]   Ablameyko S., Goras L., Gori M., Piuri V.: Limita-   MARCO GORI è professore ordinario all’Università di
                                       tions and Future Trends in Neural Computation.       Siena presso il Dipartimento di Ingegneria del-
                                       IOS Publishing, (Eds 2003).                          l’Informazione. Ha ottenuto il Dottorato di ricerca
                                                                                            all’Università di Bologna, completando la formazio-
                                                                                            ne presso la “School of Computer Science” di Mc-
    1    6
             Per lo stato dell’arte sui limiti e sulle prospettive del calcolo neurale si
             può far riferimento a Ablameyko et al. [1].
                                                                                            Gill University, Montreal. I suoi interessi di ricerca
                                                                                            riguardano l’intelligenza artificiale e le sue applica-
                                                                                            zioni. È attualmente chair del capitolo italiano della
         7
             La ricerca nel settore del learning from queries and examples ha già for-      Neural Networks Society ed è presidente dell’Asso-
    0        nito promettenti indicazioni di riduzione di complessità, ma sembra an-
             cora essere in una fase incipiente, soprattutto per le ricadute applicative.
                                                                                            ciazione Italiana Intelligenza Artificiale.
                                                                                            marco@dii.unisi.it



    20
                                                                         M O N D O     D I G I T A L E   •   n . 4   -   d i c e m b r e    2 0 0 3

More Related Content

More from Fausto Intilla

IA: Princìpi e parametri alternativi, per una fisica alternativa – Intervista...
IA: Princìpi e parametri alternativi, per una fisica alternativa – Intervista...IA: Princìpi e parametri alternativi, per una fisica alternativa – Intervista...
IA: Princìpi e parametri alternativi, per una fisica alternativa – Intervista...Fausto Intilla
 
Attrattori, campi morfogenetici e meccanica quantistica: il nesso.
Attrattori, campi morfogenetici e meccanica quantistica: il nesso.Attrattori, campi morfogenetici e meccanica quantistica: il nesso.
Attrattori, campi morfogenetici e meccanica quantistica: il nesso.Fausto Intilla
 
Fausto Intilla: Dalla teoria dell'informazione al concetto di anima.
Fausto Intilla: Dalla teoria dell'informazione al concetto di anima.Fausto Intilla: Dalla teoria dell'informazione al concetto di anima.
Fausto Intilla: Dalla teoria dell'informazione al concetto di anima.Fausto Intilla
 
Umano, poco umano ...fatto di virus e batteri!
Umano, poco umano ...fatto di virus e batteri!Umano, poco umano ...fatto di virus e batteri!
Umano, poco umano ...fatto di virus e batteri!Fausto Intilla
 
Altre realtà. Quando la visione del mondo, non è in funzione della mente umana
Altre realtà. Quando la visione del mondo, non è in funzione della mente umanaAltre realtà. Quando la visione del mondo, non è in funzione della mente umana
Altre realtà. Quando la visione del mondo, non è in funzione della mente umanaFausto Intilla
 
Quando l'Universo ...calcola sé stesso! L'altra faccia dei buchi neri.
Quando l'Universo ...calcola sé stesso! L'altra faccia dei buchi neri.Quando l'Universo ...calcola sé stesso! L'altra faccia dei buchi neri.
Quando l'Universo ...calcola sé stesso! L'altra faccia dei buchi neri.Fausto Intilla
 
Alla ricerca del reale ...dove nulla, è come appare.
Alla ricerca del reale ...dove nulla, è come appare.Alla ricerca del reale ...dove nulla, è come appare.
Alla ricerca del reale ...dove nulla, è come appare.Fausto Intilla
 
Supremazia quantistica di Google: Mito o realtà?
Supremazia quantistica di Google: Mito o realtà?Supremazia quantistica di Google: Mito o realtà?
Supremazia quantistica di Google: Mito o realtà?Fausto Intilla
 
Gravità quantistica: A che punto siamo?
Gravità quantistica: A che punto siamo?Gravità quantistica: A che punto siamo?
Gravità quantistica: A che punto siamo?Fausto Intilla
 
Una quinta forza fondamentale della natura ...per ora solo ipotetica.
Una quinta forza fondamentale della natura ...per ora solo ipotetica.Una quinta forza fondamentale della natura ...per ora solo ipotetica.
Una quinta forza fondamentale della natura ...per ora solo ipotetica.Fausto Intilla
 
Riscaldamento globale: un'analisi obiettiva.
Riscaldamento globale: un'analisi obiettiva.Riscaldamento globale: un'analisi obiettiva.
Riscaldamento globale: un'analisi obiettiva.Fausto Intilla
 
Quantum computing: stato dell'arte e potenziali sviluppi - Intervista a Faust...
Quantum computing: stato dell'arte e potenziali sviluppi - Intervista a Faust...Quantum computing: stato dell'arte e potenziali sviluppi - Intervista a Faust...
Quantum computing: stato dell'arte e potenziali sviluppi - Intervista a Faust...Fausto Intilla
 
Aforismario 3 - Aforismi sulla saggezza del vivere
Aforismario 3 - Aforismi sulla saggezza del vivereAforismario 3 - Aforismi sulla saggezza del vivere
Aforismario 3 - Aforismi sulla saggezza del vivereFausto Intilla
 
Esperimenti sulle disuguaglianze di Bell - Dalle origini al crollo del realis...
Esperimenti sulle disuguaglianze di Bell - Dalle origini al crollo del realis...Esperimenti sulle disuguaglianze di Bell - Dalle origini al crollo del realis...
Esperimenti sulle disuguaglianze di Bell - Dalle origini al crollo del realis...Fausto Intilla
 
Dal fermione di majorana al computer quantistico.
Dal fermione di majorana al computer quantistico.Dal fermione di majorana al computer quantistico.
Dal fermione di majorana al computer quantistico.Fausto Intilla
 
Fundamental principle of information to-energy conversion.
Fundamental principle of information to-energy conversion.Fundamental principle of information to-energy conversion.
Fundamental principle of information to-energy conversion.Fausto Intilla
 
What happens if measure the electron spin twice?
What happens if measure the electron spin twice?What happens if measure the electron spin twice?
What happens if measure the electron spin twice?Fausto Intilla
 
A non local linear dynamical system and violation of Bell’s inequality.
A non local linear dynamical system and violation of Bell’s inequality.A non local linear dynamical system and violation of Bell’s inequality.
A non local linear dynamical system and violation of Bell’s inequality.Fausto Intilla
 
Sonde spaziali: In viaggio tra i segreti del cosmo.
Sonde spaziali: In viaggio tra i segreti del cosmo. Sonde spaziali: In viaggio tra i segreti del cosmo.
Sonde spaziali: In viaggio tra i segreti del cosmo. Fausto Intilla
 
Pensieri. Confessioni di una mente in libertà.
Pensieri. Confessioni di una mente in libertà.Pensieri. Confessioni di una mente in libertà.
Pensieri. Confessioni di una mente in libertà.Fausto Intilla
 

More from Fausto Intilla (20)

IA: Princìpi e parametri alternativi, per una fisica alternativa – Intervista...
IA: Princìpi e parametri alternativi, per una fisica alternativa – Intervista...IA: Princìpi e parametri alternativi, per una fisica alternativa – Intervista...
IA: Princìpi e parametri alternativi, per una fisica alternativa – Intervista...
 
Attrattori, campi morfogenetici e meccanica quantistica: il nesso.
Attrattori, campi morfogenetici e meccanica quantistica: il nesso.Attrattori, campi morfogenetici e meccanica quantistica: il nesso.
Attrattori, campi morfogenetici e meccanica quantistica: il nesso.
 
Fausto Intilla: Dalla teoria dell'informazione al concetto di anima.
Fausto Intilla: Dalla teoria dell'informazione al concetto di anima.Fausto Intilla: Dalla teoria dell'informazione al concetto di anima.
Fausto Intilla: Dalla teoria dell'informazione al concetto di anima.
 
Umano, poco umano ...fatto di virus e batteri!
Umano, poco umano ...fatto di virus e batteri!Umano, poco umano ...fatto di virus e batteri!
Umano, poco umano ...fatto di virus e batteri!
 
Altre realtà. Quando la visione del mondo, non è in funzione della mente umana
Altre realtà. Quando la visione del mondo, non è in funzione della mente umanaAltre realtà. Quando la visione del mondo, non è in funzione della mente umana
Altre realtà. Quando la visione del mondo, non è in funzione della mente umana
 
Quando l'Universo ...calcola sé stesso! L'altra faccia dei buchi neri.
Quando l'Universo ...calcola sé stesso! L'altra faccia dei buchi neri.Quando l'Universo ...calcola sé stesso! L'altra faccia dei buchi neri.
Quando l'Universo ...calcola sé stesso! L'altra faccia dei buchi neri.
 
Alla ricerca del reale ...dove nulla, è come appare.
Alla ricerca del reale ...dove nulla, è come appare.Alla ricerca del reale ...dove nulla, è come appare.
Alla ricerca del reale ...dove nulla, è come appare.
 
Supremazia quantistica di Google: Mito o realtà?
Supremazia quantistica di Google: Mito o realtà?Supremazia quantistica di Google: Mito o realtà?
Supremazia quantistica di Google: Mito o realtà?
 
Gravità quantistica: A che punto siamo?
Gravità quantistica: A che punto siamo?Gravità quantistica: A che punto siamo?
Gravità quantistica: A che punto siamo?
 
Una quinta forza fondamentale della natura ...per ora solo ipotetica.
Una quinta forza fondamentale della natura ...per ora solo ipotetica.Una quinta forza fondamentale della natura ...per ora solo ipotetica.
Una quinta forza fondamentale della natura ...per ora solo ipotetica.
 
Riscaldamento globale: un'analisi obiettiva.
Riscaldamento globale: un'analisi obiettiva.Riscaldamento globale: un'analisi obiettiva.
Riscaldamento globale: un'analisi obiettiva.
 
Quantum computing: stato dell'arte e potenziali sviluppi - Intervista a Faust...
Quantum computing: stato dell'arte e potenziali sviluppi - Intervista a Faust...Quantum computing: stato dell'arte e potenziali sviluppi - Intervista a Faust...
Quantum computing: stato dell'arte e potenziali sviluppi - Intervista a Faust...
 
Aforismario 3 - Aforismi sulla saggezza del vivere
Aforismario 3 - Aforismi sulla saggezza del vivereAforismario 3 - Aforismi sulla saggezza del vivere
Aforismario 3 - Aforismi sulla saggezza del vivere
 
Esperimenti sulle disuguaglianze di Bell - Dalle origini al crollo del realis...
Esperimenti sulle disuguaglianze di Bell - Dalle origini al crollo del realis...Esperimenti sulle disuguaglianze di Bell - Dalle origini al crollo del realis...
Esperimenti sulle disuguaglianze di Bell - Dalle origini al crollo del realis...
 
Dal fermione di majorana al computer quantistico.
Dal fermione di majorana al computer quantistico.Dal fermione di majorana al computer quantistico.
Dal fermione di majorana al computer quantistico.
 
Fundamental principle of information to-energy conversion.
Fundamental principle of information to-energy conversion.Fundamental principle of information to-energy conversion.
Fundamental principle of information to-energy conversion.
 
What happens if measure the electron spin twice?
What happens if measure the electron spin twice?What happens if measure the electron spin twice?
What happens if measure the electron spin twice?
 
A non local linear dynamical system and violation of Bell’s inequality.
A non local linear dynamical system and violation of Bell’s inequality.A non local linear dynamical system and violation of Bell’s inequality.
A non local linear dynamical system and violation of Bell’s inequality.
 
Sonde spaziali: In viaggio tra i segreti del cosmo.
Sonde spaziali: In viaggio tra i segreti del cosmo. Sonde spaziali: In viaggio tra i segreti del cosmo.
Sonde spaziali: In viaggio tra i segreti del cosmo.
 
Pensieri. Confessioni di una mente in libertà.
Pensieri. Confessioni di una mente in libertà.Pensieri. Confessioni di una mente in libertà.
Pensieri. Confessioni di una mente in libertà.
 

Introduzione Alle Reti Neurali Artificiali

  • 1. INTRODUZIONE ALLE RETI NEURALI ARTIFICIALI Marco Gori Nonostante gli straordinari successi dell'elaborazione dell'informazione, che stanno esercitando un impatto di portata storica nella vita quotidiana, competenze percettive quali localizzare un oggetto in una scena, ricono- scere la voce in ordinarie condizioni reali, prendere decisioni basate sul “senso comune”, risultano ancora compiti estremamente difficili per le macchine. Nel seguito, viene presentato un quadro generale dell'elabora- 3.6 zione neurale: successi, fallimenti e prospettive applicative. 1. IL MONDO SOTTO-SIMBOLICO colo simbolico alla base degli attuali elabo- G li odierni sistemi di elaborazione del- l’informazione hanno compiuto prodigi che sono sotto gli occhi di tutti. Le macchine ratori. Si consideri, per esempio, il problema della descrizione dell’informazione presente in hanno automatizzato perfettamente pro- un’immagine che richiede la localizzazione e cessi considerati tipicamente di pertinenza il riconoscimento di oggetti significativi per umana, quali recuperare informazione in un l’uomo. Tale processo richiede la capacità di archivio ed eseguire calcoli. Con l’intelligen- segmentazione che, tuttavia, non può aver za artificiale si sono spinte verso l’automa- luogo solo con operazioni di basso livello ba- zione del ragionamento simbolico, fino ai si- sate, per esempio, sul rilievo di variazioni di stemi esperti, in grado di modellare e ren- luminosità. La segmentazione in una scena dere fruibile la conoscenza di esperti in spe- non può prescindere da processi cognitivi in cifici settori. Ma nonostante i formidabili ri- grado di esibire competenza sugli oggetti e, sultati conseguiti nell’automazione di alcu- più generalmente, del mondo oggetto dell’e- ni processi intelligenti, soprattutto di alto li- laborazione. Inoltre, soprattutto nel mondo vello, le macchine offrono ancora un com- tridimensionale, gli oggetti si propongono portamento piuttosto primitivo e incompa- con molteplici viste e, di nuovo, la loro perce- rabile con l’uomo nella simulazione della zione, sembra richiedere modelli ben più so- maggioranza dei processi percettivi. La dif- fisticati di semplici comparazioni con oggetti ficoltà di automatizzare tali processi è spes- di un dizionario. L’analisi attenta della nozio- so trascurata per il fatto che già nel mondo ne di similarità di oggetti o quotidiane acqui- animale sono presenti capacità percettive sizioni quali, per esempio, “la facciata di una talvolta straordinarie. Tali capacità, svilup- casa” (Figura 1) indicano lo sviluppo di com- pate in secoli di processi evolutivi, risultano petenze che non sono basate su elaborazio- difficili da replicare usando i modelli di cal- ne simbolica e ragionamenti qualitativi di dif- 4 M O N D O D I G I T A L E • n . 4 - d i c e m b r e 2 0 0 3
  • 2. 0 ficile formalizzazione. L’esempio indicato in figura 1 illustra, inoltre, un livello di sofistica- zione dell’analisi umana delle scene che ri- sulta molto difficile da trasferire alle macchi- ne: con uno sguardo attento si riconosce fa- cilmente che le case nella scena sono, in realtà, miniature. La foto ritrae un paesaggio di un piccolo paese della montagna pistoiese in occasione del Natale, ma discernere il 1 mondo artificiale miniaturizzato dal mondo reale è un compito realmente arduo per le macchine. Il problema del riconoscimento automatico della voce offre difficoltà simili. Il segnale vocale rappresentato in figura 2, as- sieme al suo spettrogramma, illustra alcuni aspetti della difficoltà del problema. Si pre- FIGURA 1 0 senta di nuovo il problema della segmenta- Un paesaggio della montagna pistoiese durante il Natale zione; anche in questo caso non si può fare affidamento su elementari elaborazioni di 0.0a 0.2a 0.3a 0.4a 0.5a 0.6a 0.1a 0.7a basso livello del segnale, quale per esempio il controllo del livello per separare le parole. Segmentazione spuria Infatti, basta per esempio la presenza di oc- clusive sorde all’interno di una parola per il fallimento della segmentazione; la parola compute (si veda, a tal proposito, il segnale corrispondente a una sua pronuncia in figura 2) verrebbe, infatti, spezzata in due parti per la presenza dell’occlusiva sorda “p”. Per via dell’enorme variabilità dovuta alla velocità di pronuncia, alla prosodia, al parlatore e a va- rie altre condizioni di rumore, le parole, inol- Compute p tre, non sono facilmente rappresentabili me- diante un dizionario di centroidi, ovvero di “istanze medie” di riferimento delle parole gnificato degli ingressi e dalla loro conse- FIGURA 2 del dizionario. guente elaborazione mediante algoritmi. Segnale I problemi menzionati si presentano ormai in Non è, tuttavia, sempre possibile, o comun- e spettrogramma molteplici applicazioni nelle quali l’elabora- que verosimile, associare agli ingressi un si- relativo alla zione di informazione multimediale assume gnificato e una conseguente caratterizzazio- pronuncia del verbo un ruolo sempre più rilevante. Si pensi, per ne simbolica1. Serve, dunque, dotare i calco- “to computequot; esempio, alla navigazione autonoma di un latori di processi computazionali che non sia- robot, ai data base visuali, alla definizione di no necessariamente basati sulla metafora interfacce personalizzate, alla gestione di im- dell’algoritmo, secondo cui la soluzione di un magini di documenti, alla concezione di mo- problema avviene mediante un processo co- delli per l’estrazione di informazione dal struttivo atto ad esplicitare, simbolicamente, web. I problemi menzionati, assieme ad altri, le elaborazioni sugli ingressi caratterizzati hanno in comune il fatto che non sembrano simbolicamente. Per alcuni problemi, questo naturalmente affrontabili mediante soluzioni approccio non appare naturale e risulta di basate su elaborazione simbolica. L’informa- zione da elaborare si presenta con una codifi- difficile, se non impossibile, formalizzazione. 1 ca a cui non è semplice attaccare significato. Il prodigio della scienza dei calcolatori pro- viene tipicamente dalla conoscenza del si- 1 Nelle scienze cognitive questo problema è noto come the symbol ground problem. 0 5 M O N D O D I G I T A L E • n . 4 - d i c e m b r e 2 0 0 3
  • 3. 0 2. LA METAFORA da un corpo detto soma e da due tipi di dira- NEUROBIOLOGICA mazioni: i dentriti e il cilindrasse o assone. Allo stato attuale, a differenza delle macchine, Nel cervello umano sono presenti tipica- l’uomo è un ottimo esempio di “sistema” in mente oltre 100 miliardi di neuroni, ciascu- grado di elaborare informazione sotto-simbo- no interconnesso a circa altri 10.000. Nelle liche. Tali elaborazioni, come ogni altro pro- interconnessioni ha luogo la sinapsi, un cesso cognitivo, hanno sede nel cervello, una processo elettrochimico atto a rinforzare o 1 complessa struttura neurobiologica, attual- mente decifrata in modo piuttosto accurato inibire l’interazione cellulare. I segnali rile- vabili hanno un potenziale dell’ordine di al- per quanto riguarda gli aspetti anatomici. È cune decine di millVolt e si presentano co- noto che c’è un “mattone elementare” che ca- me treni di impulsi con frequenza intorno ai ratterizza tutte le strutture cerebrali, una cel- 100 Hz, con opportune modulazioni. Sono lula, denominata neurone, che è sede di pro- noti modelli sofisticati che esprimono il po- cessi elettrochimici responsabili per la gene- tenziale della cella (attivazione) in funzione 0 razione di campi elettromagnetici. Come è il- lustrato in figura 3, i neuroni sono composti del potenziale delle celle interconnesse. È opinione condivisa da ricercatori nel mondo delle scienze cognitive che i segnali elettrici Soma presenti nei neuroni siano alla base dell’ela- Assone borazione dell’informazione a livello cere- brale. Le capacità cognitive sarebbero, dun- que, in relazione all’elaborazione dei segna- li presenti nei neuroni. Inoltre, c’è evidenza Sinapsi sperimentale per sostenere che la struttura cerebrale e le sinapsi siano influenzate dal- Dentriti la vita degli individui, dalle loro esperienze, dall’apprendimento di compiti specifici. È il particolare pattern di interconnessioni e la forza delle connessioni sinaptiche che defi- nisce le proprietà funzionali di una partico- lare porzione del cervello. Si è, infatti, verifi- cato sperimentalmente che le funzioni co- gnitive risiedono in particolari zone e che FIGURA 3 tali funzioni possono essere perdute a se- Neurone e sua struttura cellulare con soma, dentriti e connessioni sinaptiche guito della “rottura” dei legami sinaptici ed Corteccia motoria Solco centrale Corteccia primaria primaria somoestetica Area premotoria Area del gusto Area di associazione somoestetica Area di associazione visiva Area prefrontale Corteccia visiva Area motoria della parola 1 FIGURA 4 Organizzazione del (area di Broca) Area sensoriale della parola (area di Wernicke) Area di associazione cervello umano e uditiva Corteccia uditiva 0 sua localizzazione funzionale [13] primaria 6 M O N D O D I G I T A L E • n . 4 - d i c e m b r e 2 0 0 3
  • 4. 0 eventualmente recuperate, almeno in parte, trattabile perfino in caso di semplici gram- con successivi processi di apprendimento matiche [3]. atti a instaurare nuovi pattern di intercon- Era, tuttavia, ben chiaro ai padri dell’informa- nessione sinaptica (Figura 4). tica che non è necessaria una perfetta emula- Dato che la struttura cerebrale e il compor- zione dei processi neurobiologici per l’emer- tamento elettromagnetico delle singole genza di capacità cognitive. Molti modelli celle neuronali sono noti, i ricercatori si so- connessionistici sono, infatti, solo ispirati dal no ben preso chiesti se si possono operare induzioni sui comportamenti collettivi del- paradigma biologico a livello di unità neuro- nale e si basano sulla struttura indicata in fi- 1 le cellule neuronali, e dunque del cervello gura 3, dove si eredita il principio che l’attiva- umano, e se si possono trarre utili suggeri- zione neuronale (potenziale associato all’u- menti e ispirazioni per la costruzione di nità) è soggetta a eccitazioni e inibizioni dal- macchine in grado di replicare compiti con- le unità connesse. In particolare, l’attivazio- notati da una forte componente di elabora- ne dell’unità i dipende dall’attivazione della zione sotto-simbolica, attualmente di diffi- cile soluzione per i calcolatori. Il lavoro di generica unità j mediante un parametro as- sociato alla connessione tra le due unità, che 0 McCulloch & Pitts [8] è forse il primo signi- modella il principio elettrochimico della sina- ficativo passo in questa direzione, la prima psi. In seguito, sarà illustrato come l’utilizzo analisi completa, soprattutto dal punto di di modelli di calcolo basati su reti neurali ar- vista formale, che fa intuire come semplici tificiali sia in grado di esibire quello che Lotfi unità con sinapsi eccitatorie e inibitorie e Zadeh ha definito softcomputing secondo con apposita soglia siano in grado, in virtù cui il requisito “trova sempre la soluzione di un processo collettivo, di rappresentare esatta” diventa “trova spesso una soluzione complesse proposizioni. E questo sembra approssimata”. indurli a un certo ottimismo anche per le La ricerca sulle reti neurali artificiali si è evo- possibili implicazioni sulla comprensione luta attraverso alterne vicende. Sin dagli al- dei processi cognitivi umani: “Mind no lon- bori dell’informatica, l’elaborazione basata ger goes more ghostly than a ghost”. Tut- su algoritmi e i modelli neurali centrati sul- tavia il lavoro di McCulluch e Pitt sembra l’apprendimento da esempi si sono sviluppa- essere stato più rilevante per gli sviluppi ti in parallelo. Verso la fine degli anni ’60, nel settore dei calcolatori che non delle Marvin Minsky e Simon Paper [10] pubblica- scienze cognitive. Carpire i segreti della no “Perceptrons”, un libro che analizza con mente dall’osservazione dell’attivazione grande lucidità ed elegante formalizzazione cerebrale è una sfida affascinante, ma que- le capacità computazionali del percettrone di sto problema di reverse engineering sem- Rosenblatt. La comunità scientifica recepisce bra essere terribilmente intrappolato nella principalmente l’analisi critica del percettro- complessità del sistema neuronale umano. ne e segue una fase di stagnazione che si Si tratta sostanzialmente di indurre regola- protrae fino agli inizi degli anni ’80. L’interes- rità e leggi dall’osservazione, come in altri se rifiorisce, in particolare, per i lavori di Hop- settori delle scienze. Questo problema field e del Parallel Distributed Research Cen- possiede, tuttavia, un’infinità di sfaccetta- ter sulle reti neurali multistrato con l’algorit- ture e, soprattutto, richiede un processo di mo di apprendimento Backpropagation. Al- induzione che sembra inerentemente in- tre tappe importanti della ricerca nel settore trappolato nella complessità dei sistemi di- sono riassunte nella tabella 1. namici oggetto dello studio. Inferire regole dagli esempi sembra essere difficile anche 3. ARCHITETTURE NEURALI in casi elementari; si pensi, a titolo di esempio, al problema dell’inferenza indut- tiva di grammatiche, che consiste nel de- Le neuroscienze hanno permesso di stabili- re che la struttura cerebrale è caratterizzata 1 terminare la grammatica che genera un lin- dalla presenza di cellule neuronali con com- guaggio presentato mediante esempi. Sfortunatamente, questo problema è in- portamenti vari e, soprattutto, da pattern di interconnessioni neuronali diversi a secon- 0 7 M O N D O D I G I T A L E • n . 4 - d i c e m b r e 2 0 0 3
  • 5. 0 I era Eventi significativi 1943 McCulloch and Pitts, formalizzazione del neurone artificiale [8] 1949 D. Hebb e l’apprendimento per auto-organizzazione [6] 1956 “Dartmouth Summer Research Project on AI” con (Minsky, McCarty, Rochester, Shannon) 1960 Widrow: ADALINE [14] 1 1962 Il perceptron di Rosenblatt [11] 1969 “Perceptrons”, Minsky & Papert (edizione espansa [10]) 70s Periodo “buio”: degni di nota gli associatori di Anderson, i modelli per apprendimento senza supervisione di Kohonen, gli studi di Grossberg II era Eventi significativi 0 1982 Reti di Hopfield: memorie associative e soluzione di problemi [7] 1986 PDP e diffusione di Backpropagation [12] 1987 La prima conferenza significativa dell'IEEE a San Diego (II era) 1989 I chip neurali si affacciano sul mercato: Analog VLSI and Neural Systems [9] TABELLA 1 Alcuni eventi 1990 J. Pollack e le reti neurali che elaborano strutture dati significativi che 1994 Prima Conferenza Mondiale sull’Intelligenza Computazionale (Orlando) hanno marcato la 1994 Nasce il progetto NeuroCOLT (Computational Learning Theory) storia delle reti 2001 L’IEEE approva la creazione della “Neural Networks Society” neurali artificiali do del compito cognitivo. Per i modelli artifi- effettivamente una genesi biologica, ma ciali è stata seguita una metafora simile: so- l’attivazione deve interpretarsi come la fre- no stati studiati diversi tipi di neuroni e di- quenza di treni di impulsi più che come un verse architetture associandovi le modalità valore assoluto di potenziale. Sono stati an- di elaborazione concepite per implementa- che studiati modelli formali, denominati re un determinato compito cognitivo. In fi- spiking neurons che producono, a differen- gura 5 sono illustrati i due tipici neuroni ar- za dei due precedenti tipi di neuroni, treni di tificiali che risultano, attualmente, i più in- impulsi come i neuroni biologici. Gli studi teressanti dal punto di vista applicativo. Il sulle aggregazioni di tali neuroni e sui mo- primo, denominato neurone sigmoidale, è delli di apprendimento costituiscono un in- l’evoluzione del percettrone di Rosenblatt teressante settore di ricerca che, tuttavia, [11], in cui il processo di decisione ha luogo non ha, ad oggi, prodotto risultati applicati- mediante una funzione a gradino, invece, vi paragonabili a quelli conseguiti con i mo- della funzione sigmoidale illustrata. Questi delli semplificati in figura 5. neuroni si eccitano per punti che sono si- tuati sopra il piano di separazione, dove si 3.1. I percettroni annulla l’attivazione, e si inibiscono per I singoli neuroni descritti in precedenza pos- punti situati al di sotto. Le unità del secondo sono essere utilizzati per il calcolo di sempli- tipo si eccitano per punti contigui al centro ci predicati, ma non possono certamente (wia; wib; wic) e si inibiscono quando ci si al- soddisfare molte significative esigenze reali. lontana, con una velocità commisurata al Per esempio, è immediato verificare che i 1 parametro radiale σi. È interessante notare che nei neuroni biolo- neuroni sigmoidali non possono calcolare tutte le funzioni booleane di due variabili. In ––––– gici l’attivazione ha la tipica forma di “un particolare, le funzioni x1 ⊗ x2 e x1 ⊗ x2 non 0 treno” di impulsi. La dipendenza dalle con- nessioni sinaptiche illustrata in figura 5 ha sono linearmente separabili, mentre, come è illustrato in figura 6 A, lo sono tutte le 14 altre 8 M O N D O D I G I T A L E • n . 4 - d i c e m b r e 2 0 0 3
  • 6. 0 i i xi xi σi l ai ai 1 l bi x xw ia x w ib x w ic – w ia – w ib – w ic 0 xa xb xc xa xb xc FIGURA 5 Due classici esempi A B di neuroni artificiali rimanenti. Più complesso è stabilire il com- 1 1 1 1 portamento del neurone di Rosenblatt nel caso di interessanti compiti cognitivi, quali il riconoscimento di forme. 0 1 0 1 0 1 0 1 Nella figura 6 B l’immagine è pre-elaborata 1 1 1 1 mediante l’operatore di pre-processing Φ(x) che fornisce feature significative. Tale condi- 0 1 0 1 0 1 0 1 zione impone, ovviamente, che il dominio 1 1 1 1 dell’operatore sia limitato in modo da stabili- re feature locali presenti nell’immagine indi- pendentemente da traslazioni e rotazioni. In- 0 1 0 1 0 1 0 1 dipendentemente dalla scelta dell’operato- 1 1 1 1 re, Minsky & Papert [10] hanno dimostrato che alcuni predicati topologici importanti, 0 1 0 1 0 1 0 1 quali stabilire la connessione di una figura, A non possono essere calcolati. Nella seconda metà degli anni ’80, grazie soprattutto agli studi del Parallel Distributed Processing re- search group, sono state studiate, in modo sistematico, architetture neurali con architet- tura a grafo aciclico, in cui è definito un ordi- namento parziale sui vertici. In tali architet- ture, un neurone può avere per genitori sia unità che ingressi (per esempio, il nodo 4, in Figura 7 A). Lo schema di calcolo si basa sulla x φ (x) “propagazione in avanti” delle attivazioni dei neuroni seguendo l’ordinamento parziale del grafo aciclico. B 1 Per reti multi-strato lo schema di calcolo si ri- FIGURA 6 duce a una pipe sui livelli. Tali architetture erano, in realtà, già state concepite agli inizi Due esempi delle limitazioni del percettrone. A Funzioni booleane a due variabili; B Un percettrone con il compito di stabilire se la figura elaborata è connessa 0 9 M O N D O D I G I T A L E • n . 4 - d i c e m b r e 2 0 0 3
  • 7. 0 degli anni ’60 e non differiscono sostanzial- co con un numero sufficientemente grande di mente dallo schema illustrato in figura 6 B. neuroni. Purtroppo, non sono disponibili Tuttavia, in quegli anni, si faceva riferimento concrete indicazioni di progetto, ma la pro- a una sola unità neuronale in cui aveva luogo prietà di computazione universale può esse- l’apprendimento e le altre unità erano sem- re facilmente compresa almeno in due casi plicemente il risultato di una pre-elaborazio- notevoli. ne definita in modo esplicito, senza appren- 1. Funzioni booleane 1 dimento. Nelle reti neurali di figura 7 le unità sono tutte uguali e sia la precedente elabora- È facile rendersi conto che le reti feedforward possono realizzare ogni funzione booleana. zione in avanti che l’apprendimento hanno Infatti, ogni funzione booleana si può espri- luogo in modo omogeneo sui neuroni. mere in prima forma canonica. A titolo di È stato dimostrato che le reti neurali feed-for- esempio, in figura 8 è illustrata la realizzazio- word hanno un potere computazionale uni- ne della funzione XOR. versale, ovvero sono in grado di calcolare 2. Funzioni di appartenenza 0 ogni funzione di ragionevole interesse prati- Una funzioni di appartenenza è tale che fU (u) = 1 se e solo se u ∈ U [fU (u) = 0 ⇔ u ∈ U]. ¯ Per domini convessi (Figura 9) l’uscita si può x4 = σ (w43 x34 + w42 x2 + w4c xc) determinare come AND di opportuni neuroni 7 dello strato nascosto. Per domini non con- 6 nessi (Figura 10) e/o concavi l’uscita si può 5 determinare come l’OR di opportune unità nascoste (3 strati - eccetto l’ingresso). Si noti 3 Calcolo a “pipe” che questo metodo si basa su un processo costruttivo e che, dunque, non si può conclu- dere che servono necessariamente due strati 2 1 6 a b c A B 3 4 5 FIGURA 7 A Rete feedforward con struttura a grafo aciclico. B Rete multistrato 5 x5 3 4 1 2 x3 x4 5 1 2 u1 u2 4 u2 x4 4 3 1 1 1 1 u1 1 x3 3 FIGURA 9 0 FIGURA 8 Realizzazione mediante percettrone multistrato della funzione booleana XOR Tre unità nascoste che originano i tre iperpiani necessari per definire il dominio convesso 10 M O N D O D I G I T A L E • n . 4 - d i c e m b r e 2 0 0 3
  • 8. 0 11 u2 8 7 9 10 3 4 5 6 7 8 6 5 T2 3 T1 4 1 u1 u2 u1 11 u2 9 10 T2 0 3 4 5 6 7 6 FIGURA 10 4 7 Domini non T1 5 3 connessi possono u1 u2 essere ottenuti, per u1 esempio, con due strati nascosti nascosti per il calcolo di tali funzioni di ap- partenenza. Simili elaborazioni si possono Stato Rete multistrato eseguire anche usando neuroni a simmetria radiale di figura 5 B. Ritardo 3.2 Reti neurali ricorsive Rete multistrato Le architetture neurali descritte in prece- denza presuppongono schemi di “calcolo in avanti”, basati su un ordinamento delle unità. Come per le funzioni booleane, la pre- A senza di cicli conduce a elaborazioni più complesse che coinvolgono sequenze e non singoli pattern. Una tipica situazione in cui risulta naturale un’elaborazione sequenzia- le è quella del riconoscimento di fonemi illu- strata in figura 11. L’elaborazione è sincronizzata in corrispon- denza a ogni frame. I neuroni sono ancora del tipo illustrato in figura 5, ma oltre agli ingres- si provenienti dal frame corrente, ai neuroni dello strato nascosto afferiscono anche co- Frequenza me ingresso il valore delle uscite relative al frame precedente. Le reti neurali ricorsive presentano strette connessioni con gli automi, ma il calcolo che Tempo 1 B ha luogo nelle unità neuronali ha natura con- tinua e non discreta. In virtù di tale natura, le reti neurali ricorsive presentano anche una FIGURA 11 A Architettura di una generica rete ricorsiva. B Una rete neurale ricorsiva 0 11 M O N D O D I G I T A L E • n . 4 - d i c e m b r e 2 0 0 3
  • 9. 0 forte connessione con i sistemi dinamici li- strato in figura un’immagine, che raffigura neari, anche se la loro struttura dinamica è un pattern corrotto da rumore, viene pre- orientata a processi decisionali. sentata in ingresso alla rete ricorsiva. L’in- Le reti ricorsive non elaborano solo sequenze gresso è costituito dai pixel dell’immagine ma, direttamente, anche grafi i cui nodi con- o, più in generale, da una forma de-campio- tengono un vettore di numeri reali. Si potreb- nata a risoluzione più bassa dell’originale. be sempre ricondurre l’elaborazione di strut- Con opportune scelte dei pesi delle connes- sioni2, mantenendo l’ingresso costante, la 1 ture a quella di opportune sequenze. Tutta- via, rappresentando un grafo come una se- rete ricorsiva procede ad aggiornamenti quenza si nascondono caratteristiche discri- delle attivazioni dei neuroni finché, dopo minanti per l’apprendimento. Inoltre, si può una fase di rilassamento, raggiunge un pun- mostrare che la riduzione a lunghe sequenze to di equilibrio. Com’è illustrato in figura, il derivante dalla codifica di strutture a grafo in punto di equilibrio corrisponde all’immagi- stringhe rende il problema dell’apprendi- ne filtrata dal rumore. In pratica, una rete di 0 mento da esempi più costoso. L’elaborazio- ne su grafi ha luogo estendendo il concetto Hopfield con N ingressi, permette in modo affidabile di memorizzare un numero di pat- di calcolo dello stato in un automa a stati fini- tern intorno a 0, 15N e può, pertanto, essere ti dal caso di sequenze a quello di alberi e, utilizzata come memoria associativa. più generalmente, di grafi aciclici ordinati [5]. Per le architetture illustrate l’aggiornamen- 4. APPRENDIMENTO DA ESEMPI to dello stato avviene in modo sincrono ri- spetto all’alimentazione di un nuovo ingres- Nelle reti neurali artificiali, le architetture il- so della sequenza o della struttura dati. La lustrate nel paragrafo precedente, assieme struttura di una rete neurale ricorsiva può, ai corrispondenti schemi computazionali, tuttavia, operare anche elaborazioni se- sono di scarso interesse senza il paradigma quenziali, mediante aggiornamento dello centrale dell’apprendimento, che viene ispi- stato, di ingressi tenuti fissi. L’esempio più rato a corrispondente paradigma neurobi- classico è quello delle reti di Hopfield, illu- liogico. Apprendere in una rete neurale arti- strate in figura 12. Si noti che l’uscita di ogni ficiale corrisponde a modificare il valore dei neurone è connessa a tutti gli altri e che non pesi delle connessioni sinaptiche. Tale pro- c’è connessione locale. Nell’esempio illu- cesso è influenzato dagli esempi che con- corrono a sviluppare concetti. I dati e l’inte- razione con l’ambiente concorrono con di- versi protocolli allo sviluppo di competenze cognitive. In particolare, si individuano tre diverse modalità di apprendimento a secon- da del ruolo esercitato dal supervisore del concetto: l’apprendimento con supervisio- ne, l’apprendimento con rinforzo e l’appren- dimento senza supervisione. 4.1. Protocolli di apprendimento Nell’apprendimento con supervisione e con rinforzo, la rete neurale deve sviluppare un concetto sulla base delle interazioni con un supervisore, che provvede a istruire la rete, fornendo informazioni sul concetto. 1 Si consideri, per esempio, il problema della 0 FIGURA 12 Rete di Hopfield utilizzata come memoria associativa per filtrare il rumore 2 In particolare, la matrice delle connessioni è sim- metrica. 12 M O N D O D I G I T A L E • n . 4 - d i c e m b r e 2 0 0 3
  • 10. 0 classificazione di insetti illustrato in figura mente, garanzia di un altrettanto soddisfa- 13. La rete neurale esibisce la sua classifica- cente funzionamento su altri dati relativi allo zione e interagisce con il supervisore che stesso concetto, ma non utilizzati nella fase può fornire un’informazione completa o par- di apprendimento (insieme di test). Inoltre, è ziale sul concetto. Quando l’informazione è evidente che l’architettura della rete neurale parziale si parla di “apprendimento con gioca un ruolo fondamentale per l’efficienza rinforzo”; tale informazione deve essere uti- della fase di apprendimento. Si consideri, ad lizzata nell’apprendimento per rinforzare comportamenti corretti e penalizzare quelli esempio, il caso delle reti feedforward e il lo- ro comportamento al variare del numero del- 1 che originano errori. le unità nascoste. In virtù della loro capacità Nell’“apprendimento con supervisione”, in- universale di approssimazione, tali reti pos- vece, il supervisore fornisce l’informazione sono calcolare ogni concetto. Quando il nu- completa sul concetto, definendo, in questo mero delle unità nascoste cresce, non solo caso, esattamente la classe di appartenenza. aumenta il potere computazionale, ma si L’apprendimento di un concetto non richiede necessariamente l’interazione con un super- può dimostrare che il problema della pre- senza dei minimi locali diventa progressiva- 0 visore e può aver luogo anche mediante mente meno rilevante. Tuttavia, al crescere un’auto-organizzazione degli esempi. Ap- prendere senza supervisione significa aggre- Sbagliato! gare esempi simili in regioni neuronali topo- logicamente vicine. In figura 14 è illustrata l’auto-organizzazione di esempi di classi di- verse e l’eccitazione dei neuroni spazialmen- Ragno te correlati al concetto. Mentre per i due pre- Mosca cedenti protocolli di apprendimento la varia- Zanzara zione delle connessioni sinaptiche avviene Altro cercando di ottimizzare l’errore rispetto al- l’informazione fornita dal supervisore: in È un ragno!!! questo caso, l’apprendimento è guidato da criteri di “similarità” nei dati. In generale, i tre protocolli di apprendimento descritti sono formulabili come ottimizzazio- ne di una funzione dei pesi della rete neurale. Nel caso dell’apprendimento con rinforzo e dell’apprendimento con supervisione, per rendere il comportamento della rete neurale conforme alla supervisione occorre minimiz- FIGURA 13 zare una funzione di errore che dipende dalla Il paradigma di apprendimento con supervisione e con rinforzo scelta dei pesi e misura l’errore rispetto alle informazioni del supervisore. Nel caso del- l’apprendimento senza supervisione, l’auto- organizzazione per similarità dei dati può an- cora, generalmente, formularsi come l’otti- mizzazione di una funzione di armonia. Il pro- blema di ottimizzare funzioni in grossi spazi è generalmente difficile per la potenziale pre- senza di minimi locali, che può rendere ineffi- caci le classiche euristiche di ottimizzazione basate sulla tecnica di massima discesa del 1 gradiente. FIGURA 14 Il corretto funzionamento di una neurale sul- l’insieme di apprendimento non offre, ovvia- Apprendimento senza supervisione 0 13 M O N D O D I G I T A L E • n . 4 - d i c e m b r e 2 0 0 3
  • 11. 0 della dimensione della rete la capacità di ge- motivi di efficienza computazionale. Si richie- neralizzare su nuovi esempi tende a diminui- de, in sostanza, che lo schema di aggiorna- re dato che il fitting sull’insieme di apprendi- mento dei pesi preveda, per ogni neurone, mento ha luogo in un enorme spazio di para- l’uso di informazione disponibile per mezzo metri vincolati solo da pochi esempi. Questo delle sole unità che sono direttamente colle- origina una sorta di principio di indetermina- gate (località spaziale) e che tale informazio- zione dell’apprendimento secondo il quale ne sia riferita solo all’istante di tempo prece- 1 non è possibile al variare dei pesi della rete neurale ottenere funzioni di errore senza mi- dente (località temporale). Per reti ricorsive con architettura generica ri- nimi locali ed eccellente generalizzazione sulta difficile concepire schemi di apprendi- per nuovi esempi. mento in grado di coniugare entrambe que- ste proprietà, mentre questo è possibile per 4.2. Algoritmi di apprendimento architetture speciali, quali ad esempio quella La formulazione dell’apprendimento come di figura 11 B, in cui le connessioni che produ- 0 ottimizzazione della funzione errore rispetto alla supervisione permette di attingere all’e- cono la ricorsività sono solo locali ai neuroni. Nei protocolli di apprendimento, considera- norme letteratura di analisi numerica per la ti fino a questo punto, si è assunto che l’ap- ricerca degli algoritmi più opportuni. Tutta- prendimento consiste solo nella variazione via, dato che in pratica si opera con reti neu- dei pesi e che questo ha luogo a partire da rali che possono raggiungere centinaia di mi- una rete neurale con architettura predefini- gliaia di variabili3, si restringe di solito l’at- ta. Il principio di indeterminazione, prece- tenzione all’uso dell’euristica di massima di- dentemente menzionato, suggerisce, tutta- scesa del gradiente che, essendo una tecnica via, che la definizione stessa dell’architettu- del primo ordine permette di limitare spazio ra possa ragionevolmente costituire ogget- e tempo di calcolo. Algoritmi di apprendi- to del processo di apprendimento. Tale as- mento direttamente basati su tecniche itera- sunzione, che ha solide basi neurobiologi- tive, come il gradiente, prendono il nome di che, conduce dunque allo studio di algorit- algoritmi di tipo batch. In tali algoritmi, la va- mi atti creare e cancellare connessioni si- riazione dei pesi avviene solo dopo aver ela- naptiche oltre che a variarne il peso corri- borato tutti gli esempi dell’insieme di ap- spondente. Sono stati concepiti algoritmi di prendimento. Si possono, però, concepire al- growing e di pruning delle connessioni ba- goritmi nei quali i pesi sono aggiornati in cor- sati tipicamente sul principio della sensibi- rispondenza della presentazione di ogni lità dei pesi rispetto al comportamento del- esempio (algoritmi di tipo on-line). la rete. Sono stati anche proposti algoritmi L’entità di variazione dei pesi in corrispon- genetici per sviluppare l’architettura ade- denza degli esempi può condurre, in questo guata a un certo “task”. Infine, la supervi- caso, a enfatizzare il comportamento corret- sione può essere fornita in modo più sofisti- to sugli “ultimi” esempi presentati, dimenti- cato mediante uno schema di insegnamen- cando i vecchi esempi su cui la rete aveva ap- to, che mira a presentare il desiderato tar- preso. È evidente che tale entità deve anche get in modo progressivo. essere commisurata alla numerosità dell’in- sieme di apprendimento. Un aspetto partico- 5. PROBLEM SOLVING larmente rilevante degli algoritmi di appren- dimento, che è talvolta sottovalutato, è costi- L’architettura ricorsiva della rete di Hopfield tuito dalle proprietà di località spaziale e descritta nel paragrafo 3 è stata oggetto di temporale che sono tipicamente gradite per molti studi non soltanto per le sue proprietà di memoria associativa, ma anche perché 1 3 ben si presta alla soluzione di molti interes- santi problemi di soddisfacimento di vincoli, In alcuni esperimenti di riconoscimento vocale, nel gruppo di ricerca di Herve Bourlard (IDIAP, che hanno spesso natura combinatoriale. Per 0 Svizzera) sono state utilizzate reti neurali con cir- ca un milione di pesi. illustrare questa interessante proprietà si consideri il classico problema di scacchi di al- 14 M O N D O D I G I T A L E • n . 4 - d i c e m b r e 2 0 0 3
  • 12. 0 locare 8 regine su una scacchiera in configu- Neuroni di riga razione di non attacco, ovvero in modo tale che non si mangino4 (Figura 15). Questo è un problema di soddisfacimento Neuroni diagonali di vincoli. Occorre, infatti, che, per ogni re- gina, non siano presenti regine sulla stessa riga, la stessa colonna e le due diagonali. Neuroni diagonali La soluzione del problema si ottiene me- diante una rete ricorsiva con un numero di 1 neuroni pari al numero di caselle della Neuroni di colonna scacchiera. L’eccitazione di un neurone cor- risponde alla presenza della regina sulla casella, l’inibizione corrisponde, invece, al- spondono a soluzioni del problema. Come FIGURA 15 la casella vuota. Per risolvere il problema nel caso dell’apprendimento tuttavia, la Il problema delle 8 occorre tradurre i vincoli del problema in corrispondenti vincoli sul valore delle atti- funzione può essere popolata da minimi lo- cali, offrendo pertanto soluzioni spurie. La regine e la sua soluzione mediante 0 vazioni dei 64 neuroni. Le connessioni della soluzione sommariamente illustrata per il una rete di Hopfield rete neurale, solo inibitorie, si costruiscono problema delle 8 regine può essere estesa associando a ogni neurone un peso negati- con metodologie generali per risolvere ge- vo proveniente dai neuroni associati alle nerici problemi di soddisfacimento di vin- caselle che si trovano sulla stessa riga, sul- coli, tipicamente molto complessi dal pun- la stessa colonna e sulle stesse due diago- to di vista computazionale quali, per esem- nali cui appartiene la casella associata al pio, il problema del commesso viaggiatore neurone in oggetto. Non ci sono, dunque, e il knapsack. Le soluzioni offerte da que- auto-connessioni e, inoltre, la matrice dei sto approccio sono estremamente efficienti pesi è simmetrica; se l’unità i è connessa oltre a permettere una computazione paral- all’unità j da un peso wij allora vale anche il lela per ogni passo del processo dinamico. viceversa, cioè wji = wij. Si noti che a diffe- Il problema fondamentale, tuttavia, è che, renza del caso in cui la rete di Hopfield ope- come per l’apprendimento, si hanno talvol- ra da memoria associativa, in questo caso ta soluzioni sub-ottime che possono non ri- non ci sono ingressi collegati e che la codi- sultare soddisfacenti. In sostanza, con so- fica del problema è tradotta nel pattern di luzioni basate su reti di Hopfield, una volta interconnessioni. Si può dimostrare che “programmate” le connessioni per codifica- con un simile insieme di collegamenti, par- re il problema da risolvere, si può anche tendo da una qualunque configurazione conseguire in modo efficiente una soluzio- iniziale, la dinamica della rete neurale evol- ne per problemi intrattabili, ma questo non ve verso un punto stabile in cui la soluzione è ovviamente garantito5. rappresenta configurazioni con regine in posizione di “non attacco”. Tuttavia, par- 6. LE APPLICAZIONI tendo da una configurazione casuale, l’evo- luzione della dinamica della rete non ga- Uno dei motivi del successo delle reti neurali rantisce che tutte le 8 regine siano piazzate artificiali è probabilmente da ricercarsi nel lo- sulla scacchiera. Si può anche dimostrare ro massiccio utilizzo in innumerevoli applica- che l’evoluzione della dinamica corrispon- zioni. Il paradigma di apprendimento da de alla minimizzazione di una funzione esempi su cui si basano permette, infatti, di energia e che i suoi minimi globali corri- affrontare problemi di natura anche molto di- 4 La generalizzazione di questo problema al caso di N regine è stato per anni oggetto di congetture. Si riteneva 1 si trattasse di un problema computazionalmente intrattabile, ma a metà degli anni novanta si è dimostrato 5 che esiste una soluzione polinomiale per la determinazione di una configurazione. Si tratta, in sostanza, di una delle caratteristiche fondamentali del softcomputing menzionata nel paragrafo 2. 0 15 M O N D O D I G I T A L E • n . 4 - d i c e m b r e 2 0 0 3
  • 13. 0 versa e di fornire soluzioni con uno sforzo re- compatta da utilizzare in ingresso alla rete lativamente limitato. neurale. La limitazione del numero degli in- Questo è anche stato reso possibile dalla gressi risulta particolarmente importante grande diffusione di pacchetti software per per limitare il numero degli esempi necessa- la simulazione dei modelli più importanti. I ri per una corretta generalizzazione delle re- principali modelli neurali sono oggi disponi- te a nuovi esempi. bili anche in molti tool per data mining di- Nella figura 16, è illustrato l’uso di un percet- 1 sponibili nei principali sistemi per basi di dati quali il DB2 (Database2). Oltre alla si- trone multistrato per la classificazione di lo- go aziendali in 4 categorie. La rete ha 256 in- mulazione software, sono state studiate di- gressi e 4 uscite, codificate in modo esclusi- verse soluzioni per l’implementazione in vo, ovvero (1; 0; 0; 0); (0; 1; 0; 0); (0; 0; 1; 0); hardware di architetture neurali e dei corri- (0; 0; 0; 1). Il numero di neuroni nascosti si spondenti algoritmi di apprendimento. Mol- determina per tentativi utilizzando un test di ti studi si sono concentrati su come utilizza- validazione statistica. 0 re gli attuali modelli di calcolo parallelo per l’implementazione dello schema neurale, Il percettrone multistrato dimostra eccellenti capacità di discriminazione di classi, ma non intrinsecamente parallelo. Sono fiorite in- risulta efficace per attribuire un livello di con- numerevoli soluzioni nei laboratori di ricer- fidenza nella sua decisione. ca che hanno avuto anche un certo impatto In altri termini, mentre molte applicazioni commerciale permettendo lo sviluppo di ac- ne hanno dimostrato la grande efficacia nel- celeratori neurali per integrare le capacità di la discriminazione di classi note a priori, si è calcolo di elaboratori tradizionali. Tali acce- ormai accumulata evidenza sperimentale e leratori sono tipicamente gestite da alcuni supporto teorico per concludere che il per- simulatori commerciali. L’impressionante cettrone non è in grado di attribuire in modo evoluzione dei microprocessori che ha avu- affidabile un peso alle sue decisioni. Que- to luogo anche negli anni ’90 ha, tuttavia, sto rende tale rete neurale usata come clas- sostanzialmente ridimensionato l’impor- sificatore inadatta a problemi in cui è neces- tanza di tali soluzioni. sario un comportamento di reiezione di pat- Si è anche assistito alla nascita di chip neura- tern che non appartengono alle classi pre- li analogici in grado di implementare i para- stabilite. digmi di calcolo direttamente con variabili Sempre usando il percettrone multistrato, si analogiche, senza bisogno di codifica discre- può ovviare a questo inconveniente median- ta. In particolare, è degno di nota l’INTEL te la configurazione ad autoassociatore illu- 80170, sviluppato nei laboratori INTEL all’ini- strata in figura 17. zio degli anni novanta. Studi simili sono stati computi soprattutto da Synaptics, (Object 6.2. Sistemi ibridi Recognizer Chip) e, in Italia, (TOTEM) della Molte delle applicazioni delle reti neurali a NeuriCam. problemi reali richiedono un’opportuna or- Uno dei problemi che ha, tuttavia, limitato lo ganizzazione di sistema e non semplicemen- sviluppo di chip tipo l’INTEL 80170 è la limita- te l’utilizzo diretto dei modelli descritti in ta precisione disponibile, che costituisce un questo articolo. Per esempio, l’estrazione problema soprattutto per gli algoritmi di ap- dell’informazione da una fattura acquisita prendimento. mediante uno scanner richiede un opportu- no sistema per la gestione documentale, do- 6.1. Applicazioni al riconoscimento ve le reti neurali possono giocare un ruolo di forme strategico in alcune parti critiche. Per illustrare la metodologia alla base di A titolo di esempio, si consideri il problema 1 molte delle applicazioni riportate in tabella 2, si consideri il caso del riconoscimento di del riconoscimento di targhe automobilisti- che acquisite mediante ordinarie telecamere simboli grafici, eventualmente corrotti da in ambiente autostradale. Tale applicazione 0 rumore. Occorre pre-elaborare il pattern in modo da fornirne una rappresentazione più è, per esempio, interessante per le società di gestione del traffico autostradale in corri- 16 M O N D O D I G I T A L E • n . 4 - d i c e m b r e 2 0 0 3
  • 14. 0 Settore applicativo Prodotto Marketing Airline Marketing Assistant, BehavHeuristics Inc Add-ins per Microsoft Excel, NeuroXL, 1998 AREAS, valutazione automatica immobili, HNC Software Previsioni finanziarie Neurodimension www.nd.com, 1991 NetProfit (profittaker.con), Neur. Appl. Corp. Appl. 1 Optical Character Recognition Audre Neural Network, Audre Rec. Systems Appl. OmniPage 6.0 and 7.0 Pro for Windows, Caere OmniPage 6.0 Pro for MacOS AnyFax OCR engine FaxMaster, Delrina Technology Inc. VeriFone Oynx, lettore di assegni, Synaptics 0 Riconoscimento caratteri QuickStroke, ric. caratt. cinesi, Synaptics manoscritti Teleform: ric. caratteri per fax, Cardiff Software Application, 1991 Riconoscimento manoscritti Apple Newton 120, Apple on-line Lexicus Longhand, Lexicus (Motorola) Nasi elettronici AromaScan electronic nose, AromaScan Bloodhound Electronic Nose, Bloodhound Sensors Ltd e-NOSE 4000 electronic nose, Neotronics Scientific Controllo di qualità cibi test qualità birra Anheuser-Busch Bond portfolio management Global Bond, Econostat Ltd. Controllo frodi (assegni) Dunn and Bradstreet Controllo frodi (carte credito) Falcon, HNC Software Nestor In. Verifica firma Check Signature Verification System, NeuroMetric Vision System Inc. Gestione rischio Colleague, Aquarius, HNC Software Predizione del consumo elettrico Bayernwerk AG Application Controllo chip microelettr. INTEL Controllo qualità gomme Dunlop Cancellazione di eco AT&T/Lucent Riconoscimento di banconote BANK, D.F. Elettronica 1 Riconoscimento di targhe PLARE, Società Autostrade e DII (Università di Siena) TABELLA 2 Una lista di applicazioni di reti neurali che hanno dato origine a prodotti apparsi sul mercato 0 17 M O N D O D I G I T A L E • n . 4 - d i c e m b r e 2 0 0 3
  • 15. 0 Classe 1 Classe 2 Classe 3 Classe 4 FIGURA 16 4 1 Classificazione di loghi aziendali N con un percettrone 256 multistrato 0 FIGURA 17 Autoassociatori Distanze Classe 1 Classe 2 Classe 3 Classe 4 neurali spondenza delle stazioni di esazione a segui- se. La struttura può integrarsi dinamica- ti di infrazioni in impianti automatici. mente quando si presenta una eventuale In figura 18, è illustrata l’architettura com- altra classe. Tale modulo ha la funzione di plessiva di un sistema per il riconoscimento stabilire una lista di classi candidate, men- di targhe in sperimentazione presso il Di- tre il modulo a fianco, basato su percettroni partimento di Ingegneria dell’Informazione multistrato con struttura a classificatore, dell’Università di Siena. Il sistema è com- serve a raffinare la decisione. posto da moduli sviluppati con tecnologia Tali classificatori sono tipicamente invocati neurale (in rosa), da moduli basati su clas- dal modulo centrale quando i candidati si ri- sici approcci di elaborazione delle immagi- feriscono a classi tipicamente molto confu- ni e da motori inferenziali. Un modulo di se. In tal caso, appositi classificatori assol- controllo provvede a sincronizzare le ope- vono unicamente al compito di eliminare razioni dei moduli slave delegati ad assol- l’ambiguità derivante da classi molto confu- vere le funzioni di segmentazione della tar- se. Si noti che tali classificatori possono ga, dei caratteri e riconoscimento dei carat- operare sulla stessa finestra di elaborazio- teri. Altri moduli esprimono vincoli gram- ne del modulo precedente, ma anche su op- maticali sulle stringhe possibili oltre a una portune finestre, decise dal modulo centra- probabilità a priori che si presenti una data le, per enfatizzare le parti del pattern dove 1 targa. Il riconoscimento dei caratteri, che costituisce ovviamente l’attività critica, è si localizzano verosimilmente le differenze. È anche interessante notare che il processo basato su due moduli. Il primo contiene di segmentazione dei caratteri è raffinato 0 percettroni multistrato con struttura ad au- toassociatore, che modellano le classi atte- dagli autoassociatori che posizionano la fi- nestra in un intorno della posizione indicata 18 M O N D O D I G I T A L E • n . 4 - d i c e m b r e 2 0 0 3
  • 16. 0 Segmentazione della targa Segmentazione caratteri Adattamento segmentazione AB 416 CV Sistema di controllo a regole 1 Stringa riconosciuta Vincoli grammaticali A B 0 FIGURA 18 0 Probabilità Architettura a priori del sistema per il riconoscimento di targhe dal modulo di segmentazione, a seguito di all’euristica del gradiente, alla base di molti elaborazioni atte a stabilire la zona di mas- schemi di ottimizzazione utilizzati per le reti sima risonanza. neurali e dettati dall’esigenza di ottimizzare in spazi di enorme dimensione. Una volta for- mulato nell’ambito dell’apprendimento neu- 7. LIMITI E PROSPETTIVE DI RICERCA rale, la complessità inerente di un problema si rivela in termini della dimensione dello La ricerca nel settore delle reti neurali artifi- spazio dei pesi e della forma della superficie ciali ha raggiunto un certo grado di maturità errore da ottimizzare. L’ostacolo fondamen- sia per quanto riguarda lo sviluppo sistema- tale per l’euristica del gradiente è dovuto alla tico delle metodologie fondamentali che il lo- presenza di minimi locali sub-ottimi che in- ro utilizzo in ambito applicativo. La compren- trappolano gli algoritmi di apprendimento. sione dei limiti fondamentali sembra essere Per problemi complessi, l’esplosione del nu- un passo fondamentale per lo sviluppo ulte- mero di tali minimi locali rende inverosimile riore del settore. Soprattutto in ambito appli- la determinazione di soluzioni efficienti. Si è cativo, tali tecnologie sono state utilizzate già accumulata evidenza teorica e sperimen- talvolta in modo acritico confidando sul prin- tale che, a fronte di problemi “complessi”, la cipio che la “forza bruta” derivante dall’im- forma della superficie errore si “regolarizza” pressionante sviluppo della microelettronica e diminuisce la presenza di minimi sub-ottimi e il sogno della computazione inerentemente all’aumentare della dimensione dello spazio parallela potessero coniugarsi con l’appren- dei pesi. Tuttavia, tale aumento di dimensio- dimento automatico per risolvere importanti ne non solo conduce a un incremento di com- problemi aperti con significativo risvolto ap- plessità nel calcolo del gradiente, ma intro- plicativo. Un’analisi teorica dettagliata sug- duce il problema addizionale dell’over-trai- gerisce la presenza di enormi ostacoli per un ning, secondo cui l’apprendimento in pre- ulteriore sviluppo di approcci basati sugli at- senza di spazi dei parametri troppo grossi tuali schemi di apprendimento automatico. Alcuni interessanti limiti erano già stati se- non garantisce una corretta generalizzazione a nuovi esempi. È forse il momento di co- 1 gnalati da Marvin Minsky nella sua edizione struire teorie computazionali dell’apprendi- espansa di Perceptrons [10]. In particolare, Minsky aveva già individuato problemi legati mento adatte al calcolo neurale, tipicamente definito nel continuo, invece, che nel tradi- 0 19 M O N D O D I G I T A L E • n . 4 - d i c e m b r e 2 0 0 3
  • 17. 0 zionale contesto discreto. Il PAC (Probably [2] Anderson J., Rosenfeld E.: Neurocomputing: Approximately Correct) learning, ampiamen- Foundations of Research. MIT Press, Cambrid- ge, (Eds. 1988). te utilizzato fin qui per la comprensione della complessità, sembra piuttosto sterile e non [3] Angluin D., Smith C.: Inductive inference: Theory and methods. Computing Surveys, Vol. appare molto efficace per la comprensione di 15, n. 3, 1983, p. 237-269. tipici contesti applicativi6. Sembra, inoltre, [4] Boden M.: Horses of a different colour? In Artifi- importante procedere nella direzione di svi- cial Intelligence and Neural Networks. V. Honavar 1 luppare architetture e algoritmi di apprendi- mento nel contesto di ingressi strutturati, op- [5] and L. Uhr, Eds. Academic Press, 1994, p. 3-19. Frasconi P., Gori M., Sperduti A.: A general fra- portunamente rappresentati. Questo favori- mework for adaptive processing of data struc- sce per altro lo sviluppo di integrazioni più tures. IEEE Transactions on Neural Networks, forti tra modelli simboli e sotto-simbolici e Vol. 9, 1998, p. 768-786. sembra suggerire, in generale, la formulazio- [6] Hebb D.: The Organization of Behavior. Wiley, ne di teorie più generali per il trattamento di New York, 1949. Partially reprinted in [Anderson 0 dati continui. A tal proposito, Margaret Bo- den, con riferimento alla novella del “Mago [7] and Rosenfeld, 1988]. Hopfield J.: Neural networks and physical sy- di Oz” scrive “[...] the pretty creature was visi- stems with emergent collective computational abilities. Proceedings of the National Academy bly the same horse, changing colour as it of Sciences, USA, Vol. 79, 1982, p. 2554-2558. trotted along. ... AI is one beast, like the Wi- Also in Neurocomputing, The MIT Press, 1988. zard’s pony”, [4] proponendo il parallelo dei [8] McCulloch W., Pitts W.: A logical calculus of colori del pony con i diversi colori dell’intelli- ideas immanent in nervous activity. Bulletin of genza artificiale. Servono forse nuove inte- Mathematical Biophysics, Vol. 5, 1943. Reprin- ressanti miscele di colori, servono schemi ted in [Anderson and Rosenfeld, 1988]. per modellare in modo più naturale l’incer- [9] Mead C.: Analog VLSI and Neural Systems. Ad- tezza, serve comprendere più a fondo l’ingre- dison Wesley, Reading, 1989. diente evoluzionistico delle specie per coniu- [10] Minsky M., Papert S.: Perceptrons - Expanded garlo con l’apprendimento automatico. E an- Edition. MIT Press, Cambridge, 1988. che gli schemi di apprendimento devono ve- [11] Rosenblatt F.: Principles of Neurodynamics: rosimilmente risultare meno rigidi e, soprat- Perceptrons and the Theory of Brain Mechani- tutto, devono risultare attivi, permettendo sm. Spartan Books, Washington D.C, 1962. un’interazione tra la macchina che apprende [12] Rumelhart D., Hinton G., Williams R.: Learning e il suo supervisore7. Forse non importa il internal representations by error propagation. In Parallel Distributed Processing, D. Rumelhart “colore” del pony; le reti neurali, e più in ge- and J. McClelland, Eds. Vol. 1. MIT Press, Cam- nerale la computational intelligence, devono bridge, Chapter, Vol. 8, 1986, p. 318-362. Re- integrarsi in modo più forte con i classici mo- printed in [Anderson and Rosenfeld, 1988]. delli simbolici. L’ibrido può non solo risultare [13] Seeley R., Stephens T., Tate P.: Essentials of vincente nelle applicazioni, ma può originare Anatomy and Physiology, McGraw-Hill, 2002. nuove miscele di colori, ben distinte dai com- [14] Widrow B., Hoff M.: Adaptive switching circuits. ponenti. In IRE WESCON Convention Record. IRE, New York, Vol. 4, 1960, p. 96-104. Bibliografia [1] Ablameyko S., Goras L., Gori M., Piuri V.: Limita- MARCO GORI è professore ordinario all’Università di tions and Future Trends in Neural Computation. Siena presso il Dipartimento di Ingegneria del- IOS Publishing, (Eds 2003). l’Informazione. Ha ottenuto il Dottorato di ricerca all’Università di Bologna, completando la formazio- ne presso la “School of Computer Science” di Mc- 1 6 Per lo stato dell’arte sui limiti e sulle prospettive del calcolo neurale si può far riferimento a Ablameyko et al. [1]. Gill University, Montreal. I suoi interessi di ricerca riguardano l’intelligenza artificiale e le sue applica- zioni. È attualmente chair del capitolo italiano della 7 La ricerca nel settore del learning from queries and examples ha già for- Neural Networks Society ed è presidente dell’Asso- 0 nito promettenti indicazioni di riduzione di complessità, ma sembra an- cora essere in una fase incipiente, soprattutto per le ricadute applicative. ciazione Italiana Intelligenza Artificiale. marco@dii.unisi.it 20 M O N D O D I G I T A L E • n . 4 - d i c e m b r e 2 0 0 3