SlideShare a Scribd company logo
1 of 37
Introduzione alle reti neurali

Francesco Piva
Istituto di Biologia e Genetica
Università Politecnica delle Marche
Caratteristiche delle sequenze codificanti

Poiché il codice genetico è degenere, nelle sequenze codificanti dei geni si
possono trovare due peculiarità:
• la non equiprobabilità nell’uso dei codoni sinonimi definisce un ‘codon
usage’ caratteristico delle specie
• la correlazione tra basi in posizioni diverse definisce il ‘context-dependent
codon bias’
Nella teoria dell’informazione, la non equiprobabilità nella comparsa dei
simboli e la correlazione tra simboli di un codice definiscono la
ridondanza di un linguaggio.
Vantaggi e svantaggi della ridondanza:

• tanto più un linguaggio è ridondante, tanto minore è la sua efficienza
informativa. In altre parole: a parità di messaggio da trasmettere o
memorizzare, dobbiamo utilizzare più simboli per il linguaggio più
ridondante
• maggiore è la ridondanza di un linguaggio, maggiore è la sua robustezza
cioè la capacità di essere compreso anche a seguito di disturbi o mutazioni
• la ridondanza permette la coesistenza di linguaggi a diversi strati:
traduzione in proteina ma anche regolazione dell’efficienza di splicing. Es.
motivi ESE (exon splicing enhancer) e ESS (exon splicing silencer).
La nostra anslisi
Tramite software da noi realizzato,
abbiamo analizzato le correlazioni tra un
codone e un nucleotide separati da una
distanza compresa tra 1 e 90 basi,

a c g
1

2 3
nelle sequenze
codificanti di
H.sapiens,
C.elegans e
M.musculus,
per determinare
in che modo la
presenza di un
certo codone
influenzi le basi
che seguono

90
Origine e trattamento dei dati
I file contenenti le sequenze dei geni sono state prelevate da Genbank.
Purtroppo una parte delle sequenze contenute nei file presentavano dei
problemi: alcuni geni non iniziavano con ‘atg’, codoni di stop prematuri,
sequenze troncate prima del codone di STOP, sequenze duplicate, geni ‘not
experimental’.
I file sono stati puliti e ordinati con dei
programmi che abbiamo sviluppato ‘ad
hoc’.
t r i p l e t t a

c h e

p r e c e d e

l e

b a s i

b

aaa
aac
aag
aat
aca
acc
acg
act
aga
agc
agg
agt
ata
atc
atg
att
caa
cac
cag
cat
cca
ccc
ccg
cct
cga
cgc
cgg
cgt
cta
ctc
ctg
ctt
gaa
gac
gag
gat
gca
gcc
gcg
gct
gga
ggc
ggg
ggt
gta
gtc
gtg
gtt
tac
tat
tca
tcc
tcg
tct
tgc
tgg
tgt
tta
ttc
ttg
ttt

a

s i
a
v
H. sapiens
1 2 3 4 5 6 7 8 9 10 11
g a
a a
a a
a a
a t c
a c g a c
a
a/g a g
a g g a g g a
g a
a a
g a
a a
g a
g a
g a
a
a
c/g g
c g
c g
g
g g
c g
c g
g
g a
a
a
g/a a
a
a a
g a
a/c
c g
c/g g
c g
a a g
a g g a g g a
g a
a
g a
g a
g a
g a
a a
a a
a
c g a c g a c g a
g a g g a
g a
g a
g a
g a
g a
g a
g a
a
g a
a
a/c
c/g g a c/g g a c/g
a
a g
g/c g a g g a
g a
a
g a
a
g a
c
g
a
c/g g
c c c c/g g
g/c c g/c c c c/g g c c/g g/c c
g
g
g
g a
a
g a
g a
a
c/g g
c/g c/g
c/g g
g/c a g/c c
g/c g
g/c g
g
c g a
g a
g a
g a
g a
g a
a
a t c g a c
c g
g a g/c g a c/g g
g/c g
c/g
g a
a
a
g a
g a
g/a a
g/a a
a
c/g g a c/g g a c/g g a
g a g g a g/c g a g/c g a
g a
g a
g a
g a
g a
g
g a
g
a
c/g g
c/g g
c/g g
g/c c g/c g c g/c g
g/c g
g
g a
g a
g
g a
g
g
g
a
c g
c/g g
c/g g
g a c/g g
g/c g
c/g g
g
c g
g
g
a
a
a t c g a c g a c g
g a c/g g
g/c g
c/g g
g
g a
g a
g a
a
c/g g a c g a c g a
g a
a
a
g a
g a
g a
a
a
c/g g
c
c
g
g
c c g
c g
g
g a
a
a
a/c
c g a c/g
c g
g/a a
a g g
c g a
g a
a
g
g
a a
g a
g a
a a
a/c
c g a c g a c
g a
a
g a
g a
g a
g a
a
a

a

l

l

e

d e l l a
C.elegans
12 1 2 3 4 5 6 7 8 9 10
g/a a
g a
g/a a a g
c a a
g a
g a
g
g a a
a/g a
g a
g
g a t
a t/a
a t g
a t t g
t g a a g
c a/g a c g a
g a
g
a a t a a
g a
a
g
t/a g a t g a t g
a a t g a
g a a g
c/g a a
g a
g a
g
g a a t a a
g a
a
g a t/a g a t g a t/a g
a t t g a a g a t
c/g a a
g a
g a
g
a/g a
g a
g a
g
g
t g a t g a t g
a
g a
g a
g
c/g a/g a
g a
a
g
g/c a a
a a
g a
g
a a t
a t
a t
c a/t g a t g a a g
c/g g a
g a
a
g
c/g a a t a
t g a
g c a
a a
a t
a a a g a/t t g a t g
c/g a a
g a
a
g
g/c a a a a a t g a t g
g a t g a t
a/t t g
t a g a t g a t g
c/g a/g a c g a
a/t
g
g/c a a a a a t g a
g
c/g t
g a t g a t g
g a t g a
g a a g
c/g g/a a
g a
g a
g
g/c a a
g/a a
g a
g
g a t g a t g a t g
a t t g
t g a t/a g
c/g g/a a
g a
g a
g
g/c a a
a
t g a
g
g/c
t/a g a t g a t g
a/g a t g
t g
t g
c/g g a
g a
g
g
c/g
g
t/a g a t g
t g
t t g a t g a
g
c a/g a c g a
g a
g
c/g a a/t
a a t g a
g
g
t g a t g a t g
c/g a a
g a
g a
g
g a t g a t g a t g
a c t g
t g a t
c a a
g a
g
c a a t a
t g a
g c a g a t g a t g
c a a
g a
a t g
c a a t g a t g a t g
g a t g a t g a t g
t a g a t a a t g
c a a
g a
g a
g
a a
a a t g a t g
g t
g a t g a t

t

r

11
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a

12 1
g
a
a
t
g
t
g
a
g
t
g
t a/g
a
a
t
g
g
a
g
t
g
t/a g
a

a
a
a

a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a

t
a

i

g
g
a
g
t
g
a/t g
c
a
g
g
t
g
a
g
t g/c
a/t g
a
g
t
g
t/a g
a
g
t
g
t
g
a
a/g
t
g
t
g
a
g
t
g
a
t
g
t
g
a
g
t
g
c/a
g/a
t
g
t
g
c/a
g
t
g

p
2
a
a
a
a
t

l
3
c
g

c
g

a
c
a
a
a
a
a
a
a
a
a

c
c
g

c
g

e

t t a
M.musculus
4 5 6 7
a a
a
a c g
a g g
a a
a
g
g a c
g
g/c g
g a
a
g
c g
g g
g a
g
g/a a
g a c g
g a
g
g a
g
a
g
g a c g
g g
a

g/c g
c/g c
g
a
g/c
c/g
c
g
c
g

g
a
c
g
a
g
t
g
a
g
g
a
g
t c g
a g g
a
g
a
g
t g/c g
c/g g
g
a
g
c g
a c
c g
a
g
t c g
a g/c g
g
c g
a
a
c g
g

8
a
a
a
a
a

c

c
c

c
g

c
a g/c
a
a
c
a g
a
a
a c
a
a
a
a c
a g
a

c
c g/c g
g
g/c
c/g g
c
a
g
a c
a c/g g
a
a
g
a c g
a g g
a
g
g
g/c g
c/g g
a
g
g
c g
g g
g
a
g
a c g
c/g g
a
g
a c
a

9

c
g/c
a
g/c
c/g
a c
a
c
c/g
a
a
a c
a g
a
a
g/c
c/g
a
c
c
a
c
g/c
a
a
a
a

c

c
g/c

g
a

c
a
a
a
t
a
a

g

a
a
a/g a
c g a
a
a

c

c
g
c
a

c

c
g

a
a

10 11 12
a a
aaa
a c aac
g a g aag
a
aat
a
aca
c acc
g
g/c acg
a
act
a
aga
g
c agc
g a
agg
g a
agt
a a
ata
g a c atc
g a
atg
g a
att
g a
caa
a c cac
g a g cag
a
cat
g
cca
g
c ccc
g
g/c ccg
g
cct
g a
cga
g
g/c cgc
g a c/g cgg
g a
cgt
a
cta
c ctc
g
c/g ctg
a
ctt
g a
gaa
g a c gac
g a a gag
g a
gat
g
gca
g
c gcc
g
c/g gcg
g
gct
g
gga
g
c ggc
g
c ggg
g
ggt
g a
gta
g
c gtc
g
g/c gtg
g a
gtt
a c tac
a
tat
a
tca
c tcc
g
g/c tcg
tct
g
c tgc
a
tgg
tgt
a
tta
c ttc
g a
ttg
a
ttt

Tabella
riassuntiva che
riporta le
principali
correlazioni tra
una tripletta e i
nucleotidi a
valle
Uno sguardo di dettaglio
1
aaa
aac
aag
aat
aca
acc
acg
act
aga
agc
agg
agt
ata
atc
atg
att

g a
a t
a/g a
g a
g a
a
g
g
g/a a
a/c
a a
g a
g a
a
g a
g a

2

3

4
a

c
g
a
g
c/g g
g g
g
c
g

c
g

5
a
a
a
a
a

a
a

g

g
g
g
g

a
a
a
a
a
a

H. sapiens
6 7 8 9 10
a a
a
c g a c
g g a g g
g a
a
g a
c g
c g
c g
c g
a
a a
g
c/g g
c g
g g a g g
g a
g
a a
a
c g a c g
g a
g
g a
g

11 12
a
a c
a g
a
a
c

aaa
aac
aag
aat
aca
acc
acg
act
aga
agc
agg
agt
ata
atc
atg
att

a
a
a
a
a
a
a
a

1
g
a
a
g
g
a
g
g
a/g
a
a
g
g
a
g
g

c/g
g

c/g

2
a
a
a
a
t

3
c
g

c
g

a
c
a
a
a
a
a

c
c
g

M.musculus
5 6 7
a
a
a c g
a g g
a a
a
g
g a c
g
g/c g
g a
a
g
c g
g g
g a
g
g/a a
g a c g
g a
g
g a
g
4
a

8
a
a
a
a
a

9

C.elegans
1 2 3 4 5 6 7 8 9 10
g/a a
g a
g/a a a g
a a
g a
g a
g
a a
a/g a
g a
g
g a t
a t/a
a t g
a t t g
t g a a g
a/g a c g a
g a
g
a a t a a
g a
a
g
t/a g a t g a t g
a a t g a
g a a g
a a
g a
g a
g
a a t a a
g a
a
g a t/a g a t g a t/a g
a t t g a a g a t
a a
g a
g a
g
a/g a
g a
g a
g
g
t g a t g a t g

10 11 12
a a
aaa
c
a c aac
g g a g aag
a
aat
a
aca
c
c acc
a g/c g
g/c acg
a
a
act
a
a
aga
c g
c agc
a g g a
agg
a
g a
agt
a
a a
ata
a c g a c atc
a
g a
atg
a
g a
att

11
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a

12

t
t

t
t

t

t
Idea
Poiché lo schema delle correlazioni nelle posizioni 3n, è caratteristico di una
specie, si è pensato di utilizzarlo per provare a riconoscere la specie a cui
appartiene una certa sequenza genica.

Sequenza genica

?

………………

H.sapiens
C.elegans

M.musculus

Per la non linearità e l’elevato numero di variabili del problema si è scelto di
affrontarlo utilizzando un algoritmo che implementa una rete neurale.
Uno dei più grossi problemi del modello computazionale
matematico introdotto da John von Neumann (Macchina di von
Neumann) è la sua rigidità e l'impossibilità di rispondere a stimoli
esterni (input) in maniera diversa da ciò che viene inizialmente
immesso nell'elaboratore.
In parole semplici, un computer, generalmente, può riconoscere e
rispondere solo a stimoli che sono stati codificati
precedentemente; anche le risposte, inoltre, sono sempre
rigidamente decise a priori.
Le Reti Neurali nascono dall’idea di poter riprodurre alcune delle
funzioni e capacità del cervello umano
L’area di applicazione dominante delle Reti Neurali (RN) è il
riconoscimento di regolarità, o pattern recognition, e l’obiettivo
fondamentale di tale caratteristica è la classificazione.
(categorizzazione)
Un esempio delle sue potenzialità è la possibilità di riconoscere
volti, voci etc.
Il neurone artificiale

assoni

n

sinapsi

x1
x2

w1

x3

w3

xn

wn

w2

i =1

dendriti

Σ
b

inputs

weights

y = f ( ∑ wi xi +b)

corpo

bias

assone

f
non linear
function
Struttura di una rete neurale
nodi

uscite

Similitudine
tra una rete
neurale
biologica e
una artificiale

strato di
neuroni
di
ingresso

strato di
neuroni
nascosto o
intermedio

strato di
neuroni
di uscita
Vantaggi dell’utilizzo delle reti neurali:
Capacità di apprendere e costruire una conoscenza da esempi o dati di esperimenti

Sistema da
studiare

uscita

. .
. .

uscita

ingresso

.

.

.

... .
.

.

uscita

Capacità di riprodurre (o modellare) qualsiasi comportamento non lineare di un
sistema

. .
.
. . .
.. .
.
.
.
.

ingresso

Capacità di classificare dati apparentemente non raggruppabili

Es: statistica multivariata

.

ingresso
Altre caratteristiche

Risposta continua
ad esclusione di un numero finito di discontinuità ad input simili la rete
risponde con output simili
Tolleranza agli errori
scostamenti non significativi dei valori di input vengono assorbiti dalla rete,
diminuendo così il rumore statistico e risultando tolleranti agli errori o al
decadimento del segnale
Tolleranza ai guasti
La presenza di molte unità di processamento parallele l'eventuale perdita di un
unità ha, nel caso di architetture con molti neuroni, conseguenze non
irreparabili
Capacità di memorizzare
Svantaggi dell’utilizzo delle reti neurali:

Ai fini dell’apprendimento dobbiamo fornire alla rete neurale tanti più esempi
quanto più fortemente non lineare è il sistema da modellare.
Non sappiamo a priori quale sia la miglior topologia (numero di nodi, di
strati, collegamenti fra nodi e tipo di funzioni che devono implementare i nodi
di ciascun strato) da assegnare alla rete neurale affinchè modelli al meglio il
nostro sistema.
Una volta che la rete funziona, non sappiamo nulla del suo modello interno,
in altre parole non fornisce spiegazioni sul funzionamento del sistema che
stiamo studiando. La rete è per noi una scatola nera.
Apprendimento Supervisionato

input

Rete
neurale

Modifica
dei pesi

output
desiderato

δ

output
Il problema dei minimi locali
Con reti neurali a più strati e funzioni non lineari, l’apprendimento può
arrivare ad un minimo locale e non garantire la convergenza
Problemi di apprendimento
Per avere un’idea della complessità di addestramento di una rete
neurale

E

N
N
1 
 = 1  − g  w g  w x  
( w) = 2 ∑ u j − y j  2 ∑ u j  ∑ kj  ∑ ik i  



j 
j 
 i
 
 k


2

∆wkj = −η

∂E = η ∑ u − y  g (h ) H = η ∑δ H




∂ wkj
n
j

n

n

'

j

n

n

j

k

2

n

n

j

k

n

= −η ∂E = −η ∑ ∂E ∂H
∆w
∂ wik
∂H ∂ wik
= η ∑ u − y  g ( h ) w g (h ) x = η ∑ δ w g (h ) x = η ∑δ x




n
k

ik

n

n

n

nj

n

j

j

'

k

'

n
j

kj

n

n

k

i

'

n

nj

j

kj

n

n

k

i

n

n

n

k

i
All’aumentare della complessità della rete aumentano le possibilità di
classificazione
Esempi di applicazione

•
•
•
•
•
•
•
•

Riconoscimento caratteri
Riconoscimento immagini tele-rilevate
Macchina da scrivere fonetica
Eliminazione del rumore (sonar)
Sistemi di controllo
Previsioni di marketing
Previsioni finanziarie
Compressione di dati e immagini
Evoluzione della capacità di classificare della rete neurale
Implicazioni:

• I geni di una stessa specie hanno delle caratteristiche in termini di sequenza
che li accomuna e permette di riconoscerli
• Si possono distinguere anche specie che hanno geni con forte omologia
(uomo e topo)
• Queste differenze sono legate ad una diversa selezione delle mutazioni nel
corso dell’evoluzione? O a un diversa funzionalità (splicing, attivazione
genica, interazioni con proteine di regolazione)?
• E’ una possibile prova dell’esistenza di un linguaggio o codice ad un livello
diverso da quello conosciuto?
• Se non si spinge troppo l’apprendimento si ha una situazione in cui è
possibile definire un nuovo modo per valutare la distanza di un gene fra
specie diverse.
Possibili utilizzi dell’algoritmo:

Riconoscere le specie quando si estraggono geni da matrici biologiche
complesse o sconosciute
Migliorare i programmi di riconoscimento dei geni dal genoma
Individuazione di specie estranee in organismi OGM
Avere un sistema di riconoscimento delle specie che sia portatile, nel caso ci
si trovi sul campo e non si abbia accesso alle banche dati su internet
Avere nuove indicazioni per la comprensione del funzionamento e
dell’evoluzione delle sequenze codificanti
Definire meglio le incompatibilità fra genomi di specie diverse molto simili,
le barriere tra le specie
Sviluppi futuri:
Provare a distinguere le sequenze introniche ed esoniche
Provare a distinguere le sequenze codificanti e non
Aumentare il numero delle specie che è possibile riconoscere

Ringraziamenti:
Prof Giovanni Principato
Direttore dell’Istituto di Biologia e Genetica, Università Politecnica delle
Marche, Ancona

Dott Michela Raponi
Istituto di Biologia e Genetica, Università Politecnica delle Marche e
International Centre for Genetic Engineering and Biotechnology, AREA
Science Park, Trieste
Un esempio pratico: previsione dell’efficienza di splicing
Affinchè lo splicing del pre-mRNA avvenga correttamente è
necessario che gli introni e gli esoni siano definiti attraverso i siti di
splicing in 5’ e in 3’. A seguito del processo di splicing, non tutti
gli mRNA processati da pre-mRNA di ugual sequenza potrebbero
contenere gli esoni definiti in precedenza e allora si definisce
efficienza di splicing relativa ad un particolare esone, il rapporto tra
la quantità di mRNA contenente l’esone e il pre-mRNA totale
processato.

Per modulare l’efficienza di
ritenzione dell’esone
intervengono proteine che si
legano a sequenze esoniche
promuovendone od
ostacolandone l’inclusione. Di
queste sequenze, le prime si
dicono exon splicing enhancer
(ESE), le altre si dicono exon
splicing silencer (ESS).
PARTE DELL'ESONE 12 DEL GENE CFTR
AAAAATGCTGATTTGTATTTATTAGACTCTCCTTTTGGATAC
AAACATGCTGATTTGTATTTATTAGACTCTCCTTTTGGATAC
AAAGAAGCTGATTTGTATTTATTAGACTCTCCTTTTGGATAC
AAAGACGCAGACCTGTATCTGCTCGACAGTCCGTTCGGGTAT
AAAGACGCAGACTTATACTTATTAGACTCCCCCTTTGGATAC
AAAGACGCAGACTTATACTTATTGGACTCACCGTTTGGTTAT
AAAGACGCAGACTTGTATTTGTTGGACTCACCGTTCGGTTAT
AAAGACGCAGATTTATACTTGTTGGATTCCCCCTTCGGCTAT
AAAGACGCAGATTTATATTTGTTGGACTCCCCGTTTGGATAT
AAAGACGCAGATTTGTATTTATTGGATTCTCCGTTTGGGTAT
AAAGACGCCGACCTCTATCTACTCGATAGCCCCTTCGGCTAT
AAAGACGCCGACTTATATTTATTAGACTCCCCCTTTGGATAT
AAAGACGCGGACCTGTACCTACTGGATAGCCCTTTCGGATAT
AAAGACGCGGATTTGTATTTATTGGATTCACCTTTCGGCTAT
AAAGACGCTGATTTGTACTTATTGGATTCACCGTTCGGATAT
AAAGACGCTGATTTGTATTTATTAGACTCGCCATTCGGATAT
AAAGACGCTGATTTGTATTTATTAGACTCTCCTTTTGGATAC
AAAGAGGCTGATTTGTATTTATTAGACTCTCCTTTTGGATAC
AAAGATACTGATTTGTATTTATTAGACTCTCCTTTTGGATAC
AAAGATCCTGATTTGTATTTATTAGACTCTCCTTTTGGATAC
AAAGATGCAGACCTCTACCTCCTAGATAGTCCATTTGGGTAT
AAAGATGCAGATCTTTATCTCCTAGACAGCCCATTCGGATAT
AAAGATGCAGATTTGTACTTGTTAGACTCGCCCTTTGGCTAT
AAAGATGCCGACTTATATTTGTTGGATTCACCCTTCGGCTAT
AAAGATGCCGATTTGTACTTATTGGATTCACCCTTCGGATAT
AAAGATGCGGACCTTTACCTACTGGACAGTCCCTTTGGTTAT
AAAGATGCGGACTTATATTTGTTGGACTCCCCCTTCGGATAT
AAAGATGCGGACTTGTATTTATTGGATTCGCCATTTGGTTAT
AAAGATGCGGATTTGTATTTGTTAGACTCACCGTTTGGCTAT
AAAGATGCTGATTTGTATTTATTAGACTCTCCTTTTAGATAC
AAAGATGCTGATTTGTATTTATTAGACTCTCCTTTTGAATAC
AAAGATGCTGATTTGTATTTATTAGACTCTCCTTTTGCATAC
AAAGATGCTGATTTGTATTTATTAGACTCTCCTTTTGGAAAC
AAAGATGCTGATTTGTATTTATTAGACTCTCCTTTTGGAGAC
AAAGATGCTGATTTGTATTTATTAGACTCTCCTTTTGGATAC
AAAGATGCTGATTTGTATTTATTAGACTCTCCTTTTGGATAG
AAAGATGCTGATTTGTATTTATTAGACTCTCCTTTTGGATAT
AAAGATGCTGATTTGTATTTATTAGACTCTCCTTTTGGATGC
AAAGATGCTGATTTGTATTTATTAGACTCTCCTTTTGGATTC
AAAGATGCTGATTTGTATTTATTAGACTCTCCTTTTGGGTAC

EFFICIENZA
15%
15%
100%
85%
50%
100%
100%
60%
100%
90%
70%
100%
100%
100%
100%
90%
100%
95%
10%
45%
40%
70%
25%
100%
100%
100%
100%
90%
60%
5%
10%
10%
70%
10%
80%
5%
25%
100%
95%
10%

AAAGATGCTGATTTGTATTTATTAGACTCTCCTTTTGGTTAC
AAAGATGGTGATTTGTATTTATTAGACTCTCCTTTTGGATAC
AAAGATGTTGATTTGTATTTATTAGACTCTCCTTTTGGATAC
AAAGGTGCTGATTTGTATTTATTAGACTCTCCTTTTGGATAC
AAAGTTGCTGATTTGTATTTATTAGACTCTCCTTTTGGATAC
AAATATGCTGATTTGTATTTATTAGACTCTCCTTTTGGATAC
AAGAACGCCGACTTATATTTATTAGACTCCCCCTTTGGATAC
AAGGACGCAGACCTGTATCTGCTGGACAGCCCGTTCGGGTAT
AAGGACGCAGATCTTTATCTTCTCGACAGTCCCTTCGGATAT
AAGGACGCAGATTTATATTTATTAGACTCCCCCTTTGGATAC
AAGGACGCAGATTTATATTTATTAGACTCCCCTTTTGGTTAC
AAGGACGCAGATTTGTACTTATTAGATTCACCCTTCGGATAT
AAGGACGCAGATTTGTACTTATTAGATTCGCCGTTCGGGTAT
AAGGACGCAGATTTGTATTTGTTAGACTCCCCATTCGGGTAC
AAGGACGCAGATTTGTATTTGTTAGACTCCCCATTCGGGTAT
AAGGACGCAGATTTGTATTTGTTAGACTCCCCATTCGGGTAT
AAGGACGCCGACCTATACCTACTAGACAGTCCCTTCGGTTAT
AAGGACGCCGACTTATACTTGTTGGACTCGCCTTTTGGCTAT
AAGGACGCCGACTTATACTTGTTGGACTCGCCTTTTGGCTAT
AAGGACGCCGACTTGTACTTATTGGATTCCCCATTTGGCTAT
AAGGACGCCGACTTGTATTTGTTGGACTCTCCGTTCGGTTAT
AAGGACGCCGATCTCTACCTTCTGGACAGTCCGTTTGGGTAT
AAGGACGCCGATCTCTATCTACTGGATAGTCCGTTTGGTTAT
AAGGACGCCGATTTATACTTGTTGGATTCCCCGTTCGGGTAT
AAGGACGCGGACTTGTACTTATTGGACTCCCCCTTCGGTTAT
AAGGACGCGGACTTGTATTTATTAGATTCGCCGTTCGGCTAT
AAGGACGCGGATCTATACCTTCTCGACAGCCCATTCGGCTAT
AAGGACGCTGACTTATACTTGTTAGATTCCCCTTTCGGTTAT
AAGGACGCTGACTTGTATTTATTGGACTCCCCATTTGGGTAT
AAGGACGCTGATCTCTACCTCCTCGACAGTCCATTTGGCTAT
AAGGATGCAGACTTATATTTATTAGACTCCCCCTTTGGATAC
AAGGATGCAGATTTATATTTATTAGACTCCCCCTTTGGATAC
AAGGATGCAGATTTATATTTATTAGACTCCCCTTTTGGTTAC
AAGGATGCAGATTTATATTTATTAGACTCCCCTTTTGGTTAT
AAGGATGCCGACCTGTACCTGCTAGATAGCCCGTTCGGGTAT
AAGGATGCCGATCTATATCTACTCGATAGCCCTTTCGGATAT
AAGGATGCCGATCTCTACCTCCTTGACAGCCCTTTCGGTTAT
AAGGATGCCGATTTATATTTATTAGACTCCCCCTTTGGATAC
AAGGATGCGGACTTATACTTGTTGGATTCCCCCTTTGGCTAT
AAGGATGCTGACCTCTACCTTCTGGACAGTCCATTCGGTTAT
AAGGATGCTGATTTATATTTATTAGACTCTCCGTTCGGTTAT

10%
45%
10%
40%
50%
10%
100%
100%
100%
60%
0%
100%
90%
75%
25%
75%
90%
100%
100%
100%
100%
100%
75%
100%
100%
100%
75%
25%
100%
100%
60%
60%
0%
0%
100%
100%
90%
80%
100%
100%
75%
Di seguito riportiamo le previsioni in formato grafico della distribuzione dei motivi ESE ottenuta con
il programma ESEfinder (http://exon.cshl.edu/ESE/index.html). I primi tre grafici sono stati ottenuti
con sequenze esoniche che sappiamo avere efficienza di splicing nulla o al massimo del 5%.

SF2/ASF

SC35

SRp40

SRp55
Questi grafici sono stati ottenuti inserendo sequenze esoniche che sappiamo avere efficienza del 100%.
Si nota che in termini di densità di motivi ESE, non c’è una grande differenza tra i grafici delle sequenze
a minima e a massima efficienza, di qui la limitata utilità dei programmi attualmente disponibili.
….G

T

A

C

G

T

T

T

A

C

G….

0100 1000 0001 0010 0100 1000 1000 1000 0001 0010 0100

Σ

Σ

Σ

Σ

Σ

Σ

Σ

Efficienza 0..100%

Σ

Σ
Campus di Padriciano

SISSA Scuola
Internazionale
Superiore di
Studi Avanzati
Campus di Basovizza

Osservatorio Astronomico
di Trieste INAF
the abdus salam international
centre for theoretical physics

Laboratorio di biologia marina

Il castello di Miramare

Istituto talassografico

More Related Content

Viewers also liked

2013.12.21 第五回ニコニコ学会β研究100連発伊福部スライド
2013.12.21 第五回ニコニコ学会β研究100連発伊福部スライド2013.12.21 第五回ニコニコ学会β研究100連発伊福部スライド
2013.12.21 第五回ニコニコ学会β研究100連発伊福部スライド
Masahiko INAMI
 
Sistema sensoriale
Sistema sensorialeSistema sensoriale
Sistema sensoriale
imartini
 
Psikologi modul 3 kb 3
Psikologi modul 3 kb 3Psikologi modul 3 kb 3
Psikologi modul 3 kb 3
Uwes Chaeruman
 
Sistnervoso
SistnervosoSistnervoso
Sistnervoso
imartini
 
Sisyema nervoso autonomo
Sisyema nervoso autonomoSisyema nervoso autonomo
Sisyema nervoso autonomo
imartini
 

Viewers also liked (8)

網路行銷與社群經營
網路行銷與社群經營網路行銷與社群經營
網路行銷與社群經營
 
2013.12.21 第五回ニコニコ学会β研究100連発伊福部スライド
2013.12.21 第五回ニコニコ学会β研究100連発伊福部スライド2013.12.21 第五回ニコニコ学会β研究100連発伊福部スライド
2013.12.21 第五回ニコニコ学会β研究100連発伊福部スライド
 
Sistema sensoriale
Sistema sensorialeSistema sensoriale
Sistema sensoriale
 
Psikologi modul 3 kb 3
Psikologi modul 3 kb 3Psikologi modul 3 kb 3
Psikologi modul 3 kb 3
 
Sistnervoso
SistnervosoSistnervoso
Sistnervoso
 
Sisyema nervoso autonomo
Sisyema nervoso autonomoSisyema nervoso autonomo
Sisyema nervoso autonomo
 
Koraput monthly digest june 2015
Koraput monthly digest june 2015Koraput monthly digest june 2015
Koraput monthly digest june 2015
 
Heat Exchanger & Silencer By Baffles Cooling Systems, Coimbatore
Heat Exchanger & Silencer By Baffles Cooling Systems, CoimbatoreHeat Exchanger & Silencer By Baffles Cooling Systems, Coimbatore
Heat Exchanger & Silencer By Baffles Cooling Systems, Coimbatore
 

Similar to Reti neurali

Dainese Anniversario, 45 years
Dainese Anniversario,  45 yearsDainese Anniversario,  45 years
Dainese Anniversario, 45 years
Xmoto Dainese, Arai Helmets- Moto Accessories
 
L'uso dei Social Network per l'e-learning
L'uso dei Social Network per l'e-learningL'uso dei Social Network per l'e-learning
L'uso dei Social Network per l'e-learning
Michele Quartucci
 

Similar to Reti neurali (18)

Soluzioni tecnologiche - Presentazione Lavori Gruppo Sensori
Soluzioni tecnologiche - Presentazione Lavori Gruppo SensoriSoluzioni tecnologiche - Presentazione Lavori Gruppo Sensori
Soluzioni tecnologiche - Presentazione Lavori Gruppo Sensori
 
Open Data per conferenza ASITA 2013 (Riva del Garda - TN)
Open Data per conferenza ASITA 2013 (Riva del Garda - TN)Open Data per conferenza ASITA 2013 (Riva del Garda - TN)
Open Data per conferenza ASITA 2013 (Riva del Garda - TN)
 
Dainese Anniversario, 45 years
Dainese Anniversario,  45 yearsDainese Anniversario,  45 years
Dainese Anniversario, 45 years
 
Stalking 23 ottobre 2015
Stalking   23 ottobre 2015Stalking   23 ottobre 2015
Stalking 23 ottobre 2015
 
Bozza nuovo regolamento consulta associazioni con evidenziazioni...
Bozza nuovo regolamento consulta associazioni con evidenziazioni...Bozza nuovo regolamento consulta associazioni con evidenziazioni...
Bozza nuovo regolamento consulta associazioni con evidenziazioni...
 
La bozza del "nuovo" Regolamento della Consulta delle Associazioni
La bozza del "nuovo" Regolamento della Consulta delle AssociazioniLa bozza del "nuovo" Regolamento della Consulta delle Associazioni
La bozza del "nuovo" Regolamento della Consulta delle Associazioni
 
Articolo da "Lavoce.info" - 13 aprile 2012
Articolo da "Lavoce.info" - 13 aprile 2012 Articolo da "Lavoce.info" - 13 aprile 2012
Articolo da "Lavoce.info" - 13 aprile 2012
 
Lavoce.info - Parere sulla modifica ai "rimborsi elettorali" dei partiti ital...
Lavoce.info - Parere sulla modifica ai "rimborsi elettorali" dei partiti ital...Lavoce.info - Parere sulla modifica ai "rimborsi elettorali" dei partiti ital...
Lavoce.info - Parere sulla modifica ai "rimborsi elettorali" dei partiti ital...
 
L'uso dei Social Network per l'e-learning
L'uso dei Social Network per l'e-learningL'uso dei Social Network per l'e-learning
L'uso dei Social Network per l'e-learning
 
Transmedia News - Un approccio per affrontare la svolta digitale nel giornali...
Transmedia News - Un approccio per affrontare la svolta digitale nel giornali...Transmedia News - Un approccio per affrontare la svolta digitale nel giornali...
Transmedia News - Un approccio per affrontare la svolta digitale nel giornali...
 
Perche' e come organizzare e monitorare: gli audit clinici (Beppe Belleri)
Perche' e come organizzare e monitorare: gli audit clinici (Beppe Belleri) Perche' e come organizzare e monitorare: gli audit clinici (Beppe Belleri)
Perche' e come organizzare e monitorare: gli audit clinici (Beppe Belleri)
 
Bitcoin pregi e difetti
Bitcoin pregi e difettiBitcoin pregi e difetti
Bitcoin pregi e difetti
 
Volantino tesi
Volantino tesiVolantino tesi
Volantino tesi
 
COMPANY DNA EMPOWERMENT. GABRIELE MICOZZI
COMPANY DNA EMPOWERMENT. GABRIELE MICOZZICOMPANY DNA EMPOWERMENT. GABRIELE MICOZZI
COMPANY DNA EMPOWERMENT. GABRIELE MICOZZI
 
Presentazione Marcello Merlo - CowoCamp13
Presentazione Marcello Merlo - CowoCamp13Presentazione Marcello Merlo - CowoCamp13
Presentazione Marcello Merlo - CowoCamp13
 
Rc corporate profile_6.0
Rc corporate profile_6.0Rc corporate profile_6.0
Rc corporate profile_6.0
 
Pane, Web e Salame 4 “Come Internet mi ha salvato la vita” - Alessandro Minin...
Pane, Web e Salame 4 “Come Internet mi ha salvato la vita” - Alessandro Minin...Pane, Web e Salame 4 “Come Internet mi ha salvato la vita” - Alessandro Minin...
Pane, Web e Salame 4 “Come Internet mi ha salvato la vita” - Alessandro Minin...
 
Mageploy, easily keep track of changes and deploy synchronization between dif...
Mageploy, easily keep track of changes and deploy synchronization between dif...Mageploy, easily keep track of changes and deploy synchronization between dif...
Mageploy, easily keep track of changes and deploy synchronization between dif...
 

More from imartini (20)

2 parliamo e discutiamo del bullismo
2 parliamo e discutiamo del bullismo2 parliamo e discutiamo del bullismo
2 parliamo e discutiamo del bullismo
 
Scheda bambino
Scheda bambinoScheda bambino
Scheda bambino
 
Subitizing
SubitizingSubitizing
Subitizing
 
intelligenza emotiva
intelligenza emotivaintelligenza emotiva
intelligenza emotiva
 
Il quaderno delle_regole_di_matematica
Il quaderno delle_regole_di_matematicaIl quaderno delle_regole_di_matematica
Il quaderno delle_regole_di_matematica
 
comunicazione_non_verbale
 comunicazione_non_verbale comunicazione_non_verbale
comunicazione_non_verbale
 
Adhd u
Adhd uAdhd u
Adhd u
 
DSA
DSADSA
DSA
 
osservazione fattoei di rischio dsa
osservazione fattoei  di rischio dsaosservazione fattoei  di rischio dsa
osservazione fattoei di rischio dsa
 
Prerequisiti
Prerequisiti Prerequisiti
Prerequisiti
 
Per sito-prerequisiti-letto-scrittura
Per sito-prerequisiti-letto-scrittura Per sito-prerequisiti-letto-scrittura
Per sito-prerequisiti-letto-scrittura
 
scrittura
scritturascrittura
scrittura
 
Dispensa dsa
Dispensa  dsaDispensa  dsa
Dispensa dsa
 
Dentro ai dsa n
Dentro ai dsa nDentro ai dsa n
Dentro ai dsa n
 
dislessia
dislessiadislessia
dislessia
 
stili di apprendimento
stili di apprendimentostili di apprendimento
stili di apprendimento
 
DSA
DSADSA
DSA
 
Dsa fasce eta
Dsa  fasce etaDsa  fasce eta
Dsa fasce eta
 
Sviluppo percettivomotorio
Sviluppo percettivomotorio Sviluppo percettivomotorio
Sviluppo percettivomotorio
 
prerequisiti della scrittura
prerequisiti della scritturaprerequisiti della scrittura
prerequisiti della scrittura
 

Reti neurali

  • 1. Introduzione alle reti neurali Francesco Piva Istituto di Biologia e Genetica Università Politecnica delle Marche
  • 2. Caratteristiche delle sequenze codificanti Poiché il codice genetico è degenere, nelle sequenze codificanti dei geni si possono trovare due peculiarità: • la non equiprobabilità nell’uso dei codoni sinonimi definisce un ‘codon usage’ caratteristico delle specie • la correlazione tra basi in posizioni diverse definisce il ‘context-dependent codon bias’ Nella teoria dell’informazione, la non equiprobabilità nella comparsa dei simboli e la correlazione tra simboli di un codice definiscono la ridondanza di un linguaggio.
  • 3. Vantaggi e svantaggi della ridondanza: • tanto più un linguaggio è ridondante, tanto minore è la sua efficienza informativa. In altre parole: a parità di messaggio da trasmettere o memorizzare, dobbiamo utilizzare più simboli per il linguaggio più ridondante • maggiore è la ridondanza di un linguaggio, maggiore è la sua robustezza cioè la capacità di essere compreso anche a seguito di disturbi o mutazioni • la ridondanza permette la coesistenza di linguaggi a diversi strati: traduzione in proteina ma anche regolazione dell’efficienza di splicing. Es. motivi ESE (exon splicing enhancer) e ESS (exon splicing silencer).
  • 4. La nostra anslisi Tramite software da noi realizzato, abbiamo analizzato le correlazioni tra un codone e un nucleotide separati da una distanza compresa tra 1 e 90 basi, a c g 1 2 3 nelle sequenze codificanti di H.sapiens, C.elegans e M.musculus, per determinare in che modo la presenza di un certo codone influenzi le basi che seguono 90
  • 5. Origine e trattamento dei dati I file contenenti le sequenze dei geni sono state prelevate da Genbank. Purtroppo una parte delle sequenze contenute nei file presentavano dei problemi: alcuni geni non iniziavano con ‘atg’, codoni di stop prematuri, sequenze troncate prima del codone di STOP, sequenze duplicate, geni ‘not experimental’. I file sono stati puliti e ordinati con dei programmi che abbiamo sviluppato ‘ad hoc’.
  • 6. t r i p l e t t a c h e p r e c e d e l e b a s i b aaa aac aag aat aca acc acg act aga agc agg agt ata atc atg att caa cac cag cat cca ccc ccg cct cga cgc cgg cgt cta ctc ctg ctt gaa gac gag gat gca gcc gcg gct gga ggc ggg ggt gta gtc gtg gtt tac tat tca tcc tcg tct tgc tgg tgt tta ttc ttg ttt a s i a v H. sapiens 1 2 3 4 5 6 7 8 9 10 11 g a a a a a a a a t c a c g a c a a/g a g a g g a g g a g a a a g a a a g a g a g a a a c/g g c g c g g g g c g c g g g a a a g/a a a a a g a a/c c g c/g g c g a a g a g g a g g a g a a g a g a g a g a a a a a a c g a c g a c g a g a g g a g a g a g a g a g a g a g a a g a a a/c c/g g a c/g g a c/g a a g g/c g a g g a g a a g a a g a c g a c/g g c c c c/g g g/c c g/c c c c/g g c c/g g/c c g g g g a a g a g a a c/g g c/g c/g c/g g g/c a g/c c g/c g g/c g g c g a g a g a g a g a g a a a t c g a c c g g a g/c g a c/g g g/c g c/g g a a a g a g a g/a a g/a a a c/g g a c/g g a c/g g a g a g g a g/c g a g/c g a g a g a g a g a g a g g a g a c/g g c/g g c/g g g/c c g/c g c g/c g g/c g g g a g a g g a g g g a c g c/g g c/g g g a c/g g g/c g c/g g g c g g g a a a t c g a c g a c g g a c/g g g/c g c/g g g g a g a g a a c/g g a c g a c g a g a a a g a g a g a a a c/g g c c g g c c g c g g g a a a a/c c g a c/g c g g/a a a g g c g a g a a g g a a g a g a a a a/c c g a c g a c g a a g a g a g a g a a a a l l e d e l l a C.elegans 12 1 2 3 4 5 6 7 8 9 10 g/a a g a g/a a a g c a a g a g a g g a a a/g a g a g g a t a t/a a t g a t t g t g a a g c a/g a c g a g a g a a t a a g a a g t/a g a t g a t g a a t g a g a a g c/g a a g a g a g g a a t a a g a a g a t/a g a t g a t/a g a t t g a a g a t c/g a a g a g a g a/g a g a g a g g t g a t g a t g a g a g a g c/g a/g a g a a g g/c a a a a g a g a a t a t a t c a/t g a t g a a g c/g g a g a a g c/g a a t a t g a g c a a a a t a a a g a/t t g a t g c/g a a g a a g g/c a a a a a t g a t g g a t g a t a/t t g t a g a t g a t g c/g a/g a c g a a/t g g/c a a a a a t g a g c/g t g a t g a t g g a t g a g a a g c/g g/a a g a g a g g/c a a g/a a g a g g a t g a t g a t g a t t g t g a t/a g c/g g/a a g a g a g g/c a a a t g a g g/c t/a g a t g a t g a/g a t g t g t g c/g g a g a g g c/g g t/a g a t g t g t t g a t g a g c a/g a c g a g a g c/g a a/t a a t g a g g t g a t g a t g c/g a a g a g a g g a t g a t g a t g a c t g t g a t c a a g a g c a a t a t g a g c a g a t g a t g c a a g a a t g c a a t g a t g a t g g a t g a t g a t g t a g a t a a t g c a a g a g a g a a a a t g a t g g t g a t g a t t r 11 a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a 12 1 g a a t g t g a g t g t a/g a a t g g a g t g t/a g a a a a a a a a a a a a a a a a a a a a t a i g g a g t g a/t g c a g g t g a g t g/c a/t g a g t g t/a g a g t g t g a a/g t g t g a g t g a t g t g a g t g c/a g/a t g t g c/a g t g p 2 a a a a t l 3 c g c g a c a a a a a a a a a c c g c g e t t a M.musculus 4 5 6 7 a a a a c g a g g a a a g g a c g g/c g g a a g c g g g g a g g/a a g a c g g a g g a g a g g a c g g g a g/c g c/g c g a g/c c/g c g c g g a c g a g t g a g g a g t c g a g g a g a g t g/c g c/g g g a g c g a c c g a g t c g a g/c g g c g a a c g g 8 a a a a a c c c c g c a g/c a a c a g a a a c a a a a c a g a c c g/c g g g/c c/g g c a g a c a c/g g a a g a c g a g g a g g g/c g c/g g a g g c g g g g a g a c g c/g g a g a c a 9 c g/c a g/c c/g a c a c c/g a a a c a g a a g/c c/g a c c a c g/c a a a a c c g/c g a c a a a t a a g a a a/g a c g a a a c c g c a c c g a a 10 11 12 a a aaa a c aac g a g aag a aat a aca c acc g g/c acg a act a aga g c agc g a agg g a agt a a ata g a c atc g a atg g a att g a caa a c cac g a g cag a cat g cca g c ccc g g/c ccg g cct g a cga g g/c cgc g a c/g cgg g a cgt a cta c ctc g c/g ctg a ctt g a gaa g a c gac g a a gag g a gat g gca g c gcc g c/g gcg g gct g gga g c ggc g c ggg g ggt g a gta g c gtc g g/c gtg g a gtt a c tac a tat a tca c tcc g g/c tcg tct g c tgc a tgg tgt a tta c ttc g a ttg a ttt Tabella riassuntiva che riporta le principali correlazioni tra una tripletta e i nucleotidi a valle
  • 7. Uno sguardo di dettaglio 1 aaa aac aag aat aca acc acg act aga agc agg agt ata atc atg att g a a t a/g a g a g a a g g g/a a a/c a a g a g a a g a g a 2 3 4 a c g a g c/g g g g g c g c g 5 a a a a a a a g g g g g a a a a a a H. sapiens 6 7 8 9 10 a a a c g a c g g a g g g a a g a c g c g c g c g a a a g c/g g c g g g a g g g a g a a a c g a c g g a g g a g 11 12 a a c a g a a c aaa aac aag aat aca acc acg act aga agc agg agt ata atc atg att a a a a a a a a 1 g a a g g a g g a/g a a g g a g g c/g g c/g 2 a a a a t 3 c g c g a c a a a a a c c g M.musculus 5 6 7 a a a c g a g g a a a g g a c g g/c g g a a g c g g g g a g g/a a g a c g g a g g a g 4 a 8 a a a a a 9 C.elegans 1 2 3 4 5 6 7 8 9 10 g/a a g a g/a a a g a a g a g a g a a a/g a g a g g a t a t/a a t g a t t g t g a a g a/g a c g a g a g a a t a a g a a g t/a g a t g a t g a a t g a g a a g a a g a g a g a a t a a g a a g a t/a g a t g a t/a g a t t g a a g a t a a g a g a g a/g a g a g a g g t g a t g a t g 10 11 12 a a aaa c a c aac g g a g aag a aat a aca c c acc a g/c g g/c acg a a act a a aga c g c agc a g g a agg a g a agt a a a ata a c g a c atc a g a atg a g a att 11 a a a a a a a a a a a a a a a a 12 t t t t t t
  • 8. Idea Poiché lo schema delle correlazioni nelle posizioni 3n, è caratteristico di una specie, si è pensato di utilizzarlo per provare a riconoscere la specie a cui appartiene una certa sequenza genica. Sequenza genica ? ……………… H.sapiens C.elegans M.musculus Per la non linearità e l’elevato numero di variabili del problema si è scelto di affrontarlo utilizzando un algoritmo che implementa una rete neurale.
  • 9. Uno dei più grossi problemi del modello computazionale matematico introdotto da John von Neumann (Macchina di von Neumann) è la sua rigidità e l'impossibilità di rispondere a stimoli esterni (input) in maniera diversa da ciò che viene inizialmente immesso nell'elaboratore. In parole semplici, un computer, generalmente, può riconoscere e rispondere solo a stimoli che sono stati codificati precedentemente; anche le risposte, inoltre, sono sempre rigidamente decise a priori. Le Reti Neurali nascono dall’idea di poter riprodurre alcune delle funzioni e capacità del cervello umano L’area di applicazione dominante delle Reti Neurali (RN) è il riconoscimento di regolarità, o pattern recognition, e l’obiettivo fondamentale di tale caratteristica è la classificazione. (categorizzazione) Un esempio delle sue potenzialità è la possibilità di riconoscere volti, voci etc.
  • 10. Il neurone artificiale assoni n sinapsi x1 x2 w1 x3 w3 xn wn w2 i =1 dendriti Σ b inputs weights y = f ( ∑ wi xi +b) corpo bias assone f non linear function
  • 11. Struttura di una rete neurale nodi uscite Similitudine tra una rete neurale biologica e una artificiale strato di neuroni di ingresso strato di neuroni nascosto o intermedio strato di neuroni di uscita
  • 12. Vantaggi dell’utilizzo delle reti neurali: Capacità di apprendere e costruire una conoscenza da esempi o dati di esperimenti Sistema da studiare uscita . . . . uscita ingresso . . . ... . . . uscita Capacità di riprodurre (o modellare) qualsiasi comportamento non lineare di un sistema . . . . . . .. . . . . . ingresso Capacità di classificare dati apparentemente non raggruppabili Es: statistica multivariata . ingresso
  • 13. Altre caratteristiche Risposta continua ad esclusione di un numero finito di discontinuità ad input simili la rete risponde con output simili Tolleranza agli errori scostamenti non significativi dei valori di input vengono assorbiti dalla rete, diminuendo così il rumore statistico e risultando tolleranti agli errori o al decadimento del segnale Tolleranza ai guasti La presenza di molte unità di processamento parallele l'eventuale perdita di un unità ha, nel caso di architetture con molti neuroni, conseguenze non irreparabili Capacità di memorizzare
  • 14. Svantaggi dell’utilizzo delle reti neurali: Ai fini dell’apprendimento dobbiamo fornire alla rete neurale tanti più esempi quanto più fortemente non lineare è il sistema da modellare. Non sappiamo a priori quale sia la miglior topologia (numero di nodi, di strati, collegamenti fra nodi e tipo di funzioni che devono implementare i nodi di ciascun strato) da assegnare alla rete neurale affinchè modelli al meglio il nostro sistema. Una volta che la rete funziona, non sappiamo nulla del suo modello interno, in altre parole non fornisce spiegazioni sul funzionamento del sistema che stiamo studiando. La rete è per noi una scatola nera.
  • 16. Il problema dei minimi locali Con reti neurali a più strati e funzioni non lineari, l’apprendimento può arrivare ad un minimo locale e non garantire la convergenza
  • 18. Per avere un’idea della complessità di addestramento di una rete neurale E N N 1   = 1  − g  w g  w x   ( w) = 2 ∑ u j − y j  2 ∑ u j  ∑ kj  ∑ ik i      j  j   i    k   2 ∆wkj = −η ∂E = η ∑ u − y  g (h ) H = η ∑δ H     ∂ wkj n j n n ' j n n j k 2 n n j k n = −η ∂E = −η ∑ ∂E ∂H ∆w ∂ wik ∂H ∂ wik = η ∑ u − y  g ( h ) w g (h ) x = η ∑ δ w g (h ) x = η ∑δ x     n k ik n n n nj n j j ' k ' n j kj n n k i ' n nj j kj n n k i n n n k i
  • 19. All’aumentare della complessità della rete aumentano le possibilità di classificazione
  • 20. Esempi di applicazione • • • • • • • • Riconoscimento caratteri Riconoscimento immagini tele-rilevate Macchina da scrivere fonetica Eliminazione del rumore (sonar) Sistemi di controllo Previsioni di marketing Previsioni finanziarie Compressione di dati e immagini
  • 21.
  • 22.
  • 23.
  • 24.
  • 25.
  • 26.
  • 27.
  • 28. Evoluzione della capacità di classificare della rete neurale
  • 29. Implicazioni: • I geni di una stessa specie hanno delle caratteristiche in termini di sequenza che li accomuna e permette di riconoscerli • Si possono distinguere anche specie che hanno geni con forte omologia (uomo e topo) • Queste differenze sono legate ad una diversa selezione delle mutazioni nel corso dell’evoluzione? O a un diversa funzionalità (splicing, attivazione genica, interazioni con proteine di regolazione)? • E’ una possibile prova dell’esistenza di un linguaggio o codice ad un livello diverso da quello conosciuto? • Se non si spinge troppo l’apprendimento si ha una situazione in cui è possibile definire un nuovo modo per valutare la distanza di un gene fra specie diverse.
  • 30. Possibili utilizzi dell’algoritmo: Riconoscere le specie quando si estraggono geni da matrici biologiche complesse o sconosciute Migliorare i programmi di riconoscimento dei geni dal genoma Individuazione di specie estranee in organismi OGM Avere un sistema di riconoscimento delle specie che sia portatile, nel caso ci si trovi sul campo e non si abbia accesso alle banche dati su internet Avere nuove indicazioni per la comprensione del funzionamento e dell’evoluzione delle sequenze codificanti Definire meglio le incompatibilità fra genomi di specie diverse molto simili, le barriere tra le specie
  • 31. Sviluppi futuri: Provare a distinguere le sequenze introniche ed esoniche Provare a distinguere le sequenze codificanti e non Aumentare il numero delle specie che è possibile riconoscere Ringraziamenti: Prof Giovanni Principato Direttore dell’Istituto di Biologia e Genetica, Università Politecnica delle Marche, Ancona Dott Michela Raponi Istituto di Biologia e Genetica, Università Politecnica delle Marche e International Centre for Genetic Engineering and Biotechnology, AREA Science Park, Trieste
  • 32. Un esempio pratico: previsione dell’efficienza di splicing Affinchè lo splicing del pre-mRNA avvenga correttamente è necessario che gli introni e gli esoni siano definiti attraverso i siti di splicing in 5’ e in 3’. A seguito del processo di splicing, non tutti gli mRNA processati da pre-mRNA di ugual sequenza potrebbero contenere gli esoni definiti in precedenza e allora si definisce efficienza di splicing relativa ad un particolare esone, il rapporto tra la quantità di mRNA contenente l’esone e il pre-mRNA totale processato. Per modulare l’efficienza di ritenzione dell’esone intervengono proteine che si legano a sequenze esoniche promuovendone od ostacolandone l’inclusione. Di queste sequenze, le prime si dicono exon splicing enhancer (ESE), le altre si dicono exon splicing silencer (ESS).
  • 33. PARTE DELL'ESONE 12 DEL GENE CFTR AAAAATGCTGATTTGTATTTATTAGACTCTCCTTTTGGATAC AAACATGCTGATTTGTATTTATTAGACTCTCCTTTTGGATAC AAAGAAGCTGATTTGTATTTATTAGACTCTCCTTTTGGATAC AAAGACGCAGACCTGTATCTGCTCGACAGTCCGTTCGGGTAT AAAGACGCAGACTTATACTTATTAGACTCCCCCTTTGGATAC AAAGACGCAGACTTATACTTATTGGACTCACCGTTTGGTTAT AAAGACGCAGACTTGTATTTGTTGGACTCACCGTTCGGTTAT AAAGACGCAGATTTATACTTGTTGGATTCCCCCTTCGGCTAT AAAGACGCAGATTTATATTTGTTGGACTCCCCGTTTGGATAT AAAGACGCAGATTTGTATTTATTGGATTCTCCGTTTGGGTAT AAAGACGCCGACCTCTATCTACTCGATAGCCCCTTCGGCTAT AAAGACGCCGACTTATATTTATTAGACTCCCCCTTTGGATAT AAAGACGCGGACCTGTACCTACTGGATAGCCCTTTCGGATAT AAAGACGCGGATTTGTATTTATTGGATTCACCTTTCGGCTAT AAAGACGCTGATTTGTACTTATTGGATTCACCGTTCGGATAT AAAGACGCTGATTTGTATTTATTAGACTCGCCATTCGGATAT AAAGACGCTGATTTGTATTTATTAGACTCTCCTTTTGGATAC AAAGAGGCTGATTTGTATTTATTAGACTCTCCTTTTGGATAC AAAGATACTGATTTGTATTTATTAGACTCTCCTTTTGGATAC AAAGATCCTGATTTGTATTTATTAGACTCTCCTTTTGGATAC AAAGATGCAGACCTCTACCTCCTAGATAGTCCATTTGGGTAT AAAGATGCAGATCTTTATCTCCTAGACAGCCCATTCGGATAT AAAGATGCAGATTTGTACTTGTTAGACTCGCCCTTTGGCTAT AAAGATGCCGACTTATATTTGTTGGATTCACCCTTCGGCTAT AAAGATGCCGATTTGTACTTATTGGATTCACCCTTCGGATAT AAAGATGCGGACCTTTACCTACTGGACAGTCCCTTTGGTTAT AAAGATGCGGACTTATATTTGTTGGACTCCCCCTTCGGATAT AAAGATGCGGACTTGTATTTATTGGATTCGCCATTTGGTTAT AAAGATGCGGATTTGTATTTGTTAGACTCACCGTTTGGCTAT AAAGATGCTGATTTGTATTTATTAGACTCTCCTTTTAGATAC AAAGATGCTGATTTGTATTTATTAGACTCTCCTTTTGAATAC AAAGATGCTGATTTGTATTTATTAGACTCTCCTTTTGCATAC AAAGATGCTGATTTGTATTTATTAGACTCTCCTTTTGGAAAC AAAGATGCTGATTTGTATTTATTAGACTCTCCTTTTGGAGAC AAAGATGCTGATTTGTATTTATTAGACTCTCCTTTTGGATAC AAAGATGCTGATTTGTATTTATTAGACTCTCCTTTTGGATAG AAAGATGCTGATTTGTATTTATTAGACTCTCCTTTTGGATAT AAAGATGCTGATTTGTATTTATTAGACTCTCCTTTTGGATGC AAAGATGCTGATTTGTATTTATTAGACTCTCCTTTTGGATTC AAAGATGCTGATTTGTATTTATTAGACTCTCCTTTTGGGTAC EFFICIENZA 15% 15% 100% 85% 50% 100% 100% 60% 100% 90% 70% 100% 100% 100% 100% 90% 100% 95% 10% 45% 40% 70% 25% 100% 100% 100% 100% 90% 60% 5% 10% 10% 70% 10% 80% 5% 25% 100% 95% 10% AAAGATGCTGATTTGTATTTATTAGACTCTCCTTTTGGTTAC AAAGATGGTGATTTGTATTTATTAGACTCTCCTTTTGGATAC AAAGATGTTGATTTGTATTTATTAGACTCTCCTTTTGGATAC AAAGGTGCTGATTTGTATTTATTAGACTCTCCTTTTGGATAC AAAGTTGCTGATTTGTATTTATTAGACTCTCCTTTTGGATAC AAATATGCTGATTTGTATTTATTAGACTCTCCTTTTGGATAC AAGAACGCCGACTTATATTTATTAGACTCCCCCTTTGGATAC AAGGACGCAGACCTGTATCTGCTGGACAGCCCGTTCGGGTAT AAGGACGCAGATCTTTATCTTCTCGACAGTCCCTTCGGATAT AAGGACGCAGATTTATATTTATTAGACTCCCCCTTTGGATAC AAGGACGCAGATTTATATTTATTAGACTCCCCTTTTGGTTAC AAGGACGCAGATTTGTACTTATTAGATTCACCCTTCGGATAT AAGGACGCAGATTTGTACTTATTAGATTCGCCGTTCGGGTAT AAGGACGCAGATTTGTATTTGTTAGACTCCCCATTCGGGTAC AAGGACGCAGATTTGTATTTGTTAGACTCCCCATTCGGGTAT AAGGACGCAGATTTGTATTTGTTAGACTCCCCATTCGGGTAT AAGGACGCCGACCTATACCTACTAGACAGTCCCTTCGGTTAT AAGGACGCCGACTTATACTTGTTGGACTCGCCTTTTGGCTAT AAGGACGCCGACTTATACTTGTTGGACTCGCCTTTTGGCTAT AAGGACGCCGACTTGTACTTATTGGATTCCCCATTTGGCTAT AAGGACGCCGACTTGTATTTGTTGGACTCTCCGTTCGGTTAT AAGGACGCCGATCTCTACCTTCTGGACAGTCCGTTTGGGTAT AAGGACGCCGATCTCTATCTACTGGATAGTCCGTTTGGTTAT AAGGACGCCGATTTATACTTGTTGGATTCCCCGTTCGGGTAT AAGGACGCGGACTTGTACTTATTGGACTCCCCCTTCGGTTAT AAGGACGCGGACTTGTATTTATTAGATTCGCCGTTCGGCTAT AAGGACGCGGATCTATACCTTCTCGACAGCCCATTCGGCTAT AAGGACGCTGACTTATACTTGTTAGATTCCCCTTTCGGTTAT AAGGACGCTGACTTGTATTTATTGGACTCCCCATTTGGGTAT AAGGACGCTGATCTCTACCTCCTCGACAGTCCATTTGGCTAT AAGGATGCAGACTTATATTTATTAGACTCCCCCTTTGGATAC AAGGATGCAGATTTATATTTATTAGACTCCCCCTTTGGATAC AAGGATGCAGATTTATATTTATTAGACTCCCCTTTTGGTTAC AAGGATGCAGATTTATATTTATTAGACTCCCCTTTTGGTTAT AAGGATGCCGACCTGTACCTGCTAGATAGCCCGTTCGGGTAT AAGGATGCCGATCTATATCTACTCGATAGCCCTTTCGGATAT AAGGATGCCGATCTCTACCTCCTTGACAGCCCTTTCGGTTAT AAGGATGCCGATTTATATTTATTAGACTCCCCCTTTGGATAC AAGGATGCGGACTTATACTTGTTGGATTCCCCCTTTGGCTAT AAGGATGCTGACCTCTACCTTCTGGACAGTCCATTCGGTTAT AAGGATGCTGATTTATATTTATTAGACTCTCCGTTCGGTTAT 10% 45% 10% 40% 50% 10% 100% 100% 100% 60% 0% 100% 90% 75% 25% 75% 90% 100% 100% 100% 100% 100% 75% 100% 100% 100% 75% 25% 100% 100% 60% 60% 0% 0% 100% 100% 90% 80% 100% 100% 75%
  • 34. Di seguito riportiamo le previsioni in formato grafico della distribuzione dei motivi ESE ottenuta con il programma ESEfinder (http://exon.cshl.edu/ESE/index.html). I primi tre grafici sono stati ottenuti con sequenze esoniche che sappiamo avere efficienza di splicing nulla o al massimo del 5%. SF2/ASF SC35 SRp40 SRp55
  • 35. Questi grafici sono stati ottenuti inserendo sequenze esoniche che sappiamo avere efficienza del 100%. Si nota che in termini di densità di motivi ESE, non c’è una grande differenza tra i grafici delle sequenze a minima e a massima efficienza, di qui la limitata utilità dei programmi attualmente disponibili.
  • 36. ….G T A C G T T T A C G…. 0100 1000 0001 0010 0100 1000 1000 1000 0001 0010 0100 Σ Σ Σ Σ Σ Σ Σ Efficienza 0..100% Σ Σ
  • 37. Campus di Padriciano SISSA Scuola Internazionale Superiore di Studi Avanzati Campus di Basovizza Osservatorio Astronomico di Trieste INAF the abdus salam international centre for theoretical physics Laboratorio di biologia marina Il castello di Miramare Istituto talassografico