tesi_completa.2

Indice __________________________________________________________________
Tesi di laurea di Elisa Bellistri ____________________________________________ I
Indice I
1. Sommario 1
2. Introduzione 3
2.1. La base della genetica: il DNA 3
2.1.1. Geni e proteine 5
2.1.2. Struttura e funzionalità dei domini proteici 6
2.2. Tecnologie high-throughput a microarray per analisi sperimentali 8
2.3. Banche dati biomolecolari e genomiche 9
2.3.1. Annotazioni funzionali di geni 11
2.3.2. Annotazioni funzionali di domini proteici 12
2.4. Stato dell’arte degli strumenti informatici per l’analisi delle annotazioni
genomiche 14
2.4.1. GFINDer e altri tool disponibili 14
2.4.1.1.Analisi statistiche 16
3. Scopo della Tesi 20
4. Materiali e Metodi 22
4.1. Strumenti per la gestione e la condivisione di dati 22
4.1.1. Data Base Management System 23
4.2. Strumenti per la visualizzazione e l’elaborazione dei dati 24
4.2.1. Web server, tecnologie di scripting e pagine web dinamiche 25
4.3. Strumenti per l’analisi e la visualizzazione dello schema di un database 28
4.3.1. Microsoft Office Visio® 29
4.3.2. fabForce DBDesigner 4.0 31
4.4. Analisi statistica 33
4.4.1. Classificazione e categorizzazione di geni 33
4.4.2. Regressione logistica 35
4.4.3. Algoritmo di verosimiglianza 36

Indice __________________________________________________________________
Tesi di laurea di Elisa Bellistri ____________________________________________ II
4.4.4. Parametri di valutazione 38
5. Risultati Progettuali e Discussione 40
5.1. Analisi della struttura dei database di GFINDer 40
5.1.1. DB master 41
5.1.2. DB mygo 42
5.1.3. DB interpro 45
5.1.4. DB webdata 46
5.2. Elaborazione dei dati 53
5.2.1. Creazione della matrice per l’analisi dei dati 54
5.2.2. Analisi univariata 56
5.2.3. Analisi multivariata 57
5.3. Funzionalità implementate 58
5.3.1. Modulo web per l’analisi di regressione logistica 58
5.3.2. Selezione dei parametri 59
5.3.3. Selezione parziale dei domini proteici 61
6. Risultati Applicativi e Discussione 62
6.1. Un esempio di test 62
6.2. Considerazioni sui dati ottenuti 64
7. Stato Attuale e Sviluppi Futuri 68
7.1. Analisi attualmente implementate in GFINDer 68
7.2. Altre tecniche di data mining 69
8. Conclusioni 70
9. Bibliografia 72
10. Pubblicazioni e Presentazioni Scientifiche Realizzate 80
10.1. Articolo in rivista internazionale 81

Indice __________________________________________________________________
Tesi di laurea di Elisa Bellistri ____________________________________________ III
10.1.1. BMC Bioinformatics 81
10.2. Contributo su atto di congresso nazionale 92
10.2.1. Bioinformatics ITalian Society meeting 2006 92
10.3. Contributo su atto di congresso internazionale 95
10.3.1. American Medical Informatics Association conference 2006 95

Capitolo 1. Sommario _____________________________________________________
Tesi di laurea di Elisa Bellistri ____________________________________________ 1
1. Sommario
Le tecnologie biomolecolari high-throughput (es. microarray) permettono di analizzare
decine di migliaia di sequenze nucleotidiche simultaneamente. L’interpretazione di tali
analisi richiede l’annotazione dei geni selezionati candidati con attributi funzionali,
strutturali e fenotipici qualificanti che ne descrivano in dettaglio le caratteristiche
principali. Inoltre è indispensabile un’analisi di tali annotazioni che segua un rigoroso
approccio statistico per poter individuare le categorie di attributi maggiormente rilevanti
nelle condizioni in esame.
Per tale fine è stato precedentemente sviluppato GFINDer, uno strumento web basato su
un’architettura client-server multi-livello che recupera automaticamente annotazioni
genomiche funzionali aggiornate dalle più importanti banche dati biomolecolari della
comunità scientifica internazionale; permette di annotare liste di geni ottenute da analisi
sperimentali su molte migliaia di geni contemporaneamente; elabora e analizza
statisticamente le annotazioni di liste di geni selezionate dall’utente e offre una
visualizzazione semplice ed efficace dei risultati delle analisi statistiche effettuate,
aiutando così nell’interpretazione del significato biologico delle liste di geni considerati.
La tipologia dei dati gestiti nei database di GFINDer, un insieme di annotazioni
funzionali di geni di vari genomi che possono essere utilizzate per classificare geni
singoli o gruppi di geni, ben si presta all’utilizzo di tecniche statistiche di classificazione
adatte alla ricerca di nuova conoscenza. In tale ambito si inserisce l’analisi di regressione
logistica sviluppata in questa Tesi. La maggior parte delle funzionalità implementate è
pubblicamente utilizzabile all’indirizzo http://www.bioinformatics.polimi.it/GFINDer/;
altre funzionalità specifiche sono riservate agli utenti registrati di GFINDer.
Nel capitolo “Introduzione” sono esposte le premesse sia in ambito biomedico che
informatico alle problematiche affrontate che hanno portato alla realizzazione della
presente Tesi.

Capitolo 1. Sommario _____________________________________________________
Motivazioni e obiettivi di questa sono illustrati nel capitolo “Scopo della Tesi”.
Nel capitolo “Materiali e Metodi” sono mostrati i dati e gli strumenti utilizzati, e i
metodi seguiti nello svolgimento della Tesi per raggiungere gli scopi esposti.
Il capitolo “Risultati Progettuali e Discussione” descrive il processo di reverse
engineering compiuto sui database di GFINDer per documentare la struttura degli stessi;
descrive inoltre le caratteristiche e l’architettura del modulo software sviluppato per
consentire di effettuare analisi di regressione logistica via web all’interno di GFINDer,
commentandone le varie parti e i passi realizzati.
I risultati delle elaborazioni svolte attraverso il modulo software implementato e il
confronto tra tali risultati sono esposti nel capitolo “Risultati Applicativi e Discussione”.
Il capitolo “Stato Attuale e Sviluppi Futuri” espone lo stato attuale dell’implementazione
del sistema GFINDer e delle analisi in esso disponibili e illustra come si potrebbero
utilmente applicare alcune altre tecniche di data mining sul tipo di dati considerato per
l’analisi di regressione logistica implementata.
I risultati raccolti hanno dimostrato la validità delle scelte fatte per raggiungere gli
obiettivi preposti, come esposto nel capitolo “Conclusioni”.
Il capitolo “Bibliografia” include i riferimenti a tutti i libri, articoli e siti web a cui ci si è
riferiti nello svolgimento di questa Tesi.
Il capitolo “Pubblicazioni e Presentazioni Scientifiche Realizzate” raccoglie la
pubblicazione scientifica, la comunicazione al congresso nazionale di Bioinformatica e la
comunicazione al congresso internazionale di Informatica Medica realizzate a seguito del
lavoro svolto nell’ambito di questa Tesi.

Capitolo 2. Introduzione ___________________________________________________
2. Introduzione
Gli studi che vengono condotti nel campo della ricerca genetica si basano sullo studio e
sull’interpretazione di dati forniti dall’analisi nel DNA o di un sottoinsieme di sequenze
nucleotidiche, prevalentemente provenienti da analisi da microarray. Pertanto è
importante per gli scopi di questa Tesi richiamare brevemente la struttura del DNA e dei
suoi componenti, i principali passi coinvolti nella sintesi proteica cellulare, nonché i punti
di correlazione tra la nuova ricerca genetica e le tecnologie distribuite dell’Informazione
e della Comunicazione.
2.1. La base della genetica: il DNA.
Il DNA (Acido DesossiriboNucleico) è una molecola presente in quasi tutte le cellule di
un organismo biologico che, con la sua struttura molecolare, codifica tutte le
informazioni necessarie per lo sviluppo e il funzionamento di un essere vivente. Gregor
Mendel nel 1865 scoprì che i tratti individuali di ogni essere vivente sono determinati da
fattori discreti, che più tardi vennero chiamati geni; ma solamente nel 1953 venne isolata
per la prima volta da James Watson e Francis Crick la molecola del DNA e venne
scoperta la sua ben nota struttura a doppia elica. In tale struttura sono codificate tutte le
informazioni genetiche di un individuo tramite una sequenza di quattro diverse molecole,
ovvero le basi azotate (A) Adenina, (T) Timina, (G) Guanina e (C) Citosina inserite su di
una struttura molecolare di zucchero: il desossiribosio. , in generale, e costituisce la base
del patrimonio genetico di un individuo. Sequenze di nucleotidi costituiscono i geni.
Possiamo paragonare il DNA ad un grande libro nel quale sono scritte tutte le
informazioni che compongono il codice genetico di ogni essere vivente. I geni possono
quindi essere paragonati alle frasi di questo libro. Ogni base azotata è paragonabile ad
una lettera dell’alfabeto con cui è scritto il libro e ogni tripletta di basi azotate è
equiparabile ad una parola. L’informazione codificata dai geni viene utilizzata per la
sintesi delle proteine all’interno dei ribosomi, che sono le parti della cellula dedicate alla

produzione di proteine. All’interno della sequenza nucletidica dei geni, vi sono delle
sotto-sequenze di basi (dette esoni) che codificano informazioni proteiche. Queste sono
inframmezzate da tratti di DNA che non codificano proteine (gli introni) e la loro
funzione è tuttora sconosciuta. Negli esoni, ogni tripletta di basi azotate, le “parole” del
libro, codifica un aminoacido, ovvero l’elemento base costitutivo di ogni proteina. è
paragonabile ad una parola Le combinazioni possibili di triplette sono quindi ovviamente
6443
= , ma solamente 20 sono gli aminoacidi che codificano informazioni realmente
utili. Sequenze di aminoacidi costituiscono le proteine che sono i cosiddetti “mattoni
della vita” e sono l’elemento base di ogni struttura biologica vegetale o animale.
Nelle cellule umane, il DNA è organizzato in 23 paia di cromosomi, dove ogni membro
di ogni paio è ereditato da un genitore. La maggior parte del DNA umano (il 98,5%) ha
una funzione ancora è sconosciuta, mentre la parte rimanente è coinvolta nel processo di
trascrizione, cioè nel trasferimento delle informazioni dal DNA nel nucleo della cellula ai
ribosomi dove avviene la sintesi proteica. All’interno di ogni cellula è presente anche un
Fig. 2.1. Le informazioni codificate nel DNA
vengono trascritte sull’RNA nucleare e
quindi nell’RNA messaggero (mRNA) che
le porta all’esterno del nucleo della
cellula. Nei ribosomi l’informazione viene
ricopiata dall’RNA trasportatore (tRNA) e
da qui tradotta per la costruzione di
proteine.

altro acido nucleico l’RNA (l’acido ribonucleico) che differisce dal DNA in quanto ha
una struttura a singola elica in cui la base azotata Timina è sostituita da una diversa base
azotata, l’ Uracile. L’RNA ha il compito di trascrivere il patrimonio genetico e di
trasportare l’informazione contenuta nel DNA (che rimane sempre all’interno del nucleo
della cellula) all’esterno del nucleo fino ai ribosomi, situati nel citoplasma della cellula,
dove avviene la sintesi proteica (figure 2.1 e 2.2) [Bergeron, 2003]. A tale scopo l’RNA
viene prima trasformato nell’mRNA, o RNA messaggero, ottenuto concatenando
solamente gli esoni (cioè le parti del DNA che codificano informazioni proteiche), mentre
gli introni vengono eliminati.
2.1.1. Geni e proteine
Attraverso la sintesi proteica si realizza la funzionalità delle informazioni veicolate dal
genoma.
Fig. 2.2. Trascrizione e sintesi dell’RNA.
Dall’RNA nucleare vengono scartati gli
introni e solo gli esoni vengono copiati
nell’RNA messaggero.

È infatti attraverso le proteine che vengono svolte le principali funzioni dell’organismo,
sia di tipo strutturale, sia come catalizzatori delle reazioni metaboliche (tramite gli
enzimi), sia nel trasporto di informazioni all’interno dell’organismo (attraverso gli
ormoni).
L’insieme di tutte le proteine codificate dal genoma costituisce il proteoma. Poiché il
proteoma riflette più accuratamente la dinamica dello stato di una cellula, dei tessuti, o
dell’organismo, l’aspettativa verso la proteomica è quella di poter comprendere meglio i
meccanismi di funzionamento.
Scopo della ricerca in proteomica è quello di identificare tutte le proteine all’interno
dell’organismo e determinare il loro ruolo nelle funzioni fisiologiche e fisiopatologiche.
Mentre il genoma rimane invariato in tutto l’organismo per tutta la durata della sua vita,
le proteine all’interno di una cellula cambiano drasticamente a seconda che il gene sia
attivato o disattivato in risposta alla condizione ambientale. Poiché le proteine sono
direttamente coinvolte sia nei normali processi chimici, che in quelli associati ad una
patologia, una più vasta comprensione di una patologia può essere ottenuta direttamente
dallo studio delle proteine all’interno di una cellula o un tessuto malato.
L’uomo è stimato abbia dai 30.000 ai 40.000 geni che potenzialmente codificherebbero
40.000 diverse proteine, in realtà meccanismi come lo splicing e modifiche successive
alla traduzione (post-translational modifications, PTM) fanno crescere questo numero a
circa 2.000.000 di diverse proteine o sequenze di aminoacidi.
Per evidenziare la natura dinamica del proteoma, alcuni ricercatori utilizzano la
terminologia “proteoma funzionale” per descrivere tutte le proteine prodotte da una
singola cella in un determinato intervallo temporale. [Kosak e Groudine, 2004]
2.1.2. Struttura e funzionalità dei domini proteici
Spesso, alcune parti circoscritte di proteine possono svolgere funzioni condivise da altre
proteine. In molti casi queste funzioni sono riconducibili a "domini funzionali".
Generalmente con il termine di "dominio" proteico si intende una porzione consistente di
una proteina che, oltre che svolgere una certa funzione, si organizza in una sua struttura

tridimensionale.
In casi più semplici una funzione proteica può essere esplicata da regioni molto più
semplici rispetto ad un dominio, ma comunque utili per identificare la funzionalità della
proteina. A volte bastano solo un paio di aminoacidi per potere assegnare una
caratteristica funzionale ad una proteina (ad esempio un sito di glicosilazione).
In questi casi non si parla di domini, ma più semplicemente di "motivi funzionali".
Queste caratteristiche si riflettono, in genere, in porzioni conservate nella sequenza
aminoacidica della proteina che è possibile individuare attraverso l'allineamento multiplo
delle sequenze.
Fig. 4.9. Esempi della struttura tridimensionale delle proteine.
Un dominio strutturale è un elemento di una struttura complessiva in una proteina che si è
stabilizzato e spesso si avvolge indipendentemente dal resto della catena proteica (fig.
4.9). Molti domini possono essere classificati a seconda di un piccolo numero di
ripiegamenti e non sono univoci della proteina prodotta da un gene o da una famiglia di

geni, ma al contrario appaiono in diverse proteine. I domini strutturali variano in
lunghezza in un range da 25 aminoacidi sino a 500 aminoacidi. Vengono etichettati e
isolati perché rivestono un importante ruolo nella funzione biologica della proteina a cui
appartengono.
Il concetto di dominio è stato proposto per la prima volta nel 1973 da Wetlaufer
[Wetlaufer, 1973], che lo ha definito come una unità stabile della struttura di una proteina
che può ripiegarsi autonomamente.
Da altri autori la definizione di dominio è data come “struttura compatta” [Richardson e
Howlett, 1982] o secondo la funzione specifica e il percorso evolutivo [Bork, 1991].
Tutte queste definizioni sono valide e spesso si sovrappongono tra loro.
La struttura modulare di un dominio proteico favorisce un altissimo numero di
combinazioni possibili tra i diversi domini, dove ogni dominio può esplicare la propria
funzione singolarmente o in un qualche modo influenzato dalla relazione con i domini
vicini.
2.2. Tecnologie high-throughput a microarray per analisi
sperimentali
Le moderne tecnologie utilizzate negli esperimenti di biologia molecolare vengono
chiamate high-throughput perché consentono di lavorare con migliaia di geni in parallelo,
differentemente da quanto veniva fatto in passato, quando i biologi studiavano un gene
per volta. Tali tecnologie hanno reso possibile la sequenza completa del genoma di varie
organismi (Uomo, topo, ratto e molti altri animali e piante), che costituisce il punto di
partenza su cui effettuare diversi tipi di studi ed esperimenti.
I principali ruoli dei computer nella bioinformatica sono quelli di controllori, di archivi di
informazioni, di dispositivi di comunicazione ed elaborazioni numeriche. Il grande
sviluppo delle scienze bioelettroniche e bioinformatiche ha offerto ai biologi strumenti ad
alta capacità di trattamento che permettono di analizzare le sequenze di geni ottenute e
che generano un’enorme quantità di dati ad un ritmo sempre crescente. Una delle più

promettenti tecnologie è quella dei microarray, che permette di analizzare decine di
migliaia di geni in parallelo e genera una grande quantità di dati.
Gli esperimenti che utilizzano microarray studiano geni espressi in cellule in determinate
condizioni, per capire quali di essi abbiano una diversa espressione nelle condizioni
sperimentali considerate rispetto ad una condizione di riferimento. Durante l’esperimento,
dalle cellule trattate si estrae l’mRNA che viene marcato con fluorocromi, sostanze che
colorano le molecole a cui si legano. Gli mRNA delle diverse cellule confrontate in un
esperimento a microarray (es. cellule patologiche versus normali) vengono colorati con
fluorcromi differenti per poterli poi distinguere. Gli mRNA così trattati vengono
“spalmati” sui microarray, dove si legano naturalmente, per complementarietà, al cDNA
ivi precedentemente posizionato. Dato che sono note le sequenze nucleotidiche presenti
in ogni punto del microarray, vedendo quali punti del microarray si colorano e in quale
modo, è possibile capire quali siano i geni diversamente espressi in una condizione
sperimentale rispetto a quella di riferimento. Dai risultati di questi esperimenti è possibile
ottenere una classificazione dei geni coinvolti, attraverso cui esplorare le caratteristiche
funzionali di tali geni.
Considerando geni classificati in due diverse classi, è possibile effettuare un’analisi di
regressione logistica su tali gruppi di geni per valutare statisticamente, ad esempio, quali
famiglie o domini dei prodotti proteici di tali geni meglio concorrono a determinare,
ovvero spiegare, la classificazione definita.
2.3. Banche dati biomolecolari e genomiche
Una sempre maggiore quantità di informazioni si sta accumulando sempre più
rapidamente sottoforma di annotazioni testuali presenti in molti database eterogenei e
distribuiti su scala planetaria. Molti di questi sono accessibili pubblicamente attraverso
interfacce web, che ne permettono semplici interrogazioni, e attraverso FTP, che consente
ottenere una copia dei dati di tali database. Alcuni di tali database più importanti sono
UniGene [Schuler, 1997], [UniGene], EntrezGene [Maglott et al., 2005], SwissProt

[Boeckmann et al., 2003], [ExPASy], KEGG [Kanehisa e Goto, 2000], [KEGG], OMIM
[OMIM]. Le annotazioni di geni che contengono sono costituite da attributi che
descrivono il nome, la struttura, le caratteristiche funzionali dei geni conosciuti e la loro
localizzazione citogenetica, i tessuti nei quali i geni sono espressi, i prodotti proteici
[SwissProt] dei geni e i loro domini proteici [PFAM], [Bateman et al., 2004] le relazioni
conosciute tra i geni, le correlazioni dei geni con differenti patologie [OMIM] e i
pathways biochimici in cui i geni sono coinvolti [KEGG].
Fig. 2.3. Esempio di struttura ad albero di Interpro in file XML

Un esempio di banca dati proteomica è Interpro [INTERPRO], che fornisce annotazioni
relative ai domini, alle famiglie proteiche e ai siti funzionali, e struttura questi ultimi in
un modello gerarchico legato dalle relazioni padre-figlio. Attraverso questo modello, il
database provvede a mettere in relazione attributi caratteristici di proteine note con
sequenze proteiche ancora non note, e di riflesso con le sequenze nucleotiche che le
codificano.
Come nel caso delle altre banche dati, le annotazioni sono consultabili on-line attraverso
una pagina web e un motore di ricerca interno, oppure scaricabili da un server FTP.
Interpro fornisce i dati strutturati in un file XML, un formato testuale che permette di
conservare la struttura gerarchica delle informazioni, secondo una schema come quello
illustrato in figura 2.3.
Come risultato dell’unione di più database, le sequenze codificate sono raggruppate in
base alla firma della proteina, detta anche “method”. Questi gruppi rappresentato
superfamiglie, famiglie o sottofamiglie di sequenze, e vengono definiti come FAMILIES,
DOMAINS, REPEATS o SITES. Le sequenze all’interno di un gruppo sono legate ad un
singolo processo biologico, possono appartenere ad un diverso range di funzioni (come
accade nelle superfamiglie) o possono appartenere ad un gruppo funzionale ancora non
caratterizzato. Per ciascuna entry tuttavia viene fornita una descrizione in linguaggio
naturale e, dove possibile, delle referenze.
Viene inoltre mappata la corrispondenza con la Gene Ontology [GO], che con un’analoga
struttura gerarchica permette di ottenere nuova informazione sulle caratteristiche
funzionali di una sequenza proteica.
2.3.1 Annotazioni funzionali di geni
Oggi le annotazioni funzionali e cliniche dei geni sono probabilmente le informazioni più
interessanti e la loro analisi può aiutare a evidenziare nuova conoscenza biologica, come
l’identificazione di relazioni funzionali o il loro coinvolgimento in alcuni processi
patologici. Le annotazioni servono dunque per dare significatività biologica ai risultati di

esperimenti con microarray. Leggendo le caratteristiche dei geni espresse nelle loro
annotazioni, un biologo ottiene un notevole aiuto per trovare, distinguere gli intrusi, per
depurarli dai falsi positivi e per capire quali sono le funzionalità dei geni in esame. Oltre
alle normali annotazioni, si possono utilizzare vocabolari controllati o delle ontologie per
raggruppare elementi diversi (geni) che rappresentano un medesimo concetto (per es. una
funzione biologica), riunirli in gruppi omogenei di categorie funzionali per meglio
studiarli e per darne un’interpretazione statistica.
2.3.2. Annotazioni funzionali di domini proteici
Come archivio di annotazioni funzionali di domini proteici vengono usate due distinte
banche dati, PFam e Interpro.
Pfam è un database generalizzato di famiglie proteiche, che contiene alla release attuale
(18.0) 7973 diverse famiglie, ciascuna delle quali viene analizzata manualmente e
rappresentata da due allineamenti di sequenze multiple, da due profili HMMs e da un file
di annotazione.
Lo scopo di Pfam è raggruppare le famiglie proteiche in una visualizzazione gerarchica
dei diversi clan [Finn et al., 2006]
Il database InterPro (Integrated Resource of Protein Domains and Functional Sites) è una
risorsa di documentazione integrate per le famiglie proteiche, i domini e i siti funzionali.
È stato inizialmente sviluppato con il significato di razionalizzare i lavori complementari
dei progetti PROSITE, PRINTS, Pfam e ProDom, ed include ora anche il database
SMART. Annotazioni che confluiscono dai database citati formano il core di InterPro.
Ogni entry in InterPro include una descrizione funzionale e le referenze in letteratura,
permettendo agli utenti di vedere a colpo d’occhio se una particolare famiglia o dominio
proteico è associato a dei percorsi, dei profili, dei fingerprints e così via. Dove
applicabile, ogni entry contiene un riferimento incrociato al database BLOCKS, e mappa
i corrispondenti termini della Gene Ontology. [Mulder et al., 2007]

Le annotazioni presenti in Interpro arricchiscono inoltre le famiglie e i domini proteici di
alcuni attributi, distinguendo il tipo di categoria e implementando una struttura ad albero
di relazione tra le diverse categorie.
La struttura ad albero è dovuta alla presenza delle relazioni tra le diverse categorie
PARENT/CHILD e CONTAINS/FOUND IN.
La relazione PARENT/CHILD è utilizzata per indicare le relazioni di
famiglie/sottofamiglie definite sui dati nei database di origine. Per potersi definire
CHILD, più del 75% del set di proteine contenute nel CHILD deve essere rappresentato
nel PARENT.
La relazione CONTAINS/FOUND IN è utilizzata per indicare la composizione del
dominio. Perché venga stabilito questo tipo di relazione, oltre il 40% di proteine della
entry devono contenere la caratteristica del dominio. Alcuni domini si possono trovare in
più di un tipo di proteina o famiglia di proteine, ma questo non indica un sottotipo nel
senso di famiglia. Il dominio è un’entità funzionale, che può essere trovata in proteine
con diverse organizzazioni di dominio.
Per quanto riguarda le annotazioni sul Type, questo può assumere i valori di Family,
Domain, Repeat o Site. I Site a loro volta sono classificati in PTM (post-translational
modification, modifiche successive alla traduzione), AS (Active Site, sito attivo) o BS
(Binding Site, sito di legame).
La Family indica un gruppo di proteine in un set di corrispondenza (match set), il
Domain identifica quelle entries che hanno due o più signature adiacenti non
sovrapposte.
Una Interpro Repeat è invece una regione che non si prevede si ripieghi in un dominio
globulare di per sè.
Una post-translational modification è una modifica alla struttura primaria della
proteina. Questa modifica è necessaria per attivare o disattivare una funzione della
proteina. Esempi di PTM sono la glicosilazione, la fosforilazione, lo splicing, etc.
Un Binding Site è un sito di legame per composti chimici che da soli non potrebbero
costituire in substrato per una reazione. Il composto, che è bound, potrebbe essere un co-

fattore necessario per una reazione chimica, essere coinvolto nel trasporto di elettroni o
nella modifica della struttura di una proteina. Il legame è reversibile, e gli aminoacidi
coinvolti in una reazione di legame devono conservare la specifica del sito di legame per
poter essere identificati.
Gli Active Sites sono meglio conosciuti come i siti catalitici di un enzima dove un
substrato è legato e convertito in un prodotto, di seguito rilasciato. Parti anche distanti tra
loro della struttura primaria di una proteina possono essere coinvolte nella formazione di
un sito catalitico.
2.4. Stato dell’arte degli strumenti informatici per l’analisi
delle annotazioni genomiche
Recentemente sono stati sviluppati diversi strumenti software per annotare liste di geni
identificati in esperimenti di microarray con informazioni biologiche disponibili in molte
banche dati pubbliche eterogenee quali UniGene [UniGene], EntrezGene [EntrezGene],
SwissProt [ExPASy], KEGG [KEGG] e OMIM [McKusick, 1998], [Hamosh et al.,
2002]. La maggior parte di tali tool fornisce funzioni per annotare liste di geni ma non
consente realizzare una “bias analysis” per stabilire quali siano le categorie di
annotazioni più rappresentate dai geni di un insieme considerato. In quest’ottica si stanno
proponendo alcuni tool per far fronte alla sempre crescente necessità di ottenere
indicazioni statistiche di significatività delle varie annotazioni [Cavalieri et al., 2002], ma
la quasi totalità di questi tool gestisce esclusivamente le annotazioni della Gene Ontology
[Gene Ontology], mentre è molto importante utilizzare anche le annotazioni fornite da
altri vocabolari controllati.
2.4.1. GFINDer e altri tool disponibili
Gli strumenti bioinformatici disponibili per l’analisi di liste di geni possono essere
raggruppati in due grandi categorie: quella dei tool di annotazione, che forniscono un

accesso, basato su query, alle annotazioni presenti in banche dati e producono dei risultati
tabellari, e quella dei tool di esplorazione, che mostrano le annotazioni in una qualche
forma di rappresentazione grafica di alcuni raggruppamenti dei dati. Tool come FatiGO
[Al-Shahrour et al., 2004], [FatiGO], GoMiner [Zeeberg e Feng, 2003], [GoMiner],
MAPPFinder [Doniger e Salomonis, 2003], [GenMAPP], GOTree Machine [Zhang et al.,
2004], [GOTree Machine] e GoSurfer [Zhong e Li, 2003], [GoSurfer] appartengono alla
categoria dei tool di esplorazione (prevalentemente di annotazioni della Gene Ontology),
mentre ENSMART [ENSMART], GeneLynx [Lenhard et al., 2001], [GeneLynx],
MatchMiner [MatchMiner], Resourcerer [Resourcerer], SOURCE [Diehn et al., 2003],
[SOURCE] e ChipInfo [Zeeberg e Feng, 2003], [ChipInfo] sono tool di annotazione. Vi
sono inoltre alcuni strumenti come DAVID [Glynn e Sherman, 2003], [DAVID], EASE
[Douglas et al., 2003] e Onto-Tools [Draghici et al., 2003a], [Onto-Tools] che combinano
le caratteristiche di entrambe le categorie.
Tali tool permettono all’utente di caricare una lista di geni “interessanti” (lista di
foreground), confrontarla con una lista di geni “di riferimento” (lista di background) ed
eseguire analisi in base a tale classificazione. Nessuno di questi tool però permette
all’utente di caricare liste ne con classificazioni multiple, né tanto meno con un numero
arbitrario di classi.
Nessuno di essi inoltre consente all’utente di definire proprie macro-categorie che
possano racchiudere in sé un gruppo di altre categorie di vocabolari controllati, e nessuno
fornisce una visualizzazione riassuntiva delle analisi effettuate. Queste funzionalità sono
presenti in GFINDer.
Comunque GFINDer, DAVID e Onto-Tools sono gli strumenti più interessanti in quanto
hanno funzionalità di analisi e annotazione di geni anche utilizzando altri vocabolari
controllati oltre alla GeneOntology (GO) come quelli che descrivono i Pathways
biochimici, famigli di domini proteici.
DAVID da una valutazione statistica solamente basata sul test esatto di Fisher, che
fornisce una buona valutazione generale e richiede poche risorse computazionali.
GFINDer e Onto-Tools invece permettono di scegliere diversi test statistici e correggere i
risultati da falsi positivi.

2.4.1.1. Analisi statistiche
Per capire quali sono i termini del vocabolario controllato che si sta esaminando che
maggiormente sono riferiti ad alcune classi della lista di geni di un utente (per es. la
classe dei geni regolati positivamente rispetto a tutti gli altri) viene svolta un’indagine
statistica per stimare con che probabilità sussiste tale legame. Tale probabilità viene
stimata in base al numero di geni della classe presenti o non presenti nella categoria
espressa da tale termine e confrontandolo con col numero di geni delle altre classi
presenti o meno in tale categoria.
Esistono molti test statistici, basati su differenti distribuzioni di probabilità, che
permettono di stabilire se una categoria è significativamente sovra o sotto-rappresentata
in una lista di geni classificati e di assegnare un valore di significatività a tale categoria.
Tali test si basano sull’ipotesi nulla H0 che afferma che la categoria in esame non è
significativa cioè i geni sono distribuiti casualmente tra la categoria A e il resto delle
categorie.
L’ipotesi H0 può essere formulata come:
210 : ppH =
dove p1 è la proporzione della popolazione di geni della classe 1 appartenenti alla
categoria A e viene stimata con 1
x
p
K
= e p2 è la proporzione della popolazione di geni
della categoria A tra i geni considerati e risulta 2
M
p
N
= .
L’ipotesi H0 indica che la categoria in esame non è significativa, cioè il numero x di geni
osservato nella classe 1, appartenenti alla categoria A è uguale a quello atteso da
un’estrazione casuale.
Per test non direzionali, l’ipotesi alternativa è:
211 : ppH <>

ed indica che esiste una differenza significativa nelle proporzioni dei geni, della classe 1
nella categoria A, maggiore o minore di quella attesa da un’estrazione casuale.
Più utili sono però i test direzionali, che discriminano tra i due diversi tipi di categorie;
avremo così
21: ppH >+
che indica che il numero osservato di geni x è maggiore di quello atteso da un’estrazione
casuale E(X) e
21: ppH <!
che indica che il numero osservato di geni x è minore di quello atteso da un’estrazione
casuale E(X).
Per ottenere il risultato di tali test si calcola il p-value per la categoria A in esame che
indica la probabilità di ottenere un’estrazione casuale uguale a quella osservata
nell’esperimento considerato, supponendo l’ipotesi nulla H0 certa. Quando il p-value è
inferiore ad una certa soglia α (tipicamente 5% o 1%) vuol dire che la probabilità che si
verifichi l’ipotesi alternativa per caso, cioè che da un’estrazione casuale si ottenga un
campione uguale a quello osservato, è notevolmente bassa e quindi si può rifiutare
l’ipotesi nulla H0. Pertanto più bassi sono la soglia considerata e il p-value ottenuto, più
bassa è la probabilità di rifiutare l’ipotesi nulla quando invece essa è verificata.
Come già detto esistono diversi tipi di test, a seconda della distribuzione di probabilità
adottata per modellare il caso in esame. Anche se la distribuzione ipergeometrica è la più
adatta, a volte si preferisce usarne altre computazionalmente meno costose e che la
approssimino in maniera adeguata come la binomiale, la normale o quella di Poisson.
Un approccio adeguato alla numerosità del campione in esperimenti di biologia
molecolare consiste nell’utilizzare il test del χ 2
per l’uguaglianza delle proporzioni o il
test esatto di Fisher [Man et al., 2000].

Per applicare tali test è utile rinominare le celle della tabella di contingenza come
mostrato in tabella 4.2 dove n12 = x, N1. = K, N.2= M e N.. = N
Altre Categorie Categoria A Totale
Classe 1 n11 n12 N1.
Altre Classi n21 n22 N2.
Totale N.1 N.2 N..
Utilizzando questa notazione per effettuare il test del χ2
occorre calcolare la statistica
2.1..2.1
2
..
21122211..
2 2
||
NNNN
N
nnnnN !
"
#
$
%
&
''
=(
e valutare i p-value sulle code della distribuzione χ2
.
Ma tale test non può essere applicato a campioni piccoli, in particolare quando le
frequenze )/( .... NNNE jiij = risultano minori di 5 [Draghici et al., 2003b], inoltre non
permette di distinguere tra categorie sovra e sotto-rappresentate.
Il test esatto di Fisher invece è adatto anche per campioni piccoli [Agresti, 1992] e
permette di calcolare il p-value distintamente sulle due code della distribuzione. Esso
considera fissi i totali di righe e colonne ed usa la distribuzione ipergeometrica per
calcolare la probabilità di osservare ogni singola combinazione di tabelle 2x2 per quei
dati valori dei totali di righe e colonne. Per ogni tabella Ti tale probabilità viene calcolata
come segue:
1. 2. .1 .2
.. 11 12 21 22
! ! ! !
! ! ! ! !iT
N N N N
P
N n n n n
! ! !
=
! ! ! !
Tab. 2.1. La tabella di contingenza per il confronto tra
categorie e classi di una lista di geni, in diverso
formato

Consideriamo che le possibili tabelle siano un numero τ. Ognuna delle possibili τ tabelle
viene considerata come un componente di una particolare distribuzione discreta di
probabilità e per calcolare i p-value destro o sinistro su tale distribuzione si agisce come
già visto per le altre distribuzioni discrete di probabilità. Immaginando che la tabella di
partenza corrisponda alla tabella Tj otteniamo:
sin
0
( ) i
j
istra T
i
p P X x P
=
= ! = " e ( ) idestra T
i j
p P X x P
!
=
= " = #

Capitolo 3. Scopo della Tesi ________________________________________________
3. Scopo della Tesi
Lo sviluppo di tecnologie efficienti per estrarre informazioni utili per catalogare,
interpretare e acquisire nuova conoscenza dai dati genomici, disponibili e generati in
quantità sempre maggiori, costituisce attualmente l’obiettivo principale del Human
Genome Project e di tutti i progetti in ambito genomico ad esso correlati.
La grande quantità di dati generata all’interno dei laboratori di biologia molecolare
necessita dell’ausilio della bioinformatica per poter procedere in modo automatizzato alla
loro gestione, elaborazione e soprattutto analisi e interpretazione. Inoltre, l’estensione
della ricerca a livello mondiale richiede la possibilità di accedere agli strumenti
bioinformatici in modo remoto e indipendente dalla specifica piattaforma informatica di
utilizzo. A tal scopo oggi lo strumento migliore per standardizzazione, diffusione e
semplicità di utilizzo è senza dubbio internet, che attraverso gli strumenti web server e
DBMS server aiuta l’accesso alle informazioni presenti nelle diverse banche dati
genomiche e la loro integrazione ed efficace utilizzo mediante lo sviluppo di interfacce di
facile uso.
In questo scenario si inserisce lo sviluppo di GFINDer [Masseroli et al., 2004; Masseroli
et al., 2005], una applicazione web che aggrega dinamicamente annotazioni funzionali e
fenotipiche di liste di geni selezionati dall’utente e consente di effettuarne l’analisi
statistica a supporto della loro interpretazione biologica. Per questo scopo GFINDer è
organizzato in moduli software indipendenti e interconnessi che sfruttano vari vocabolari
controllati di annotazioni genomiche che descrivono funzioni e fenotipi genetici.
Obiettivo di questa Tesi è realizzare, all’interno di GFINDer, un nuovo modulo software
dedicato all’analisi di regressione logistica di annotazioni genomiche funzionali integrate
all’interno dei database di GFINDer. In particolare, sfruttando le annotazioni genomiche
di famiglie e domini proteici fornite dalle banche dati Pfam e InterPro, tale modulo deve
permettere di analizzare liste di geni classificate, definite dall’utente, per valutare

Capitolo 3. Scopo della Tesi ________________________________________________
statisticamente quali famiglie o domini dei prodotti proteici di tali geni meglio
concorrono a determinare, ovvero spiegare, le classificazioni definite.
Per ottenere lo scopo esposto devono essere realizzati i seguenti passi principali:
1. Mediante metodologie di reverse engineering, analisi degli schemi dei database di
GFINDer e delle loro relazioni, da un lato con le banche dati considerate che
forniscono le annotazioni integrate in tali database, e dall’altro con l’applicazione
web di GFINDer. Dato sia il continuo riaggiornarsi delle banche dati da cui
GFINDer estrae le annotazioni genomiche, sia lo sviluppo in tempi successivi dei
diversi database e moduli di GFINDer, tale analisi è necessaria per poter utilizzare
adeguatamente le annotazioni disponibili nei database di GFINDer e proporre una
loro migliore organizzazione e più efficiente interrogazione.
2. Creazione di un metodo automatico per l’analisi di regressione logistica di
annotazioni geniche funzionali, integrate nei database di GFINDer, che consenta
di effettuare anche sia la verifica dei criteri di applicabilità sui dati in ingresso
all’algoritmo di analisi utilizzato, con lo scopo di ottimizzarne l’esecuzione, sia la
consistenza e validità dei risultati.
3. Implementazione, all’interno di GFINDer, di uno specifico modulo software per
la realizzazione via web di analisi di regressione logistica di annotazioni di
famiglie e domini proteici di liste di geni classificati selezionate dall’utente; tale
modulo deve essere di facile utilizzo e permettere la selezione via web dei vari
parametri dell’analisi e la successiva visualizzazione dei risultati ottenuti
indipendentemente dal tipo di client web browser utilizzato.

Capitolo 4. Materiali e Metodi ____________________________________________
Tesi di laurea di Elisa Bellistri _________________________________________ 22
4. Materiali e Metodi
4.1. Strumenti per la gestione e la condivisione di dati
Le moderne tecnologie informatiche mettono a disposizione della comunità scientifica
molti strumenti che possono essere utili per gestire dati e informazioni in modo
semplice ed efficace e per poterle condividere mediante l’uso delle reti di
telecomunicazioni tra i diversi gruppi di ricerca, dislocati in punti geografici anche
molto distanti tra loro. I DataBase Management Systems (DBMS) sono gli strumenti
più adatti per archiviare, gestire e interrogare efficacemente grandi quantità di dati
anche memorizzati su diversi database; mentre i protocolli di rete, quali il TCP/IP,
permettono di utilizzare i canali telematici per comunicare dati tra tutti i computer
collegati in rete, a prescindere dalla loro specifica architettura hardware e software.
Fig. 4.1. Il modello ISO/OSI. Vengono definiti sette strati protocollari per gli strumenti e le
applicazioni per la trasmissione di dati sulle reti informatiche.
I protocolli di livello superiore (5 e 6 dello standard ISO/OSI) (fig. 4.1) permettono di
trasferire le informazioni organizzatere in documenti che sono facilmente

interpretabili dagli utenti. Ad esempio il protocollo HTTP permette di trasmettere
documenti ipertestuali facilmente visualizzabili su qualunque computer dotato di un
software di web browsing, quali MS-Explorer, Netscape Navigator, Firefox e molti
altri. Da ultimo, le tecnologie server permettono di creare, in maniera automatizzata,
documenti ipertestuali utilizzando dati provenienti da database; ciò permette a
qualunque utente di accedere a tali informazioni da una semplice interfaccia
ipertestuale. Di seguito vengono analizzate più approfonditamente tali tecnologie.
4.1.1. Data Base Management System
Nonostante, nel corso dello sviluppo delle tecnologie IT, siano stati proposti diversi
modelli di basi di dati, solo due sono sopravvissuti fino ad oggi: il modello relazionale
e il modello ad oggetti. Sebbene il modello relazionale risalga agli anni ’70 (T.Codd,
1970 presso l’IBM research di Santa Teresa, California), i database che lo utilizzano
sono ancora i più diffusi.
Nel modello relazionale, i dati sono organizzati in tabelle, che rappresentano le entità
da gestire, che elencano sulle colonne gli attributi propri dell’entità da descrivere e
sulle righe le varie istanze dell’entità stessa. Le relazioni tra le varie entità si basano
sui collegamenti tra alcuni attributi (chiamati chiavi) caratterizzanti delle entità ed
utilizzabili mediante i costrutti dell’algebra relazionale. Dagli anni ’90 si sta
lavorando allo sviluppo dei DBMS orientati agli oggetti: gli OODBMS. In questo
modello, gli oggetti memorizzati nel database contengono sia i dati sia le operazioni
possibili su di essi. I vantaggi dell’approccio Object-Oriented sono dovuti alle ampie
possibilità dei linguaggi ad oggetti (con i quali vengono scritti i DB) e alle finalità di
progettazione. Tali vantaggi si pagano però a caro prezzo in caso di modifiche, che
possono portare a dover riscrivere parecchie linee di codice. Per tali motivi, oltre al
costo elevato di tali prodotti, i DB ad oggetti coprono una nicchia di mercato ristretta
e relativamente stabile.
Per lo strumento software implementato nell’ambito di questa Tesi è stato scelto il
DBMS relazionale MySQL, [MySQL]. Tale database è uno dei pochi gratuiti presenti
sul mercato e presenti in numerose versioni sia per ambienti Windows che

Unix/Linux. MySQL viene distribuito con il suo codice sorgente per permettere a
chiunque di svilupparne e ampliarne le potenzialità; supporta il linguaggio SQL
standard (La versione 5.0.0 supporta SQL99 e ODBC livelli 0-3.51) più un proprio set
di comandi.
MySQL può gestire diversi database su di uno stesso server e si possono fare
interrogazioni su database multipli semplicemente utilizzando la dot-notation come
nel seguente esempio nel quale esperimento è una tabella contenuta nel database
master e geni è una tabella contenuta nel database webdata:
SELECT *
FROM master.esperimento, webdata.geni
WHERE esperimento.idgene=geni.idgene
MySQL è tra l’altro uno dei DBMS più diffusi su cui poggiano molte banche dati
genomiche (es. Gene Ontology [Smith et al., 2003]) che forniscono i propri dati in un
formato direttamente importabile in tale DBMS.
4.2. Strumenti per la visualizzazione e l’elaborazione dei dati
Per sistemi client/server web-based la scelta della tecnologia di presentazione (livello
6 della pila ISO/OSI) (fig. 4.1) ricade obbligatoriamente sull’HTML. L’HyperText
Markup Language è un linguaggio costituito dall’insieme di simboli di markup
(marcatori, o tag o etichette) che devono essere inseriti in un file di testo in formato
ASCII per definire le proprietà di impaginazione e visualizzazione dei dati presenti in
ogni pagina. L’HTML è il formato dei dati che consenta lo scambio delle
informazioni tramite il protocollo HTTP (HyperText Transfer Protocol) da un web
server ad un’applicazione browser. Il linguaggio HTML, oggi giunto alla versione
4.01, è uno standard indipendente dalle piattaforme HW e SW, sviluppato e sostenuto
dal consorzio W3C, serve per visualizzare un documento su sistemi eterogenei. Le
istruzioni di markup assegnano al contenuto di ogni pagina le informazioni di struttura
del documento (es. elenchi puntati, disposizione di immagini, caselle di controllo, di
scelta, ecc.), impaginazione e di formattazione del testo (tipi di carattere, stili, ecc.).

4.2.1. Web server, tecnologie di scripting e pagine web
dinamiche
Le pagine HTML sono considerate statiche in quanto il testo, le immagini e ogni dato
in esse contenuto, una volta scritto, viene visualizzato sempre nello stesso modo,
finche non viene modificato il codice sorgente.
Le pagine dinamiche vengono invece utilizzate per visualizzare dei contenuti che
potrebbero cambiare ogni volta che vengono visualizzate su ogni client in funzione
delle scelte dell’utente o di cambiamenti nel tempo delle informazioni visualizzate.
Tale tecnologia è molto utile per creare pagine che prendono i propri dati da sorgenti
esterne, quali i DBMS.
La soluzione sviluppata da Microsoft per creare pagine web dinamiche prende il nome
di Active Server Page (ASP). Tali pagine sono costituite da un’insieme di istruzioni
che verranno elaborate dal server e da comandi di output per mandare al browser le
informazioni richieste. Una pagina ASP è composta sia da tag HTML, che codifica
come devono essere impaginate le informazioni, che da parti di codice di
programmazione ASP. Il codice ASP esiste solo sul server ed è elaborato
completamente da tale macchina, ogni volta che un client fa la richiesta della pagina
(fig. 4.2). Il client non può accedere a tale codice, ma riceve solo le informazioni
elaborate dal server in formato HTML.

Il linguaggio ASP non viene compilato da nessun compilatore, ma viene
semplicemente interpretato dal web server che lo esegue. Perciò una pagina ASP è un
semplice file di testo che contiene al suo interno tag HTML come ad esempio:
<a href=”pagina2.asp”>Collegamento alla pagina 2</a>
e codice ASP, compreso tra delimitatori <% e %>, come ad esempio:
<% Response.Write(“Stringa scritta da ASP”); %>
Ciò rende molto semplici e veloci le modifiche, a discapito però della velocità di
esecuzione.
Fig. 4.2. L’elaborazione di pagine dinamiche utilizzando la tecnologia di scripting

Il linguaggio ASP è basato su oggetti: alcuni oggetti vengono istanziati dal server e
sono sempre disponibili al programmatore:
Request : fornisce attributi e metodi per l’acquisizione di dati dal client;
Response : fornisce attributi e metodi per inviare le risposte dal server al client;
Server : gestisce l’accesso alle informazioni sul server;
Session : gestisce variabili che esistono solo per la durata delle sessioni di lavoro
degli utenti e sono riferite ad ogni singolo client.
Altri oggetti devono essere istanziati dal programmatore, ad esempio l’istruzione
var theform = Server.CreateObject("ABCUpload4.XForm");
crea una variabile chiamata theform e le associa un oggetto della classe ABCUpload4;
tale classe serve per gestire l’upload di file binari dai client al server e viene fornita da
webSupergoo [ABCUpload]. Dopo tale istruzione è possibile richiamare attributi e
metodi dell’oggetto theform con l’usuale dot-notation.
La tecnologia ASP è proprietaria poiché tale codice può essere solamente interpretato
da server IIS di Microsoft, anche se sono stati sviluppati interpreti per altri web server
(es. Apache).

4.3. Strumenti per l’analisi e la visualizzazione dello schema
una base di dati
Il Reverse Engineering è un insieme di tecniche e di strumenti che consentono di
analizzare il software esistente e derivarne in automatico la documentazione,
solitamente mancante in seguito ad uno sviluppo non organizzato.
In particolare, a riguardo della componente dati di un sistema, è possibile, tramite il
reverse engineering, derivare le strutture concettuali dei dati a partire dal DDL o copy
di tracciati record di archivi esistenti.
Ciò consente di fornire una rappresentazione concettuale delle informazioni del
sistema esistente, che può essere utilizzata come base di partenza per la ri-
progettazione (re-engineering)
Su una base di dati relazionale non documentata, ottenere uno schema concettuale dei
dati permette di:
• capire il significato delle informazioni
• poter effettuare agevolmente la manutenzione della base dati
• evidenziare eventuali criticità rilevate sul modello
• individuare interventi di miglioramento, analizzando l’impatto su
quanto già realizzato.
Le attività da eseguire sono le seguenti:
• analisi del DDL
• derivazione dal DDL dello schema logico finale
• produzione dello schema concettuale
Alcune attività possono essere effettuate in modo meccanico con il supporto di un tool
adeguato: è possibile ad esempio derivare in modo automatico dal DDL uno schema
logico-fisico dei dati
Nell’ambito di questa Tesi, gli strumenti utilizzati sia per l’analisi automatica del
DDL che per la stesura del modello riorganizzato, sono stati Microsoft Visio® e
FabForce DBDesigner 4.0.

4.3.1. Microsoft Office Visio®
Microsoft Office Visio ® è un software di progettazione di diagrammi che consente di
visualizzare, sia con una grafica vettoriale sia con attributi impliciti implementati tra
le varie entità, le relazioni tra le informazioni.
È stata utilizzata la versione Visio® 2003 con le funzionalità di connessione al
database per importare direttamente dal DB schema la struttura e gli attributi delle
varie tabelle (fig. 4.3 e 4.4), mentre sono stati ricostruiti mediamente Reverse
Engineering le relazioni tra le tabelle.
All’interno del foglio di lavoro, le tabelle direttamente importate dal DB sono
visualizzate con il nome della tabella e l’elenco dei campi presenti, indicando con la
sigla PK le chiavi primarie e con la codifica In (dove n è un numero progressivo) i
vari campi utilizzati come indice.
Fig. 4.3. Interfaccia di Visio® per la scelta del driver di connessione al database

Fig. 4.4. Scelta del tipo di oggetto da decodificare attraverso l’analisi del DDL.
Lo strumento relazione permette di collegare tra loro due tabelle, esplicitando la
relazione tra i campi correlati secondo una gerarchia padre/figlio. Vedi Fig. 4.5.
Lo strumento connettore dinamico mette semplicemente in relazione due tabelle e non
permette informazioni aggiuntive implicite. É però possibile abbinare una etichetta,
dove è stata esplicitata la relazione tra i campi delle due tabelle e anche la cardinalità.
Fig. 4.5. Le relazioni tra i campi di due diverse tabelle.

4.3.2. fabForce DBDesigner 4.0
DBDesigner 4.0 è un tool disponibile con licenza GNU/GPL che permette la
visualizzazione delle meta-informazioni contenute in un database. [fabForce]
I modelli creati sono salvati su un file di tipo XML che consente un facile accesso
anche da postazioni diverse tra loro.
Fig. 4.6. Interfaccia in fabForce
DB Designer di connessione al
database.

Tra le principali funzionalità utilizzate c’è la possibilità di creare (o importare
direttamente dal DB schema) tabelle, specificandone gli attributi, definire le relazioni
tra le tabelle (1:1, 1:1 generalizzato, 1:n, 1:n non identificativo, n:m), ed in più
definire note (Notes), immagini (Images), o creazione di regioni (Regions) che
permettono di spiegare meglio la struttura del database.
Per quanto concerne invece la possibilità di analisi automatizzata della struttura di un
database già esistente, DBDesigner si connette al DB attraverso un modulo ODBC,
riservando tuttavia alcune specifiche funzionalità ai DB MySQL, come è ad esempio
l’insieme dei DB su cui lavora GFINDer.
Come mostrato in fig. 4.6 la finestra di dialogo che appare al momento della
connessione ad un DB permette di definire alcuni parametri del processo di Reverse
Engineering, tra le principali la possibilità di definire la struttura attraverso il DDL
specifico di MySQL e la costruzione della relazioni tra le tabelle secondo gli indici
primari definiti o dedotte dai nomi delle tabelle e dei campi.
DBDesigner può connettersi a versioni diverse di MySQL, dalle versioni successive
alla 4.x tuttavia è stato introdotto un nuovo protocollo di gestione della password che
DBD4 non riesce a utilizzare. Per ovviare al problema è sufficiente creare un utente
ad hoc in MySQL e assegnare a questo una codifica della password compatibile con le
versioni precedenti mediante l’istruzione
mysql> UPDATE mysql.user SET Password = OLD_PASSWORD('newpwd')
-> WHERE Host = 'some_host' AND User = 'some_user';
mysql> FLUSH PRIVILEGES;

4.4. Analisi statistica
Per esaminare e interpretare meglio la rilevanza delle annotazioni biologiche di gruppi
di geni è molto utile utilizzare un approccio statistico che fornisca descrizioni e analisi
quantitative di tali annotazioni. Quando i geni o le sequenze nucleotidiche,
appartengono ad un set predefinito o sono suddivisi in classi, per valutare la
significatività statistica di specifiche categorie di annotazioni fornite dai vocabolari
controllati in ogni gruppo di geni considerato, è possibile valutare le loro quantità,
frequenze, distribuzioni e probabilità di occorrenza.
4.4.1 Classificazione e categorizzazione di geni
Identificare categorie di annotazione – cioè termini dei vocabolari controllati – che
comprendano un numero significativo di geni di un determinato insieme di interesse,
permette di focalizzarsi su quelle aree biologiche più importanti per l’insieme di geni
considerato. Per identificare le categorie più significative bisogna comparare la
distribuzione dei geni presenti nell’insieme di partenza in ogni categoria con quelli
nell’insieme di riferimento. Un insieme di riferimento di geni può essere costituito da
tutti i geni di un genoma o da un altro gruppo, quale ad esempio può essere la totalità
dei geni presenti su un vetrino in un esperimento di microarray.
Nella terminologia usata in biologia l’insieme di riferimento viene spesso chiamato
”lista di background” ed indica la totalità dei geni da considerare, mentre l’insieme di
partenza viene chiamato “lista di foreground” ed indica un sotto-insieme del
background che comprende i geni che risultano espressi – cioè regolati positivamente
o negativamente – nell’esperimento di microarray. La distinzione tra lista di
background e lista di foreground porta naturalmente ad una classificazione dei geni in
questione, ad esempio possiamo dire che i geni appartenenti alla lista di foreground
appartengono alla classe “1”, mentre tutti gli altri geni del background che non
compaiono nella lista di foreground – cioè i geni non espressi nell’esperimento –
apparterranno alla classe “0”. Esistono ovviamente infinite possibilità di classificare i
geni appartenenti ad una lista: un esempio più sofisticato può discriminare tra geni
espressi regolati positivamente, che indicheremo con classe “+1”, e regolati

negativamente, indicati con classe “-1”, mentre la classe “0” mantiene il medesimo
significato. Altri metodi di classificazione possono assegnare classi diverse a geni
provenienti da esperimenti diversi o ai geni dello stesso esperimento ma ripetuto in
istanti temporali differenti, ecc.
Il passo successivo della fase di caricamento consiste nello specificare un nome per la
lista caricata (solo per gli utenti registrati) e selezionare quali colonne di
classificazione salvare e con quale nome. È possibile specificare per ogni colonna se
essa contiene valori di classificazione (in base a cui poter eseguire analisi) o semplici
descrizioni dei geni (fig. 4.7).
Fig. 4.7. La scelta delle colonne di classificazione

4.4.2. Regressione logistica
La Regressione Logistica è una variante della regressione tradizionale (lineare,
nnii22110 xb...xb...xbxbby ++++++= ) che predice la probabilità (p)
dell’occorrenza del manifestarsi di un evento (y) come funzione di un certo numero di
variabili indipendenti (xi).
Viene utilizzata quando la variabile dipendente è binaria, ad esempio indica la
presenza o l’assenza di una determinata caratteristica in un soggetto, e le variabili da
cui dipende sono sia discrete che continue.
Il risultato segue una curva ad S usando una funzione non lineare:
!!
"
#
$$
%
&
+
= y
y
e1
e
p
che produce p-values tra 0 (quando y tende a meno infinito) e 1 (quando y tende a più
infinito).
In generale in medicina la regressione logistica è utlizzata per stimare la probabilità
che un individuo, con alcune caratteristiche o sintomi che predicono il manifestarsi di
una malattia, manifesti effettivamente la malattia. In questo esempio vengono anche
identificati quali sono i sintomi o le caratteristiche più significativi per il manifestarsi
della malattia. In medicina biomolecolare può essere utilizzato un approccio analogo
per identificare quali caratteristiche funzionali rappresentano meglio la classificazione
binaria di un set di geni.
Per gli scopi implementativi all’interno di GFINDer viene considerata la
corrispondente equazione non lineare, chiamata logit(p):
logit(p)= nnii22110 xb...xb...xbxbby
p1
p
ln ++++++==!!
"
#
$$
%
&
'
dove p è la proporzione dei geni classificati considerati tra le due classi di
valutazione; xi sono le proporzioni dei geni considerati nelle due classi di valutazione
che presentano la caratteristica i; bi (con i compreso tra 1 e n) sono i coefficienti di
regressione per la caratteristica i; b0 è l’intercetta, o termine costante, della

regressione. Il valore assoluto di ciascun coefficiente bi indica l’importanza del
contributo della corrispondente caratteristica i nel classificazione di geni considerata.
Fig. 4.8. Esempi di curve di regressione logistica per valori diversi dei parametri delle
variabili e dell’intercetta.
4.4.3. Algoritmo di verosimiglianza
Al fine di risolvere una equazione non linerare, è stato utilizzato un metodo iterativo il
cui scopo è minimizzare la funzione di verosimiglianza in forma logaritmica.
Per spiegare cosa rappresenti questa funzione è utile riferirsi ad un esempio. [Lagona]
Supponiamo di avere un campione osservato (ad esempio un set di geni classificati in
due classi distinte). Il campione sarà rappresentato in forma compatta da
)0,0,0,1,0,0,1,0,1,0(x0 =

La probabilità che si verifichi ciò che è stato effettivamente osservato è
73
0 )1()x(p !! "=
che vista come una funzione di θ, si tratta di una funzione positiva con un unico punto
di massimo in corrispondenza di 0,3. Il fatto che tale funzione non si annulli mai in
(0,1) indica che sulla base della sequenza osservata, nessun valore di θ può essere a
priori escluso. Tuttavia esistono dei valori che rendono la probabilità di riscontrare la
sequenza osservata estremamente bassa, e altri (nell’intorno di 0,3) estremamente alta.
Questi valori sono detti “più verosimili”. La funzione θ ottenuta considerando le
probabilità di osservare i dati effettivamente osservati si chiama allora funzione di
verosimiglianza, che attribuisce un peso a ogni valore di θ in funzione delle
osservazioni. In un campine di T osservazioni la funzione diventa
xTTxT
)1()(L !
!= """
Passando poi ai logaritmi la funzione diventa
)1log()xTT(logxT)(l !!! ""+=
definita quindi come la somma dei logaritmi delle probabilità predette che
appartengono alla prima delle due classi valutate per quei geni considerati che
appartengono alla classe, e i logaritmi delle probabilità predette dei geni che
appartengono alla seconda classe. La minimizzazione è ottenuta attraverso il metodo
di Newton, con un’eliminazione degli algoritmi per invertire e risolvere
simultaneamente le equazioni.
Non è stata utilizzata nessuna tecnica di accelerazione della convergenza.
Il modello nullo è utilizzato come ipotesi iniziale per le iterazioni, ad esempio che
tutti i coefficienti bi siano zero e che l’intercetta b0 sia il logaritmo del rapporto tra il
numero di geni considerati appartenenti alla prima classe di valutazioni e il numero di
geni appartenenti alla seconda classe di valutazione.
All’interno dell’implementazione di regressione logistica vengono anche calcolati gli
odds ratio associati ad ogni variabile xi e l’intervallo di confidenza al 95%. Gli odds

di un evento sono definiti come la probabilità che l’evento si verifichi rapportato alla
probabilità che l’evento non si verifichi.
Gli odds ratio per una variabile xi sono quindi il rapporto tra la probabilità che la
categoria in esame (variabili indipendenti nel modello realizzato) sia significativa per
l’appartenenza ad una classe e la probabilità (1-p) complementare.
4.4.4. Parametri di valutazione
Per verificare la robustezza dei coefficienti ottenuti, sono stati usati tre test specifici
per una classificazione binaria: il test di precision, di specificity e di sensitivity.
Ciascuno di questi test si basa su una tabella 2x2, costruita affiancando il numero di
casi reali, ciascuno calcolato nella classe di appartenenza, al numero di casi attesi
ricalcolando la variabile dipendente con i coefficienti di regressione logistica ottenuti.
Casi reali
TP FP
Casi
calcolati FN TN
I casi reali positivi che coincidono con i casi positivi calcolati, vanno a comporre il
numero dei True Positive (TP), per analogia con la terminologia medica. In maniera
analoga si calcola il numero dei True Negative (TN), False Positive (FP) e False
Negative (FN).
Una volta definiti questi quattro parametri, i test statistici vengono definiti come
segue.
• Precision (P): è il rapporto tra il numero di dati corretti con regolazione
positiva e il numero totale di dati corretti. Utilizzando le sigle
precedentemente definite, in forma matematica diventa
P=TP/(TP+TN)

• Specificity (S): è la misura statistica di quanto un test su una classificazione
binaria identifichi correttamente il numero di casi negativi. Dato quindi una
classificazione con un numero di geni regolati negativamente, e ricalcolando
le varibili dipendenti con i coefficienti di r.l., la Specificity produce un indice
della proporzione tra il numero di geni calcolati negativi e il numero di quanti
hanno effettivamente regolazione negativa. In formula:
S=FP/(FP+FN)
• Sensitivity (S): detto anche recall test, è la misura statistica di quanto il test in
esame identifichi correttamente la condizione.
R=TP/(TP+FN)

Capitolo 5. Risultati Progettuali e Discussione________________________________
5. Risultati progettuali e Discussione
5.1. Analisi della struttura dei database di GFINDer
La struttura del DBMS di GFINDer è costituita da 3 diverse basi di dati (più una per
Interpro) collegate tra loro sia in fase di esecuzione della procedura Java, che in fase
di interrogazione da parte del server web.
Lo sviluppo in tempi successivi di ciascuna delle basi di dati, e il continuo evolversi
delle banche dati genomiche da cui i dati originano, ha portato ad una struttura in
parte disorganizzata e senza una relativa documentazione di supporto.
Attraverso un processo di Reverse Engineering è stata acquisita la struttura
complessiva, che si sviluppa attraverso i livelli di seguito descritti.
1. Livello di acquisizione dei dati: gestito dalla procedura Java, che scarica i dati
messi a disposizione dalla diverse banche dati genomiche attraverso server
FTP
2. Livello di pre-elaborazione dei dati genomici: vengono create tabelle di
riepilogo e confronto delle diverse sequenze genomiche e delle relative
annotazioni
3. Livello di gestione dell’elaborazione dei dati da parte del webserver
4. Livello di amministrazione del sistema
Il DBMS si trova quindi a livello intermedio tra l’acquisizione e la pre-elaborazione
dei dati, e la gestione di questi ultimi da parte dell’utente attraverso l’interfaccia web.
Di seguito invece vengono descritte nel dettaglio la struttura delle quattro diverse basi
di dati analizzate singolarmente.

5.1.1. DB master
Il database master rappresenta il livello di amministrazione del sistema e di gestione
dell’elaborazione lato webserver.
Le tabelle di cui è composto possono essere suddivise in cinque diverse aree
tematiche, come illustrato nella figura 5.2 e in tabella 5.1. Comprende inoltre le
tabelle temporanee che vengono create in fase di elaborazione da parte dei moduli di
annotazione e di analisi statistica.
Fig. 5.2. Lo schema complessivo del database master con le pagine web che lo utilizzano.
MANAGEMENT
UTENTE
MANGEMENT
ACCESSI
MANAGEMENT
ESPERIMENTI
MANAGEMENT
RISULTATI
MANAGEMENT
INTERFACCIA
MULTIDB
UTENTE
CATEGORIEUTENT
E
UTENTICONNESSI
ACCESSI
IP2NOME
ESPERIMENTO
COMBINAZCOLONNE
ESPUTENTI
RISULTATIFISHER
RISULTATISALVAT
I
TEXT_OUTPUT
IMPOSTAZIONI
PARAMETRI
SPECIES
TIPICOLONNE
Tab. 5.1: Le cinque categorie di gestione implementate dal DB master

5.1.3. DB mygo
A differenza degli altri databases di GFINDer il DB mygo viene importato
direttamente dalla Gene Ontology [GO] in quanto disponibile come dump di MySQL.
Dal sito della Gene Ontology è anche possibile reperire una documentazione della
schema del database, riportata in figura 5.3.
Lo scopo del progetto della GO è quello di fornire dei vocabolari controllati che
descrivano i prodotti genetici in funzione di come sono associati ai processi biologici
(biological process), ai componenti cellulari (cellular components) e alle funzioni
molecolari (molecular functions) in termini indipendenti dalla specie di appartenenza.
Figura 5.3. Lo schema del DB mygo fornito dalla Gene Ontology
La struttura di questi vocabolari controllati è tale che può essere interrogata a vari
livelli e può fornire vari livelli di informazione a seconda del grado di conoscenza che
si ha su una determinata entità.

Anche per queste ragioni, l’utilizzo del DB fornito dalla Gene Ontology non è
completo da parte di GFINDer, ma solo alcune delle tabelle a disposizione sono
effettivamente riutilizzate nel DB mygo.
In figura 5.4 si ha una panoramica di quali tabelle siano utilizzate e con quali
relazioni.
Al momento della creazione del DB all’interno di mygo, la procedura updater.java si
occupa inoltre di creare alcune tabelle ex-novo per tracciare informazioni di riepilogo
utilizzate successivamente dai moduli di GFINDer. Nello specifico queste sono la
tabelle livelli_ontologie e le tabelle go_summary_termperlevels e go_summary_totals
(che vengono però salvate nel DB webdata, costituendo un archivio storico delle
elaborazioni compiute dal livello di raccolta dei dati).
Figura 5.4. Schema completo del database mygo.

Figura 5.5. Schema del database mygo relativo alle sole tabelle in uso in GFINDer, le
relazioni tra le tabelle e le pagine lato web server che accedono al database.

5.1.4. DB Interpro
Il database Interpro viene scaricato e importato in GFINDer attraverso la versione
messa a disposizione dalla EBI-EMBL
Fig. 5.5. Schema complessivo del DB InterPro

Il database, che costituisce l’aggregazione di diverse banche dati di annotazioni
funzionali di domini proteici, mantiene una struttura analoga anche all’interno di
GFINDer. Lo schema è rappresentato in figura 5.5.
Tra le modifiche effettuate in fase di importazione dei dati, di particolare interesse è
quella realizzata sulla tabella entry, dove il singolo record viene arricchito delle
informazioni tree, level, depth_order e parent, relative alla struttura gerarchica dei
domini proteici che è implementata da Interpro.
5.1.2. DB webdata
Il DB webdata contiene le informazioni di tutti gli altri vocabolari controllati utilizzati
nel sistema, le annotazioni dei geni e le associazioni tra codici di sequenze
nucleotidiche e termini della Gene Ontology e dei diversi vocabolari scaricati.
In figura 5.6 infine viene riproposta la struttura complessiva di webdata, mettendo in
evidenza il flusso di elaborazione dei dati, dalle tabelle importate direttamente dai
server FTP pubblici a quelle utilizzate dal lato dell’applicativo web, con l’indicazione
delle pagine HTML in cui la porzione di database in esame viene utilizzata.
La sua struttura complessiva può essere schematizzata in alcuni blocchi principali:
1. tabelle in cui vengono allocate le annotazioni e i codici di corrispondenza di
geni e sequenze nucleotidiche. Questi dati vengono scaricati dai server FTP
corrispondenti, in formato testuale, e attraverso un parsing gestito da una
procedura in JAVA vengono riorganizzati in tabelle.
2. tabelle di annotazioni cliniche e fenotipiche di OMIM, scaricate e
riorganizzate in tabelle con una procedura simile a quella dei dati di
EntrezGene e di altre banche dati.
3. tabelle di corrispondenza con i DB mygo e interpro
4. tabelle create in modo dinamico dalla procedura updater.java per riorganizzare
i dati disponibili e renderli accessibili al webserver per successive
interrogazioni
Nello specifico delle tabelle contenenti annotazioni importate da diverse banche dati,
si possono distinguere alcune aree di provenienza dei dati.

In dettaglio:
• Entrez Gene, da cui sono importati i dati contenuti nelle tabelle gene_info,
gene2accession, gene2go, gene2pfam, gene2pubmed, gene2refseq, gene2sts,
gene2unigene, mim2gene.
• KEGG, annotazioni relative ai pathway biochimici , contenuti nella tabella
loc2kegg.
• SwissProt, annotazioni di famiglie e domini proteici, utilizzata per la creazione
delle tabelle spkeywords, spincludes, spcontains, spac, sp2pfam, sp2interpro,
secondo lo schema illustrato in figura 5.9.
• Affymetrix, i cui dati sono scaricati nella tabella affy, affychips e loc2affy
• EBI, banca dati proteomica, da cui sono scaricati i dati delle tabelle pfam2go,
ec2go e ug2sp.
• HomoloGene, banca dati di annotazioni relative alle omologie tra le diverse
specie, contenute nella tabella omologie
• OMIM, catalogo di geni e di disordini genetici umani, da cui originano i dati
contenuti nelle tabelle schematizzate in figura 5.10 e 5.11.
Da queste tabelle poi la procedura realizza due tabelle principali, a disposizione dei
moduli di analisi di GFINDer, che sono la tabella geni e la tabella ontologie.
Le relazioni tra queste ultime due tabelle e le restanti tabelle di webdata utilizzate
nella costruzione sono rappresentate nelle figure 5.7 e 5.8.

Fig. 5.6. Lo schema completo del database webdata. Sono indicati in azzurro scuro le tabelle
direttamente importate dalle banche dati pubbliche attraverso parsing dei file testuali
contenuti sui server FTP, e i server FTP corrispondenti. In verde la porzione di database
scaricata da OMIM, in giallo le tabelle go_summary_termperlevel e go_summary_totals che
vengono costruite dall’analisi delle tabelle della Gene Ontology, e infine in rosso le due
tabelle di destinazione dell’elaborazione sviluppata dal modulo updater.java, riutilizzate poi
dai moduli web di GFINDer.

Fig. 5.7. La creazione della tabella geni in webdata.

Fig. 5.8. Schema della costruzione della tabella ontologie in webdata. Le tabelle colorate in
rosso vengono utilizzate separatamente ad ogni iterazione dell’algoritmo di costruzione della
tabella ontologie. Le tabelle “term” e “pathcodecompositi” sono contenute nel database
mygo e rappresentano quindi l’interazione tra i due database.

Fig. 5.9. Le tabelle di webdata che originano da Swissprot, con la notazione di Martin/Odell
per indicare la cardinalità tra le relazioni.
Fig. 5.10. Localizzazione dei fenotipi scaricati da OMIM. Le annotazioni per la costruzione
di queste tabelle sono scaricate dal file morbidmap presente sul server FTP di OMIM.

Fig. 5.11. Annotazioni cliniche scaricate da OMIM con le indicazioni dei fenotipi. Nel
parsing del file omim.txt vengono evidenziati e catalogati i termini sinonimi. La tabella cs2
costituisce una copia dei dati, per conservarne la struttura originaria importata dalla banca
dati.

5.2. Elaborazione dei dati
5.2.1. Creazione della matrice per l’analisi dei dati
L’analisi di regressione logistica è stata implementata inizialmente sulle annotazioni
genomiche realizzate sui domini proteici.
Utilizzando i databases di GFINDer è possibile disporre di un set di dati estratto
tramite una lista di geni caricata dall’utente. Facendo riferimento a quanto descritto
nella sezione Materiali e Metodi, l’analisi statistica implementata serve a stabilire dei
valori di significatività alle variabili indipendenti, che nel nostro caso sono i domini
proteici, a fronte del valore di regolazione dei geni corrispondenti, che in termini
matematici corrispondono alle variabili dipendenti.
Fig. 5.12. Estrazione dei dati di Interpro per la costruzione della matrice di analisi di
regressione logistica.
Tuttavia è necessario riorganizzare i dati estratti in una forma matriciale adeguata
all’analisi. In figura 5.12 è rappresentata la porzione di database utilizzata per
l’estrazione dei dati, mentre in figura 5.13 il risultato di una query e l’aspetto
sequenziale dei dati.

Come si vede in figura, ad ogni gene estratto è associato uno o più domini proteici, e
viceversa lo stesso dominio proteico può essere associato contemporaneamente a geni
diversi. I dati vengono quindi riorganizzati come se disposti su un piano cartesiano,
dove l’asse delle ascisse rappresenta i vari domini proteici e sulle ordinate i diversi
geni, ciascuno rappresentato con il proprio valore di regolazione. Nei punti di
intersezione tra un gene ed un dominio proteico vi sarà un valore 1 se c’è
corrispondenza, un valore 0 nel caso in cui non via nessun gene abbinato a quella
categoria.
Fig. 5.13. Come appaiono nell’interfaccia del MySQL browser i dati estratti dalla query.
In questo tipo di rappresentazione, l’aspetto della matrice sarà esclusivamente binario,
sia come variabili indipendenti, sia come valori di regolazione dei geni.
Utilizzando le annotazioni presenti sui domini proteici, e attraverso un’opzione
implementata nell’interfaccia web descritta più avanti, è possibile visualizzare una
matrice di dati alternativa utilizzando i geni e le categorie del medesimo esperimento.
In questo visualizzazione alternativa, la corrispondenza tra un gene e un dominio
proteico non è identificata solo dal valore binario 0/1, ma da un valore discreto
compreso tra 1 e N detto match count. Un match count rappresenta il conteggio di

quante sequenze nucleotiche diverse (esoni trascritti dal codice genetico) codificano
per quello stesso dominio proteico.
Utilizzando i valori di match count si aggiunge ulteriore informazione sul legame tra
un gene e una categoria, più alto è il valore matchn, più elevato sarà il peso statistico
della corrispondenza tra le due variabili.
A livello implementativo, la matrice viene costruita in linguaggio ASP attraverso cicli
while successivi. In una prima istanza, conoscendo a priori il numero di geni e di
categorie in quella specifica elaborazione, viene allocato in memoria temporanea lo
spazio necessario tramite la creazione di array e array di array (il linguaggio ASP 2.0
non supporta un tipo di variabile bidimensionale). In una seconda istanza, viene
considerato un gene per volta (righe della matrice) e aggiornato il valore di
corrispondenza con la categoria di volta in volta considerata (colonne della matrice).
Nella stessa iterazione è anche aggiornato il valore di regolazione del gene.
Al termine dei cicli appena descritti tutti i valori sono caricati in una variabile di
sessione di tipo dinamico. Sfruttando l’intercomunicabilità tra ASP e JavaScript,
questi valori sono passati ad un algoritmo JavaScript che si occuperà di rielaborarli.
Benché JavaScript sia un linguaggio di scripting comunemente usato per elaborazioni
lato client, in questa procedura l’elaborazione risiede sul server e i risultati vengono
caricati in un tabella temporanea, successivamente estratti e visualizzati infine sul
client. Questa scelta, apparentemente costosa in termini di risorse, permette invece di
evitare l’allocamento di una ulteriore variabile di sessione per i risultati, che verrebbe
ad avere le stesse dimensioni della matrice dei dati in ingresso.
Potendo inoltre disporre dei risultati in una tabella di MySQL, il sistema è flessibile
ad ulteriori elaborazioni che non siano solo la visualizzazione degli stessi nel modulo
web (vedi §4.4.4. Parametri di valutazione).
I dati così estratti tuttavia non vengono immediatamente utilizzati per l’elaborazione,
ma vengono eseguiti due controlli di consistenza a priori.
Il primo è il calcolo del numero di eventi per variabile (Events Per Variable, EPV).
Si suppone infatti che i metodi di analisi multivariata producano risultati problematici
se il numero di eventi in uscita è troppo basso rispetto al numero di variabili
indipendenti analizzate nel modello. [Peduzzi et al., 1996]

Per questo si sono stabilite delle linee guida generali per il numero minimo di variabili
per evento, definendo i seguenti range di valori [Harrel et al., 1985]
EPV < 2 analisi non accettabile
EPV < 5 analisi eseguita ma valori attesi non attendibili
5 < EPV < 10 valori appena accettabili
10 < EPV < 20 valori di regressione attendibili
EPV > 20 valori migliori
Il secondo controllo viene fatto sulla corrispondenza tra i valori delle variabili in
ingresso e i valori in uscita di regolazione dei geni, per escludere le categorie che si
comportano come perfect predictor o semiperfect predictor. Un perfect predictor è
una variabile che manifesta sempre lo stesso valore (o lo stesso intervallo di valori) in
corrispondenza di uscite uguali. Analogamente, il semiperfect predictor è
caratterizzato da una proprietà simile ma solo in corrispondenza di una delle due
uscite. I domini proteici che risultano appartenere ad uno di questi due gruppi
vengono annotati a parte non inclusi nell’elelaborazione per il calcolo dei coefficienti
di regressione logistica.
Questo controllo e’ immediato nel caso di analisi univariata, mentre, come descritto
più avanti, risulta più complesso nel caso di analisi multivariata.
5.2.2. Analisi univariata
L’analisi univariata viene utilizzata per valutare ogni variabile in un data set, presa
singolarmente. Serve a valutare l’intervallo dei valori assunti dalla variabile, così
come la tendenza principali dei valori. Descrive inoltre il pattern di risposta della
variabile, considerando ciascuna variabile indipendente dalle altre.
Nel caso dell’analisi di regressione logistica, l’equazione descritta in §4.4.2 viene
utilizzata nella sua forma unidimensionale, mentre la matrice dei dati in ingresso si
riduce ad un singolo array corrispondente ad una singola categoria (dominio
proteico).

I singoli risultati vengono archiviati in una tabella temporanea e visualizzati per avere
una prima stima della correlazione tra geni e categorie.
Un esempio di risultato di analisi univariata è quello mostrato in figura 5.14.
5.2.3. Analisi multivariata
Per valutare non solo le caratteristiche della singola variabile in relazione al set di
geni considerato, ma anche l’interazione tra le varibili, è necessario procedere ad
un’analisi multivariata. In questo caso l’equazione avrà un numero di variabili
indipendenti pari al numero di categorie estratte, e coefficienti calcolati dall’algoritmo
vengono ad ogni iterazione aggiornati per tenere conto della suddetta interazione.
Utilizzando l’algoritmo di massima verosimiglianza ci si scontra però con la crescente
complessità del problema dei perfect o semiperfect predictor.
Nel caso dell’analisi multivariata infatti il completo fittaggio tra le variabili in
ingresso e quello in uscita può essere dovuto non solo alla relazione biunivoca tra una
categoria e il set di geni, ma anche all’interazione tra più categorie. Nessuna delle
variabili di per sé sarebbe un perfect predictor, ma un sottoinsieme di esse calcolate
simultaneamente può formare un pattern nello spazio n-dimensionale che divide lo
spazio in due regioni, una con uscita sempre 1 e l’altra con uscita sempre 0 (Fig.
Fig. 5.14: Risultati di una elaborazione tramite analisi univariata come appaiono
nell’interfaccia web di GFINDer.

5.15). In questa situazione il modello di regressione logistica non è adeguato al tipo di
dato, poiché la relazione è rappresentata da una funzione gradino, e non dalla curva a
S del modello di regressione logistica.
Questo porta l’algoritmo di massima verosimiglianza a non convergere e di
conseguenza ad un overflow dell’elaborazione.
Al livello di sviluppo attuale dell’applicazione non viene fatto un controllo
sull’interazione tra le variabili, come avviene nel caso dell’analisi univariata, ma un
controllo a posteriori durante l’esecuzione dell’algoritmo. Nel caso in cui l’algoritmo
non converga, l’elaborazione viene interrotta e viene restituito un messaggio di
allerta, che invita a ripetere l’elaborazione con una combinazione diversa di variabili.
5.3. Funzionalità implementate
5.3.1. Modulo web per l’analisi di regressione logistica
L’utilizzo da parte degli utenti del modulo di regressione logistica viene delegato ad
applicazioni che risiedono su ogni client il cui scopo è fornire un’interfaccia di
selezione dei parametri per l’estrazione dei dati e mostrare i risultati delle elaborazioni
che sono state eseguite sul server.
I browser non hanno grandi capacità di elaborazione, eseguono soltanto dei comandi
che hanno valenza solo sul client senza nessuna iterazione con il server remoto, e
Fig. 5.15. Visualizzazione grafica in uno spazio
tridimensionale dell’iperpiano che realizza una
perfetta divisione tra i due tipi di uscita.

permettono piccole interazioni con l’utente. Il loro scopo principale è quello di
garantire la navigazione attraverso il web e interpretare pagine realizzate con HTML e
visualizzarle in formato di ipertesto. HTML (acronimo per HyperText Mark-Up
Language) è un linguaggio usato per descrivere i documenti ipertestuali disponibili su
Internet. Non è un linguaggio di programmazione, ma un linguaggio di markup, ossia
descrive l'aspetto che deve avere il testo.
La standardizzazione del codice di presentazione permette una portabilità
dell’applicazione su piattaforme hardware e software diverse senza nessun problema
di conflitto.
5.3.2. Selezione dei parametri
Nello specifico dell’analisi di regressione logistica, questa viene attualmente applicata
sulle famiglie e i domini proteici. L’interfaccia web di selezione dei parametri
permette di definire i vincoli sugli attributi di questa categoria in base ai quali estrarre
i geni coinvolti nell’esperimento.
L’aspetto dell’interfaccia è quello mostrato in figura 5.16.
L’immagine è relativa alla vista da parte di un utente registrato, che dispone di una
lista precaricata di esperimenti selezionabile nel primo menu a tendina Select
sequenze ID’s list.
In dettaglio, gli altri parametri secondo i quali restringere l’estrazione dei dati sono:
1. Source database: permette di scegliere se estrarre i geni annotati nel DB Pfam
o Interpro
2. Category type: campo di selezione mutuamente esclusiva del tipo di categoria
presa in esame (vedi §4.4.4 per ulteriori dettagli)
3. Tree level: per scegliere a quale livello dell’albero dei domini e famiglie
proteiche arrestare l’estrazione dei dati (vedi §4.4.4 per ulteriori dettagli)
4. Specie: uno stesso gene può essere comune a più specie. Il menu viene creato
dinamicamente verificando a quali specie sono abbinati i geni coinvolti
nell’esperimento.
5. Minimum n. of items: numero minimo di geni che devono essere associati ad
un dominio proteico (o più in generale ad una categoria) perché questa venga

inclusa nell’elaborazione. Aumentando questo valore diminuiscono il numero
di categorie estratte. Il valore massimo utilizzabile dipende dalle categorie e
dai geni dell’esperimento specifico, e può essere visualizzato attraverso il
modulo Exploration presente in GFINDer.
6. Item: sceglie se utilizzare la corrispondenza delle categorie con i geni o con i
Sequence ID (un gene può essere composto da più Sequence IDs)
7. Column name: per selezionare quale colonna di classificazione utilizzare tra
quelle definite al momento dell’upload dei dati (vedi §4.4.1 Classificazione e
categorizzazione di geni)
8. Y1 class/Y0 class: a seconda della colonna di classificazione utilizzata
appaiono in questi menu le diverse categorie di espressione del gene. I menu
permettono selezioni multiple. I parametri qui definiti permettono di dividere
il set di geni nelle due classi di regolazione e quindi i valori della variabile
dipendente nell’analisi di regressione logistica.
9. Category matches: il valore minimo di category matches che deve avere un
dominio proteico per essere incluso nell’elaborazione. Se la checkbox viene
disattivata, l’analisi viene fatta senza tenere conto dei category matches,
quindi le categorie sono estratte indipendentemente da questo valore e la
matrice dei dati avrà unicamente valori binari (vedi §5.2)
Fig. 5.16. Interfaccia di selezione dei parametri.

Le caselle di input successive sono invece relative alla visualizzazione dei
risultati. La prima definisce con quale livello di significatività del p-value
mostrare i risultati, il secondo blocco composto di radio button permette di
selezionare in base a quale campo mostrare i risultati ordinati.
5.3.3. Selezione parziale dei domini proteici
Sia nel caso dell’analisi univariata, sia nel caso di quella multivariata, che può
convergere ad un risultato o meno, dall’elenco delle categorie mostrate
nell’interfaccia dei risultati è possibile effettuare una selezione parziale e ricalcolare i
coefficienti di regressione logistica solo in base all’interazione tra i domini della
sottocategoria.
La selezione parziale dei domini proteici non ha nulla a che vedere con gli attributi
delle singole categorie, ma è unicamente manuale e affidata alla scelta dell’utente.
Si può scegliere ad esempio di discriminare le categorie in base ai coefficienti di
regressione logistica calcolati (p.e. solo positivi, solo negativi, compresi in un certo
intervallo, vedi §6.1 per ulteriori dettagli), oppure in base alla distribuzione delle due
classi di geni.

Capitolo 6. Risultati Applicativi e Discussione_______________________________
Tesi laurea di Elisa Bellistri ___________________________________________ 62
6. Risultati Applicativi e Discussione
6.1. Un esempio di test
L’analisi di regressione logistica è stata testata su diversi set di geni precedentemente
classificati.
Un esempio è rappresentato dal set in figura 6.1, che rappresenta geni di cui sono noti
i domini proteici prodotti e la relazione al sistema neurologico (160 geni) o
cardiovascolare (92 geni). Identificando con NEURO la classe 1 (ossia la classe della
quale si vuole stimare la probabilità di appartenenza) e con 0 la classe CARDIO (a cui
bisogno dimostrare la non appartenenza), il modulo software implementato ha
calcolato i coefficienti di regressione logistica che stimano per ogni gene la
probabilità di appartenere alla classe NEURO, e quindi di essere relazionato ad una
codifica relativa al sistema neurologico.
Fig. 6.1: interfaccia di selezione dei parametri per l’esempio riportato nel testo, e risultati
preliminari all’elaborazione (EPV calcolato, null model, valore di convergenza e numero di
iterazioni necessarie

Capitolo 6. Risultati Applicativi e Discussione_______________________________
Tesi laurea di Elisa Bellistri ___________________________________________ 63
La figura 6.1 rappresenta, oltre ad un riepilogo dei parametri attraverso cui sono stati
estratti i geni nell’esperimento, anche una parte dei risultati dell’elaborazione, quali il
valore di verosimiglianza di partenza, il valore a cui l’algoritmo converge e il numero
di iterazioni necessarie per ottenere il risultato.
L’ordine di grandezza nel numero di iterazioni (in questo caso 22) è un valore che si
mantiene molto simile anche con set di dati diversi, il che porta i tempi di esecuzione
dell’algoritmo JavaScript ad alcune decine di secondi (29 secondi nell’esempio
illustrato) e quindi accettabile con ampio margine il carico di lavoro da parte del
server.
Attraverso la selezione dei parametri è inoltre possibile variare il livello di dettaglio
delle annotazioni da includere nell’analisi di regressione, tipicamente variando i valori
di livello nella struttura ad albero dei domini proteici (vedi 2.3.2 per ulteriori dettagli),
focalizzandosi come nell’esempio (tree level pari a 0) solo sulle annotazioni
indipendenti che non hanno relazioni padre/figlio.
Fig. 6.2. Risultati dell’analisi multivariata

tesi_completa.2

Recommended

Recommended

More Related Content

Featured

Featured (20)

tesi_completa.2