SlideShare a Scribd company logo
Dedicata a Mario
Indice __________________________________________________________________
Tesi di laurea di Elisa Bellistri ____________________________________________ I
Indice I
1. Sommario 1
2. Introduzione 3
2.1. La base della genetica: il DNA 3
2.1.1. Geni e proteine 5
2.1.2. Struttura e funzionalità dei domini proteici 6
2.2. Tecnologie high-throughput a microarray per analisi sperimentali 8
2.3. Banche dati biomolecolari e genomiche 9
2.3.1. Annotazioni funzionali di geni 11
2.3.2. Annotazioni funzionali di domini proteici 12
2.4. Stato dell’arte degli strumenti informatici per l’analisi delle annotazioni
genomiche 14
2.4.1. GFINDer e altri tool disponibili 14
2.4.1.1.Analisi statistiche 16
3. Scopo della Tesi 20
4. Materiali e Metodi 22
4.1. Strumenti per la gestione e la condivisione di dati 22
4.1.1. Data Base Management System 23
4.2. Strumenti per la visualizzazione e l’elaborazione dei dati 24
4.2.1. Web server, tecnologie di scripting e pagine web dinamiche 25
4.3. Strumenti per l’analisi e la visualizzazione dello schema di un database 28
4.3.1. Microsoft Office Visio® 29
4.3.2. fabForce DBDesigner 4.0 31
4.4. Analisi statistica 33
4.4.1. Classificazione e categorizzazione di geni 33
4.4.2. Regressione logistica 35
4.4.3. Algoritmo di verosimiglianza 36
Indice __________________________________________________________________
Tesi di laurea di Elisa Bellistri ____________________________________________ II
4.4.4. Parametri di valutazione 38
5. Risultati Progettuali e Discussione 40
5.1. Analisi della struttura dei database di GFINDer 40
5.1.1. DB master 41
5.1.2. DB mygo 42
5.1.3. DB interpro 45
5.1.4. DB webdata 46
5.2. Elaborazione dei dati 53
5.2.1. Creazione della matrice per l’analisi dei dati 54
5.2.2. Analisi univariata 56
5.2.3. Analisi multivariata 57
5.3. Funzionalità implementate 58
5.3.1. Modulo web per l’analisi di regressione logistica 58
5.3.2. Selezione dei parametri 59
5.3.3. Selezione parziale dei domini proteici 61
6. Risultati Applicativi e Discussione 62
6.1. Un esempio di test 62
6.2. Considerazioni sui dati ottenuti 64
7. Stato Attuale e Sviluppi Futuri 68
7.1. Analisi attualmente implementate in GFINDer 68
7.2. Altre tecniche di data mining 69
8. Conclusioni 70
9. Bibliografia 72
10. Pubblicazioni e Presentazioni Scientifiche Realizzate 80
10.1. Articolo in rivista internazionale 81
Indice __________________________________________________________________
Tesi di laurea di Elisa Bellistri ____________________________________________ III
10.1.1. BMC Bioinformatics 81
10.2. Contributo su atto di congresso nazionale 92
10.2.1. Bioinformatics ITalian Society meeting 2006 92
10.3. Contributo su atto di congresso internazionale 95
10.3.1. American Medical Informatics Association conference 2006 95
Capitolo 1. Sommario _____________________________________________________
Tesi di laurea di Elisa Bellistri ____________________________________________ 1
1. Sommario
Le tecnologie biomolecolari high-throughput (es. microarray) permettono di analizzare
decine di migliaia di sequenze nucleotidiche simultaneamente. L’interpretazione di tali
analisi richiede l’annotazione dei geni selezionati candidati con attributi funzionali,
strutturali e fenotipici qualificanti che ne descrivano in dettaglio le caratteristiche
principali. Inoltre è indispensabile un’analisi di tali annotazioni che segua un rigoroso
approccio statistico per poter individuare le categorie di attributi maggiormente rilevanti
nelle condizioni in esame.
Per tale fine è stato precedentemente sviluppato GFINDer, uno strumento web basato su
un’architettura client-server multi-livello che recupera automaticamente annotazioni
genomiche funzionali aggiornate dalle più importanti banche dati biomolecolari della
comunità scientifica internazionale; permette di annotare liste di geni ottenute da analisi
sperimentali su molte migliaia di geni contemporaneamente; elabora e analizza
statisticamente le annotazioni di liste di geni selezionate dall’utente e offre una
visualizzazione semplice ed efficace dei risultati delle analisi statistiche effettuate,
aiutando così nell’interpretazione del significato biologico delle liste di geni considerati.
La tipologia dei dati gestiti nei database di GFINDer, un insieme di annotazioni
funzionali di geni di vari genomi che possono essere utilizzate per classificare geni
singoli o gruppi di geni, ben si presta all’utilizzo di tecniche statistiche di classificazione
adatte alla ricerca di nuova conoscenza. In tale ambito si inserisce l’analisi di regressione
logistica sviluppata in questa Tesi. La maggior parte delle funzionalità implementate è
pubblicamente utilizzabile all’indirizzo http://www.bioinformatics.polimi.it/GFINDer/;
altre funzionalità specifiche sono riservate agli utenti registrati di GFINDer.
Nel capitolo “Introduzione” sono esposte le premesse sia in ambito biomedico che
informatico alle problematiche affrontate che hanno portato alla realizzazione della
presente Tesi.
Capitolo 1. Sommario _____________________________________________________
Tesi di laurea di Elisa Bellistri ____________________________________________ 2
Motivazioni e obiettivi di questa sono illustrati nel capitolo “Scopo della Tesi”.
Nel capitolo “Materiali e Metodi” sono mostrati i dati e gli strumenti utilizzati, e i
metodi seguiti nello svolgimento della Tesi per raggiungere gli scopi esposti.
Il capitolo “Risultati Progettuali e Discussione” descrive il processo di reverse
engineering compiuto sui database di GFINDer per documentare la struttura degli stessi;
descrive inoltre le caratteristiche e l’architettura del modulo software sviluppato per
consentire di effettuare analisi di regressione logistica via web all’interno di GFINDer,
commentandone le varie parti e i passi realizzati.
I risultati delle elaborazioni svolte attraverso il modulo software implementato e il
confronto tra tali risultati sono esposti nel capitolo “Risultati Applicativi e Discussione”.
Il capitolo “Stato Attuale e Sviluppi Futuri” espone lo stato attuale dell’implementazione
del sistema GFINDer e delle analisi in esso disponibili e illustra come si potrebbero
utilmente applicare alcune altre tecniche di data mining sul tipo di dati considerato per
l’analisi di regressione logistica implementata.
I risultati raccolti hanno dimostrato la validità delle scelte fatte per raggiungere gli
obiettivi preposti, come esposto nel capitolo “Conclusioni”.
Il capitolo “Bibliografia” include i riferimenti a tutti i libri, articoli e siti web a cui ci si è
riferiti nello svolgimento di questa Tesi.
Il capitolo “Pubblicazioni e Presentazioni Scientifiche Realizzate” raccoglie la
pubblicazione scientifica, la comunicazione al congresso nazionale di Bioinformatica e la
comunicazione al congresso internazionale di Informatica Medica realizzate a seguito del
lavoro svolto nell’ambito di questa Tesi.
Capitolo 2. Introduzione ___________________________________________________
Tesi di laurea di Elisa Bellistri ____________________________________________ 3
2. Introduzione
Gli studi che vengono condotti nel campo della ricerca genetica si basano sullo studio e
sull’interpretazione di dati forniti dall’analisi nel DNA o di un sottoinsieme di sequenze
nucleotidiche, prevalentemente provenienti da analisi da microarray. Pertanto è
importante per gli scopi di questa Tesi richiamare brevemente la struttura del DNA e dei
suoi componenti, i principali passi coinvolti nella sintesi proteica cellulare, nonché i punti
di correlazione tra la nuova ricerca genetica e le tecnologie distribuite dell’Informazione
e della Comunicazione.
2.1. La base della genetica: il DNA.
Il DNA (Acido DesossiriboNucleico) è una molecola presente in quasi tutte le cellule di
un organismo biologico che, con la sua struttura molecolare, codifica tutte le
informazioni necessarie per lo sviluppo e il funzionamento di un essere vivente. Gregor
Mendel nel 1865 scoprì che i tratti individuali di ogni essere vivente sono determinati da
fattori discreti, che più tardi vennero chiamati geni; ma solamente nel 1953 venne isolata
per la prima volta da James Watson e Francis Crick la molecola del DNA e venne
scoperta la sua ben nota struttura a doppia elica. In tale struttura sono codificate tutte le
informazioni genetiche di un individuo tramite una sequenza di quattro diverse molecole,
ovvero le basi azotate (A) Adenina, (T) Timina, (G) Guanina e (C) Citosina inserite su di
una struttura molecolare di zucchero: il desossiribosio. , in generale, e costituisce la base
del patrimonio genetico di un individuo. Sequenze di nucleotidi costituiscono i geni.
Possiamo paragonare il DNA ad un grande libro nel quale sono scritte tutte le
informazioni che compongono il codice genetico di ogni essere vivente. I geni possono
quindi essere paragonati alle frasi di questo libro. Ogni base azotata è paragonabile ad
una lettera dell’alfabeto con cui è scritto il libro e ogni tripletta di basi azotate è
equiparabile ad una parola. L’informazione codificata dai geni viene utilizzata per la
sintesi delle proteine all’interno dei ribosomi, che sono le parti della cellula dedicate alla
Capitolo 2. Introduzione ___________________________________________________
Tesi di laurea di Elisa Bellistri ____________________________________________ 4
produzione di proteine. All’interno della sequenza nucletidica dei geni, vi sono delle
sotto-sequenze di basi (dette esoni) che codificano informazioni proteiche. Queste sono
inframmezzate da tratti di DNA che non codificano proteine (gli introni) e la loro
funzione è tuttora sconosciuta. Negli esoni, ogni tripletta di basi azotate, le “parole” del
libro, codifica un aminoacido, ovvero l’elemento base costitutivo di ogni proteina. è
paragonabile ad una parola Le combinazioni possibili di triplette sono quindi ovviamente
6443
= , ma solamente 20 sono gli aminoacidi che codificano informazioni realmente
utili. Sequenze di aminoacidi costituiscono le proteine che sono i cosiddetti “mattoni
della vita” e sono l’elemento base di ogni struttura biologica vegetale o animale.
Nelle cellule umane, il DNA è organizzato in 23 paia di cromosomi, dove ogni membro
di ogni paio è ereditato da un genitore. La maggior parte del DNA umano (il 98,5%) ha
una funzione ancora è sconosciuta, mentre la parte rimanente è coinvolta nel processo di
trascrizione, cioè nel trasferimento delle informazioni dal DNA nel nucleo della cellula ai
ribosomi dove avviene la sintesi proteica. All’interno di ogni cellula è presente anche un
Fig. 2.1. Le informazioni codificate nel DNA
vengono trascritte sull’RNA nucleare e
quindi nell’RNA messaggero (mRNA) che
le porta all’esterno del nucleo della
cellula. Nei ribosomi l’informazione viene
ricopiata dall’RNA trasportatore (tRNA) e
da qui tradotta per la costruzione di
proteine.
Capitolo 2. Introduzione ___________________________________________________
Tesi di laurea di Elisa Bellistri ____________________________________________ 5
altro acido nucleico l’RNA (l’acido ribonucleico) che differisce dal DNA in quanto ha
una struttura a singola elica in cui la base azotata Timina è sostituita da una diversa base
azotata, l’ Uracile. L’RNA ha il compito di trascrivere il patrimonio genetico e di
trasportare l’informazione contenuta nel DNA (che rimane sempre all’interno del nucleo
della cellula) all’esterno del nucleo fino ai ribosomi, situati nel citoplasma della cellula,
dove avviene la sintesi proteica (figure 2.1 e 2.2) [Bergeron, 2003]. A tale scopo l’RNA
viene prima trasformato nell’mRNA, o RNA messaggero, ottenuto concatenando
solamente gli esoni (cioè le parti del DNA che codificano informazioni proteiche), mentre
gli introni vengono eliminati.
2.1.1. Geni e proteine
Attraverso la sintesi proteica si realizza la funzionalità delle informazioni veicolate dal
genoma.
Fig. 2.2. Trascrizione e sintesi dell’RNA.
Dall’RNA nucleare vengono scartati gli
introni e solo gli esoni vengono copiati
nell’RNA messaggero.
Capitolo 2. Introduzione ___________________________________________________
Tesi di laurea di Elisa Bellistri ____________________________________________ 6
È infatti attraverso le proteine che vengono svolte le principali funzioni dell’organismo,
sia di tipo strutturale, sia come catalizzatori delle reazioni metaboliche (tramite gli
enzimi), sia nel trasporto di informazioni all’interno dell’organismo (attraverso gli
ormoni).
L’insieme di tutte le proteine codificate dal genoma costituisce il proteoma. Poiché il
proteoma riflette più accuratamente la dinamica dello stato di una cellula, dei tessuti, o
dell’organismo, l’aspettativa verso la proteomica è quella di poter comprendere meglio i
meccanismi di funzionamento.
Scopo della ricerca in proteomica è quello di identificare tutte le proteine all’interno
dell’organismo e determinare il loro ruolo nelle funzioni fisiologiche e fisiopatologiche.
Mentre il genoma rimane invariato in tutto l’organismo per tutta la durata della sua vita,
le proteine all’interno di una cellula cambiano drasticamente a seconda che il gene sia
attivato o disattivato in risposta alla condizione ambientale. Poiché le proteine sono
direttamente coinvolte sia nei normali processi chimici, che in quelli associati ad una
patologia, una più vasta comprensione di una patologia può essere ottenuta direttamente
dallo studio delle proteine all’interno di una cellula o un tessuto malato.
L’uomo è stimato abbia dai 30.000 ai 40.000 geni che potenzialmente codificherebbero
40.000 diverse proteine, in realtà meccanismi come lo splicing e modifiche successive
alla traduzione (post-translational modifications, PTM) fanno crescere questo numero a
circa 2.000.000 di diverse proteine o sequenze di aminoacidi.
Per evidenziare la natura dinamica del proteoma, alcuni ricercatori utilizzano la
terminologia “proteoma funzionale” per descrivere tutte le proteine prodotte da una
singola cella in un determinato intervallo temporale. [Kosak e Groudine, 2004]
2.1.2. Struttura e funzionalità dei domini proteici
Spesso, alcune parti circoscritte di proteine possono svolgere funzioni condivise da altre
proteine. In molti casi queste funzioni sono riconducibili a "domini funzionali".
Generalmente con il termine di "dominio" proteico si intende una porzione consistente di
una proteina che, oltre che svolgere una certa funzione, si organizza in una sua struttura
Capitolo 2. Introduzione ___________________________________________________
Tesi di laurea di Elisa Bellistri ____________________________________________ 7
tridimensionale.
In casi più semplici una funzione proteica può essere esplicata da regioni molto più
semplici rispetto ad un dominio, ma comunque utili per identificare la funzionalità della
proteina. A volte bastano solo un paio di aminoacidi per potere assegnare una
caratteristica funzionale ad una proteina (ad esempio un sito di glicosilazione).
In questi casi non si parla di domini, ma più semplicemente di "motivi funzionali".
Queste caratteristiche si riflettono, in genere, in porzioni conservate nella sequenza
aminoacidica della proteina che è possibile individuare attraverso l'allineamento multiplo
delle sequenze.
Fig. 4.9. Esempi della struttura tridimensionale delle proteine.
Un dominio strutturale è un elemento di una struttura complessiva in una proteina che si è
stabilizzato e spesso si avvolge indipendentemente dal resto della catena proteica (fig.
4.9). Molti domini possono essere classificati a seconda di un piccolo numero di
ripiegamenti e non sono univoci della proteina prodotta da un gene o da una famiglia di
Capitolo 2. Introduzione ___________________________________________________
Tesi di laurea di Elisa Bellistri ____________________________________________ 8
geni, ma al contrario appaiono in diverse proteine. I domini strutturali variano in
lunghezza in un range da 25 aminoacidi sino a 500 aminoacidi. Vengono etichettati e
isolati perché rivestono un importante ruolo nella funzione biologica della proteina a cui
appartengono.
Il concetto di dominio è stato proposto per la prima volta nel 1973 da Wetlaufer
[Wetlaufer, 1973], che lo ha definito come una unità stabile della struttura di una proteina
che può ripiegarsi autonomamente.
Da altri autori la definizione di dominio è data come “struttura compatta” [Richardson e
Howlett, 1982] o secondo la funzione specifica e il percorso evolutivo [Bork, 1991].
Tutte queste definizioni sono valide e spesso si sovrappongono tra loro.
La struttura modulare di un dominio proteico favorisce un altissimo numero di
combinazioni possibili tra i diversi domini, dove ogni dominio può esplicare la propria
funzione singolarmente o in un qualche modo influenzato dalla relazione con i domini
vicini.
2.2. Tecnologie high-throughput a microarray per analisi
sperimentali
Le moderne tecnologie utilizzate negli esperimenti di biologia molecolare vengono
chiamate high-throughput perché consentono di lavorare con migliaia di geni in parallelo,
differentemente da quanto veniva fatto in passato, quando i biologi studiavano un gene
per volta. Tali tecnologie hanno reso possibile la sequenza completa del genoma di varie
organismi (Uomo, topo, ratto e molti altri animali e piante), che costituisce il punto di
partenza su cui effettuare diversi tipi di studi ed esperimenti.
I principali ruoli dei computer nella bioinformatica sono quelli di controllori, di archivi di
informazioni, di dispositivi di comunicazione ed elaborazioni numeriche. Il grande
sviluppo delle scienze bioelettroniche e bioinformatiche ha offerto ai biologi strumenti ad
alta capacità di trattamento che permettono di analizzare le sequenze di geni ottenute e
che generano un’enorme quantità di dati ad un ritmo sempre crescente. Una delle più
Capitolo 2. Introduzione ___________________________________________________
Tesi di laurea di Elisa Bellistri ____________________________________________ 9
promettenti tecnologie è quella dei microarray, che permette di analizzare decine di
migliaia di geni in parallelo e genera una grande quantità di dati.
Gli esperimenti che utilizzano microarray studiano geni espressi in cellule in determinate
condizioni, per capire quali di essi abbiano una diversa espressione nelle condizioni
sperimentali considerate rispetto ad una condizione di riferimento. Durante l’esperimento,
dalle cellule trattate si estrae l’mRNA che viene marcato con fluorocromi, sostanze che
colorano le molecole a cui si legano. Gli mRNA delle diverse cellule confrontate in un
esperimento a microarray (es. cellule patologiche versus normali) vengono colorati con
fluorcromi differenti per poterli poi distinguere. Gli mRNA così trattati vengono
“spalmati” sui microarray, dove si legano naturalmente, per complementarietà, al cDNA
ivi precedentemente posizionato. Dato che sono note le sequenze nucleotidiche presenti
in ogni punto del microarray, vedendo quali punti del microarray si colorano e in quale
modo, è possibile capire quali siano i geni diversamente espressi in una condizione
sperimentale rispetto a quella di riferimento. Dai risultati di questi esperimenti è possibile
ottenere una classificazione dei geni coinvolti, attraverso cui esplorare le caratteristiche
funzionali di tali geni.
Considerando geni classificati in due diverse classi, è possibile effettuare un’analisi di
regressione logistica su tali gruppi di geni per valutare statisticamente, ad esempio, quali
famiglie o domini dei prodotti proteici di tali geni meglio concorrono a determinare,
ovvero spiegare, la classificazione definita.
2.3. Banche dati biomolecolari e genomiche
Una sempre maggiore quantità di informazioni si sta accumulando sempre più
rapidamente sottoforma di annotazioni testuali presenti in molti database eterogenei e
distribuiti su scala planetaria. Molti di questi sono accessibili pubblicamente attraverso
interfacce web, che ne permettono semplici interrogazioni, e attraverso FTP, che consente
ottenere una copia dei dati di tali database. Alcuni di tali database più importanti sono
UniGene [Schuler, 1997], [UniGene], EntrezGene [Maglott et al., 2005], SwissProt
Capitolo 2. Introduzione ___________________________________________________
Tesi di laurea di Elisa Bellistri ____________________________________________ 10
[Boeckmann et al., 2003], [ExPASy], KEGG [Kanehisa e Goto, 2000], [KEGG], OMIM
[OMIM]. Le annotazioni di geni che contengono sono costituite da attributi che
descrivono il nome, la struttura, le caratteristiche funzionali dei geni conosciuti e la loro
localizzazione citogenetica, i tessuti nei quali i geni sono espressi, i prodotti proteici
[SwissProt] dei geni e i loro domini proteici [PFAM], [Bateman et al., 2004] le relazioni
conosciute tra i geni, le correlazioni dei geni con differenti patologie [OMIM] e i
pathways biochimici in cui i geni sono coinvolti [KEGG].
Fig. 2.3. Esempio di struttura ad albero di Interpro in file XML
Capitolo 2. Introduzione ___________________________________________________
Tesi di laurea di Elisa Bellistri ____________________________________________ 11
Un esempio di banca dati proteomica è Interpro [INTERPRO], che fornisce annotazioni
relative ai domini, alle famiglie proteiche e ai siti funzionali, e struttura questi ultimi in
un modello gerarchico legato dalle relazioni padre-figlio. Attraverso questo modello, il
database provvede a mettere in relazione attributi caratteristici di proteine note con
sequenze proteiche ancora non note, e di riflesso con le sequenze nucleotiche che le
codificano.
Come nel caso delle altre banche dati, le annotazioni sono consultabili on-line attraverso
una pagina web e un motore di ricerca interno, oppure scaricabili da un server FTP.
Interpro fornisce i dati strutturati in un file XML, un formato testuale che permette di
conservare la struttura gerarchica delle informazioni, secondo una schema come quello
illustrato in figura 2.3.
Come risultato dell’unione di più database, le sequenze codificate sono raggruppate in
base alla firma della proteina, detta anche “method”. Questi gruppi rappresentato
superfamiglie, famiglie o sottofamiglie di sequenze, e vengono definiti come FAMILIES,
DOMAINS, REPEATS o SITES. Le sequenze all’interno di un gruppo sono legate ad un
singolo processo biologico, possono appartenere ad un diverso range di funzioni (come
accade nelle superfamiglie) o possono appartenere ad un gruppo funzionale ancora non
caratterizzato. Per ciascuna entry tuttavia viene fornita una descrizione in linguaggio
naturale e, dove possibile, delle referenze.
Viene inoltre mappata la corrispondenza con la Gene Ontology [GO], che con un’analoga
struttura gerarchica permette di ottenere nuova informazione sulle caratteristiche
funzionali di una sequenza proteica.
2.3.1 Annotazioni funzionali di geni
Oggi le annotazioni funzionali e cliniche dei geni sono probabilmente le informazioni più
interessanti e la loro analisi può aiutare a evidenziare nuova conoscenza biologica, come
l’identificazione di relazioni funzionali o il loro coinvolgimento in alcuni processi
patologici. Le annotazioni servono dunque per dare significatività biologica ai risultati di
Capitolo 2. Introduzione ___________________________________________________
Tesi di laurea di Elisa Bellistri ____________________________________________ 12
esperimenti con microarray. Leggendo le caratteristiche dei geni espresse nelle loro
annotazioni, un biologo ottiene un notevole aiuto per trovare, distinguere gli intrusi, per
depurarli dai falsi positivi e per capire quali sono le funzionalità dei geni in esame. Oltre
alle normali annotazioni, si possono utilizzare vocabolari controllati o delle ontologie per
raggruppare elementi diversi (geni) che rappresentano un medesimo concetto (per es. una
funzione biologica), riunirli in gruppi omogenei di categorie funzionali per meglio
studiarli e per darne un’interpretazione statistica.
2.3.2. Annotazioni funzionali di domini proteici
Come archivio di annotazioni funzionali di domini proteici vengono usate due distinte
banche dati, PFam e Interpro.
Pfam è un database generalizzato di famiglie proteiche, che contiene alla release attuale
(18.0) 7973 diverse famiglie, ciascuna delle quali viene analizzata manualmente e
rappresentata da due allineamenti di sequenze multiple, da due profili HMMs e da un file
di annotazione.
Lo scopo di Pfam è raggruppare le famiglie proteiche in una visualizzazione gerarchica
dei diversi clan [Finn et al., 2006]
Il database InterPro (Integrated Resource of Protein Domains and Functional Sites) è una
risorsa di documentazione integrate per le famiglie proteiche, i domini e i siti funzionali.
È stato inizialmente sviluppato con il significato di razionalizzare i lavori complementari
dei progetti PROSITE, PRINTS, Pfam e ProDom, ed include ora anche il database
SMART. Annotazioni che confluiscono dai database citati formano il core di InterPro.
Ogni entry in InterPro include una descrizione funzionale e le referenze in letteratura,
permettendo agli utenti di vedere a colpo d’occhio se una particolare famiglia o dominio
proteico è associato a dei percorsi, dei profili, dei fingerprints e così via. Dove
applicabile, ogni entry contiene un riferimento incrociato al database BLOCKS, e mappa
i corrispondenti termini della Gene Ontology. [Mulder et al., 2007]
Capitolo 2. Introduzione ___________________________________________________
Tesi di laurea di Elisa Bellistri ____________________________________________ 13
Le annotazioni presenti in Interpro arricchiscono inoltre le famiglie e i domini proteici di
alcuni attributi, distinguendo il tipo di categoria e implementando una struttura ad albero
di relazione tra le diverse categorie.
La struttura ad albero è dovuta alla presenza delle relazioni tra le diverse categorie
PARENT/CHILD e CONTAINS/FOUND IN.
La relazione PARENT/CHILD è utilizzata per indicare le relazioni di
famiglie/sottofamiglie definite sui dati nei database di origine. Per potersi definire
CHILD, più del 75% del set di proteine contenute nel CHILD deve essere rappresentato
nel PARENT.
La relazione CONTAINS/FOUND IN è utilizzata per indicare la composizione del
dominio. Perché venga stabilito questo tipo di relazione, oltre il 40% di proteine della
entry devono contenere la caratteristica del dominio. Alcuni domini si possono trovare in
più di un tipo di proteina o famiglia di proteine, ma questo non indica un sottotipo nel
senso di famiglia. Il dominio è un’entità funzionale, che può essere trovata in proteine
con diverse organizzazioni di dominio.
Per quanto riguarda le annotazioni sul Type, questo può assumere i valori di Family,
Domain, Repeat o Site. I Site a loro volta sono classificati in PTM (post-translational
modification, modifiche successive alla traduzione), AS (Active Site, sito attivo) o BS
(Binding Site, sito di legame).
La Family indica un gruppo di proteine in un set di corrispondenza (match set), il
Domain identifica quelle entries che hanno due o più signature adiacenti non
sovrapposte.
Una Interpro Repeat è invece una regione che non si prevede si ripieghi in un dominio
globulare di per sè.
Una post-translational modification è una modifica alla struttura primaria della
proteina. Questa modifica è necessaria per attivare o disattivare una funzione della
proteina. Esempi di PTM sono la glicosilazione, la fosforilazione, lo splicing, etc.
Un Binding Site è un sito di legame per composti chimici che da soli non potrebbero
costituire in substrato per una reazione. Il composto, che è bound, potrebbe essere un co-
Capitolo 2. Introduzione ___________________________________________________
Tesi di laurea di Elisa Bellistri ____________________________________________ 14
fattore necessario per una reazione chimica, essere coinvolto nel trasporto di elettroni o
nella modifica della struttura di una proteina. Il legame è reversibile, e gli aminoacidi
coinvolti in una reazione di legame devono conservare la specifica del sito di legame per
poter essere identificati.
Gli Active Sites sono meglio conosciuti come i siti catalitici di un enzima dove un
substrato è legato e convertito in un prodotto, di seguito rilasciato. Parti anche distanti tra
loro della struttura primaria di una proteina possono essere coinvolte nella formazione di
un sito catalitico.
2.4. Stato dell’arte degli strumenti informatici per l’analisi
delle annotazioni genomiche
Recentemente sono stati sviluppati diversi strumenti software per annotare liste di geni
identificati in esperimenti di microarray con informazioni biologiche disponibili in molte
banche dati pubbliche eterogenee quali UniGene [UniGene], EntrezGene [EntrezGene],
SwissProt [ExPASy], KEGG [KEGG] e OMIM [McKusick, 1998], [Hamosh et al.,
2002]. La maggior parte di tali tool fornisce funzioni per annotare liste di geni ma non
consente realizzare una “bias analysis” per stabilire quali siano le categorie di
annotazioni più rappresentate dai geni di un insieme considerato. In quest’ottica si stanno
proponendo alcuni tool per far fronte alla sempre crescente necessità di ottenere
indicazioni statistiche di significatività delle varie annotazioni [Cavalieri et al., 2002], ma
la quasi totalità di questi tool gestisce esclusivamente le annotazioni della Gene Ontology
[Gene Ontology], mentre è molto importante utilizzare anche le annotazioni fornite da
altri vocabolari controllati.
2.4.1. GFINDer e altri tool disponibili
Gli strumenti bioinformatici disponibili per l’analisi di liste di geni possono essere
raggruppati in due grandi categorie: quella dei tool di annotazione, che forniscono un
Capitolo 2. Introduzione ___________________________________________________
Tesi di laurea di Elisa Bellistri ____________________________________________ 15
accesso, basato su query, alle annotazioni presenti in banche dati e producono dei risultati
tabellari, e quella dei tool di esplorazione, che mostrano le annotazioni in una qualche
forma di rappresentazione grafica di alcuni raggruppamenti dei dati. Tool come FatiGO
[Al-Shahrour et al., 2004], [FatiGO], GoMiner [Zeeberg e Feng, 2003], [GoMiner],
MAPPFinder [Doniger e Salomonis, 2003], [GenMAPP], GOTree Machine [Zhang et al.,
2004], [GOTree Machine] e GoSurfer [Zhong e Li, 2003], [GoSurfer] appartengono alla
categoria dei tool di esplorazione (prevalentemente di annotazioni della Gene Ontology),
mentre ENSMART [ENSMART], GeneLynx [Lenhard et al., 2001], [GeneLynx],
MatchMiner [MatchMiner], Resourcerer [Resourcerer], SOURCE [Diehn et al., 2003],
[SOURCE] e ChipInfo [Zeeberg e Feng, 2003], [ChipInfo] sono tool di annotazione. Vi
sono inoltre alcuni strumenti come DAVID [Glynn e Sherman, 2003], [DAVID], EASE
[Douglas et al., 2003] e Onto-Tools [Draghici et al., 2003a], [Onto-Tools] che combinano
le caratteristiche di entrambe le categorie.
Tali tool permettono all’utente di caricare una lista di geni “interessanti” (lista di
foreground), confrontarla con una lista di geni “di riferimento” (lista di background) ed
eseguire analisi in base a tale classificazione. Nessuno di questi tool però permette
all’utente di caricare liste ne con classificazioni multiple, né tanto meno con un numero
arbitrario di classi.
Nessuno di essi inoltre consente all’utente di definire proprie macro-categorie che
possano racchiudere in sé un gruppo di altre categorie di vocabolari controllati, e nessuno
fornisce una visualizzazione riassuntiva delle analisi effettuate. Queste funzionalità sono
presenti in GFINDer.
Comunque GFINDer, DAVID e Onto-Tools sono gli strumenti più interessanti in quanto
hanno funzionalità di analisi e annotazione di geni anche utilizzando altri vocabolari
controllati oltre alla GeneOntology (GO) come quelli che descrivono i Pathways
biochimici, famigli di domini proteici.
DAVID da una valutazione statistica solamente basata sul test esatto di Fisher, che
fornisce una buona valutazione generale e richiede poche risorse computazionali.
GFINDer e Onto-Tools invece permettono di scegliere diversi test statistici e correggere i
risultati da falsi positivi.
Capitolo 2. Introduzione ___________________________________________________
Tesi di laurea di Elisa Bellistri ____________________________________________ 16
2.4.1.1. Analisi statistiche
Per capire quali sono i termini del vocabolario controllato che si sta esaminando che
maggiormente sono riferiti ad alcune classi della lista di geni di un utente (per es. la
classe dei geni regolati positivamente rispetto a tutti gli altri) viene svolta un’indagine
statistica per stimare con che probabilità sussiste tale legame. Tale probabilità viene
stimata in base al numero di geni della classe presenti o non presenti nella categoria
espressa da tale termine e confrontandolo con col numero di geni delle altre classi
presenti o meno in tale categoria.
Esistono molti test statistici, basati su differenti distribuzioni di probabilità, che
permettono di stabilire se una categoria è significativamente sovra o sotto-rappresentata
in una lista di geni classificati e di assegnare un valore di significatività a tale categoria.
Tali test si basano sull’ipotesi nulla H0 che afferma che la categoria in esame non è
significativa cioè i geni sono distribuiti casualmente tra la categoria A e il resto delle
categorie.
L’ipotesi H0 può essere formulata come:
210 : ppH =
dove p1 è la proporzione della popolazione di geni della classe 1 appartenenti alla
categoria A e viene stimata con 1
x
p
K
= e p2 è la proporzione della popolazione di geni
della categoria A tra i geni considerati e risulta 2
M
p
N
= .
L’ipotesi H0 indica che la categoria in esame non è significativa, cioè il numero x di geni
osservato nella classe 1, appartenenti alla categoria A è uguale a quello atteso da
un’estrazione casuale.
Per test non direzionali, l’ipotesi alternativa è:
211 : ppH <>
Capitolo 2. Introduzione ___________________________________________________
Tesi di laurea di Elisa Bellistri ____________________________________________ 17
ed indica che esiste una differenza significativa nelle proporzioni dei geni, della classe 1
nella categoria A, maggiore o minore di quella attesa da un’estrazione casuale.
Più utili sono però i test direzionali, che discriminano tra i due diversi tipi di categorie;
avremo così
21: ppH >+
che indica che il numero osservato di geni x è maggiore di quello atteso da un’estrazione
casuale E(X) e
21: ppH <!
che indica che il numero osservato di geni x è minore di quello atteso da un’estrazione
casuale E(X).
Per ottenere il risultato di tali test si calcola il p-value per la categoria A in esame che
indica la probabilità di ottenere un’estrazione casuale uguale a quella osservata
nell’esperimento considerato, supponendo l’ipotesi nulla H0 certa. Quando il p-value è
inferiore ad una certa soglia α (tipicamente 5% o 1%) vuol dire che la probabilità che si
verifichi l’ipotesi alternativa per caso, cioè che da un’estrazione casuale si ottenga un
campione uguale a quello osservato, è notevolmente bassa e quindi si può rifiutare
l’ipotesi nulla H0. Pertanto più bassi sono la soglia considerata e il p-value ottenuto, più
bassa è la probabilità di rifiutare l’ipotesi nulla quando invece essa è verificata.
Come già detto esistono diversi tipi di test, a seconda della distribuzione di probabilità
adottata per modellare il caso in esame. Anche se la distribuzione ipergeometrica è la più
adatta, a volte si preferisce usarne altre computazionalmente meno costose e che la
approssimino in maniera adeguata come la binomiale, la normale o quella di Poisson.
Un approccio adeguato alla numerosità del campione in esperimenti di biologia
molecolare consiste nell’utilizzare il test del χ 2
per l’uguaglianza delle proporzioni o il
test esatto di Fisher [Man et al., 2000].
Capitolo 2. Introduzione ___________________________________________________
Tesi di laurea di Elisa Bellistri ____________________________________________ 18
Per applicare tali test è utile rinominare le celle della tabella di contingenza come
mostrato in tabella 4.2 dove n12 = x, N1. = K, N.2= M e N.. = N
Altre Categorie Categoria A Totale
Classe 1 n11 n12 N1.
Altre Classi n21 n22 N2.
Totale N.1 N.2 N..
Utilizzando questa notazione per effettuare il test del χ2
occorre calcolare la statistica
2.1..2.1
2
..
21122211..
2 2
||
NNNN
N
nnnnN !
"
#
$
%
&
''
=(
e valutare i p-value sulle code della distribuzione χ2
.
Ma tale test non può essere applicato a campioni piccoli, in particolare quando le
frequenze )/( .... NNNE jiij = risultano minori di 5 [Draghici et al., 2003b], inoltre non
permette di distinguere tra categorie sovra e sotto-rappresentate.
Il test esatto di Fisher invece è adatto anche per campioni piccoli [Agresti, 1992] e
permette di calcolare il p-value distintamente sulle due code della distribuzione. Esso
considera fissi i totali di righe e colonne ed usa la distribuzione ipergeometrica per
calcolare la probabilità di osservare ogni singola combinazione di tabelle 2x2 per quei
dati valori dei totali di righe e colonne. Per ogni tabella Ti tale probabilità viene calcolata
come segue:
1. 2. .1 .2
.. 11 12 21 22
! ! ! !
! ! ! ! !iT
N N N N
P
N n n n n
! ! !
=
! ! ! !
Tab. 2.1. La tabella di contingenza per il confronto tra
categorie e classi di una lista di geni, in diverso
formato
Capitolo 2. Introduzione ___________________________________________________
Tesi di laurea di Elisa Bellistri ____________________________________________ 19
Consideriamo che le possibili tabelle siano un numero τ. Ognuna delle possibili τ tabelle
viene considerata come un componente di una particolare distribuzione discreta di
probabilità e per calcolare i p-value destro o sinistro su tale distribuzione si agisce come
già visto per le altre distribuzioni discrete di probabilità. Immaginando che la tabella di
partenza corrisponda alla tabella Tj otteniamo:
sin
0
( ) i
j
istra T
i
p P X x P
=
= ! = " e ( ) idestra T
i j
p P X x P
!
=
= " = #
Capitolo 3. Scopo della Tesi ________________________________________________
Tesi di laurea di Elisa Bellistri ____________________________________________ 20
3. Scopo della Tesi
Lo sviluppo di tecnologie efficienti per estrarre informazioni utili per catalogare,
interpretare e acquisire nuova conoscenza dai dati genomici, disponibili e generati in
quantità sempre maggiori, costituisce attualmente l’obiettivo principale del Human
Genome Project e di tutti i progetti in ambito genomico ad esso correlati.
La grande quantità di dati generata all’interno dei laboratori di biologia molecolare
necessita dell’ausilio della bioinformatica per poter procedere in modo automatizzato alla
loro gestione, elaborazione e soprattutto analisi e interpretazione. Inoltre, l’estensione
della ricerca a livello mondiale richiede la possibilità di accedere agli strumenti
bioinformatici in modo remoto e indipendente dalla specifica piattaforma informatica di
utilizzo. A tal scopo oggi lo strumento migliore per standardizzazione, diffusione e
semplicità di utilizzo è senza dubbio internet, che attraverso gli strumenti web server e
DBMS server aiuta l’accesso alle informazioni presenti nelle diverse banche dati
genomiche e la loro integrazione ed efficace utilizzo mediante lo sviluppo di interfacce di
facile uso.
In questo scenario si inserisce lo sviluppo di GFINDer [Masseroli et al., 2004; Masseroli
et al., 2005], una applicazione web che aggrega dinamicamente annotazioni funzionali e
fenotipiche di liste di geni selezionati dall’utente e consente di effettuarne l’analisi
statistica a supporto della loro interpretazione biologica. Per questo scopo GFINDer è
organizzato in moduli software indipendenti e interconnessi che sfruttano vari vocabolari
controllati di annotazioni genomiche che descrivono funzioni e fenotipi genetici.
Obiettivo di questa Tesi è realizzare, all’interno di GFINDer, un nuovo modulo software
dedicato all’analisi di regressione logistica di annotazioni genomiche funzionali integrate
all’interno dei database di GFINDer. In particolare, sfruttando le annotazioni genomiche
di famiglie e domini proteici fornite dalle banche dati Pfam e InterPro, tale modulo deve
permettere di analizzare liste di geni classificate, definite dall’utente, per valutare
Capitolo 3. Scopo della Tesi ________________________________________________
Tesi di laurea di Elisa Bellistri ____________________________________________ 21
statisticamente quali famiglie o domini dei prodotti proteici di tali geni meglio
concorrono a determinare, ovvero spiegare, le classificazioni definite.
Per ottenere lo scopo esposto devono essere realizzati i seguenti passi principali:
1. Mediante metodologie di reverse engineering, analisi degli schemi dei database di
GFINDer e delle loro relazioni, da un lato con le banche dati considerate che
forniscono le annotazioni integrate in tali database, e dall’altro con l’applicazione
web di GFINDer. Dato sia il continuo riaggiornarsi delle banche dati da cui
GFINDer estrae le annotazioni genomiche, sia lo sviluppo in tempi successivi dei
diversi database e moduli di GFINDer, tale analisi è necessaria per poter utilizzare
adeguatamente le annotazioni disponibili nei database di GFINDer e proporre una
loro migliore organizzazione e più efficiente interrogazione.
2. Creazione di un metodo automatico per l’analisi di regressione logistica di
annotazioni geniche funzionali, integrate nei database di GFINDer, che consenta
di effettuare anche sia la verifica dei criteri di applicabilità sui dati in ingresso
all’algoritmo di analisi utilizzato, con lo scopo di ottimizzarne l’esecuzione, sia la
consistenza e validità dei risultati.
3. Implementazione, all’interno di GFINDer, di uno specifico modulo software per
la realizzazione via web di analisi di regressione logistica di annotazioni di
famiglie e domini proteici di liste di geni classificati selezionate dall’utente; tale
modulo deve essere di facile utilizzo e permettere la selezione via web dei vari
parametri dell’analisi e la successiva visualizzazione dei risultati ottenuti
indipendentemente dal tipo di client web browser utilizzato.
Capitolo 4. Materiali e Metodi ____________________________________________
Tesi di laurea di Elisa Bellistri _________________________________________ 22
4. Materiali e Metodi
4.1. Strumenti per la gestione e la condivisione di dati
Le moderne tecnologie informatiche mettono a disposizione della comunità scientifica
molti strumenti che possono essere utili per gestire dati e informazioni in modo
semplice ed efficace e per poterle condividere mediante l’uso delle reti di
telecomunicazioni tra i diversi gruppi di ricerca, dislocati in punti geografici anche
molto distanti tra loro. I DataBase Management Systems (DBMS) sono gli strumenti
più adatti per archiviare, gestire e interrogare efficacemente grandi quantità di dati
anche memorizzati su diversi database; mentre i protocolli di rete, quali il TCP/IP,
permettono di utilizzare i canali telematici per comunicare dati tra tutti i computer
collegati in rete, a prescindere dalla loro specifica architettura hardware e software.
Fig. 4.1. Il modello ISO/OSI. Vengono definiti sette strati protocollari per gli strumenti e le
applicazioni per la trasmissione di dati sulle reti informatiche.
I protocolli di livello superiore (5 e 6 dello standard ISO/OSI) (fig. 4.1) permettono di
trasferire le informazioni organizzatere in documenti che sono facilmente
Capitolo 4. Materiali e Metodi ____________________________________________
Tesi di laurea di Elisa Bellistri _________________________________________ 23
interpretabili dagli utenti. Ad esempio il protocollo HTTP permette di trasmettere
documenti ipertestuali facilmente visualizzabili su qualunque computer dotato di un
software di web browsing, quali MS-Explorer, Netscape Navigator, Firefox e molti
altri. Da ultimo, le tecnologie server permettono di creare, in maniera automatizzata,
documenti ipertestuali utilizzando dati provenienti da database; ciò permette a
qualunque utente di accedere a tali informazioni da una semplice interfaccia
ipertestuale. Di seguito vengono analizzate più approfonditamente tali tecnologie.
4.1.1. Data Base Management System
Nonostante, nel corso dello sviluppo delle tecnologie IT, siano stati proposti diversi
modelli di basi di dati, solo due sono sopravvissuti fino ad oggi: il modello relazionale
e il modello ad oggetti. Sebbene il modello relazionale risalga agli anni ’70 (T.Codd,
1970 presso l’IBM research di Santa Teresa, California), i database che lo utilizzano
sono ancora i più diffusi.
Nel modello relazionale, i dati sono organizzati in tabelle, che rappresentano le entità
da gestire, che elencano sulle colonne gli attributi propri dell’entità da descrivere e
sulle righe le varie istanze dell’entità stessa. Le relazioni tra le varie entità si basano
sui collegamenti tra alcuni attributi (chiamati chiavi) caratterizzanti delle entità ed
utilizzabili mediante i costrutti dell’algebra relazionale. Dagli anni ’90 si sta
lavorando allo sviluppo dei DBMS orientati agli oggetti: gli OODBMS. In questo
modello, gli oggetti memorizzati nel database contengono sia i dati sia le operazioni
possibili su di essi. I vantaggi dell’approccio Object-Oriented sono dovuti alle ampie
possibilità dei linguaggi ad oggetti (con i quali vengono scritti i DB) e alle finalità di
progettazione. Tali vantaggi si pagano però a caro prezzo in caso di modifiche, che
possono portare a dover riscrivere parecchie linee di codice. Per tali motivi, oltre al
costo elevato di tali prodotti, i DB ad oggetti coprono una nicchia di mercato ristretta
e relativamente stabile.
Per lo strumento software implementato nell’ambito di questa Tesi è stato scelto il
DBMS relazionale MySQL, [MySQL]. Tale database è uno dei pochi gratuiti presenti
sul mercato e presenti in numerose versioni sia per ambienti Windows che
Capitolo 4. Materiali e Metodi ____________________________________________
Tesi di laurea di Elisa Bellistri _________________________________________ 24
Unix/Linux. MySQL viene distribuito con il suo codice sorgente per permettere a
chiunque di svilupparne e ampliarne le potenzialità; supporta il linguaggio SQL
standard (La versione 5.0.0 supporta SQL99 e ODBC livelli 0-3.51) più un proprio set
di comandi.
MySQL può gestire diversi database su di uno stesso server e si possono fare
interrogazioni su database multipli semplicemente utilizzando la dot-notation come
nel seguente esempio nel quale esperimento è una tabella contenuta nel database
master e geni è una tabella contenuta nel database webdata:
SELECT *
FROM master.esperimento, webdata.geni
WHERE esperimento.idgene=geni.idgene
MySQL è tra l’altro uno dei DBMS più diffusi su cui poggiano molte banche dati
genomiche (es. Gene Ontology [Smith et al., 2003]) che forniscono i propri dati in un
formato direttamente importabile in tale DBMS.
4.2. Strumenti per la visualizzazione e l’elaborazione dei dati
Per sistemi client/server web-based la scelta della tecnologia di presentazione (livello
6 della pila ISO/OSI) (fig. 4.1) ricade obbligatoriamente sull’HTML. L’HyperText
Markup Language è un linguaggio costituito dall’insieme di simboli di markup
(marcatori, o tag o etichette) che devono essere inseriti in un file di testo in formato
ASCII per definire le proprietà di impaginazione e visualizzazione dei dati presenti in
ogni pagina. L’HTML è il formato dei dati che consenta lo scambio delle
informazioni tramite il protocollo HTTP (HyperText Transfer Protocol) da un web
server ad un’applicazione browser. Il linguaggio HTML, oggi giunto alla versione
4.01, è uno standard indipendente dalle piattaforme HW e SW, sviluppato e sostenuto
dal consorzio W3C, serve per visualizzare un documento su sistemi eterogenei. Le
istruzioni di markup assegnano al contenuto di ogni pagina le informazioni di struttura
del documento (es. elenchi puntati, disposizione di immagini, caselle di controllo, di
scelta, ecc.), impaginazione e di formattazione del testo (tipi di carattere, stili, ecc.).
Capitolo 4. Materiali e Metodi ____________________________________________
Tesi di laurea di Elisa Bellistri _________________________________________ 25
4.2.1. Web server, tecnologie di scripting e pagine web
dinamiche
Le pagine HTML sono considerate statiche in quanto il testo, le immagini e ogni dato
in esse contenuto, una volta scritto, viene visualizzato sempre nello stesso modo,
finche non viene modificato il codice sorgente.
Le pagine dinamiche vengono invece utilizzate per visualizzare dei contenuti che
potrebbero cambiare ogni volta che vengono visualizzate su ogni client in funzione
delle scelte dell’utente o di cambiamenti nel tempo delle informazioni visualizzate.
Tale tecnologia è molto utile per creare pagine che prendono i propri dati da sorgenti
esterne, quali i DBMS.
La soluzione sviluppata da Microsoft per creare pagine web dinamiche prende il nome
di Active Server Page (ASP). Tali pagine sono costituite da un’insieme di istruzioni
che verranno elaborate dal server e da comandi di output per mandare al browser le
informazioni richieste. Una pagina ASP è composta sia da tag HTML, che codifica
come devono essere impaginate le informazioni, che da parti di codice di
programmazione ASP. Il codice ASP esiste solo sul server ed è elaborato
completamente da tale macchina, ogni volta che un client fa la richiesta della pagina
(fig. 4.2). Il client non può accedere a tale codice, ma riceve solo le informazioni
elaborate dal server in formato HTML.
Capitolo 4. Materiali e Metodi ____________________________________________
Tesi di laurea di Elisa Bellistri _________________________________________ 26
Il linguaggio ASP non viene compilato da nessun compilatore, ma viene
semplicemente interpretato dal web server che lo esegue. Perciò una pagina ASP è un
semplice file di testo che contiene al suo interno tag HTML come ad esempio:
<a href=”pagina2.asp”>Collegamento alla pagina 2</a>
e codice ASP, compreso tra delimitatori <% e %>, come ad esempio:
<% Response.Write(“Stringa scritta da ASP”); %>
Ciò rende molto semplici e veloci le modifiche, a discapito però della velocità di
esecuzione.
Fig. 4.2. L’elaborazione di pagine dinamiche utilizzando la tecnologia di scripting
Capitolo 4. Materiali e Metodi ____________________________________________
Tesi di laurea di Elisa Bellistri _________________________________________ 27
Il linguaggio ASP è basato su oggetti: alcuni oggetti vengono istanziati dal server e
sono sempre disponibili al programmatore:
Request : fornisce attributi e metodi per l’acquisizione di dati dal client;
Response : fornisce attributi e metodi per inviare le risposte dal server al client;
Server : gestisce l’accesso alle informazioni sul server;
Session : gestisce variabili che esistono solo per la durata delle sessioni di lavoro
degli utenti e sono riferite ad ogni singolo client.
Altri oggetti devono essere istanziati dal programmatore, ad esempio l’istruzione
var theform = Server.CreateObject("ABCUpload4.XForm");
crea una variabile chiamata theform e le associa un oggetto della classe ABCUpload4;
tale classe serve per gestire l’upload di file binari dai client al server e viene fornita da
webSupergoo [ABCUpload]. Dopo tale istruzione è possibile richiamare attributi e
metodi dell’oggetto theform con l’usuale dot-notation.
La tecnologia ASP è proprietaria poiché tale codice può essere solamente interpretato
da server IIS di Microsoft, anche se sono stati sviluppati interpreti per altri web server
(es. Apache).
Capitolo 4. Materiali e Metodi ____________________________________________
Tesi di laurea di Elisa Bellistri _________________________________________ 28
4.3. Strumenti per l’analisi e la visualizzazione dello schema
una base di dati
Il Reverse Engineering è un insieme di tecniche e di strumenti che consentono di
analizzare il software esistente e derivarne in automatico la documentazione,
solitamente mancante in seguito ad uno sviluppo non organizzato.
In particolare, a riguardo della componente dati di un sistema, è possibile, tramite il
reverse engineering, derivare le strutture concettuali dei dati a partire dal DDL o copy
di tracciati record di archivi esistenti.
Ciò consente di fornire una rappresentazione concettuale delle informazioni del
sistema esistente, che può essere utilizzata come base di partenza per la ri-
progettazione (re-engineering)
Su una base di dati relazionale non documentata, ottenere uno schema concettuale dei
dati permette di:
• capire il significato delle informazioni
• poter effettuare agevolmente la manutenzione della base dati
• evidenziare eventuali criticità rilevate sul modello
• individuare interventi di miglioramento, analizzando l’impatto su
quanto già realizzato.
Le attività da eseguire sono le seguenti:
• analisi del DDL
• derivazione dal DDL dello schema logico finale
• produzione dello schema concettuale
Alcune attività possono essere effettuate in modo meccanico con il supporto di un tool
adeguato: è possibile ad esempio derivare in modo automatico dal DDL uno schema
logico-fisico dei dati
Nell’ambito di questa Tesi, gli strumenti utilizzati sia per l’analisi automatica del
DDL che per la stesura del modello riorganizzato, sono stati Microsoft Visio® e
FabForce DBDesigner 4.0.
Capitolo 4. Materiali e Metodi ____________________________________________
Tesi di laurea di Elisa Bellistri _________________________________________ 29
4.3.1. Microsoft Office Visio®
Microsoft Office Visio ® è un software di progettazione di diagrammi che consente di
visualizzare, sia con una grafica vettoriale sia con attributi impliciti implementati tra
le varie entità, le relazioni tra le informazioni.
È stata utilizzata la versione Visio® 2003 con le funzionalità di connessione al
database per importare direttamente dal DB schema la struttura e gli attributi delle
varie tabelle (fig. 4.3 e 4.4), mentre sono stati ricostruiti mediamente Reverse
Engineering le relazioni tra le tabelle.
All’interno del foglio di lavoro, le tabelle direttamente importate dal DB sono
visualizzate con il nome della tabella e l’elenco dei campi presenti, indicando con la
sigla PK le chiavi primarie e con la codifica In (dove n è un numero progressivo) i
vari campi utilizzati come indice.
Fig. 4.3. Interfaccia di Visio® per la scelta del driver di connessione al database
Capitolo 4. Materiali e Metodi ____________________________________________
Tesi di laurea di Elisa Bellistri _________________________________________ 30
Fig. 4.4. Scelta del tipo di oggetto da decodificare attraverso l’analisi del DDL.
Lo strumento relazione permette di collegare tra loro due tabelle, esplicitando la
relazione tra i campi correlati secondo una gerarchia padre/figlio. Vedi Fig. 4.5.
Lo strumento connettore dinamico mette semplicemente in relazione due tabelle e non
permette informazioni aggiuntive implicite. É però possibile abbinare una etichetta,
dove è stata esplicitata la relazione tra i campi delle due tabelle e anche la cardinalità.
Fig. 4.5. Le relazioni tra i campi di due diverse tabelle.
Capitolo 4. Materiali e Metodi ____________________________________________
Tesi di laurea di Elisa Bellistri _________________________________________ 31
4.3.2. fabForce DBDesigner 4.0
DBDesigner 4.0 è un tool disponibile con licenza GNU/GPL che permette la
visualizzazione delle meta-informazioni contenute in un database. [fabForce]
I modelli creati sono salvati su un file di tipo XML che consente un facile accesso
anche da postazioni diverse tra loro.
Fig. 4.6. Interfaccia in fabForce
DB Designer di connessione al
database.
Capitolo 4. Materiali e Metodi ____________________________________________
Tesi di laurea di Elisa Bellistri _________________________________________ 32
Tra le principali funzionalità utilizzate c’è la possibilità di creare (o importare
direttamente dal DB schema) tabelle, specificandone gli attributi, definire le relazioni
tra le tabelle (1:1, 1:1 generalizzato, 1:n, 1:n non identificativo, n:m), ed in più
definire note (Notes), immagini (Images), o creazione di regioni (Regions) che
permettono di spiegare meglio la struttura del database.
Per quanto concerne invece la possibilità di analisi automatizzata della struttura di un
database già esistente, DBDesigner si connette al DB attraverso un modulo ODBC,
riservando tuttavia alcune specifiche funzionalità ai DB MySQL, come è ad esempio
l’insieme dei DB su cui lavora GFINDer.
Come mostrato in fig. 4.6 la finestra di dialogo che appare al momento della
connessione ad un DB permette di definire alcuni parametri del processo di Reverse
Engineering, tra le principali la possibilità di definire la struttura attraverso il DDL
specifico di MySQL e la costruzione della relazioni tra le tabelle secondo gli indici
primari definiti o dedotte dai nomi delle tabelle e dei campi.
DBDesigner può connettersi a versioni diverse di MySQL, dalle versioni successive
alla 4.x tuttavia è stato introdotto un nuovo protocollo di gestione della password che
DBD4 non riesce a utilizzare. Per ovviare al problema è sufficiente creare un utente
ad hoc in MySQL e assegnare a questo una codifica della password compatibile con le
versioni precedenti mediante l’istruzione
mysql> UPDATE mysql.user SET Password = OLD_PASSWORD('newpwd')
-> WHERE Host = 'some_host' AND User = 'some_user';
mysql> FLUSH PRIVILEGES;
Capitolo 4. Materiali e Metodi ____________________________________________
Tesi di laurea di Elisa Bellistri _________________________________________ 33
4.4. Analisi statistica
Per esaminare e interpretare meglio la rilevanza delle annotazioni biologiche di gruppi
di geni è molto utile utilizzare un approccio statistico che fornisca descrizioni e analisi
quantitative di tali annotazioni. Quando i geni o le sequenze nucleotidiche,
appartengono ad un set predefinito o sono suddivisi in classi, per valutare la
significatività statistica di specifiche categorie di annotazioni fornite dai vocabolari
controllati in ogni gruppo di geni considerato, è possibile valutare le loro quantità,
frequenze, distribuzioni e probabilità di occorrenza.
4.4.1 Classificazione e categorizzazione di geni
Identificare categorie di annotazione – cioè termini dei vocabolari controllati – che
comprendano un numero significativo di geni di un determinato insieme di interesse,
permette di focalizzarsi su quelle aree biologiche più importanti per l’insieme di geni
considerato. Per identificare le categorie più significative bisogna comparare la
distribuzione dei geni presenti nell’insieme di partenza in ogni categoria con quelli
nell’insieme di riferimento. Un insieme di riferimento di geni può essere costituito da
tutti i geni di un genoma o da un altro gruppo, quale ad esempio può essere la totalità
dei geni presenti su un vetrino in un esperimento di microarray.
Nella terminologia usata in biologia l’insieme di riferimento viene spesso chiamato
”lista di background” ed indica la totalità dei geni da considerare, mentre l’insieme di
partenza viene chiamato “lista di foreground” ed indica un sotto-insieme del
background che comprende i geni che risultano espressi – cioè regolati positivamente
o negativamente – nell’esperimento di microarray. La distinzione tra lista di
background e lista di foreground porta naturalmente ad una classificazione dei geni in
questione, ad esempio possiamo dire che i geni appartenenti alla lista di foreground
appartengono alla classe “1”, mentre tutti gli altri geni del background che non
compaiono nella lista di foreground – cioè i geni non espressi nell’esperimento –
apparterranno alla classe “0”. Esistono ovviamente infinite possibilità di classificare i
geni appartenenti ad una lista: un esempio più sofisticato può discriminare tra geni
espressi regolati positivamente, che indicheremo con classe “+1”, e regolati
Capitolo 4. Materiali e Metodi ____________________________________________
Tesi di laurea di Elisa Bellistri _________________________________________ 34
negativamente, indicati con classe “-1”, mentre la classe “0” mantiene il medesimo
significato. Altri metodi di classificazione possono assegnare classi diverse a geni
provenienti da esperimenti diversi o ai geni dello stesso esperimento ma ripetuto in
istanti temporali differenti, ecc.
Il passo successivo della fase di caricamento consiste nello specificare un nome per la
lista caricata (solo per gli utenti registrati) e selezionare quali colonne di
classificazione salvare e con quale nome. È possibile specificare per ogni colonna se
essa contiene valori di classificazione (in base a cui poter eseguire analisi) o semplici
descrizioni dei geni (fig. 4.7).
Fig. 4.7. La scelta delle colonne di classificazione
Capitolo 4. Materiali e Metodi ____________________________________________
Tesi di laurea di Elisa Bellistri _________________________________________ 35
4.4.2. Regressione logistica
La Regressione Logistica è una variante della regressione tradizionale (lineare,
nnii22110 xb...xb...xbxbby ++++++= ) che predice la probabilità (p)
dell’occorrenza del manifestarsi di un evento (y) come funzione di un certo numero di
variabili indipendenti (xi).
Viene utilizzata quando la variabile dipendente è binaria, ad esempio indica la
presenza o l’assenza di una determinata caratteristica in un soggetto, e le variabili da
cui dipende sono sia discrete che continue.
Il risultato segue una curva ad S usando una funzione non lineare:
!!
"
#
$$
%
&
+
= y
y
e1
e
p
che produce p-values tra 0 (quando y tende a meno infinito) e 1 (quando y tende a più
infinito).
In generale in medicina la regressione logistica è utlizzata per stimare la probabilità
che un individuo, con alcune caratteristiche o sintomi che predicono il manifestarsi di
una malattia, manifesti effettivamente la malattia. In questo esempio vengono anche
identificati quali sono i sintomi o le caratteristiche più significativi per il manifestarsi
della malattia. In medicina biomolecolare può essere utilizzato un approccio analogo
per identificare quali caratteristiche funzionali rappresentano meglio la classificazione
binaria di un set di geni.
Per gli scopi implementativi all’interno di GFINDer viene considerata la
corrispondente equazione non lineare, chiamata logit(p):
logit(p)= nnii22110 xb...xb...xbxbby
p1
p
ln ++++++==!!
"
#
$$
%
&
'
dove p è la proporzione dei geni classificati considerati tra le due classi di
valutazione; xi sono le proporzioni dei geni considerati nelle due classi di valutazione
che presentano la caratteristica i; bi (con i compreso tra 1 e n) sono i coefficienti di
regressione per la caratteristica i; b0 è l’intercetta, o termine costante, della
Capitolo 4. Materiali e Metodi ____________________________________________
Tesi di laurea di Elisa Bellistri _________________________________________ 36
regressione. Il valore assoluto di ciascun coefficiente bi indica l’importanza del
contributo della corrispondente caratteristica i nel classificazione di geni considerata.
Fig. 4.8. Esempi di curve di regressione logistica per valori diversi dei parametri delle
variabili e dell’intercetta.
4.4.3. Algoritmo di verosimiglianza
Al fine di risolvere una equazione non linerare, è stato utilizzato un metodo iterativo il
cui scopo è minimizzare la funzione di verosimiglianza in forma logaritmica.
Per spiegare cosa rappresenti questa funzione è utile riferirsi ad un esempio. [Lagona]
Supponiamo di avere un campione osservato (ad esempio un set di geni classificati in
due classi distinte). Il campione sarà rappresentato in forma compatta da
)0,0,0,1,0,0,1,0,1,0(x0 =
Capitolo 4. Materiali e Metodi ____________________________________________
Tesi di laurea di Elisa Bellistri _________________________________________ 37
La probabilità che si verifichi ciò che è stato effettivamente osservato è
73
0 )1()x(p !! "=
che vista come una funzione di θ, si tratta di una funzione positiva con un unico punto
di massimo in corrispondenza di 0,3. Il fatto che tale funzione non si annulli mai in
(0,1) indica che sulla base della sequenza osservata, nessun valore di θ può essere a
priori escluso. Tuttavia esistono dei valori che rendono la probabilità di riscontrare la
sequenza osservata estremamente bassa, e altri (nell’intorno di 0,3) estremamente alta.
Questi valori sono detti “più verosimili”. La funzione θ ottenuta considerando le
probabilità di osservare i dati effettivamente osservati si chiama allora funzione di
verosimiglianza, che attribuisce un peso a ogni valore di θ in funzione delle
osservazioni. In un campine di T osservazioni la funzione diventa
xTTxT
)1()(L !
!= """
Passando poi ai logaritmi la funzione diventa
)1log()xTT(logxT)(l !!! ""+=
definita quindi come la somma dei logaritmi delle probabilità predette che
appartengono alla prima delle due classi valutate per quei geni considerati che
appartengono alla classe, e i logaritmi delle probabilità predette dei geni che
appartengono alla seconda classe. La minimizzazione è ottenuta attraverso il metodo
di Newton, con un’eliminazione degli algoritmi per invertire e risolvere
simultaneamente le equazioni.
Non è stata utilizzata nessuna tecnica di accelerazione della convergenza.
Il modello nullo è utilizzato come ipotesi iniziale per le iterazioni, ad esempio che
tutti i coefficienti bi siano zero e che l’intercetta b0 sia il logaritmo del rapporto tra il
numero di geni considerati appartenenti alla prima classe di valutazioni e il numero di
geni appartenenti alla seconda classe di valutazione.
All’interno dell’implementazione di regressione logistica vengono anche calcolati gli
odds ratio associati ad ogni variabile xi e l’intervallo di confidenza al 95%. Gli odds
Capitolo 4. Materiali e Metodi ____________________________________________
Tesi di laurea di Elisa Bellistri _________________________________________ 38
di un evento sono definiti come la probabilità che l’evento si verifichi rapportato alla
probabilità che l’evento non si verifichi.
Gli odds ratio per una variabile xi sono quindi il rapporto tra la probabilità che la
categoria in esame (variabili indipendenti nel modello realizzato) sia significativa per
l’appartenenza ad una classe e la probabilità (1-p) complementare.
4.4.4. Parametri di valutazione
Per verificare la robustezza dei coefficienti ottenuti, sono stati usati tre test specifici
per una classificazione binaria: il test di precision, di specificity e di sensitivity.
Ciascuno di questi test si basa su una tabella 2x2, costruita affiancando il numero di
casi reali, ciascuno calcolato nella classe di appartenenza, al numero di casi attesi
ricalcolando la variabile dipendente con i coefficienti di regressione logistica ottenuti.
Casi reali
TP FP
Casi
calcolati FN TN
I casi reali positivi che coincidono con i casi positivi calcolati, vanno a comporre il
numero dei True Positive (TP), per analogia con la terminologia medica. In maniera
analoga si calcola il numero dei True Negative (TN), False Positive (FP) e False
Negative (FN).
Una volta definiti questi quattro parametri, i test statistici vengono definiti come
segue.
• Precision (P): è il rapporto tra il numero di dati corretti con regolazione
positiva e il numero totale di dati corretti. Utilizzando le sigle
precedentemente definite, in forma matematica diventa
P=TP/(TP+TN)
Capitolo 4. Materiali e Metodi ____________________________________________
Tesi di laurea di Elisa Bellistri _________________________________________ 39
• Specificity (S): è la misura statistica di quanto un test su una classificazione
binaria identifichi correttamente il numero di casi negativi. Dato quindi una
classificazione con un numero di geni regolati negativamente, e ricalcolando
le varibili dipendenti con i coefficienti di r.l., la Specificity produce un indice
della proporzione tra il numero di geni calcolati negativi e il numero di quanti
hanno effettivamente regolazione negativa. In formula:
S=FP/(FP+FN)
• Sensitivity (S): detto anche recall test, è la misura statistica di quanto il test in
esame identifichi correttamente la condizione.
R=TP/(TP+FN)
Capitolo 5. Risultati Progettuali e Discussione________________________________
Tesi di laurea di Elisa Bellistri _________________________________________ 40
5. Risultati progettuali e Discussione
5.1. Analisi della struttura dei database di GFINDer
La struttura del DBMS di GFINDer è costituita da 3 diverse basi di dati (più una per
Interpro) collegate tra loro sia in fase di esecuzione della procedura Java, che in fase
di interrogazione da parte del server web.
Lo sviluppo in tempi successivi di ciascuna delle basi di dati, e il continuo evolversi
delle banche dati genomiche da cui i dati originano, ha portato ad una struttura in
parte disorganizzata e senza una relativa documentazione di supporto.
Attraverso un processo di Reverse Engineering è stata acquisita la struttura
complessiva, che si sviluppa attraverso i livelli di seguito descritti.
1. Livello di acquisizione dei dati: gestito dalla procedura Java, che scarica i dati
messi a disposizione dalla diverse banche dati genomiche attraverso server
FTP
2. Livello di pre-elaborazione dei dati genomici: vengono create tabelle di
riepilogo e confronto delle diverse sequenze genomiche e delle relative
annotazioni
3. Livello di gestione dell’elaborazione dei dati da parte del webserver
4. Livello di amministrazione del sistema
Il DBMS si trova quindi a livello intermedio tra l’acquisizione e la pre-elaborazione
dei dati, e la gestione di questi ultimi da parte dell’utente attraverso l’interfaccia web.
Di seguito invece vengono descritte nel dettaglio la struttura delle quattro diverse basi
di dati analizzate singolarmente.
Capitolo 5. Risultati Progettuali e Discussione________________________________
Tesi di laurea di Elisa Bellistri _________________________________________ 41
5.1.1. DB master
Il database master rappresenta il livello di amministrazione del sistema e di gestione
dell’elaborazione lato webserver.
Le tabelle di cui è composto possono essere suddivise in cinque diverse aree
tematiche, come illustrato nella figura 5.2 e in tabella 5.1. Comprende inoltre le
tabelle temporanee che vengono create in fase di elaborazione da parte dei moduli di
annotazione e di analisi statistica.
Fig. 5.2. Lo schema complessivo del database master con le pagine web che lo utilizzano.
MANAGEMENT
UTENTE
MANGEMENT
ACCESSI
MANAGEMENT
ESPERIMENTI
MANAGEMENT
RISULTATI
MANAGEMENT
INTERFACCIA
MULTIDB
UTENTE
CATEGORIEUTENT
E
UTENTICONNESSI
ACCESSI
IP2NOME
ESPERIMENTO
COMBINAZCOLONNE
ESPUTENTI
RISULTATIFISHER
RISULTATISALVAT
I
TEXT_OUTPUT
IMPOSTAZIONI
PARAMETRI
SPECIES
TIPICOLONNE
Tab. 5.1: Le cinque categorie di gestione implementate dal DB master
Capitolo 5. Risultati Progettuali e Discussione________________________________
Tesi di laurea di Elisa Bellistri _________________________________________ 42
5.1.3. DB mygo
A differenza degli altri databases di GFINDer il DB mygo viene importato
direttamente dalla Gene Ontology [GO] in quanto disponibile come dump di MySQL.
Dal sito della Gene Ontology è anche possibile reperire una documentazione della
schema del database, riportata in figura 5.3.
Lo scopo del progetto della GO è quello di fornire dei vocabolari controllati che
descrivano i prodotti genetici in funzione di come sono associati ai processi biologici
(biological process), ai componenti cellulari (cellular components) e alle funzioni
molecolari (molecular functions) in termini indipendenti dalla specie di appartenenza.
Figura 5.3. Lo schema del DB mygo fornito dalla Gene Ontology
La struttura di questi vocabolari controllati è tale che può essere interrogata a vari
livelli e può fornire vari livelli di informazione a seconda del grado di conoscenza che
si ha su una determinata entità.
Capitolo 5. Risultati Progettuali e Discussione________________________________
Tesi di laurea di Elisa Bellistri _________________________________________ 43
Anche per queste ragioni, l’utilizzo del DB fornito dalla Gene Ontology non è
completo da parte di GFINDer, ma solo alcune delle tabelle a disposizione sono
effettivamente riutilizzate nel DB mygo.
In figura 5.4 si ha una panoramica di quali tabelle siano utilizzate e con quali
relazioni.
Al momento della creazione del DB all’interno di mygo, la procedura updater.java si
occupa inoltre di creare alcune tabelle ex-novo per tracciare informazioni di riepilogo
utilizzate successivamente dai moduli di GFINDer. Nello specifico queste sono la
tabelle livelli_ontologie e le tabelle go_summary_termperlevels e go_summary_totals
(che vengono però salvate nel DB webdata, costituendo un archivio storico delle
elaborazioni compiute dal livello di raccolta dei dati).
Figura 5.4. Schema completo del database mygo.
Capitolo 5. Risultati Progettuali e Discussione________________________________
Tesi di laurea di Elisa Bellistri _________________________________________ 44
Figura 5.5. Schema del database mygo relativo alle sole tabelle in uso in GFINDer, le
relazioni tra le tabelle e le pagine lato web server che accedono al database.
Capitolo 5. Risultati Progettuali e Discussione________________________________
Tesi di laurea di Elisa Bellistri _________________________________________ 45
5.1.4. DB Interpro
Il database Interpro viene scaricato e importato in GFINDer attraverso la versione
messa a disposizione dalla EBI-EMBL
Fig. 5.5. Schema complessivo del DB InterPro
Capitolo 5. Risultati Progettuali e Discussione________________________________
Tesi di laurea di Elisa Bellistri _________________________________________ 46
Il database, che costituisce l’aggregazione di diverse banche dati di annotazioni
funzionali di domini proteici, mantiene una struttura analoga anche all’interno di
GFINDer. Lo schema è rappresentato in figura 5.5.
Tra le modifiche effettuate in fase di importazione dei dati, di particolare interesse è
quella realizzata sulla tabella entry, dove il singolo record viene arricchito delle
informazioni tree, level, depth_order e parent, relative alla struttura gerarchica dei
domini proteici che è implementata da Interpro.
5.1.2. DB webdata
Il DB webdata contiene le informazioni di tutti gli altri vocabolari controllati utilizzati
nel sistema, le annotazioni dei geni e le associazioni tra codici di sequenze
nucleotidiche e termini della Gene Ontology e dei diversi vocabolari scaricati.
In figura 5.6 infine viene riproposta la struttura complessiva di webdata, mettendo in
evidenza il flusso di elaborazione dei dati, dalle tabelle importate direttamente dai
server FTP pubblici a quelle utilizzate dal lato dell’applicativo web, con l’indicazione
delle pagine HTML in cui la porzione di database in esame viene utilizzata.
La sua struttura complessiva può essere schematizzata in alcuni blocchi principali:
1. tabelle in cui vengono allocate le annotazioni e i codici di corrispondenza di
geni e sequenze nucleotidiche. Questi dati vengono scaricati dai server FTP
corrispondenti, in formato testuale, e attraverso un parsing gestito da una
procedura in JAVA vengono riorganizzati in tabelle.
2. tabelle di annotazioni cliniche e fenotipiche di OMIM, scaricate e
riorganizzate in tabelle con una procedura simile a quella dei dati di
EntrezGene e di altre banche dati.
3. tabelle di corrispondenza con i DB mygo e interpro
4. tabelle create in modo dinamico dalla procedura updater.java per riorganizzare
i dati disponibili e renderli accessibili al webserver per successive
interrogazioni
Nello specifico delle tabelle contenenti annotazioni importate da diverse banche dati,
si possono distinguere alcune aree di provenienza dei dati.
Capitolo 5. Risultati Progettuali e Discussione________________________________
Tesi di laurea di Elisa Bellistri _________________________________________ 47
In dettaglio:
• Entrez Gene, da cui sono importati i dati contenuti nelle tabelle gene_info,
gene2accession, gene2go, gene2pfam, gene2pubmed, gene2refseq, gene2sts,
gene2unigene, mim2gene.
• KEGG, annotazioni relative ai pathway biochimici , contenuti nella tabella
loc2kegg.
• SwissProt, annotazioni di famiglie e domini proteici, utilizzata per la creazione
delle tabelle spkeywords, spincludes, spcontains, spac, sp2pfam, sp2interpro,
secondo lo schema illustrato in figura 5.9.
• Affymetrix, i cui dati sono scaricati nella tabella affy, affychips e loc2affy
• EBI, banca dati proteomica, da cui sono scaricati i dati delle tabelle pfam2go,
ec2go e ug2sp.
• HomoloGene, banca dati di annotazioni relative alle omologie tra le diverse
specie, contenute nella tabella omologie
• OMIM, catalogo di geni e di disordini genetici umani, da cui originano i dati
contenuti nelle tabelle schematizzate in figura 5.10 e 5.11.
Da queste tabelle poi la procedura realizza due tabelle principali, a disposizione dei
moduli di analisi di GFINDer, che sono la tabella geni e la tabella ontologie.
Le relazioni tra queste ultime due tabelle e le restanti tabelle di webdata utilizzate
nella costruzione sono rappresentate nelle figure 5.7 e 5.8.
Capitolo 5. Risultati Progettuali e Discussione________________________________
Tesi di laurea di Elisa Bellistri _________________________________________ 48
Fig. 5.6. Lo schema completo del database webdata. Sono indicati in azzurro scuro le tabelle
direttamente importate dalle banche dati pubbliche attraverso parsing dei file testuali
contenuti sui server FTP, e i server FTP corrispondenti. In verde la porzione di database
scaricata da OMIM, in giallo le tabelle go_summary_termperlevel e go_summary_totals che
vengono costruite dall’analisi delle tabelle della Gene Ontology, e infine in rosso le due
tabelle di destinazione dell’elaborazione sviluppata dal modulo updater.java, riutilizzate poi
dai moduli web di GFINDer.
Capitolo 5. Risultati Progettuali e Discussione________________________________
Tesi di laurea di Elisa Bellistri _________________________________________ 49
Fig. 5.7. La creazione della tabella geni in webdata.
Capitolo 5. Risultati Progettuali e Discussione________________________________
Tesi di laurea di Elisa Bellistri _________________________________________ 50
Fig. 5.8. Schema della costruzione della tabella ontologie in webdata. Le tabelle colorate in
rosso vengono utilizzate separatamente ad ogni iterazione dell’algoritmo di costruzione della
tabella ontologie. Le tabelle “term” e “pathcodecompositi” sono contenute nel database
mygo e rappresentano quindi l’interazione tra i due database.
Capitolo 5. Risultati Progettuali e Discussione________________________________
Tesi di laurea di Elisa Bellistri _________________________________________ 51
Fig. 5.9. Le tabelle di webdata che originano da Swissprot, con la notazione di Martin/Odell
per indicare la cardinalità tra le relazioni.
Fig. 5.10. Localizzazione dei fenotipi scaricati da OMIM. Le annotazioni per la costruzione
di queste tabelle sono scaricate dal file morbidmap presente sul server FTP di OMIM.
Capitolo 5. Risultati Progettuali e Discussione________________________________
Tesi di laurea di Elisa Bellistri _________________________________________ 52
Fig. 5.11. Annotazioni cliniche scaricate da OMIM con le indicazioni dei fenotipi. Nel
parsing del file omim.txt vengono evidenziati e catalogati i termini sinonimi. La tabella cs2
costituisce una copia dei dati, per conservarne la struttura originaria importata dalla banca
dati.
Capitolo 5. Risultati Progettuali e Discussione________________________________
Tesi di laurea di Elisa Bellistri _________________________________________ 53
5.2. Elaborazione dei dati
5.2.1. Creazione della matrice per l’analisi dei dati
L’analisi di regressione logistica è stata implementata inizialmente sulle annotazioni
genomiche realizzate sui domini proteici.
Utilizzando i databases di GFINDer è possibile disporre di un set di dati estratto
tramite una lista di geni caricata dall’utente. Facendo riferimento a quanto descritto
nella sezione Materiali e Metodi, l’analisi statistica implementata serve a stabilire dei
valori di significatività alle variabili indipendenti, che nel nostro caso sono i domini
proteici, a fronte del valore di regolazione dei geni corrispondenti, che in termini
matematici corrispondono alle variabili dipendenti.
Fig. 5.12. Estrazione dei dati di Interpro per la costruzione della matrice di analisi di
regressione logistica.
Tuttavia è necessario riorganizzare i dati estratti in una forma matriciale adeguata
all’analisi. In figura 5.12 è rappresentata la porzione di database utilizzata per
l’estrazione dei dati, mentre in figura 5.13 il risultato di una query e l’aspetto
sequenziale dei dati.
Capitolo 5. Risultati Progettuali e Discussione________________________________
Tesi di laurea di Elisa Bellistri _________________________________________ 54
Come si vede in figura, ad ogni gene estratto è associato uno o più domini proteici, e
viceversa lo stesso dominio proteico può essere associato contemporaneamente a geni
diversi. I dati vengono quindi riorganizzati come se disposti su un piano cartesiano,
dove l’asse delle ascisse rappresenta i vari domini proteici e sulle ordinate i diversi
geni, ciascuno rappresentato con il proprio valore di regolazione. Nei punti di
intersezione tra un gene ed un dominio proteico vi sarà un valore 1 se c’è
corrispondenza, un valore 0 nel caso in cui non via nessun gene abbinato a quella
categoria.
Fig. 5.13. Come appaiono nell’interfaccia del MySQL browser i dati estratti dalla query.
In questo tipo di rappresentazione, l’aspetto della matrice sarà esclusivamente binario,
sia come variabili indipendenti, sia come valori di regolazione dei geni.
Utilizzando le annotazioni presenti sui domini proteici, e attraverso un’opzione
implementata nell’interfaccia web descritta più avanti, è possibile visualizzare una
matrice di dati alternativa utilizzando i geni e le categorie del medesimo esperimento.
In questo visualizzazione alternativa, la corrispondenza tra un gene e un dominio
proteico non è identificata solo dal valore binario 0/1, ma da un valore discreto
compreso tra 1 e N detto match count. Un match count rappresenta il conteggio di
Capitolo 5. Risultati Progettuali e Discussione________________________________
Tesi di laurea di Elisa Bellistri _________________________________________ 55
quante sequenze nucleotiche diverse (esoni trascritti dal codice genetico) codificano
per quello stesso dominio proteico.
Utilizzando i valori di match count si aggiunge ulteriore informazione sul legame tra
un gene e una categoria, più alto è il valore matchn, più elevato sarà il peso statistico
della corrispondenza tra le due variabili.
A livello implementativo, la matrice viene costruita in linguaggio ASP attraverso cicli
while successivi. In una prima istanza, conoscendo a priori il numero di geni e di
categorie in quella specifica elaborazione, viene allocato in memoria temporanea lo
spazio necessario tramite la creazione di array e array di array (il linguaggio ASP 2.0
non supporta un tipo di variabile bidimensionale). In una seconda istanza, viene
considerato un gene per volta (righe della matrice) e aggiornato il valore di
corrispondenza con la categoria di volta in volta considerata (colonne della matrice).
Nella stessa iterazione è anche aggiornato il valore di regolazione del gene.
Al termine dei cicli appena descritti tutti i valori sono caricati in una variabile di
sessione di tipo dinamico. Sfruttando l’intercomunicabilità tra ASP e JavaScript,
questi valori sono passati ad un algoritmo JavaScript che si occuperà di rielaborarli.
Benché JavaScript sia un linguaggio di scripting comunemente usato per elaborazioni
lato client, in questa procedura l’elaborazione risiede sul server e i risultati vengono
caricati in un tabella temporanea, successivamente estratti e visualizzati infine sul
client. Questa scelta, apparentemente costosa in termini di risorse, permette invece di
evitare l’allocamento di una ulteriore variabile di sessione per i risultati, che verrebbe
ad avere le stesse dimensioni della matrice dei dati in ingresso.
Potendo inoltre disporre dei risultati in una tabella di MySQL, il sistema è flessibile
ad ulteriori elaborazioni che non siano solo la visualizzazione degli stessi nel modulo
web (vedi §4.4.4. Parametri di valutazione).
I dati così estratti tuttavia non vengono immediatamente utilizzati per l’elaborazione,
ma vengono eseguiti due controlli di consistenza a priori.
Il primo è il calcolo del numero di eventi per variabile (Events Per Variable, EPV).
Si suppone infatti che i metodi di analisi multivariata producano risultati problematici
se il numero di eventi in uscita è troppo basso rispetto al numero di variabili
indipendenti analizzate nel modello. [Peduzzi et al., 1996]
Capitolo 5. Risultati Progettuali e Discussione________________________________
Tesi di laurea di Elisa Bellistri _________________________________________ 56
Per questo si sono stabilite delle linee guida generali per il numero minimo di variabili
per evento, definendo i seguenti range di valori [Harrel et al., 1985]
EPV < 2 analisi non accettabile
EPV < 5 analisi eseguita ma valori attesi non attendibili
5 < EPV < 10 valori appena accettabili
10 < EPV < 20 valori di regressione attendibili
EPV > 20 valori migliori
Il secondo controllo viene fatto sulla corrispondenza tra i valori delle variabili in
ingresso e i valori in uscita di regolazione dei geni, per escludere le categorie che si
comportano come perfect predictor o semiperfect predictor. Un perfect predictor è
una variabile che manifesta sempre lo stesso valore (o lo stesso intervallo di valori) in
corrispondenza di uscite uguali. Analogamente, il semiperfect predictor è
caratterizzato da una proprietà simile ma solo in corrispondenza di una delle due
uscite. I domini proteici che risultano appartenere ad uno di questi due gruppi
vengono annotati a parte non inclusi nell’elelaborazione per il calcolo dei coefficienti
di regressione logistica.
Questo controllo e’ immediato nel caso di analisi univariata, mentre, come descritto
più avanti, risulta più complesso nel caso di analisi multivariata.
5.2.2. Analisi univariata
L’analisi univariata viene utilizzata per valutare ogni variabile in un data set, presa
singolarmente. Serve a valutare l’intervallo dei valori assunti dalla variabile, così
come la tendenza principali dei valori. Descrive inoltre il pattern di risposta della
variabile, considerando ciascuna variabile indipendente dalle altre.
Nel caso dell’analisi di regressione logistica, l’equazione descritta in §4.4.2 viene
utilizzata nella sua forma unidimensionale, mentre la matrice dei dati in ingresso si
riduce ad un singolo array corrispondente ad una singola categoria (dominio
proteico).
Capitolo 5. Risultati Progettuali e Discussione________________________________
Tesi di laurea di Elisa Bellistri _________________________________________ 57
I singoli risultati vengono archiviati in una tabella temporanea e visualizzati per avere
una prima stima della correlazione tra geni e categorie.
Un esempio di risultato di analisi univariata è quello mostrato in figura 5.14.
5.2.3. Analisi multivariata
Per valutare non solo le caratteristiche della singola variabile in relazione al set di
geni considerato, ma anche l’interazione tra le varibili, è necessario procedere ad
un’analisi multivariata. In questo caso l’equazione avrà un numero di variabili
indipendenti pari al numero di categorie estratte, e coefficienti calcolati dall’algoritmo
vengono ad ogni iterazione aggiornati per tenere conto della suddetta interazione.
Utilizzando l’algoritmo di massima verosimiglianza ci si scontra però con la crescente
complessità del problema dei perfect o semiperfect predictor.
Nel caso dell’analisi multivariata infatti il completo fittaggio tra le variabili in
ingresso e quello in uscita può essere dovuto non solo alla relazione biunivoca tra una
categoria e il set di geni, ma anche all’interazione tra più categorie. Nessuna delle
variabili di per sé sarebbe un perfect predictor, ma un sottoinsieme di esse calcolate
simultaneamente può formare un pattern nello spazio n-dimensionale che divide lo
spazio in due regioni, una con uscita sempre 1 e l’altra con uscita sempre 0 (Fig.
Fig. 5.14: Risultati di una elaborazione tramite analisi univariata come appaiono
nell’interfaccia web di GFINDer.
Capitolo 5. Risultati Progettuali e Discussione________________________________
Tesi di laurea di Elisa Bellistri _________________________________________ 58
5.15). In questa situazione il modello di regressione logistica non è adeguato al tipo di
dato, poiché la relazione è rappresentata da una funzione gradino, e non dalla curva a
S del modello di regressione logistica.
Questo porta l’algoritmo di massima verosimiglianza a non convergere e di
conseguenza ad un overflow dell’elaborazione.
Al livello di sviluppo attuale dell’applicazione non viene fatto un controllo
sull’interazione tra le variabili, come avviene nel caso dell’analisi univariata, ma un
controllo a posteriori durante l’esecuzione dell’algoritmo. Nel caso in cui l’algoritmo
non converga, l’elaborazione viene interrotta e viene restituito un messaggio di
allerta, che invita a ripetere l’elaborazione con una combinazione diversa di variabili.
5.3. Funzionalità implementate
5.3.1. Modulo web per l’analisi di regressione logistica
L’utilizzo da parte degli utenti del modulo di regressione logistica viene delegato ad
applicazioni che risiedono su ogni client il cui scopo è fornire un’interfaccia di
selezione dei parametri per l’estrazione dei dati e mostrare i risultati delle elaborazioni
che sono state eseguite sul server.
I browser non hanno grandi capacità di elaborazione, eseguono soltanto dei comandi
che hanno valenza solo sul client senza nessuna iterazione con il server remoto, e
Fig. 5.15. Visualizzazione grafica in uno spazio
tridimensionale dell’iperpiano che realizza una
perfetta divisione tra i due tipi di uscita.
Capitolo 5. Risultati Progettuali e Discussione________________________________
Tesi di laurea di Elisa Bellistri _________________________________________ 59
permettono piccole interazioni con l’utente. Il loro scopo principale è quello di
garantire la navigazione attraverso il web e interpretare pagine realizzate con HTML e
visualizzarle in formato di ipertesto. HTML (acronimo per HyperText Mark-Up
Language) è un linguaggio usato per descrivere i documenti ipertestuali disponibili su
Internet. Non è un linguaggio di programmazione, ma un linguaggio di markup, ossia
descrive l'aspetto che deve avere il testo.
La standardizzazione del codice di presentazione permette una portabilità
dell’applicazione su piattaforme hardware e software diverse senza nessun problema
di conflitto.
5.3.2. Selezione dei parametri
Nello specifico dell’analisi di regressione logistica, questa viene attualmente applicata
sulle famiglie e i domini proteici. L’interfaccia web di selezione dei parametri
permette di definire i vincoli sugli attributi di questa categoria in base ai quali estrarre
i geni coinvolti nell’esperimento.
L’aspetto dell’interfaccia è quello mostrato in figura 5.16.
L’immagine è relativa alla vista da parte di un utente registrato, che dispone di una
lista precaricata di esperimenti selezionabile nel primo menu a tendina Select
sequenze ID’s list.
In dettaglio, gli altri parametri secondo i quali restringere l’estrazione dei dati sono:
1. Source database: permette di scegliere se estrarre i geni annotati nel DB Pfam
o Interpro
2. Category type: campo di selezione mutuamente esclusiva del tipo di categoria
presa in esame (vedi §4.4.4 per ulteriori dettagli)
3. Tree level: per scegliere a quale livello dell’albero dei domini e famiglie
proteiche arrestare l’estrazione dei dati (vedi §4.4.4 per ulteriori dettagli)
4. Specie: uno stesso gene può essere comune a più specie. Il menu viene creato
dinamicamente verificando a quali specie sono abbinati i geni coinvolti
nell’esperimento.
5. Minimum n. of items: numero minimo di geni che devono essere associati ad
un dominio proteico (o più in generale ad una categoria) perché questa venga
Capitolo 5. Risultati Progettuali e Discussione________________________________
Tesi di laurea di Elisa Bellistri _________________________________________ 60
inclusa nell’elaborazione. Aumentando questo valore diminuiscono il numero
di categorie estratte. Il valore massimo utilizzabile dipende dalle categorie e
dai geni dell’esperimento specifico, e può essere visualizzato attraverso il
modulo Exploration presente in GFINDer.
6. Item: sceglie se utilizzare la corrispondenza delle categorie con i geni o con i
Sequence ID (un gene può essere composto da più Sequence IDs)
7. Column name: per selezionare quale colonna di classificazione utilizzare tra
quelle definite al momento dell’upload dei dati (vedi §4.4.1 Classificazione e
categorizzazione di geni)
8. Y1 class/Y0 class: a seconda della colonna di classificazione utilizzata
appaiono in questi menu le diverse categorie di espressione del gene. I menu
permettono selezioni multiple. I parametri qui definiti permettono di dividere
il set di geni nelle due classi di regolazione e quindi i valori della variabile
dipendente nell’analisi di regressione logistica.
9. Category matches: il valore minimo di category matches che deve avere un
dominio proteico per essere incluso nell’elaborazione. Se la checkbox viene
disattivata, l’analisi viene fatta senza tenere conto dei category matches,
quindi le categorie sono estratte indipendentemente da questo valore e la
matrice dei dati avrà unicamente valori binari (vedi §5.2)
Fig. 5.16. Interfaccia di selezione dei parametri.
Capitolo 5. Risultati Progettuali e Discussione________________________________
Tesi di laurea di Elisa Bellistri _________________________________________ 61
Le caselle di input successive sono invece relative alla visualizzazione dei
risultati. La prima definisce con quale livello di significatività del p-value
mostrare i risultati, il secondo blocco composto di radio button permette di
selezionare in base a quale campo mostrare i risultati ordinati.
5.3.3. Selezione parziale dei domini proteici
Sia nel caso dell’analisi univariata, sia nel caso di quella multivariata, che può
convergere ad un risultato o meno, dall’elenco delle categorie mostrate
nell’interfaccia dei risultati è possibile effettuare una selezione parziale e ricalcolare i
coefficienti di regressione logistica solo in base all’interazione tra i domini della
sottocategoria.
La selezione parziale dei domini proteici non ha nulla a che vedere con gli attributi
delle singole categorie, ma è unicamente manuale e affidata alla scelta dell’utente.
Si può scegliere ad esempio di discriminare le categorie in base ai coefficienti di
regressione logistica calcolati (p.e. solo positivi, solo negativi, compresi in un certo
intervallo, vedi §6.1 per ulteriori dettagli), oppure in base alla distribuzione delle due
classi di geni.
Capitolo 6. Risultati Applicativi e Discussione_______________________________
Tesi laurea di Elisa Bellistri ___________________________________________ 62
6. Risultati Applicativi e Discussione
6.1. Un esempio di test
L’analisi di regressione logistica è stata testata su diversi set di geni precedentemente
classificati.
Un esempio è rappresentato dal set in figura 6.1, che rappresenta geni di cui sono noti
i domini proteici prodotti e la relazione al sistema neurologico (160 geni) o
cardiovascolare (92 geni). Identificando con NEURO la classe 1 (ossia la classe della
quale si vuole stimare la probabilità di appartenenza) e con 0 la classe CARDIO (a cui
bisogno dimostrare la non appartenenza), il modulo software implementato ha
calcolato i coefficienti di regressione logistica che stimano per ogni gene la
probabilità di appartenere alla classe NEURO, e quindi di essere relazionato ad una
codifica relativa al sistema neurologico.
Fig. 6.1: interfaccia di selezione dei parametri per l’esempio riportato nel testo, e risultati
preliminari all’elaborazione (EPV calcolato, null model, valore di convergenza e numero di
iterazioni necessarie
Capitolo 6. Risultati Applicativi e Discussione_______________________________
Tesi laurea di Elisa Bellistri ___________________________________________ 63
La figura 6.1 rappresenta, oltre ad un riepilogo dei parametri attraverso cui sono stati
estratti i geni nell’esperimento, anche una parte dei risultati dell’elaborazione, quali il
valore di verosimiglianza di partenza, il valore a cui l’algoritmo converge e il numero
di iterazioni necessarie per ottenere il risultato.
L’ordine di grandezza nel numero di iterazioni (in questo caso 22) è un valore che si
mantiene molto simile anche con set di dati diversi, il che porta i tempi di esecuzione
dell’algoritmo JavaScript ad alcune decine di secondi (29 secondi nell’esempio
illustrato) e quindi accettabile con ampio margine il carico di lavoro da parte del
server.
Attraverso la selezione dei parametri è inoltre possibile variare il livello di dettaglio
delle annotazioni da includere nell’analisi di regressione, tipicamente variando i valori
di livello nella struttura ad albero dei domini proteici (vedi 2.3.2 per ulteriori dettagli),
focalizzandosi come nell’esempio (tree level pari a 0) solo sulle annotazioni
indipendenti che non hanno relazioni padre/figlio.
Fig. 6.2. Risultati dell’analisi multivariata
tesi_completa.2
tesi_completa.2
tesi_completa.2
tesi_completa.2
tesi_completa.2
tesi_completa.2
tesi_completa.2
tesi_completa.2
tesi_completa.2
tesi_completa.2
tesi_completa.2
tesi_completa.2
tesi_completa.2
tesi_completa.2
tesi_completa.2
tesi_completa.2
tesi_completa.2
tesi_completa.2
tesi_completa.2
tesi_completa.2
tesi_completa.2

More Related Content

Featured

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot
Marius Sescu
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPT
Expeed Software
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
Pixeldarts
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
ThinkNow
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
marketingartwork
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
Skeleton Technologies
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
Neil Kimberley
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
contently
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
Albert Qian
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
Kurio // The Social Media Age(ncy)
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
Search Engine Journal
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
SpeakerHub
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
Tessa Mero
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Lily Ray
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
Rajiv Jayarajah, MAppComm, ACC
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
Christy Abraham Joy
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
Vit Horky
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
MindGenius
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
RachelPearson36
 

Featured (20)

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPT
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 

tesi_completa.2

  • 2. Indice __________________________________________________________________ Tesi di laurea di Elisa Bellistri ____________________________________________ I Indice I 1. Sommario 1 2. Introduzione 3 2.1. La base della genetica: il DNA 3 2.1.1. Geni e proteine 5 2.1.2. Struttura e funzionalità dei domini proteici 6 2.2. Tecnologie high-throughput a microarray per analisi sperimentali 8 2.3. Banche dati biomolecolari e genomiche 9 2.3.1. Annotazioni funzionali di geni 11 2.3.2. Annotazioni funzionali di domini proteici 12 2.4. Stato dell’arte degli strumenti informatici per l’analisi delle annotazioni genomiche 14 2.4.1. GFINDer e altri tool disponibili 14 2.4.1.1.Analisi statistiche 16 3. Scopo della Tesi 20 4. Materiali e Metodi 22 4.1. Strumenti per la gestione e la condivisione di dati 22 4.1.1. Data Base Management System 23 4.2. Strumenti per la visualizzazione e l’elaborazione dei dati 24 4.2.1. Web server, tecnologie di scripting e pagine web dinamiche 25 4.3. Strumenti per l’analisi e la visualizzazione dello schema di un database 28 4.3.1. Microsoft Office Visio® 29 4.3.2. fabForce DBDesigner 4.0 31 4.4. Analisi statistica 33 4.4.1. Classificazione e categorizzazione di geni 33 4.4.2. Regressione logistica 35 4.4.3. Algoritmo di verosimiglianza 36
  • 3. Indice __________________________________________________________________ Tesi di laurea di Elisa Bellistri ____________________________________________ II 4.4.4. Parametri di valutazione 38 5. Risultati Progettuali e Discussione 40 5.1. Analisi della struttura dei database di GFINDer 40 5.1.1. DB master 41 5.1.2. DB mygo 42 5.1.3. DB interpro 45 5.1.4. DB webdata 46 5.2. Elaborazione dei dati 53 5.2.1. Creazione della matrice per l’analisi dei dati 54 5.2.2. Analisi univariata 56 5.2.3. Analisi multivariata 57 5.3. Funzionalità implementate 58 5.3.1. Modulo web per l’analisi di regressione logistica 58 5.3.2. Selezione dei parametri 59 5.3.3. Selezione parziale dei domini proteici 61 6. Risultati Applicativi e Discussione 62 6.1. Un esempio di test 62 6.2. Considerazioni sui dati ottenuti 64 7. Stato Attuale e Sviluppi Futuri 68 7.1. Analisi attualmente implementate in GFINDer 68 7.2. Altre tecniche di data mining 69 8. Conclusioni 70 9. Bibliografia 72 10. Pubblicazioni e Presentazioni Scientifiche Realizzate 80 10.1. Articolo in rivista internazionale 81
  • 4. Indice __________________________________________________________________ Tesi di laurea di Elisa Bellistri ____________________________________________ III 10.1.1. BMC Bioinformatics 81 10.2. Contributo su atto di congresso nazionale 92 10.2.1. Bioinformatics ITalian Society meeting 2006 92 10.3. Contributo su atto di congresso internazionale 95 10.3.1. American Medical Informatics Association conference 2006 95
  • 5. Capitolo 1. Sommario _____________________________________________________ Tesi di laurea di Elisa Bellistri ____________________________________________ 1 1. Sommario Le tecnologie biomolecolari high-throughput (es. microarray) permettono di analizzare decine di migliaia di sequenze nucleotidiche simultaneamente. L’interpretazione di tali analisi richiede l’annotazione dei geni selezionati candidati con attributi funzionali, strutturali e fenotipici qualificanti che ne descrivano in dettaglio le caratteristiche principali. Inoltre è indispensabile un’analisi di tali annotazioni che segua un rigoroso approccio statistico per poter individuare le categorie di attributi maggiormente rilevanti nelle condizioni in esame. Per tale fine è stato precedentemente sviluppato GFINDer, uno strumento web basato su un’architettura client-server multi-livello che recupera automaticamente annotazioni genomiche funzionali aggiornate dalle più importanti banche dati biomolecolari della comunità scientifica internazionale; permette di annotare liste di geni ottenute da analisi sperimentali su molte migliaia di geni contemporaneamente; elabora e analizza statisticamente le annotazioni di liste di geni selezionate dall’utente e offre una visualizzazione semplice ed efficace dei risultati delle analisi statistiche effettuate, aiutando così nell’interpretazione del significato biologico delle liste di geni considerati. La tipologia dei dati gestiti nei database di GFINDer, un insieme di annotazioni funzionali di geni di vari genomi che possono essere utilizzate per classificare geni singoli o gruppi di geni, ben si presta all’utilizzo di tecniche statistiche di classificazione adatte alla ricerca di nuova conoscenza. In tale ambito si inserisce l’analisi di regressione logistica sviluppata in questa Tesi. La maggior parte delle funzionalità implementate è pubblicamente utilizzabile all’indirizzo http://www.bioinformatics.polimi.it/GFINDer/; altre funzionalità specifiche sono riservate agli utenti registrati di GFINDer. Nel capitolo “Introduzione” sono esposte le premesse sia in ambito biomedico che informatico alle problematiche affrontate che hanno portato alla realizzazione della presente Tesi.
  • 6. Capitolo 1. Sommario _____________________________________________________ Tesi di laurea di Elisa Bellistri ____________________________________________ 2 Motivazioni e obiettivi di questa sono illustrati nel capitolo “Scopo della Tesi”. Nel capitolo “Materiali e Metodi” sono mostrati i dati e gli strumenti utilizzati, e i metodi seguiti nello svolgimento della Tesi per raggiungere gli scopi esposti. Il capitolo “Risultati Progettuali e Discussione” descrive il processo di reverse engineering compiuto sui database di GFINDer per documentare la struttura degli stessi; descrive inoltre le caratteristiche e l’architettura del modulo software sviluppato per consentire di effettuare analisi di regressione logistica via web all’interno di GFINDer, commentandone le varie parti e i passi realizzati. I risultati delle elaborazioni svolte attraverso il modulo software implementato e il confronto tra tali risultati sono esposti nel capitolo “Risultati Applicativi e Discussione”. Il capitolo “Stato Attuale e Sviluppi Futuri” espone lo stato attuale dell’implementazione del sistema GFINDer e delle analisi in esso disponibili e illustra come si potrebbero utilmente applicare alcune altre tecniche di data mining sul tipo di dati considerato per l’analisi di regressione logistica implementata. I risultati raccolti hanno dimostrato la validità delle scelte fatte per raggiungere gli obiettivi preposti, come esposto nel capitolo “Conclusioni”. Il capitolo “Bibliografia” include i riferimenti a tutti i libri, articoli e siti web a cui ci si è riferiti nello svolgimento di questa Tesi. Il capitolo “Pubblicazioni e Presentazioni Scientifiche Realizzate” raccoglie la pubblicazione scientifica, la comunicazione al congresso nazionale di Bioinformatica e la comunicazione al congresso internazionale di Informatica Medica realizzate a seguito del lavoro svolto nell’ambito di questa Tesi.
  • 7. Capitolo 2. Introduzione ___________________________________________________ Tesi di laurea di Elisa Bellistri ____________________________________________ 3 2. Introduzione Gli studi che vengono condotti nel campo della ricerca genetica si basano sullo studio e sull’interpretazione di dati forniti dall’analisi nel DNA o di un sottoinsieme di sequenze nucleotidiche, prevalentemente provenienti da analisi da microarray. Pertanto è importante per gli scopi di questa Tesi richiamare brevemente la struttura del DNA e dei suoi componenti, i principali passi coinvolti nella sintesi proteica cellulare, nonché i punti di correlazione tra la nuova ricerca genetica e le tecnologie distribuite dell’Informazione e della Comunicazione. 2.1. La base della genetica: il DNA. Il DNA (Acido DesossiriboNucleico) è una molecola presente in quasi tutte le cellule di un organismo biologico che, con la sua struttura molecolare, codifica tutte le informazioni necessarie per lo sviluppo e il funzionamento di un essere vivente. Gregor Mendel nel 1865 scoprì che i tratti individuali di ogni essere vivente sono determinati da fattori discreti, che più tardi vennero chiamati geni; ma solamente nel 1953 venne isolata per la prima volta da James Watson e Francis Crick la molecola del DNA e venne scoperta la sua ben nota struttura a doppia elica. In tale struttura sono codificate tutte le informazioni genetiche di un individuo tramite una sequenza di quattro diverse molecole, ovvero le basi azotate (A) Adenina, (T) Timina, (G) Guanina e (C) Citosina inserite su di una struttura molecolare di zucchero: il desossiribosio. , in generale, e costituisce la base del patrimonio genetico di un individuo. Sequenze di nucleotidi costituiscono i geni. Possiamo paragonare il DNA ad un grande libro nel quale sono scritte tutte le informazioni che compongono il codice genetico di ogni essere vivente. I geni possono quindi essere paragonati alle frasi di questo libro. Ogni base azotata è paragonabile ad una lettera dell’alfabeto con cui è scritto il libro e ogni tripletta di basi azotate è equiparabile ad una parola. L’informazione codificata dai geni viene utilizzata per la sintesi delle proteine all’interno dei ribosomi, che sono le parti della cellula dedicate alla
  • 8. Capitolo 2. Introduzione ___________________________________________________ Tesi di laurea di Elisa Bellistri ____________________________________________ 4 produzione di proteine. All’interno della sequenza nucletidica dei geni, vi sono delle sotto-sequenze di basi (dette esoni) che codificano informazioni proteiche. Queste sono inframmezzate da tratti di DNA che non codificano proteine (gli introni) e la loro funzione è tuttora sconosciuta. Negli esoni, ogni tripletta di basi azotate, le “parole” del libro, codifica un aminoacido, ovvero l’elemento base costitutivo di ogni proteina. è paragonabile ad una parola Le combinazioni possibili di triplette sono quindi ovviamente 6443 = , ma solamente 20 sono gli aminoacidi che codificano informazioni realmente utili. Sequenze di aminoacidi costituiscono le proteine che sono i cosiddetti “mattoni della vita” e sono l’elemento base di ogni struttura biologica vegetale o animale. Nelle cellule umane, il DNA è organizzato in 23 paia di cromosomi, dove ogni membro di ogni paio è ereditato da un genitore. La maggior parte del DNA umano (il 98,5%) ha una funzione ancora è sconosciuta, mentre la parte rimanente è coinvolta nel processo di trascrizione, cioè nel trasferimento delle informazioni dal DNA nel nucleo della cellula ai ribosomi dove avviene la sintesi proteica. All’interno di ogni cellula è presente anche un Fig. 2.1. Le informazioni codificate nel DNA vengono trascritte sull’RNA nucleare e quindi nell’RNA messaggero (mRNA) che le porta all’esterno del nucleo della cellula. Nei ribosomi l’informazione viene ricopiata dall’RNA trasportatore (tRNA) e da qui tradotta per la costruzione di proteine.
  • 9. Capitolo 2. Introduzione ___________________________________________________ Tesi di laurea di Elisa Bellistri ____________________________________________ 5 altro acido nucleico l’RNA (l’acido ribonucleico) che differisce dal DNA in quanto ha una struttura a singola elica in cui la base azotata Timina è sostituita da una diversa base azotata, l’ Uracile. L’RNA ha il compito di trascrivere il patrimonio genetico e di trasportare l’informazione contenuta nel DNA (che rimane sempre all’interno del nucleo della cellula) all’esterno del nucleo fino ai ribosomi, situati nel citoplasma della cellula, dove avviene la sintesi proteica (figure 2.1 e 2.2) [Bergeron, 2003]. A tale scopo l’RNA viene prima trasformato nell’mRNA, o RNA messaggero, ottenuto concatenando solamente gli esoni (cioè le parti del DNA che codificano informazioni proteiche), mentre gli introni vengono eliminati. 2.1.1. Geni e proteine Attraverso la sintesi proteica si realizza la funzionalità delle informazioni veicolate dal genoma. Fig. 2.2. Trascrizione e sintesi dell’RNA. Dall’RNA nucleare vengono scartati gli introni e solo gli esoni vengono copiati nell’RNA messaggero.
  • 10. Capitolo 2. Introduzione ___________________________________________________ Tesi di laurea di Elisa Bellistri ____________________________________________ 6 È infatti attraverso le proteine che vengono svolte le principali funzioni dell’organismo, sia di tipo strutturale, sia come catalizzatori delle reazioni metaboliche (tramite gli enzimi), sia nel trasporto di informazioni all’interno dell’organismo (attraverso gli ormoni). L’insieme di tutte le proteine codificate dal genoma costituisce il proteoma. Poiché il proteoma riflette più accuratamente la dinamica dello stato di una cellula, dei tessuti, o dell’organismo, l’aspettativa verso la proteomica è quella di poter comprendere meglio i meccanismi di funzionamento. Scopo della ricerca in proteomica è quello di identificare tutte le proteine all’interno dell’organismo e determinare il loro ruolo nelle funzioni fisiologiche e fisiopatologiche. Mentre il genoma rimane invariato in tutto l’organismo per tutta la durata della sua vita, le proteine all’interno di una cellula cambiano drasticamente a seconda che il gene sia attivato o disattivato in risposta alla condizione ambientale. Poiché le proteine sono direttamente coinvolte sia nei normali processi chimici, che in quelli associati ad una patologia, una più vasta comprensione di una patologia può essere ottenuta direttamente dallo studio delle proteine all’interno di una cellula o un tessuto malato. L’uomo è stimato abbia dai 30.000 ai 40.000 geni che potenzialmente codificherebbero 40.000 diverse proteine, in realtà meccanismi come lo splicing e modifiche successive alla traduzione (post-translational modifications, PTM) fanno crescere questo numero a circa 2.000.000 di diverse proteine o sequenze di aminoacidi. Per evidenziare la natura dinamica del proteoma, alcuni ricercatori utilizzano la terminologia “proteoma funzionale” per descrivere tutte le proteine prodotte da una singola cella in un determinato intervallo temporale. [Kosak e Groudine, 2004] 2.1.2. Struttura e funzionalità dei domini proteici Spesso, alcune parti circoscritte di proteine possono svolgere funzioni condivise da altre proteine. In molti casi queste funzioni sono riconducibili a "domini funzionali". Generalmente con il termine di "dominio" proteico si intende una porzione consistente di una proteina che, oltre che svolgere una certa funzione, si organizza in una sua struttura
  • 11. Capitolo 2. Introduzione ___________________________________________________ Tesi di laurea di Elisa Bellistri ____________________________________________ 7 tridimensionale. In casi più semplici una funzione proteica può essere esplicata da regioni molto più semplici rispetto ad un dominio, ma comunque utili per identificare la funzionalità della proteina. A volte bastano solo un paio di aminoacidi per potere assegnare una caratteristica funzionale ad una proteina (ad esempio un sito di glicosilazione). In questi casi non si parla di domini, ma più semplicemente di "motivi funzionali". Queste caratteristiche si riflettono, in genere, in porzioni conservate nella sequenza aminoacidica della proteina che è possibile individuare attraverso l'allineamento multiplo delle sequenze. Fig. 4.9. Esempi della struttura tridimensionale delle proteine. Un dominio strutturale è un elemento di una struttura complessiva in una proteina che si è stabilizzato e spesso si avvolge indipendentemente dal resto della catena proteica (fig. 4.9). Molti domini possono essere classificati a seconda di un piccolo numero di ripiegamenti e non sono univoci della proteina prodotta da un gene o da una famiglia di
  • 12. Capitolo 2. Introduzione ___________________________________________________ Tesi di laurea di Elisa Bellistri ____________________________________________ 8 geni, ma al contrario appaiono in diverse proteine. I domini strutturali variano in lunghezza in un range da 25 aminoacidi sino a 500 aminoacidi. Vengono etichettati e isolati perché rivestono un importante ruolo nella funzione biologica della proteina a cui appartengono. Il concetto di dominio è stato proposto per la prima volta nel 1973 da Wetlaufer [Wetlaufer, 1973], che lo ha definito come una unità stabile della struttura di una proteina che può ripiegarsi autonomamente. Da altri autori la definizione di dominio è data come “struttura compatta” [Richardson e Howlett, 1982] o secondo la funzione specifica e il percorso evolutivo [Bork, 1991]. Tutte queste definizioni sono valide e spesso si sovrappongono tra loro. La struttura modulare di un dominio proteico favorisce un altissimo numero di combinazioni possibili tra i diversi domini, dove ogni dominio può esplicare la propria funzione singolarmente o in un qualche modo influenzato dalla relazione con i domini vicini. 2.2. Tecnologie high-throughput a microarray per analisi sperimentali Le moderne tecnologie utilizzate negli esperimenti di biologia molecolare vengono chiamate high-throughput perché consentono di lavorare con migliaia di geni in parallelo, differentemente da quanto veniva fatto in passato, quando i biologi studiavano un gene per volta. Tali tecnologie hanno reso possibile la sequenza completa del genoma di varie organismi (Uomo, topo, ratto e molti altri animali e piante), che costituisce il punto di partenza su cui effettuare diversi tipi di studi ed esperimenti. I principali ruoli dei computer nella bioinformatica sono quelli di controllori, di archivi di informazioni, di dispositivi di comunicazione ed elaborazioni numeriche. Il grande sviluppo delle scienze bioelettroniche e bioinformatiche ha offerto ai biologi strumenti ad alta capacità di trattamento che permettono di analizzare le sequenze di geni ottenute e che generano un’enorme quantità di dati ad un ritmo sempre crescente. Una delle più
  • 13. Capitolo 2. Introduzione ___________________________________________________ Tesi di laurea di Elisa Bellistri ____________________________________________ 9 promettenti tecnologie è quella dei microarray, che permette di analizzare decine di migliaia di geni in parallelo e genera una grande quantità di dati. Gli esperimenti che utilizzano microarray studiano geni espressi in cellule in determinate condizioni, per capire quali di essi abbiano una diversa espressione nelle condizioni sperimentali considerate rispetto ad una condizione di riferimento. Durante l’esperimento, dalle cellule trattate si estrae l’mRNA che viene marcato con fluorocromi, sostanze che colorano le molecole a cui si legano. Gli mRNA delle diverse cellule confrontate in un esperimento a microarray (es. cellule patologiche versus normali) vengono colorati con fluorcromi differenti per poterli poi distinguere. Gli mRNA così trattati vengono “spalmati” sui microarray, dove si legano naturalmente, per complementarietà, al cDNA ivi precedentemente posizionato. Dato che sono note le sequenze nucleotidiche presenti in ogni punto del microarray, vedendo quali punti del microarray si colorano e in quale modo, è possibile capire quali siano i geni diversamente espressi in una condizione sperimentale rispetto a quella di riferimento. Dai risultati di questi esperimenti è possibile ottenere una classificazione dei geni coinvolti, attraverso cui esplorare le caratteristiche funzionali di tali geni. Considerando geni classificati in due diverse classi, è possibile effettuare un’analisi di regressione logistica su tali gruppi di geni per valutare statisticamente, ad esempio, quali famiglie o domini dei prodotti proteici di tali geni meglio concorrono a determinare, ovvero spiegare, la classificazione definita. 2.3. Banche dati biomolecolari e genomiche Una sempre maggiore quantità di informazioni si sta accumulando sempre più rapidamente sottoforma di annotazioni testuali presenti in molti database eterogenei e distribuiti su scala planetaria. Molti di questi sono accessibili pubblicamente attraverso interfacce web, che ne permettono semplici interrogazioni, e attraverso FTP, che consente ottenere una copia dei dati di tali database. Alcuni di tali database più importanti sono UniGene [Schuler, 1997], [UniGene], EntrezGene [Maglott et al., 2005], SwissProt
  • 14. Capitolo 2. Introduzione ___________________________________________________ Tesi di laurea di Elisa Bellistri ____________________________________________ 10 [Boeckmann et al., 2003], [ExPASy], KEGG [Kanehisa e Goto, 2000], [KEGG], OMIM [OMIM]. Le annotazioni di geni che contengono sono costituite da attributi che descrivono il nome, la struttura, le caratteristiche funzionali dei geni conosciuti e la loro localizzazione citogenetica, i tessuti nei quali i geni sono espressi, i prodotti proteici [SwissProt] dei geni e i loro domini proteici [PFAM], [Bateman et al., 2004] le relazioni conosciute tra i geni, le correlazioni dei geni con differenti patologie [OMIM] e i pathways biochimici in cui i geni sono coinvolti [KEGG]. Fig. 2.3. Esempio di struttura ad albero di Interpro in file XML
  • 15. Capitolo 2. Introduzione ___________________________________________________ Tesi di laurea di Elisa Bellistri ____________________________________________ 11 Un esempio di banca dati proteomica è Interpro [INTERPRO], che fornisce annotazioni relative ai domini, alle famiglie proteiche e ai siti funzionali, e struttura questi ultimi in un modello gerarchico legato dalle relazioni padre-figlio. Attraverso questo modello, il database provvede a mettere in relazione attributi caratteristici di proteine note con sequenze proteiche ancora non note, e di riflesso con le sequenze nucleotiche che le codificano. Come nel caso delle altre banche dati, le annotazioni sono consultabili on-line attraverso una pagina web e un motore di ricerca interno, oppure scaricabili da un server FTP. Interpro fornisce i dati strutturati in un file XML, un formato testuale che permette di conservare la struttura gerarchica delle informazioni, secondo una schema come quello illustrato in figura 2.3. Come risultato dell’unione di più database, le sequenze codificate sono raggruppate in base alla firma della proteina, detta anche “method”. Questi gruppi rappresentato superfamiglie, famiglie o sottofamiglie di sequenze, e vengono definiti come FAMILIES, DOMAINS, REPEATS o SITES. Le sequenze all’interno di un gruppo sono legate ad un singolo processo biologico, possono appartenere ad un diverso range di funzioni (come accade nelle superfamiglie) o possono appartenere ad un gruppo funzionale ancora non caratterizzato. Per ciascuna entry tuttavia viene fornita una descrizione in linguaggio naturale e, dove possibile, delle referenze. Viene inoltre mappata la corrispondenza con la Gene Ontology [GO], che con un’analoga struttura gerarchica permette di ottenere nuova informazione sulle caratteristiche funzionali di una sequenza proteica. 2.3.1 Annotazioni funzionali di geni Oggi le annotazioni funzionali e cliniche dei geni sono probabilmente le informazioni più interessanti e la loro analisi può aiutare a evidenziare nuova conoscenza biologica, come l’identificazione di relazioni funzionali o il loro coinvolgimento in alcuni processi patologici. Le annotazioni servono dunque per dare significatività biologica ai risultati di
  • 16. Capitolo 2. Introduzione ___________________________________________________ Tesi di laurea di Elisa Bellistri ____________________________________________ 12 esperimenti con microarray. Leggendo le caratteristiche dei geni espresse nelle loro annotazioni, un biologo ottiene un notevole aiuto per trovare, distinguere gli intrusi, per depurarli dai falsi positivi e per capire quali sono le funzionalità dei geni in esame. Oltre alle normali annotazioni, si possono utilizzare vocabolari controllati o delle ontologie per raggruppare elementi diversi (geni) che rappresentano un medesimo concetto (per es. una funzione biologica), riunirli in gruppi omogenei di categorie funzionali per meglio studiarli e per darne un’interpretazione statistica. 2.3.2. Annotazioni funzionali di domini proteici Come archivio di annotazioni funzionali di domini proteici vengono usate due distinte banche dati, PFam e Interpro. Pfam è un database generalizzato di famiglie proteiche, che contiene alla release attuale (18.0) 7973 diverse famiglie, ciascuna delle quali viene analizzata manualmente e rappresentata da due allineamenti di sequenze multiple, da due profili HMMs e da un file di annotazione. Lo scopo di Pfam è raggruppare le famiglie proteiche in una visualizzazione gerarchica dei diversi clan [Finn et al., 2006] Il database InterPro (Integrated Resource of Protein Domains and Functional Sites) è una risorsa di documentazione integrate per le famiglie proteiche, i domini e i siti funzionali. È stato inizialmente sviluppato con il significato di razionalizzare i lavori complementari dei progetti PROSITE, PRINTS, Pfam e ProDom, ed include ora anche il database SMART. Annotazioni che confluiscono dai database citati formano il core di InterPro. Ogni entry in InterPro include una descrizione funzionale e le referenze in letteratura, permettendo agli utenti di vedere a colpo d’occhio se una particolare famiglia o dominio proteico è associato a dei percorsi, dei profili, dei fingerprints e così via. Dove applicabile, ogni entry contiene un riferimento incrociato al database BLOCKS, e mappa i corrispondenti termini della Gene Ontology. [Mulder et al., 2007]
  • 17. Capitolo 2. Introduzione ___________________________________________________ Tesi di laurea di Elisa Bellistri ____________________________________________ 13 Le annotazioni presenti in Interpro arricchiscono inoltre le famiglie e i domini proteici di alcuni attributi, distinguendo il tipo di categoria e implementando una struttura ad albero di relazione tra le diverse categorie. La struttura ad albero è dovuta alla presenza delle relazioni tra le diverse categorie PARENT/CHILD e CONTAINS/FOUND IN. La relazione PARENT/CHILD è utilizzata per indicare le relazioni di famiglie/sottofamiglie definite sui dati nei database di origine. Per potersi definire CHILD, più del 75% del set di proteine contenute nel CHILD deve essere rappresentato nel PARENT. La relazione CONTAINS/FOUND IN è utilizzata per indicare la composizione del dominio. Perché venga stabilito questo tipo di relazione, oltre il 40% di proteine della entry devono contenere la caratteristica del dominio. Alcuni domini si possono trovare in più di un tipo di proteina o famiglia di proteine, ma questo non indica un sottotipo nel senso di famiglia. Il dominio è un’entità funzionale, che può essere trovata in proteine con diverse organizzazioni di dominio. Per quanto riguarda le annotazioni sul Type, questo può assumere i valori di Family, Domain, Repeat o Site. I Site a loro volta sono classificati in PTM (post-translational modification, modifiche successive alla traduzione), AS (Active Site, sito attivo) o BS (Binding Site, sito di legame). La Family indica un gruppo di proteine in un set di corrispondenza (match set), il Domain identifica quelle entries che hanno due o più signature adiacenti non sovrapposte. Una Interpro Repeat è invece una regione che non si prevede si ripieghi in un dominio globulare di per sè. Una post-translational modification è una modifica alla struttura primaria della proteina. Questa modifica è necessaria per attivare o disattivare una funzione della proteina. Esempi di PTM sono la glicosilazione, la fosforilazione, lo splicing, etc. Un Binding Site è un sito di legame per composti chimici che da soli non potrebbero costituire in substrato per una reazione. Il composto, che è bound, potrebbe essere un co-
  • 18. Capitolo 2. Introduzione ___________________________________________________ Tesi di laurea di Elisa Bellistri ____________________________________________ 14 fattore necessario per una reazione chimica, essere coinvolto nel trasporto di elettroni o nella modifica della struttura di una proteina. Il legame è reversibile, e gli aminoacidi coinvolti in una reazione di legame devono conservare la specifica del sito di legame per poter essere identificati. Gli Active Sites sono meglio conosciuti come i siti catalitici di un enzima dove un substrato è legato e convertito in un prodotto, di seguito rilasciato. Parti anche distanti tra loro della struttura primaria di una proteina possono essere coinvolte nella formazione di un sito catalitico. 2.4. Stato dell’arte degli strumenti informatici per l’analisi delle annotazioni genomiche Recentemente sono stati sviluppati diversi strumenti software per annotare liste di geni identificati in esperimenti di microarray con informazioni biologiche disponibili in molte banche dati pubbliche eterogenee quali UniGene [UniGene], EntrezGene [EntrezGene], SwissProt [ExPASy], KEGG [KEGG] e OMIM [McKusick, 1998], [Hamosh et al., 2002]. La maggior parte di tali tool fornisce funzioni per annotare liste di geni ma non consente realizzare una “bias analysis” per stabilire quali siano le categorie di annotazioni più rappresentate dai geni di un insieme considerato. In quest’ottica si stanno proponendo alcuni tool per far fronte alla sempre crescente necessità di ottenere indicazioni statistiche di significatività delle varie annotazioni [Cavalieri et al., 2002], ma la quasi totalità di questi tool gestisce esclusivamente le annotazioni della Gene Ontology [Gene Ontology], mentre è molto importante utilizzare anche le annotazioni fornite da altri vocabolari controllati. 2.4.1. GFINDer e altri tool disponibili Gli strumenti bioinformatici disponibili per l’analisi di liste di geni possono essere raggruppati in due grandi categorie: quella dei tool di annotazione, che forniscono un
  • 19. Capitolo 2. Introduzione ___________________________________________________ Tesi di laurea di Elisa Bellistri ____________________________________________ 15 accesso, basato su query, alle annotazioni presenti in banche dati e producono dei risultati tabellari, e quella dei tool di esplorazione, che mostrano le annotazioni in una qualche forma di rappresentazione grafica di alcuni raggruppamenti dei dati. Tool come FatiGO [Al-Shahrour et al., 2004], [FatiGO], GoMiner [Zeeberg e Feng, 2003], [GoMiner], MAPPFinder [Doniger e Salomonis, 2003], [GenMAPP], GOTree Machine [Zhang et al., 2004], [GOTree Machine] e GoSurfer [Zhong e Li, 2003], [GoSurfer] appartengono alla categoria dei tool di esplorazione (prevalentemente di annotazioni della Gene Ontology), mentre ENSMART [ENSMART], GeneLynx [Lenhard et al., 2001], [GeneLynx], MatchMiner [MatchMiner], Resourcerer [Resourcerer], SOURCE [Diehn et al., 2003], [SOURCE] e ChipInfo [Zeeberg e Feng, 2003], [ChipInfo] sono tool di annotazione. Vi sono inoltre alcuni strumenti come DAVID [Glynn e Sherman, 2003], [DAVID], EASE [Douglas et al., 2003] e Onto-Tools [Draghici et al., 2003a], [Onto-Tools] che combinano le caratteristiche di entrambe le categorie. Tali tool permettono all’utente di caricare una lista di geni “interessanti” (lista di foreground), confrontarla con una lista di geni “di riferimento” (lista di background) ed eseguire analisi in base a tale classificazione. Nessuno di questi tool però permette all’utente di caricare liste ne con classificazioni multiple, né tanto meno con un numero arbitrario di classi. Nessuno di essi inoltre consente all’utente di definire proprie macro-categorie che possano racchiudere in sé un gruppo di altre categorie di vocabolari controllati, e nessuno fornisce una visualizzazione riassuntiva delle analisi effettuate. Queste funzionalità sono presenti in GFINDer. Comunque GFINDer, DAVID e Onto-Tools sono gli strumenti più interessanti in quanto hanno funzionalità di analisi e annotazione di geni anche utilizzando altri vocabolari controllati oltre alla GeneOntology (GO) come quelli che descrivono i Pathways biochimici, famigli di domini proteici. DAVID da una valutazione statistica solamente basata sul test esatto di Fisher, che fornisce una buona valutazione generale e richiede poche risorse computazionali. GFINDer e Onto-Tools invece permettono di scegliere diversi test statistici e correggere i risultati da falsi positivi.
  • 20. Capitolo 2. Introduzione ___________________________________________________ Tesi di laurea di Elisa Bellistri ____________________________________________ 16 2.4.1.1. Analisi statistiche Per capire quali sono i termini del vocabolario controllato che si sta esaminando che maggiormente sono riferiti ad alcune classi della lista di geni di un utente (per es. la classe dei geni regolati positivamente rispetto a tutti gli altri) viene svolta un’indagine statistica per stimare con che probabilità sussiste tale legame. Tale probabilità viene stimata in base al numero di geni della classe presenti o non presenti nella categoria espressa da tale termine e confrontandolo con col numero di geni delle altre classi presenti o meno in tale categoria. Esistono molti test statistici, basati su differenti distribuzioni di probabilità, che permettono di stabilire se una categoria è significativamente sovra o sotto-rappresentata in una lista di geni classificati e di assegnare un valore di significatività a tale categoria. Tali test si basano sull’ipotesi nulla H0 che afferma che la categoria in esame non è significativa cioè i geni sono distribuiti casualmente tra la categoria A e il resto delle categorie. L’ipotesi H0 può essere formulata come: 210 : ppH = dove p1 è la proporzione della popolazione di geni della classe 1 appartenenti alla categoria A e viene stimata con 1 x p K = e p2 è la proporzione della popolazione di geni della categoria A tra i geni considerati e risulta 2 M p N = . L’ipotesi H0 indica che la categoria in esame non è significativa, cioè il numero x di geni osservato nella classe 1, appartenenti alla categoria A è uguale a quello atteso da un’estrazione casuale. Per test non direzionali, l’ipotesi alternativa è: 211 : ppH <>
  • 21. Capitolo 2. Introduzione ___________________________________________________ Tesi di laurea di Elisa Bellistri ____________________________________________ 17 ed indica che esiste una differenza significativa nelle proporzioni dei geni, della classe 1 nella categoria A, maggiore o minore di quella attesa da un’estrazione casuale. Più utili sono però i test direzionali, che discriminano tra i due diversi tipi di categorie; avremo così 21: ppH >+ che indica che il numero osservato di geni x è maggiore di quello atteso da un’estrazione casuale E(X) e 21: ppH <! che indica che il numero osservato di geni x è minore di quello atteso da un’estrazione casuale E(X). Per ottenere il risultato di tali test si calcola il p-value per la categoria A in esame che indica la probabilità di ottenere un’estrazione casuale uguale a quella osservata nell’esperimento considerato, supponendo l’ipotesi nulla H0 certa. Quando il p-value è inferiore ad una certa soglia α (tipicamente 5% o 1%) vuol dire che la probabilità che si verifichi l’ipotesi alternativa per caso, cioè che da un’estrazione casuale si ottenga un campione uguale a quello osservato, è notevolmente bassa e quindi si può rifiutare l’ipotesi nulla H0. Pertanto più bassi sono la soglia considerata e il p-value ottenuto, più bassa è la probabilità di rifiutare l’ipotesi nulla quando invece essa è verificata. Come già detto esistono diversi tipi di test, a seconda della distribuzione di probabilità adottata per modellare il caso in esame. Anche se la distribuzione ipergeometrica è la più adatta, a volte si preferisce usarne altre computazionalmente meno costose e che la approssimino in maniera adeguata come la binomiale, la normale o quella di Poisson. Un approccio adeguato alla numerosità del campione in esperimenti di biologia molecolare consiste nell’utilizzare il test del χ 2 per l’uguaglianza delle proporzioni o il test esatto di Fisher [Man et al., 2000].
  • 22. Capitolo 2. Introduzione ___________________________________________________ Tesi di laurea di Elisa Bellistri ____________________________________________ 18 Per applicare tali test è utile rinominare le celle della tabella di contingenza come mostrato in tabella 4.2 dove n12 = x, N1. = K, N.2= M e N.. = N Altre Categorie Categoria A Totale Classe 1 n11 n12 N1. Altre Classi n21 n22 N2. Totale N.1 N.2 N.. Utilizzando questa notazione per effettuare il test del χ2 occorre calcolare la statistica 2.1..2.1 2 .. 21122211.. 2 2 || NNNN N nnnnN ! " # $ % & '' =( e valutare i p-value sulle code della distribuzione χ2 . Ma tale test non può essere applicato a campioni piccoli, in particolare quando le frequenze )/( .... NNNE jiij = risultano minori di 5 [Draghici et al., 2003b], inoltre non permette di distinguere tra categorie sovra e sotto-rappresentate. Il test esatto di Fisher invece è adatto anche per campioni piccoli [Agresti, 1992] e permette di calcolare il p-value distintamente sulle due code della distribuzione. Esso considera fissi i totali di righe e colonne ed usa la distribuzione ipergeometrica per calcolare la probabilità di osservare ogni singola combinazione di tabelle 2x2 per quei dati valori dei totali di righe e colonne. Per ogni tabella Ti tale probabilità viene calcolata come segue: 1. 2. .1 .2 .. 11 12 21 22 ! ! ! ! ! ! ! ! !iT N N N N P N n n n n ! ! ! = ! ! ! ! Tab. 2.1. La tabella di contingenza per il confronto tra categorie e classi di una lista di geni, in diverso formato
  • 23. Capitolo 2. Introduzione ___________________________________________________ Tesi di laurea di Elisa Bellistri ____________________________________________ 19 Consideriamo che le possibili tabelle siano un numero τ. Ognuna delle possibili τ tabelle viene considerata come un componente di una particolare distribuzione discreta di probabilità e per calcolare i p-value destro o sinistro su tale distribuzione si agisce come già visto per le altre distribuzioni discrete di probabilità. Immaginando che la tabella di partenza corrisponda alla tabella Tj otteniamo: sin 0 ( ) i j istra T i p P X x P = = ! = " e ( ) idestra T i j p P X x P ! = = " = #
  • 24. Capitolo 3. Scopo della Tesi ________________________________________________ Tesi di laurea di Elisa Bellistri ____________________________________________ 20 3. Scopo della Tesi Lo sviluppo di tecnologie efficienti per estrarre informazioni utili per catalogare, interpretare e acquisire nuova conoscenza dai dati genomici, disponibili e generati in quantità sempre maggiori, costituisce attualmente l’obiettivo principale del Human Genome Project e di tutti i progetti in ambito genomico ad esso correlati. La grande quantità di dati generata all’interno dei laboratori di biologia molecolare necessita dell’ausilio della bioinformatica per poter procedere in modo automatizzato alla loro gestione, elaborazione e soprattutto analisi e interpretazione. Inoltre, l’estensione della ricerca a livello mondiale richiede la possibilità di accedere agli strumenti bioinformatici in modo remoto e indipendente dalla specifica piattaforma informatica di utilizzo. A tal scopo oggi lo strumento migliore per standardizzazione, diffusione e semplicità di utilizzo è senza dubbio internet, che attraverso gli strumenti web server e DBMS server aiuta l’accesso alle informazioni presenti nelle diverse banche dati genomiche e la loro integrazione ed efficace utilizzo mediante lo sviluppo di interfacce di facile uso. In questo scenario si inserisce lo sviluppo di GFINDer [Masseroli et al., 2004; Masseroli et al., 2005], una applicazione web che aggrega dinamicamente annotazioni funzionali e fenotipiche di liste di geni selezionati dall’utente e consente di effettuarne l’analisi statistica a supporto della loro interpretazione biologica. Per questo scopo GFINDer è organizzato in moduli software indipendenti e interconnessi che sfruttano vari vocabolari controllati di annotazioni genomiche che descrivono funzioni e fenotipi genetici. Obiettivo di questa Tesi è realizzare, all’interno di GFINDer, un nuovo modulo software dedicato all’analisi di regressione logistica di annotazioni genomiche funzionali integrate all’interno dei database di GFINDer. In particolare, sfruttando le annotazioni genomiche di famiglie e domini proteici fornite dalle banche dati Pfam e InterPro, tale modulo deve permettere di analizzare liste di geni classificate, definite dall’utente, per valutare
  • 25. Capitolo 3. Scopo della Tesi ________________________________________________ Tesi di laurea di Elisa Bellistri ____________________________________________ 21 statisticamente quali famiglie o domini dei prodotti proteici di tali geni meglio concorrono a determinare, ovvero spiegare, le classificazioni definite. Per ottenere lo scopo esposto devono essere realizzati i seguenti passi principali: 1. Mediante metodologie di reverse engineering, analisi degli schemi dei database di GFINDer e delle loro relazioni, da un lato con le banche dati considerate che forniscono le annotazioni integrate in tali database, e dall’altro con l’applicazione web di GFINDer. Dato sia il continuo riaggiornarsi delle banche dati da cui GFINDer estrae le annotazioni genomiche, sia lo sviluppo in tempi successivi dei diversi database e moduli di GFINDer, tale analisi è necessaria per poter utilizzare adeguatamente le annotazioni disponibili nei database di GFINDer e proporre una loro migliore organizzazione e più efficiente interrogazione. 2. Creazione di un metodo automatico per l’analisi di regressione logistica di annotazioni geniche funzionali, integrate nei database di GFINDer, che consenta di effettuare anche sia la verifica dei criteri di applicabilità sui dati in ingresso all’algoritmo di analisi utilizzato, con lo scopo di ottimizzarne l’esecuzione, sia la consistenza e validità dei risultati. 3. Implementazione, all’interno di GFINDer, di uno specifico modulo software per la realizzazione via web di analisi di regressione logistica di annotazioni di famiglie e domini proteici di liste di geni classificati selezionate dall’utente; tale modulo deve essere di facile utilizzo e permettere la selezione via web dei vari parametri dell’analisi e la successiva visualizzazione dei risultati ottenuti indipendentemente dal tipo di client web browser utilizzato.
  • 26. Capitolo 4. Materiali e Metodi ____________________________________________ Tesi di laurea di Elisa Bellistri _________________________________________ 22 4. Materiali e Metodi 4.1. Strumenti per la gestione e la condivisione di dati Le moderne tecnologie informatiche mettono a disposizione della comunità scientifica molti strumenti che possono essere utili per gestire dati e informazioni in modo semplice ed efficace e per poterle condividere mediante l’uso delle reti di telecomunicazioni tra i diversi gruppi di ricerca, dislocati in punti geografici anche molto distanti tra loro. I DataBase Management Systems (DBMS) sono gli strumenti più adatti per archiviare, gestire e interrogare efficacemente grandi quantità di dati anche memorizzati su diversi database; mentre i protocolli di rete, quali il TCP/IP, permettono di utilizzare i canali telematici per comunicare dati tra tutti i computer collegati in rete, a prescindere dalla loro specifica architettura hardware e software. Fig. 4.1. Il modello ISO/OSI. Vengono definiti sette strati protocollari per gli strumenti e le applicazioni per la trasmissione di dati sulle reti informatiche. I protocolli di livello superiore (5 e 6 dello standard ISO/OSI) (fig. 4.1) permettono di trasferire le informazioni organizzatere in documenti che sono facilmente
  • 27. Capitolo 4. Materiali e Metodi ____________________________________________ Tesi di laurea di Elisa Bellistri _________________________________________ 23 interpretabili dagli utenti. Ad esempio il protocollo HTTP permette di trasmettere documenti ipertestuali facilmente visualizzabili su qualunque computer dotato di un software di web browsing, quali MS-Explorer, Netscape Navigator, Firefox e molti altri. Da ultimo, le tecnologie server permettono di creare, in maniera automatizzata, documenti ipertestuali utilizzando dati provenienti da database; ciò permette a qualunque utente di accedere a tali informazioni da una semplice interfaccia ipertestuale. Di seguito vengono analizzate più approfonditamente tali tecnologie. 4.1.1. Data Base Management System Nonostante, nel corso dello sviluppo delle tecnologie IT, siano stati proposti diversi modelli di basi di dati, solo due sono sopravvissuti fino ad oggi: il modello relazionale e il modello ad oggetti. Sebbene il modello relazionale risalga agli anni ’70 (T.Codd, 1970 presso l’IBM research di Santa Teresa, California), i database che lo utilizzano sono ancora i più diffusi. Nel modello relazionale, i dati sono organizzati in tabelle, che rappresentano le entità da gestire, che elencano sulle colonne gli attributi propri dell’entità da descrivere e sulle righe le varie istanze dell’entità stessa. Le relazioni tra le varie entità si basano sui collegamenti tra alcuni attributi (chiamati chiavi) caratterizzanti delle entità ed utilizzabili mediante i costrutti dell’algebra relazionale. Dagli anni ’90 si sta lavorando allo sviluppo dei DBMS orientati agli oggetti: gli OODBMS. In questo modello, gli oggetti memorizzati nel database contengono sia i dati sia le operazioni possibili su di essi. I vantaggi dell’approccio Object-Oriented sono dovuti alle ampie possibilità dei linguaggi ad oggetti (con i quali vengono scritti i DB) e alle finalità di progettazione. Tali vantaggi si pagano però a caro prezzo in caso di modifiche, che possono portare a dover riscrivere parecchie linee di codice. Per tali motivi, oltre al costo elevato di tali prodotti, i DB ad oggetti coprono una nicchia di mercato ristretta e relativamente stabile. Per lo strumento software implementato nell’ambito di questa Tesi è stato scelto il DBMS relazionale MySQL, [MySQL]. Tale database è uno dei pochi gratuiti presenti sul mercato e presenti in numerose versioni sia per ambienti Windows che
  • 28. Capitolo 4. Materiali e Metodi ____________________________________________ Tesi di laurea di Elisa Bellistri _________________________________________ 24 Unix/Linux. MySQL viene distribuito con il suo codice sorgente per permettere a chiunque di svilupparne e ampliarne le potenzialità; supporta il linguaggio SQL standard (La versione 5.0.0 supporta SQL99 e ODBC livelli 0-3.51) più un proprio set di comandi. MySQL può gestire diversi database su di uno stesso server e si possono fare interrogazioni su database multipli semplicemente utilizzando la dot-notation come nel seguente esempio nel quale esperimento è una tabella contenuta nel database master e geni è una tabella contenuta nel database webdata: SELECT * FROM master.esperimento, webdata.geni WHERE esperimento.idgene=geni.idgene MySQL è tra l’altro uno dei DBMS più diffusi su cui poggiano molte banche dati genomiche (es. Gene Ontology [Smith et al., 2003]) che forniscono i propri dati in un formato direttamente importabile in tale DBMS. 4.2. Strumenti per la visualizzazione e l’elaborazione dei dati Per sistemi client/server web-based la scelta della tecnologia di presentazione (livello 6 della pila ISO/OSI) (fig. 4.1) ricade obbligatoriamente sull’HTML. L’HyperText Markup Language è un linguaggio costituito dall’insieme di simboli di markup (marcatori, o tag o etichette) che devono essere inseriti in un file di testo in formato ASCII per definire le proprietà di impaginazione e visualizzazione dei dati presenti in ogni pagina. L’HTML è il formato dei dati che consenta lo scambio delle informazioni tramite il protocollo HTTP (HyperText Transfer Protocol) da un web server ad un’applicazione browser. Il linguaggio HTML, oggi giunto alla versione 4.01, è uno standard indipendente dalle piattaforme HW e SW, sviluppato e sostenuto dal consorzio W3C, serve per visualizzare un documento su sistemi eterogenei. Le istruzioni di markup assegnano al contenuto di ogni pagina le informazioni di struttura del documento (es. elenchi puntati, disposizione di immagini, caselle di controllo, di scelta, ecc.), impaginazione e di formattazione del testo (tipi di carattere, stili, ecc.).
  • 29. Capitolo 4. Materiali e Metodi ____________________________________________ Tesi di laurea di Elisa Bellistri _________________________________________ 25 4.2.1. Web server, tecnologie di scripting e pagine web dinamiche Le pagine HTML sono considerate statiche in quanto il testo, le immagini e ogni dato in esse contenuto, una volta scritto, viene visualizzato sempre nello stesso modo, finche non viene modificato il codice sorgente. Le pagine dinamiche vengono invece utilizzate per visualizzare dei contenuti che potrebbero cambiare ogni volta che vengono visualizzate su ogni client in funzione delle scelte dell’utente o di cambiamenti nel tempo delle informazioni visualizzate. Tale tecnologia è molto utile per creare pagine che prendono i propri dati da sorgenti esterne, quali i DBMS. La soluzione sviluppata da Microsoft per creare pagine web dinamiche prende il nome di Active Server Page (ASP). Tali pagine sono costituite da un’insieme di istruzioni che verranno elaborate dal server e da comandi di output per mandare al browser le informazioni richieste. Una pagina ASP è composta sia da tag HTML, che codifica come devono essere impaginate le informazioni, che da parti di codice di programmazione ASP. Il codice ASP esiste solo sul server ed è elaborato completamente da tale macchina, ogni volta che un client fa la richiesta della pagina (fig. 4.2). Il client non può accedere a tale codice, ma riceve solo le informazioni elaborate dal server in formato HTML.
  • 30. Capitolo 4. Materiali e Metodi ____________________________________________ Tesi di laurea di Elisa Bellistri _________________________________________ 26 Il linguaggio ASP non viene compilato da nessun compilatore, ma viene semplicemente interpretato dal web server che lo esegue. Perciò una pagina ASP è un semplice file di testo che contiene al suo interno tag HTML come ad esempio: <a href=”pagina2.asp”>Collegamento alla pagina 2</a> e codice ASP, compreso tra delimitatori <% e %>, come ad esempio: <% Response.Write(“Stringa scritta da ASP”); %> Ciò rende molto semplici e veloci le modifiche, a discapito però della velocità di esecuzione. Fig. 4.2. L’elaborazione di pagine dinamiche utilizzando la tecnologia di scripting
  • 31. Capitolo 4. Materiali e Metodi ____________________________________________ Tesi di laurea di Elisa Bellistri _________________________________________ 27 Il linguaggio ASP è basato su oggetti: alcuni oggetti vengono istanziati dal server e sono sempre disponibili al programmatore: Request : fornisce attributi e metodi per l’acquisizione di dati dal client; Response : fornisce attributi e metodi per inviare le risposte dal server al client; Server : gestisce l’accesso alle informazioni sul server; Session : gestisce variabili che esistono solo per la durata delle sessioni di lavoro degli utenti e sono riferite ad ogni singolo client. Altri oggetti devono essere istanziati dal programmatore, ad esempio l’istruzione var theform = Server.CreateObject("ABCUpload4.XForm"); crea una variabile chiamata theform e le associa un oggetto della classe ABCUpload4; tale classe serve per gestire l’upload di file binari dai client al server e viene fornita da webSupergoo [ABCUpload]. Dopo tale istruzione è possibile richiamare attributi e metodi dell’oggetto theform con l’usuale dot-notation. La tecnologia ASP è proprietaria poiché tale codice può essere solamente interpretato da server IIS di Microsoft, anche se sono stati sviluppati interpreti per altri web server (es. Apache).
  • 32. Capitolo 4. Materiali e Metodi ____________________________________________ Tesi di laurea di Elisa Bellistri _________________________________________ 28 4.3. Strumenti per l’analisi e la visualizzazione dello schema una base di dati Il Reverse Engineering è un insieme di tecniche e di strumenti che consentono di analizzare il software esistente e derivarne in automatico la documentazione, solitamente mancante in seguito ad uno sviluppo non organizzato. In particolare, a riguardo della componente dati di un sistema, è possibile, tramite il reverse engineering, derivare le strutture concettuali dei dati a partire dal DDL o copy di tracciati record di archivi esistenti. Ciò consente di fornire una rappresentazione concettuale delle informazioni del sistema esistente, che può essere utilizzata come base di partenza per la ri- progettazione (re-engineering) Su una base di dati relazionale non documentata, ottenere uno schema concettuale dei dati permette di: • capire il significato delle informazioni • poter effettuare agevolmente la manutenzione della base dati • evidenziare eventuali criticità rilevate sul modello • individuare interventi di miglioramento, analizzando l’impatto su quanto già realizzato. Le attività da eseguire sono le seguenti: • analisi del DDL • derivazione dal DDL dello schema logico finale • produzione dello schema concettuale Alcune attività possono essere effettuate in modo meccanico con il supporto di un tool adeguato: è possibile ad esempio derivare in modo automatico dal DDL uno schema logico-fisico dei dati Nell’ambito di questa Tesi, gli strumenti utilizzati sia per l’analisi automatica del DDL che per la stesura del modello riorganizzato, sono stati Microsoft Visio® e FabForce DBDesigner 4.0.
  • 33. Capitolo 4. Materiali e Metodi ____________________________________________ Tesi di laurea di Elisa Bellistri _________________________________________ 29 4.3.1. Microsoft Office Visio® Microsoft Office Visio ® è un software di progettazione di diagrammi che consente di visualizzare, sia con una grafica vettoriale sia con attributi impliciti implementati tra le varie entità, le relazioni tra le informazioni. È stata utilizzata la versione Visio® 2003 con le funzionalità di connessione al database per importare direttamente dal DB schema la struttura e gli attributi delle varie tabelle (fig. 4.3 e 4.4), mentre sono stati ricostruiti mediamente Reverse Engineering le relazioni tra le tabelle. All’interno del foglio di lavoro, le tabelle direttamente importate dal DB sono visualizzate con il nome della tabella e l’elenco dei campi presenti, indicando con la sigla PK le chiavi primarie e con la codifica In (dove n è un numero progressivo) i vari campi utilizzati come indice. Fig. 4.3. Interfaccia di Visio® per la scelta del driver di connessione al database
  • 34. Capitolo 4. Materiali e Metodi ____________________________________________ Tesi di laurea di Elisa Bellistri _________________________________________ 30 Fig. 4.4. Scelta del tipo di oggetto da decodificare attraverso l’analisi del DDL. Lo strumento relazione permette di collegare tra loro due tabelle, esplicitando la relazione tra i campi correlati secondo una gerarchia padre/figlio. Vedi Fig. 4.5. Lo strumento connettore dinamico mette semplicemente in relazione due tabelle e non permette informazioni aggiuntive implicite. É però possibile abbinare una etichetta, dove è stata esplicitata la relazione tra i campi delle due tabelle e anche la cardinalità. Fig. 4.5. Le relazioni tra i campi di due diverse tabelle.
  • 35. Capitolo 4. Materiali e Metodi ____________________________________________ Tesi di laurea di Elisa Bellistri _________________________________________ 31 4.3.2. fabForce DBDesigner 4.0 DBDesigner 4.0 è un tool disponibile con licenza GNU/GPL che permette la visualizzazione delle meta-informazioni contenute in un database. [fabForce] I modelli creati sono salvati su un file di tipo XML che consente un facile accesso anche da postazioni diverse tra loro. Fig. 4.6. Interfaccia in fabForce DB Designer di connessione al database.
  • 36. Capitolo 4. Materiali e Metodi ____________________________________________ Tesi di laurea di Elisa Bellistri _________________________________________ 32 Tra le principali funzionalità utilizzate c’è la possibilità di creare (o importare direttamente dal DB schema) tabelle, specificandone gli attributi, definire le relazioni tra le tabelle (1:1, 1:1 generalizzato, 1:n, 1:n non identificativo, n:m), ed in più definire note (Notes), immagini (Images), o creazione di regioni (Regions) che permettono di spiegare meglio la struttura del database. Per quanto concerne invece la possibilità di analisi automatizzata della struttura di un database già esistente, DBDesigner si connette al DB attraverso un modulo ODBC, riservando tuttavia alcune specifiche funzionalità ai DB MySQL, come è ad esempio l’insieme dei DB su cui lavora GFINDer. Come mostrato in fig. 4.6 la finestra di dialogo che appare al momento della connessione ad un DB permette di definire alcuni parametri del processo di Reverse Engineering, tra le principali la possibilità di definire la struttura attraverso il DDL specifico di MySQL e la costruzione della relazioni tra le tabelle secondo gli indici primari definiti o dedotte dai nomi delle tabelle e dei campi. DBDesigner può connettersi a versioni diverse di MySQL, dalle versioni successive alla 4.x tuttavia è stato introdotto un nuovo protocollo di gestione della password che DBD4 non riesce a utilizzare. Per ovviare al problema è sufficiente creare un utente ad hoc in MySQL e assegnare a questo una codifica della password compatibile con le versioni precedenti mediante l’istruzione mysql> UPDATE mysql.user SET Password = OLD_PASSWORD('newpwd') -> WHERE Host = 'some_host' AND User = 'some_user'; mysql> FLUSH PRIVILEGES;
  • 37. Capitolo 4. Materiali e Metodi ____________________________________________ Tesi di laurea di Elisa Bellistri _________________________________________ 33 4.4. Analisi statistica Per esaminare e interpretare meglio la rilevanza delle annotazioni biologiche di gruppi di geni è molto utile utilizzare un approccio statistico che fornisca descrizioni e analisi quantitative di tali annotazioni. Quando i geni o le sequenze nucleotidiche, appartengono ad un set predefinito o sono suddivisi in classi, per valutare la significatività statistica di specifiche categorie di annotazioni fornite dai vocabolari controllati in ogni gruppo di geni considerato, è possibile valutare le loro quantità, frequenze, distribuzioni e probabilità di occorrenza. 4.4.1 Classificazione e categorizzazione di geni Identificare categorie di annotazione – cioè termini dei vocabolari controllati – che comprendano un numero significativo di geni di un determinato insieme di interesse, permette di focalizzarsi su quelle aree biologiche più importanti per l’insieme di geni considerato. Per identificare le categorie più significative bisogna comparare la distribuzione dei geni presenti nell’insieme di partenza in ogni categoria con quelli nell’insieme di riferimento. Un insieme di riferimento di geni può essere costituito da tutti i geni di un genoma o da un altro gruppo, quale ad esempio può essere la totalità dei geni presenti su un vetrino in un esperimento di microarray. Nella terminologia usata in biologia l’insieme di riferimento viene spesso chiamato ”lista di background” ed indica la totalità dei geni da considerare, mentre l’insieme di partenza viene chiamato “lista di foreground” ed indica un sotto-insieme del background che comprende i geni che risultano espressi – cioè regolati positivamente o negativamente – nell’esperimento di microarray. La distinzione tra lista di background e lista di foreground porta naturalmente ad una classificazione dei geni in questione, ad esempio possiamo dire che i geni appartenenti alla lista di foreground appartengono alla classe “1”, mentre tutti gli altri geni del background che non compaiono nella lista di foreground – cioè i geni non espressi nell’esperimento – apparterranno alla classe “0”. Esistono ovviamente infinite possibilità di classificare i geni appartenenti ad una lista: un esempio più sofisticato può discriminare tra geni espressi regolati positivamente, che indicheremo con classe “+1”, e regolati
  • 38. Capitolo 4. Materiali e Metodi ____________________________________________ Tesi di laurea di Elisa Bellistri _________________________________________ 34 negativamente, indicati con classe “-1”, mentre la classe “0” mantiene il medesimo significato. Altri metodi di classificazione possono assegnare classi diverse a geni provenienti da esperimenti diversi o ai geni dello stesso esperimento ma ripetuto in istanti temporali differenti, ecc. Il passo successivo della fase di caricamento consiste nello specificare un nome per la lista caricata (solo per gli utenti registrati) e selezionare quali colonne di classificazione salvare e con quale nome. È possibile specificare per ogni colonna se essa contiene valori di classificazione (in base a cui poter eseguire analisi) o semplici descrizioni dei geni (fig. 4.7). Fig. 4.7. La scelta delle colonne di classificazione
  • 39. Capitolo 4. Materiali e Metodi ____________________________________________ Tesi di laurea di Elisa Bellistri _________________________________________ 35 4.4.2. Regressione logistica La Regressione Logistica è una variante della regressione tradizionale (lineare, nnii22110 xb...xb...xbxbby ++++++= ) che predice la probabilità (p) dell’occorrenza del manifestarsi di un evento (y) come funzione di un certo numero di variabili indipendenti (xi). Viene utilizzata quando la variabile dipendente è binaria, ad esempio indica la presenza o l’assenza di una determinata caratteristica in un soggetto, e le variabili da cui dipende sono sia discrete che continue. Il risultato segue una curva ad S usando una funzione non lineare: !! " # $$ % & + = y y e1 e p che produce p-values tra 0 (quando y tende a meno infinito) e 1 (quando y tende a più infinito). In generale in medicina la regressione logistica è utlizzata per stimare la probabilità che un individuo, con alcune caratteristiche o sintomi che predicono il manifestarsi di una malattia, manifesti effettivamente la malattia. In questo esempio vengono anche identificati quali sono i sintomi o le caratteristiche più significativi per il manifestarsi della malattia. In medicina biomolecolare può essere utilizzato un approccio analogo per identificare quali caratteristiche funzionali rappresentano meglio la classificazione binaria di un set di geni. Per gli scopi implementativi all’interno di GFINDer viene considerata la corrispondente equazione non lineare, chiamata logit(p): logit(p)= nnii22110 xb...xb...xbxbby p1 p ln ++++++==!! " # $$ % & ' dove p è la proporzione dei geni classificati considerati tra le due classi di valutazione; xi sono le proporzioni dei geni considerati nelle due classi di valutazione che presentano la caratteristica i; bi (con i compreso tra 1 e n) sono i coefficienti di regressione per la caratteristica i; b0 è l’intercetta, o termine costante, della
  • 40. Capitolo 4. Materiali e Metodi ____________________________________________ Tesi di laurea di Elisa Bellistri _________________________________________ 36 regressione. Il valore assoluto di ciascun coefficiente bi indica l’importanza del contributo della corrispondente caratteristica i nel classificazione di geni considerata. Fig. 4.8. Esempi di curve di regressione logistica per valori diversi dei parametri delle variabili e dell’intercetta. 4.4.3. Algoritmo di verosimiglianza Al fine di risolvere una equazione non linerare, è stato utilizzato un metodo iterativo il cui scopo è minimizzare la funzione di verosimiglianza in forma logaritmica. Per spiegare cosa rappresenti questa funzione è utile riferirsi ad un esempio. [Lagona] Supponiamo di avere un campione osservato (ad esempio un set di geni classificati in due classi distinte). Il campione sarà rappresentato in forma compatta da )0,0,0,1,0,0,1,0,1,0(x0 =
  • 41. Capitolo 4. Materiali e Metodi ____________________________________________ Tesi di laurea di Elisa Bellistri _________________________________________ 37 La probabilità che si verifichi ciò che è stato effettivamente osservato è 73 0 )1()x(p !! "= che vista come una funzione di θ, si tratta di una funzione positiva con un unico punto di massimo in corrispondenza di 0,3. Il fatto che tale funzione non si annulli mai in (0,1) indica che sulla base della sequenza osservata, nessun valore di θ può essere a priori escluso. Tuttavia esistono dei valori che rendono la probabilità di riscontrare la sequenza osservata estremamente bassa, e altri (nell’intorno di 0,3) estremamente alta. Questi valori sono detti “più verosimili”. La funzione θ ottenuta considerando le probabilità di osservare i dati effettivamente osservati si chiama allora funzione di verosimiglianza, che attribuisce un peso a ogni valore di θ in funzione delle osservazioni. In un campine di T osservazioni la funzione diventa xTTxT )1()(L ! != """ Passando poi ai logaritmi la funzione diventa )1log()xTT(logxT)(l !!! ""+= definita quindi come la somma dei logaritmi delle probabilità predette che appartengono alla prima delle due classi valutate per quei geni considerati che appartengono alla classe, e i logaritmi delle probabilità predette dei geni che appartengono alla seconda classe. La minimizzazione è ottenuta attraverso il metodo di Newton, con un’eliminazione degli algoritmi per invertire e risolvere simultaneamente le equazioni. Non è stata utilizzata nessuna tecnica di accelerazione della convergenza. Il modello nullo è utilizzato come ipotesi iniziale per le iterazioni, ad esempio che tutti i coefficienti bi siano zero e che l’intercetta b0 sia il logaritmo del rapporto tra il numero di geni considerati appartenenti alla prima classe di valutazioni e il numero di geni appartenenti alla seconda classe di valutazione. All’interno dell’implementazione di regressione logistica vengono anche calcolati gli odds ratio associati ad ogni variabile xi e l’intervallo di confidenza al 95%. Gli odds
  • 42. Capitolo 4. Materiali e Metodi ____________________________________________ Tesi di laurea di Elisa Bellistri _________________________________________ 38 di un evento sono definiti come la probabilità che l’evento si verifichi rapportato alla probabilità che l’evento non si verifichi. Gli odds ratio per una variabile xi sono quindi il rapporto tra la probabilità che la categoria in esame (variabili indipendenti nel modello realizzato) sia significativa per l’appartenenza ad una classe e la probabilità (1-p) complementare. 4.4.4. Parametri di valutazione Per verificare la robustezza dei coefficienti ottenuti, sono stati usati tre test specifici per una classificazione binaria: il test di precision, di specificity e di sensitivity. Ciascuno di questi test si basa su una tabella 2x2, costruita affiancando il numero di casi reali, ciascuno calcolato nella classe di appartenenza, al numero di casi attesi ricalcolando la variabile dipendente con i coefficienti di regressione logistica ottenuti. Casi reali TP FP Casi calcolati FN TN I casi reali positivi che coincidono con i casi positivi calcolati, vanno a comporre il numero dei True Positive (TP), per analogia con la terminologia medica. In maniera analoga si calcola il numero dei True Negative (TN), False Positive (FP) e False Negative (FN). Una volta definiti questi quattro parametri, i test statistici vengono definiti come segue. • Precision (P): è il rapporto tra il numero di dati corretti con regolazione positiva e il numero totale di dati corretti. Utilizzando le sigle precedentemente definite, in forma matematica diventa P=TP/(TP+TN)
  • 43. Capitolo 4. Materiali e Metodi ____________________________________________ Tesi di laurea di Elisa Bellistri _________________________________________ 39 • Specificity (S): è la misura statistica di quanto un test su una classificazione binaria identifichi correttamente il numero di casi negativi. Dato quindi una classificazione con un numero di geni regolati negativamente, e ricalcolando le varibili dipendenti con i coefficienti di r.l., la Specificity produce un indice della proporzione tra il numero di geni calcolati negativi e il numero di quanti hanno effettivamente regolazione negativa. In formula: S=FP/(FP+FN) • Sensitivity (S): detto anche recall test, è la misura statistica di quanto il test in esame identifichi correttamente la condizione. R=TP/(TP+FN)
  • 44. Capitolo 5. Risultati Progettuali e Discussione________________________________ Tesi di laurea di Elisa Bellistri _________________________________________ 40 5. Risultati progettuali e Discussione 5.1. Analisi della struttura dei database di GFINDer La struttura del DBMS di GFINDer è costituita da 3 diverse basi di dati (più una per Interpro) collegate tra loro sia in fase di esecuzione della procedura Java, che in fase di interrogazione da parte del server web. Lo sviluppo in tempi successivi di ciascuna delle basi di dati, e il continuo evolversi delle banche dati genomiche da cui i dati originano, ha portato ad una struttura in parte disorganizzata e senza una relativa documentazione di supporto. Attraverso un processo di Reverse Engineering è stata acquisita la struttura complessiva, che si sviluppa attraverso i livelli di seguito descritti. 1. Livello di acquisizione dei dati: gestito dalla procedura Java, che scarica i dati messi a disposizione dalla diverse banche dati genomiche attraverso server FTP 2. Livello di pre-elaborazione dei dati genomici: vengono create tabelle di riepilogo e confronto delle diverse sequenze genomiche e delle relative annotazioni 3. Livello di gestione dell’elaborazione dei dati da parte del webserver 4. Livello di amministrazione del sistema Il DBMS si trova quindi a livello intermedio tra l’acquisizione e la pre-elaborazione dei dati, e la gestione di questi ultimi da parte dell’utente attraverso l’interfaccia web. Di seguito invece vengono descritte nel dettaglio la struttura delle quattro diverse basi di dati analizzate singolarmente.
  • 45. Capitolo 5. Risultati Progettuali e Discussione________________________________ Tesi di laurea di Elisa Bellistri _________________________________________ 41 5.1.1. DB master Il database master rappresenta il livello di amministrazione del sistema e di gestione dell’elaborazione lato webserver. Le tabelle di cui è composto possono essere suddivise in cinque diverse aree tematiche, come illustrato nella figura 5.2 e in tabella 5.1. Comprende inoltre le tabelle temporanee che vengono create in fase di elaborazione da parte dei moduli di annotazione e di analisi statistica. Fig. 5.2. Lo schema complessivo del database master con le pagine web che lo utilizzano. MANAGEMENT UTENTE MANGEMENT ACCESSI MANAGEMENT ESPERIMENTI MANAGEMENT RISULTATI MANAGEMENT INTERFACCIA MULTIDB UTENTE CATEGORIEUTENT E UTENTICONNESSI ACCESSI IP2NOME ESPERIMENTO COMBINAZCOLONNE ESPUTENTI RISULTATIFISHER RISULTATISALVAT I TEXT_OUTPUT IMPOSTAZIONI PARAMETRI SPECIES TIPICOLONNE Tab. 5.1: Le cinque categorie di gestione implementate dal DB master
  • 46. Capitolo 5. Risultati Progettuali e Discussione________________________________ Tesi di laurea di Elisa Bellistri _________________________________________ 42 5.1.3. DB mygo A differenza degli altri databases di GFINDer il DB mygo viene importato direttamente dalla Gene Ontology [GO] in quanto disponibile come dump di MySQL. Dal sito della Gene Ontology è anche possibile reperire una documentazione della schema del database, riportata in figura 5.3. Lo scopo del progetto della GO è quello di fornire dei vocabolari controllati che descrivano i prodotti genetici in funzione di come sono associati ai processi biologici (biological process), ai componenti cellulari (cellular components) e alle funzioni molecolari (molecular functions) in termini indipendenti dalla specie di appartenenza. Figura 5.3. Lo schema del DB mygo fornito dalla Gene Ontology La struttura di questi vocabolari controllati è tale che può essere interrogata a vari livelli e può fornire vari livelli di informazione a seconda del grado di conoscenza che si ha su una determinata entità.
  • 47. Capitolo 5. Risultati Progettuali e Discussione________________________________ Tesi di laurea di Elisa Bellistri _________________________________________ 43 Anche per queste ragioni, l’utilizzo del DB fornito dalla Gene Ontology non è completo da parte di GFINDer, ma solo alcune delle tabelle a disposizione sono effettivamente riutilizzate nel DB mygo. In figura 5.4 si ha una panoramica di quali tabelle siano utilizzate e con quali relazioni. Al momento della creazione del DB all’interno di mygo, la procedura updater.java si occupa inoltre di creare alcune tabelle ex-novo per tracciare informazioni di riepilogo utilizzate successivamente dai moduli di GFINDer. Nello specifico queste sono la tabelle livelli_ontologie e le tabelle go_summary_termperlevels e go_summary_totals (che vengono però salvate nel DB webdata, costituendo un archivio storico delle elaborazioni compiute dal livello di raccolta dei dati). Figura 5.4. Schema completo del database mygo.
  • 48. Capitolo 5. Risultati Progettuali e Discussione________________________________ Tesi di laurea di Elisa Bellistri _________________________________________ 44 Figura 5.5. Schema del database mygo relativo alle sole tabelle in uso in GFINDer, le relazioni tra le tabelle e le pagine lato web server che accedono al database.
  • 49. Capitolo 5. Risultati Progettuali e Discussione________________________________ Tesi di laurea di Elisa Bellistri _________________________________________ 45 5.1.4. DB Interpro Il database Interpro viene scaricato e importato in GFINDer attraverso la versione messa a disposizione dalla EBI-EMBL Fig. 5.5. Schema complessivo del DB InterPro
  • 50. Capitolo 5. Risultati Progettuali e Discussione________________________________ Tesi di laurea di Elisa Bellistri _________________________________________ 46 Il database, che costituisce l’aggregazione di diverse banche dati di annotazioni funzionali di domini proteici, mantiene una struttura analoga anche all’interno di GFINDer. Lo schema è rappresentato in figura 5.5. Tra le modifiche effettuate in fase di importazione dei dati, di particolare interesse è quella realizzata sulla tabella entry, dove il singolo record viene arricchito delle informazioni tree, level, depth_order e parent, relative alla struttura gerarchica dei domini proteici che è implementata da Interpro. 5.1.2. DB webdata Il DB webdata contiene le informazioni di tutti gli altri vocabolari controllati utilizzati nel sistema, le annotazioni dei geni e le associazioni tra codici di sequenze nucleotidiche e termini della Gene Ontology e dei diversi vocabolari scaricati. In figura 5.6 infine viene riproposta la struttura complessiva di webdata, mettendo in evidenza il flusso di elaborazione dei dati, dalle tabelle importate direttamente dai server FTP pubblici a quelle utilizzate dal lato dell’applicativo web, con l’indicazione delle pagine HTML in cui la porzione di database in esame viene utilizzata. La sua struttura complessiva può essere schematizzata in alcuni blocchi principali: 1. tabelle in cui vengono allocate le annotazioni e i codici di corrispondenza di geni e sequenze nucleotidiche. Questi dati vengono scaricati dai server FTP corrispondenti, in formato testuale, e attraverso un parsing gestito da una procedura in JAVA vengono riorganizzati in tabelle. 2. tabelle di annotazioni cliniche e fenotipiche di OMIM, scaricate e riorganizzate in tabelle con una procedura simile a quella dei dati di EntrezGene e di altre banche dati. 3. tabelle di corrispondenza con i DB mygo e interpro 4. tabelle create in modo dinamico dalla procedura updater.java per riorganizzare i dati disponibili e renderli accessibili al webserver per successive interrogazioni Nello specifico delle tabelle contenenti annotazioni importate da diverse banche dati, si possono distinguere alcune aree di provenienza dei dati.
  • 51. Capitolo 5. Risultati Progettuali e Discussione________________________________ Tesi di laurea di Elisa Bellistri _________________________________________ 47 In dettaglio: • Entrez Gene, da cui sono importati i dati contenuti nelle tabelle gene_info, gene2accession, gene2go, gene2pfam, gene2pubmed, gene2refseq, gene2sts, gene2unigene, mim2gene. • KEGG, annotazioni relative ai pathway biochimici , contenuti nella tabella loc2kegg. • SwissProt, annotazioni di famiglie e domini proteici, utilizzata per la creazione delle tabelle spkeywords, spincludes, spcontains, spac, sp2pfam, sp2interpro, secondo lo schema illustrato in figura 5.9. • Affymetrix, i cui dati sono scaricati nella tabella affy, affychips e loc2affy • EBI, banca dati proteomica, da cui sono scaricati i dati delle tabelle pfam2go, ec2go e ug2sp. • HomoloGene, banca dati di annotazioni relative alle omologie tra le diverse specie, contenute nella tabella omologie • OMIM, catalogo di geni e di disordini genetici umani, da cui originano i dati contenuti nelle tabelle schematizzate in figura 5.10 e 5.11. Da queste tabelle poi la procedura realizza due tabelle principali, a disposizione dei moduli di analisi di GFINDer, che sono la tabella geni e la tabella ontologie. Le relazioni tra queste ultime due tabelle e le restanti tabelle di webdata utilizzate nella costruzione sono rappresentate nelle figure 5.7 e 5.8.
  • 52. Capitolo 5. Risultati Progettuali e Discussione________________________________ Tesi di laurea di Elisa Bellistri _________________________________________ 48 Fig. 5.6. Lo schema completo del database webdata. Sono indicati in azzurro scuro le tabelle direttamente importate dalle banche dati pubbliche attraverso parsing dei file testuali contenuti sui server FTP, e i server FTP corrispondenti. In verde la porzione di database scaricata da OMIM, in giallo le tabelle go_summary_termperlevel e go_summary_totals che vengono costruite dall’analisi delle tabelle della Gene Ontology, e infine in rosso le due tabelle di destinazione dell’elaborazione sviluppata dal modulo updater.java, riutilizzate poi dai moduli web di GFINDer.
  • 53. Capitolo 5. Risultati Progettuali e Discussione________________________________ Tesi di laurea di Elisa Bellistri _________________________________________ 49 Fig. 5.7. La creazione della tabella geni in webdata.
  • 54. Capitolo 5. Risultati Progettuali e Discussione________________________________ Tesi di laurea di Elisa Bellistri _________________________________________ 50 Fig. 5.8. Schema della costruzione della tabella ontologie in webdata. Le tabelle colorate in rosso vengono utilizzate separatamente ad ogni iterazione dell’algoritmo di costruzione della tabella ontologie. Le tabelle “term” e “pathcodecompositi” sono contenute nel database mygo e rappresentano quindi l’interazione tra i due database.
  • 55. Capitolo 5. Risultati Progettuali e Discussione________________________________ Tesi di laurea di Elisa Bellistri _________________________________________ 51 Fig. 5.9. Le tabelle di webdata che originano da Swissprot, con la notazione di Martin/Odell per indicare la cardinalità tra le relazioni. Fig. 5.10. Localizzazione dei fenotipi scaricati da OMIM. Le annotazioni per la costruzione di queste tabelle sono scaricate dal file morbidmap presente sul server FTP di OMIM.
  • 56. Capitolo 5. Risultati Progettuali e Discussione________________________________ Tesi di laurea di Elisa Bellistri _________________________________________ 52 Fig. 5.11. Annotazioni cliniche scaricate da OMIM con le indicazioni dei fenotipi. Nel parsing del file omim.txt vengono evidenziati e catalogati i termini sinonimi. La tabella cs2 costituisce una copia dei dati, per conservarne la struttura originaria importata dalla banca dati.
  • 57. Capitolo 5. Risultati Progettuali e Discussione________________________________ Tesi di laurea di Elisa Bellistri _________________________________________ 53 5.2. Elaborazione dei dati 5.2.1. Creazione della matrice per l’analisi dei dati L’analisi di regressione logistica è stata implementata inizialmente sulle annotazioni genomiche realizzate sui domini proteici. Utilizzando i databases di GFINDer è possibile disporre di un set di dati estratto tramite una lista di geni caricata dall’utente. Facendo riferimento a quanto descritto nella sezione Materiali e Metodi, l’analisi statistica implementata serve a stabilire dei valori di significatività alle variabili indipendenti, che nel nostro caso sono i domini proteici, a fronte del valore di regolazione dei geni corrispondenti, che in termini matematici corrispondono alle variabili dipendenti. Fig. 5.12. Estrazione dei dati di Interpro per la costruzione della matrice di analisi di regressione logistica. Tuttavia è necessario riorganizzare i dati estratti in una forma matriciale adeguata all’analisi. In figura 5.12 è rappresentata la porzione di database utilizzata per l’estrazione dei dati, mentre in figura 5.13 il risultato di una query e l’aspetto sequenziale dei dati.
  • 58. Capitolo 5. Risultati Progettuali e Discussione________________________________ Tesi di laurea di Elisa Bellistri _________________________________________ 54 Come si vede in figura, ad ogni gene estratto è associato uno o più domini proteici, e viceversa lo stesso dominio proteico può essere associato contemporaneamente a geni diversi. I dati vengono quindi riorganizzati come se disposti su un piano cartesiano, dove l’asse delle ascisse rappresenta i vari domini proteici e sulle ordinate i diversi geni, ciascuno rappresentato con il proprio valore di regolazione. Nei punti di intersezione tra un gene ed un dominio proteico vi sarà un valore 1 se c’è corrispondenza, un valore 0 nel caso in cui non via nessun gene abbinato a quella categoria. Fig. 5.13. Come appaiono nell’interfaccia del MySQL browser i dati estratti dalla query. In questo tipo di rappresentazione, l’aspetto della matrice sarà esclusivamente binario, sia come variabili indipendenti, sia come valori di regolazione dei geni. Utilizzando le annotazioni presenti sui domini proteici, e attraverso un’opzione implementata nell’interfaccia web descritta più avanti, è possibile visualizzare una matrice di dati alternativa utilizzando i geni e le categorie del medesimo esperimento. In questo visualizzazione alternativa, la corrispondenza tra un gene e un dominio proteico non è identificata solo dal valore binario 0/1, ma da un valore discreto compreso tra 1 e N detto match count. Un match count rappresenta il conteggio di
  • 59. Capitolo 5. Risultati Progettuali e Discussione________________________________ Tesi di laurea di Elisa Bellistri _________________________________________ 55 quante sequenze nucleotiche diverse (esoni trascritti dal codice genetico) codificano per quello stesso dominio proteico. Utilizzando i valori di match count si aggiunge ulteriore informazione sul legame tra un gene e una categoria, più alto è il valore matchn, più elevato sarà il peso statistico della corrispondenza tra le due variabili. A livello implementativo, la matrice viene costruita in linguaggio ASP attraverso cicli while successivi. In una prima istanza, conoscendo a priori il numero di geni e di categorie in quella specifica elaborazione, viene allocato in memoria temporanea lo spazio necessario tramite la creazione di array e array di array (il linguaggio ASP 2.0 non supporta un tipo di variabile bidimensionale). In una seconda istanza, viene considerato un gene per volta (righe della matrice) e aggiornato il valore di corrispondenza con la categoria di volta in volta considerata (colonne della matrice). Nella stessa iterazione è anche aggiornato il valore di regolazione del gene. Al termine dei cicli appena descritti tutti i valori sono caricati in una variabile di sessione di tipo dinamico. Sfruttando l’intercomunicabilità tra ASP e JavaScript, questi valori sono passati ad un algoritmo JavaScript che si occuperà di rielaborarli. Benché JavaScript sia un linguaggio di scripting comunemente usato per elaborazioni lato client, in questa procedura l’elaborazione risiede sul server e i risultati vengono caricati in un tabella temporanea, successivamente estratti e visualizzati infine sul client. Questa scelta, apparentemente costosa in termini di risorse, permette invece di evitare l’allocamento di una ulteriore variabile di sessione per i risultati, che verrebbe ad avere le stesse dimensioni della matrice dei dati in ingresso. Potendo inoltre disporre dei risultati in una tabella di MySQL, il sistema è flessibile ad ulteriori elaborazioni che non siano solo la visualizzazione degli stessi nel modulo web (vedi §4.4.4. Parametri di valutazione). I dati così estratti tuttavia non vengono immediatamente utilizzati per l’elaborazione, ma vengono eseguiti due controlli di consistenza a priori. Il primo è il calcolo del numero di eventi per variabile (Events Per Variable, EPV). Si suppone infatti che i metodi di analisi multivariata producano risultati problematici se il numero di eventi in uscita è troppo basso rispetto al numero di variabili indipendenti analizzate nel modello. [Peduzzi et al., 1996]
  • 60. Capitolo 5. Risultati Progettuali e Discussione________________________________ Tesi di laurea di Elisa Bellistri _________________________________________ 56 Per questo si sono stabilite delle linee guida generali per il numero minimo di variabili per evento, definendo i seguenti range di valori [Harrel et al., 1985] EPV < 2 analisi non accettabile EPV < 5 analisi eseguita ma valori attesi non attendibili 5 < EPV < 10 valori appena accettabili 10 < EPV < 20 valori di regressione attendibili EPV > 20 valori migliori Il secondo controllo viene fatto sulla corrispondenza tra i valori delle variabili in ingresso e i valori in uscita di regolazione dei geni, per escludere le categorie che si comportano come perfect predictor o semiperfect predictor. Un perfect predictor è una variabile che manifesta sempre lo stesso valore (o lo stesso intervallo di valori) in corrispondenza di uscite uguali. Analogamente, il semiperfect predictor è caratterizzato da una proprietà simile ma solo in corrispondenza di una delle due uscite. I domini proteici che risultano appartenere ad uno di questi due gruppi vengono annotati a parte non inclusi nell’elelaborazione per il calcolo dei coefficienti di regressione logistica. Questo controllo e’ immediato nel caso di analisi univariata, mentre, come descritto più avanti, risulta più complesso nel caso di analisi multivariata. 5.2.2. Analisi univariata L’analisi univariata viene utilizzata per valutare ogni variabile in un data set, presa singolarmente. Serve a valutare l’intervallo dei valori assunti dalla variabile, così come la tendenza principali dei valori. Descrive inoltre il pattern di risposta della variabile, considerando ciascuna variabile indipendente dalle altre. Nel caso dell’analisi di regressione logistica, l’equazione descritta in §4.4.2 viene utilizzata nella sua forma unidimensionale, mentre la matrice dei dati in ingresso si riduce ad un singolo array corrispondente ad una singola categoria (dominio proteico).
  • 61. Capitolo 5. Risultati Progettuali e Discussione________________________________ Tesi di laurea di Elisa Bellistri _________________________________________ 57 I singoli risultati vengono archiviati in una tabella temporanea e visualizzati per avere una prima stima della correlazione tra geni e categorie. Un esempio di risultato di analisi univariata è quello mostrato in figura 5.14. 5.2.3. Analisi multivariata Per valutare non solo le caratteristiche della singola variabile in relazione al set di geni considerato, ma anche l’interazione tra le varibili, è necessario procedere ad un’analisi multivariata. In questo caso l’equazione avrà un numero di variabili indipendenti pari al numero di categorie estratte, e coefficienti calcolati dall’algoritmo vengono ad ogni iterazione aggiornati per tenere conto della suddetta interazione. Utilizzando l’algoritmo di massima verosimiglianza ci si scontra però con la crescente complessità del problema dei perfect o semiperfect predictor. Nel caso dell’analisi multivariata infatti il completo fittaggio tra le variabili in ingresso e quello in uscita può essere dovuto non solo alla relazione biunivoca tra una categoria e il set di geni, ma anche all’interazione tra più categorie. Nessuna delle variabili di per sé sarebbe un perfect predictor, ma un sottoinsieme di esse calcolate simultaneamente può formare un pattern nello spazio n-dimensionale che divide lo spazio in due regioni, una con uscita sempre 1 e l’altra con uscita sempre 0 (Fig. Fig. 5.14: Risultati di una elaborazione tramite analisi univariata come appaiono nell’interfaccia web di GFINDer.
  • 62. Capitolo 5. Risultati Progettuali e Discussione________________________________ Tesi di laurea di Elisa Bellistri _________________________________________ 58 5.15). In questa situazione il modello di regressione logistica non è adeguato al tipo di dato, poiché la relazione è rappresentata da una funzione gradino, e non dalla curva a S del modello di regressione logistica. Questo porta l’algoritmo di massima verosimiglianza a non convergere e di conseguenza ad un overflow dell’elaborazione. Al livello di sviluppo attuale dell’applicazione non viene fatto un controllo sull’interazione tra le variabili, come avviene nel caso dell’analisi univariata, ma un controllo a posteriori durante l’esecuzione dell’algoritmo. Nel caso in cui l’algoritmo non converga, l’elaborazione viene interrotta e viene restituito un messaggio di allerta, che invita a ripetere l’elaborazione con una combinazione diversa di variabili. 5.3. Funzionalità implementate 5.3.1. Modulo web per l’analisi di regressione logistica L’utilizzo da parte degli utenti del modulo di regressione logistica viene delegato ad applicazioni che risiedono su ogni client il cui scopo è fornire un’interfaccia di selezione dei parametri per l’estrazione dei dati e mostrare i risultati delle elaborazioni che sono state eseguite sul server. I browser non hanno grandi capacità di elaborazione, eseguono soltanto dei comandi che hanno valenza solo sul client senza nessuna iterazione con il server remoto, e Fig. 5.15. Visualizzazione grafica in uno spazio tridimensionale dell’iperpiano che realizza una perfetta divisione tra i due tipi di uscita.
  • 63. Capitolo 5. Risultati Progettuali e Discussione________________________________ Tesi di laurea di Elisa Bellistri _________________________________________ 59 permettono piccole interazioni con l’utente. Il loro scopo principale è quello di garantire la navigazione attraverso il web e interpretare pagine realizzate con HTML e visualizzarle in formato di ipertesto. HTML (acronimo per HyperText Mark-Up Language) è un linguaggio usato per descrivere i documenti ipertestuali disponibili su Internet. Non è un linguaggio di programmazione, ma un linguaggio di markup, ossia descrive l'aspetto che deve avere il testo. La standardizzazione del codice di presentazione permette una portabilità dell’applicazione su piattaforme hardware e software diverse senza nessun problema di conflitto. 5.3.2. Selezione dei parametri Nello specifico dell’analisi di regressione logistica, questa viene attualmente applicata sulle famiglie e i domini proteici. L’interfaccia web di selezione dei parametri permette di definire i vincoli sugli attributi di questa categoria in base ai quali estrarre i geni coinvolti nell’esperimento. L’aspetto dell’interfaccia è quello mostrato in figura 5.16. L’immagine è relativa alla vista da parte di un utente registrato, che dispone di una lista precaricata di esperimenti selezionabile nel primo menu a tendina Select sequenze ID’s list. In dettaglio, gli altri parametri secondo i quali restringere l’estrazione dei dati sono: 1. Source database: permette di scegliere se estrarre i geni annotati nel DB Pfam o Interpro 2. Category type: campo di selezione mutuamente esclusiva del tipo di categoria presa in esame (vedi §4.4.4 per ulteriori dettagli) 3. Tree level: per scegliere a quale livello dell’albero dei domini e famiglie proteiche arrestare l’estrazione dei dati (vedi §4.4.4 per ulteriori dettagli) 4. Specie: uno stesso gene può essere comune a più specie. Il menu viene creato dinamicamente verificando a quali specie sono abbinati i geni coinvolti nell’esperimento. 5. Minimum n. of items: numero minimo di geni che devono essere associati ad un dominio proteico (o più in generale ad una categoria) perché questa venga
  • 64. Capitolo 5. Risultati Progettuali e Discussione________________________________ Tesi di laurea di Elisa Bellistri _________________________________________ 60 inclusa nell’elaborazione. Aumentando questo valore diminuiscono il numero di categorie estratte. Il valore massimo utilizzabile dipende dalle categorie e dai geni dell’esperimento specifico, e può essere visualizzato attraverso il modulo Exploration presente in GFINDer. 6. Item: sceglie se utilizzare la corrispondenza delle categorie con i geni o con i Sequence ID (un gene può essere composto da più Sequence IDs) 7. Column name: per selezionare quale colonna di classificazione utilizzare tra quelle definite al momento dell’upload dei dati (vedi §4.4.1 Classificazione e categorizzazione di geni) 8. Y1 class/Y0 class: a seconda della colonna di classificazione utilizzata appaiono in questi menu le diverse categorie di espressione del gene. I menu permettono selezioni multiple. I parametri qui definiti permettono di dividere il set di geni nelle due classi di regolazione e quindi i valori della variabile dipendente nell’analisi di regressione logistica. 9. Category matches: il valore minimo di category matches che deve avere un dominio proteico per essere incluso nell’elaborazione. Se la checkbox viene disattivata, l’analisi viene fatta senza tenere conto dei category matches, quindi le categorie sono estratte indipendentemente da questo valore e la matrice dei dati avrà unicamente valori binari (vedi §5.2) Fig. 5.16. Interfaccia di selezione dei parametri.
  • 65. Capitolo 5. Risultati Progettuali e Discussione________________________________ Tesi di laurea di Elisa Bellistri _________________________________________ 61 Le caselle di input successive sono invece relative alla visualizzazione dei risultati. La prima definisce con quale livello di significatività del p-value mostrare i risultati, il secondo blocco composto di radio button permette di selezionare in base a quale campo mostrare i risultati ordinati. 5.3.3. Selezione parziale dei domini proteici Sia nel caso dell’analisi univariata, sia nel caso di quella multivariata, che può convergere ad un risultato o meno, dall’elenco delle categorie mostrate nell’interfaccia dei risultati è possibile effettuare una selezione parziale e ricalcolare i coefficienti di regressione logistica solo in base all’interazione tra i domini della sottocategoria. La selezione parziale dei domini proteici non ha nulla a che vedere con gli attributi delle singole categorie, ma è unicamente manuale e affidata alla scelta dell’utente. Si può scegliere ad esempio di discriminare le categorie in base ai coefficienti di regressione logistica calcolati (p.e. solo positivi, solo negativi, compresi in un certo intervallo, vedi §6.1 per ulteriori dettagli), oppure in base alla distribuzione delle due classi di geni.
  • 66. Capitolo 6. Risultati Applicativi e Discussione_______________________________ Tesi laurea di Elisa Bellistri ___________________________________________ 62 6. Risultati Applicativi e Discussione 6.1. Un esempio di test L’analisi di regressione logistica è stata testata su diversi set di geni precedentemente classificati. Un esempio è rappresentato dal set in figura 6.1, che rappresenta geni di cui sono noti i domini proteici prodotti e la relazione al sistema neurologico (160 geni) o cardiovascolare (92 geni). Identificando con NEURO la classe 1 (ossia la classe della quale si vuole stimare la probabilità di appartenenza) e con 0 la classe CARDIO (a cui bisogno dimostrare la non appartenenza), il modulo software implementato ha calcolato i coefficienti di regressione logistica che stimano per ogni gene la probabilità di appartenere alla classe NEURO, e quindi di essere relazionato ad una codifica relativa al sistema neurologico. Fig. 6.1: interfaccia di selezione dei parametri per l’esempio riportato nel testo, e risultati preliminari all’elaborazione (EPV calcolato, null model, valore di convergenza e numero di iterazioni necessarie
  • 67. Capitolo 6. Risultati Applicativi e Discussione_______________________________ Tesi laurea di Elisa Bellistri ___________________________________________ 63 La figura 6.1 rappresenta, oltre ad un riepilogo dei parametri attraverso cui sono stati estratti i geni nell’esperimento, anche una parte dei risultati dell’elaborazione, quali il valore di verosimiglianza di partenza, il valore a cui l’algoritmo converge e il numero di iterazioni necessarie per ottenere il risultato. L’ordine di grandezza nel numero di iterazioni (in questo caso 22) è un valore che si mantiene molto simile anche con set di dati diversi, il che porta i tempi di esecuzione dell’algoritmo JavaScript ad alcune decine di secondi (29 secondi nell’esempio illustrato) e quindi accettabile con ampio margine il carico di lavoro da parte del server. Attraverso la selezione dei parametri è inoltre possibile variare il livello di dettaglio delle annotazioni da includere nell’analisi di regressione, tipicamente variando i valori di livello nella struttura ad albero dei domini proteici (vedi 2.3.2 per ulteriori dettagli), focalizzandosi come nell’esempio (tree level pari a 0) solo sulle annotazioni indipendenti che non hanno relazioni padre/figlio. Fig. 6.2. Risultati dell’analisi multivariata