TOP: Taxonomies on Protege

TOP
Taxonomies on Protege
Web Reasoning 2016/2017
Andrea Ciccotta
TOP è un’ontologia che modella la gerarchia degli organismi viventi
presenti in natura (ovvero le tassonomie), su Protege (software).
In natura esistono migliaia di specie e la loro classificazione inizia da
macro-insiemi per restringersi a insiemi di poche specie (talvolta
anche solo una per insieme).
Gli insiemi più grandi sono detti regni e contengono al loro interno
svariate migliaia di ulteriori suddivisioni che si restringono fino ad
arrivare alle specie uniche del loro genere per cui non è possibile fare
ulteriori suddivisioni sensate.
Esistono diverse suddivisioni dei regni:
La classificazione scelta per il progetto è quella di Cavalier-Smith
poiché è quella più splittata di tutte ed è perfetta per affrontare questo
problema.
Partendo da queste, come arriva TOP ad un organismo specifico?
Supponiamo di voler arrivare alla specie Homo Sapiens:

Il problema è naturalmente splittato e anche se a una prima vista
sembra difficile gestire tutto ciò, sarà proprio questa gerarchia a dare
valore all’ontologia.
Proviamo a fare chiarezza considerando sempre l’esempio sopra
citato: che senso hanno tutte queste suddivisioni?
Tra gli organismi ci sono i “Bilatera”, ovvero tutti gli organismi che
hanno un aspetto simmetrico;
tra questi esiste un suo insieme che si chiama “PhylumChordata” che
è composto da tutti gli organismi che hanno sviluppato la bocca;
questi sono ulteriormente splittati negli “Infraphylum Gnathostomata”
che comprendono le specie che hanno sviluppato il cranio e tutte le
specie che hanno sviluppato anche la mandibola;
all’interno del sotto-insieme troviamo i Mammiferi che sono le specie
che si riproducono sessualmente, e dopo aver attraversato altre 4
suddivisioni arriviamo ai Primati da cui bisogna ad attraversare altre 5
gerarchie per arrivare agli HomoSapiens.
Il discorso dovrebbe essere adesso più chiaro: HomoSapiens è
caratterizzato da tutte le caratteristiche dei suoi super-insiemi; TOP
vuole quindi caratterizzare ogni specie presente al suo interno in
questo modo.

Classi dell’ontologia
 BodyFeatures: è la classe che modella le caratteristiche del corpo
che distinguono le specie tra di loro.
 conservationStatus: utilizza i 7 stati di conservazione principali che
indicano quanto una specie sia più o meno a rischio di estinzione.
 Feeding: indica di cosa si nutrono le specie e permette quindi di
inferire se la specie è erbivora, carnivora o altro.
 Habitat: indica in che tipo di ambiente vive in natura la specie.
 Organism: è la classe che contiene i 6 regni con tutti i loro
sotto-insiemi.
 Reproduction: oltre a indicare quali organismi si riproducono
sessualmente e quali no, indica se sono ovipari, vivipari oppure
ovovipari.
 Size: ha al suo interno le classi che contengono le informazioni di
peso e altezza, le cui partizioni sono state fatte ad hoc per questa
ontologia.
 World: indica le zone del mondo dove vive in natura la specie.
 yearOfClassification: indica l’anno in cui è stata classificata la
specie

Classi, Entita' e Properties
Consideriamo l’ultima classe elencata: nella prima versione del
progetto, questa era una Properties. Ma ciò non rendeva dinamica
l’ontologia, non era ad esempio possibile navigare tra le specie
classificate in un determinato periodo.
Lo stesso ragionamento è stato fatto per altre classi che erano state
pensate come Entità o Properties.
Altre informazioni sono rimaste invece Properties come il
commonName, per cui non è possibile fare inferenze.
E ovviamente lo stesso vale per le dataProperties come “liveIn” o
“itFeedOn” che sono proprietà per cui è possibile specificare un
dominio e un range ben definito.

Problemi nella modellazione
Non è facile inserire in un’ontologia valori numerici che caratterizzino
un insieme o un individuo (range di peso e altezza per esempio) in
maniera tale che questi non rimangano solo valori numerici ma diano
la possibilità di fare inferenze e ricerche dinamiche all’interno
dell’ontologia.
In particolar modo il problema in questo caso è il peso che solo in
questo lavoro ha un range = [0.1kg - 7500kg]; che fare quindi?
Inserire manualmente tutti i valori possibili? La soluzione in questo
caso sta nella partizione efficiente dell’insieme che caratterizza il
peso.
E’ ovvio quindi che lo stesso discorso può essere fatto per le zone in
cui sono presenti gli organismi (cioè tutto il mondo!).
Caso a parte è stato l’insieme degli anni della catalogazione delle
specie che è abbastanza ristretto [1700-2000], per cui ogni strategia di
modellazione può rivelarsi buona.
Perche' usare TOP
Oltre ad avere al suo interno buona parte della gerarchia dei
mammiferi e tutte le divisioni principali e necessarie a caratterizzare i
6 regni, i problemi sopra discussi sono stati tutti risolti e quindi si
possono inserire immediatamente ulteriori insiemi ed entità senza
dover inventare strutture e partizioni particolari ma semplicemente
seguendo quelle già modellate.
ciccottandrea@gmail.com

TOP: Taxonomies on Protege

Recommended

Recommended

More Related Content

More from Andrea Ciccotta

More from Andrea Ciccotta (8)

TOP: Taxonomies on Protege