SlideShare a Scribd company logo
TOP
Taxonomies on Protege
Web Reasoning 2016/2017
Andrea Ciccotta
TOP è un’ontologia che modella la gerarchia degli organismi viventi
presenti in natura (ovvero le tassonomie), su Protege (software).
In natura esistono migliaia di specie e la loro classificazione inizia da
macro-insiemi per restringersi a insiemi di poche specie (talvolta
anche solo una per insieme).
Gli insiemi più grandi sono detti regni e contengono al loro interno
svariate migliaia di ulteriori suddivisioni che si restringono fino ad
arrivare alle specie uniche del loro genere per cui non è possibile fare
ulteriori suddivisioni sensate.
Esistono diverse suddivisioni dei regni:
La classificazione scelta per il progetto è quella di Cavalier-Smith
poiché è quella più splittata di tutte ed è perfetta per affrontare questo
problema.
Partendo da queste, come arriva TOP ad un organismo specifico?
Supponiamo di voler arrivare alla specie Homo Sapiens:
Il problema è naturalmente splittato e anche se a una prima vista
sembra difficile gestire tutto ciò, sarà proprio questa gerarchia a dare
valore all’ontologia.
Proviamo a fare chiarezza considerando sempre l’esempio sopra
citato: che senso hanno tutte queste suddivisioni?
Tra gli organismi ci sono i “Bilatera”, ovvero tutti gli organismi che
hanno un aspetto simmetrico;
tra questi esiste un suo insieme che si chiama “PhylumChordata” che
è composto da tutti gli organismi che hanno sviluppato la bocca;
questi sono ulteriormente splittati negli “Infraphylum Gnathostomata”
che comprendono le specie che hanno sviluppato il cranio e tutte le
specie che hanno sviluppato anche la mandibola;
all’interno del sotto-insieme troviamo i Mammiferi che sono le specie
che si riproducono sessualmente, e dopo aver attraversato altre 4
suddivisioni arriviamo ai Primati da cui bisogna ad attraversare altre 5
gerarchie per arrivare agli HomoSapiens.
Il discorso dovrebbe essere adesso più chiaro: HomoSapiens è
caratterizzato da tutte le caratteristiche dei suoi super-insiemi; TOP
vuole quindi caratterizzare ogni specie presente al suo interno in
questo modo.
Classi dell’ontologia
 BodyFeatures: è la classe che modella le caratteristiche del corpo
che distinguono le specie tra di loro.
 conservationStatus: utilizza i 7 stati di conservazione principali che
indicano quanto una specie sia più o meno a rischio di estinzione.
 Feeding: indica di cosa si nutrono le specie e permette quindi di
inferire se la specie è erbivora, carnivora o altro.
 Habitat: indica in che tipo di ambiente vive in natura la specie.
 Organism: è la classe che contiene i 6 regni con tutti i loro
sotto-insiemi.
 Reproduction: oltre a indicare quali organismi si riproducono
sessualmente e quali no, indica se sono ovipari, vivipari oppure
ovovipari.
 Size: ha al suo interno le classi che contengono le informazioni di
peso e altezza, le cui partizioni sono state fatte ad hoc per questa
ontologia.
 World: indica le zone del mondo dove vive in natura la specie.
 yearOfClassification: indica l’anno in cui è stata classificata la
specie
Classi, Entita' e Properties
Consideriamo l’ultima classe elencata: nella prima versione del
progetto, questa era una Properties. Ma ciò non rendeva dinamica
l’ontologia, non era ad esempio possibile navigare tra le specie
classificate in un determinato periodo.
Lo stesso ragionamento è stato fatto per altre classi che erano state
pensate come Entità o Properties.
Altre informazioni sono rimaste invece Properties come il
commonName, per cui non è possibile fare inferenze.
E ovviamente lo stesso vale per le dataProperties come “liveIn” o
“itFeedOn” che sono proprietà per cui è possibile specificare un
dominio e un range ben definito.
Problemi nella modellazione
Non è facile inserire in un’ontologia valori numerici che caratterizzino
un insieme o un individuo (range di peso e altezza per esempio) in
maniera tale che questi non rimangano solo valori numerici ma diano
la possibilità di fare inferenze e ricerche dinamiche all’interno
dell’ontologia.
In particolar modo il problema in questo caso è il peso che solo in
questo lavoro ha un range = [0.1kg - 7500kg]; che fare quindi?
Inserire manualmente tutti i valori possibili? La soluzione in questo
caso sta nella partizione efficiente dell’insieme che caratterizza il
peso.
E’ ovvio quindi che lo stesso discorso può essere fatto per le zone in
cui sono presenti gli organismi (cioè tutto il mondo!).
Caso a parte è stato l’insieme degli anni della catalogazione delle
specie che è abbastanza ristretto [1700-2000], per cui ogni strategia di
modellazione può rivelarsi buona.
Perche' usare TOP
Oltre ad avere al suo interno buona parte della gerarchia dei
mammiferi e tutte le divisioni principali e necessarie a caratterizzare i
6 regni, i problemi sopra discussi sono stati tutti risolti e quindi si
possono inserire immediatamente ulteriori insiemi ed entità senza
dover inventare strutture e partizioni particolari ma semplicemente
seguendo quelle già modellate.
ciccottandrea@gmail.com

More Related Content

More from Andrea Ciccotta

INTRODUCTION TO DATA MINING AND DEEP LEARNING
INTRODUCTION TO DATA MINING AND DEEP LEARNINGINTRODUCTION TO DATA MINING AND DEEP LEARNING
INTRODUCTION TO DATA MINING AND DEEP LEARNING
Andrea Ciccotta
 
R sim rank
R sim rank  R sim rank
R sim rank
Andrea Ciccotta
 
Re-Indexing Algorithm for Color-Mapped Images Region Based
Re-Indexing Algorithm for Color-Mapped Images Region BasedRe-Indexing Algorithm for Color-Mapped Images Region Based
Re-Indexing Algorithm for Color-Mapped Images Region Based
Andrea Ciccotta
 
R Morris OAT (Sensitivity Analysis)
R Morris OAT (Sensitivity Analysis)R Morris OAT (Sensitivity Analysis)
R Morris OAT (Sensitivity Analysis)
Andrea Ciccotta
 
R Glass Analysis
R Glass AnalysisR Glass Analysis
R Glass Analysis
Andrea Ciccotta
 
Java Symbolic Regression - Machine Learining
Java Symbolic Regression - Machine LeariningJava Symbolic Regression - Machine Learining
Java Symbolic Regression - Machine Learining
Andrea Ciccotta
 
2DIs: Dynamic Description of Immune System Interactions
2DIs: Dynamic Description of Immune System Interactions2DIs: Dynamic Description of Immune System Interactions
2DIs: Dynamic Description of Immune System Interactions
Andrea Ciccotta
 
Repositioning based on side effects on mithril - ciccotta
Repositioning based on side effects on mithril - ciccottaRepositioning based on side effects on mithril - ciccotta
Repositioning based on side effects on mithril - ciccotta
Andrea Ciccotta
 

More from Andrea Ciccotta (8)

INTRODUCTION TO DATA MINING AND DEEP LEARNING
INTRODUCTION TO DATA MINING AND DEEP LEARNINGINTRODUCTION TO DATA MINING AND DEEP LEARNING
INTRODUCTION TO DATA MINING AND DEEP LEARNING
 
R sim rank
R sim rank  R sim rank
R sim rank
 
Re-Indexing Algorithm for Color-Mapped Images Region Based
Re-Indexing Algorithm for Color-Mapped Images Region BasedRe-Indexing Algorithm for Color-Mapped Images Region Based
Re-Indexing Algorithm for Color-Mapped Images Region Based
 
R Morris OAT (Sensitivity Analysis)
R Morris OAT (Sensitivity Analysis)R Morris OAT (Sensitivity Analysis)
R Morris OAT (Sensitivity Analysis)
 
R Glass Analysis
R Glass AnalysisR Glass Analysis
R Glass Analysis
 
Java Symbolic Regression - Machine Learining
Java Symbolic Regression - Machine LeariningJava Symbolic Regression - Machine Learining
Java Symbolic Regression - Machine Learining
 
2DIs: Dynamic Description of Immune System Interactions
2DIs: Dynamic Description of Immune System Interactions2DIs: Dynamic Description of Immune System Interactions
2DIs: Dynamic Description of Immune System Interactions
 
Repositioning based on side effects on mithril - ciccotta
Repositioning based on side effects on mithril - ciccottaRepositioning based on side effects on mithril - ciccotta
Repositioning based on side effects on mithril - ciccotta
 

TOP: Taxonomies on Protege

  • 1. TOP Taxonomies on Protege Web Reasoning 2016/2017 Andrea Ciccotta TOP è un’ontologia che modella la gerarchia degli organismi viventi presenti in natura (ovvero le tassonomie), su Protege (software). In natura esistono migliaia di specie e la loro classificazione inizia da macro-insiemi per restringersi a insiemi di poche specie (talvolta anche solo una per insieme). Gli insiemi più grandi sono detti regni e contengono al loro interno svariate migliaia di ulteriori suddivisioni che si restringono fino ad arrivare alle specie uniche del loro genere per cui non è possibile fare ulteriori suddivisioni sensate. Esistono diverse suddivisioni dei regni: La classificazione scelta per il progetto è quella di Cavalier-Smith poiché è quella più splittata di tutte ed è perfetta per affrontare questo problema. Partendo da queste, come arriva TOP ad un organismo specifico? Supponiamo di voler arrivare alla specie Homo Sapiens:
  • 2.
  • 3. Il problema è naturalmente splittato e anche se a una prima vista sembra difficile gestire tutto ciò, sarà proprio questa gerarchia a dare valore all’ontologia. Proviamo a fare chiarezza considerando sempre l’esempio sopra citato: che senso hanno tutte queste suddivisioni? Tra gli organismi ci sono i “Bilatera”, ovvero tutti gli organismi che hanno un aspetto simmetrico; tra questi esiste un suo insieme che si chiama “PhylumChordata” che è composto da tutti gli organismi che hanno sviluppato la bocca; questi sono ulteriormente splittati negli “Infraphylum Gnathostomata” che comprendono le specie che hanno sviluppato il cranio e tutte le specie che hanno sviluppato anche la mandibola; all’interno del sotto-insieme troviamo i Mammiferi che sono le specie che si riproducono sessualmente, e dopo aver attraversato altre 4 suddivisioni arriviamo ai Primati da cui bisogna ad attraversare altre 5 gerarchie per arrivare agli HomoSapiens. Il discorso dovrebbe essere adesso più chiaro: HomoSapiens è caratterizzato da tutte le caratteristiche dei suoi super-insiemi; TOP vuole quindi caratterizzare ogni specie presente al suo interno in questo modo.
  • 4. Classi dell’ontologia  BodyFeatures: è la classe che modella le caratteristiche del corpo che distinguono le specie tra di loro.  conservationStatus: utilizza i 7 stati di conservazione principali che indicano quanto una specie sia più o meno a rischio di estinzione.  Feeding: indica di cosa si nutrono le specie e permette quindi di inferire se la specie è erbivora, carnivora o altro.  Habitat: indica in che tipo di ambiente vive in natura la specie.  Organism: è la classe che contiene i 6 regni con tutti i loro sotto-insiemi.  Reproduction: oltre a indicare quali organismi si riproducono sessualmente e quali no, indica se sono ovipari, vivipari oppure ovovipari.  Size: ha al suo interno le classi che contengono le informazioni di peso e altezza, le cui partizioni sono state fatte ad hoc per questa ontologia.  World: indica le zone del mondo dove vive in natura la specie.  yearOfClassification: indica l’anno in cui è stata classificata la specie
  • 5. Classi, Entita' e Properties Consideriamo l’ultima classe elencata: nella prima versione del progetto, questa era una Properties. Ma ciò non rendeva dinamica l’ontologia, non era ad esempio possibile navigare tra le specie classificate in un determinato periodo. Lo stesso ragionamento è stato fatto per altre classi che erano state pensate come Entità o Properties. Altre informazioni sono rimaste invece Properties come il commonName, per cui non è possibile fare inferenze. E ovviamente lo stesso vale per le dataProperties come “liveIn” o “itFeedOn” che sono proprietà per cui è possibile specificare un dominio e un range ben definito.
  • 6. Problemi nella modellazione Non è facile inserire in un’ontologia valori numerici che caratterizzino un insieme o un individuo (range di peso e altezza per esempio) in maniera tale che questi non rimangano solo valori numerici ma diano la possibilità di fare inferenze e ricerche dinamiche all’interno dell’ontologia. In particolar modo il problema in questo caso è il peso che solo in questo lavoro ha un range = [0.1kg - 7500kg]; che fare quindi? Inserire manualmente tutti i valori possibili? La soluzione in questo caso sta nella partizione efficiente dell’insieme che caratterizza il peso. E’ ovvio quindi che lo stesso discorso può essere fatto per le zone in cui sono presenti gli organismi (cioè tutto il mondo!). Caso a parte è stato l’insieme degli anni della catalogazione delle specie che è abbastanza ristretto [1700-2000], per cui ogni strategia di modellazione può rivelarsi buona. Perche' usare TOP Oltre ad avere al suo interno buona parte della gerarchia dei mammiferi e tutte le divisioni principali e necessarie a caratterizzare i 6 regni, i problemi sopra discussi sono stati tutti risolti e quindi si possono inserire immediatamente ulteriori insiemi ed entità senza dover inventare strutture e partizioni particolari ma semplicemente seguendo quelle già modellate. ciccottandrea@gmail.com