INTRODUCTION TO DATA MINING AND DEEP LEARNINGAndrea Ciccotta
The goal of the course is
provide an overview
on the main techniques
of Data Mining and Deep
Learning. The course has a
practical orientation.
At first they will come
presented the main ones
bookcases for the
data processing
(Pandas, Scikit-Learn).
It will then pass
to use the library
KERAS, an interface of
high level for the
main libraries of
Deep Learning
(TensorFlow, Microsoft
Cognitive Toolkit,
Theano). Finally, they will be
introduced architectures
of Deep Learning
advanced for the
data processing
audio and video and i
PyTorch e framework
TensorFlow.
During classes
will be presented
examples of concrete use.
The problem of measuring “similarity” of objects arises in
many applications, and many domain-specific measures
have been developed.
complementary approach, applicable in any domain
with object-to-object relationships.
“two objects are similar if
they are related to similar objects.” This general similarity
measure, called SimRank, is based on a simple and intuitive
graph-theoretic model.
Bipartite SimRank nei Domini Omogenei
Bipartite SimRank in Homogeneous Domains
Minimax Variation
Progetti
Modifica il progetto TOP: Taxonomies on Protege Web Reasoning
Nome progetto TOP: Taxonomies on Protege Web Reasoning
giu 2017 – presente
Descrizione progetto
Ontology Web Lenguage 2 OWL2
Vedi il progetto TOP: Taxonomies on Protege Web Reasoning Vedi progetto
Modifica il progetto Repositioning Based on Side Effects on Mithril
Nome progetto Repositioning Based on Side Effects on Mithril
mar 2017 – presente
Vedi il progetto Repositioning Based on Side Effects on Mithril Vedi progetto
Modifica il progetto R Glass Analysis
Nome progetto R Glass Analysis
ago 2016 – ago 2016
Descrizione progetto
R Glass Analysis è un progetto di analisi dei dati: il suo scopo è quello di analizzare diversi campioni di vetro (disponibili nel package "Glass" di R Studio), costruendo così un algoritmo capace di classificare i vetri a partire dai loro elementi chimici.
INTRODUCTION TO DATA MINING AND DEEP LEARNINGAndrea Ciccotta
The goal of the course is
provide an overview
on the main techniques
of Data Mining and Deep
Learning. The course has a
practical orientation.
At first they will come
presented the main ones
bookcases for the
data processing
(Pandas, Scikit-Learn).
It will then pass
to use the library
KERAS, an interface of
high level for the
main libraries of
Deep Learning
(TensorFlow, Microsoft
Cognitive Toolkit,
Theano). Finally, they will be
introduced architectures
of Deep Learning
advanced for the
data processing
audio and video and i
PyTorch e framework
TensorFlow.
During classes
will be presented
examples of concrete use.
The problem of measuring “similarity” of objects arises in
many applications, and many domain-specific measures
have been developed.
complementary approach, applicable in any domain
with object-to-object relationships.
“two objects are similar if
they are related to similar objects.” This general similarity
measure, called SimRank, is based on a simple and intuitive
graph-theoretic model.
Bipartite SimRank nei Domini Omogenei
Bipartite SimRank in Homogeneous Domains
Minimax Variation
Progetti
Modifica il progetto TOP: Taxonomies on Protege Web Reasoning
Nome progetto TOP: Taxonomies on Protege Web Reasoning
giu 2017 – presente
Descrizione progetto
Ontology Web Lenguage 2 OWL2
Vedi il progetto TOP: Taxonomies on Protege Web Reasoning Vedi progetto
Modifica il progetto Repositioning Based on Side Effects on Mithril
Nome progetto Repositioning Based on Side Effects on Mithril
mar 2017 – presente
Vedi il progetto Repositioning Based on Side Effects on Mithril Vedi progetto
Modifica il progetto R Glass Analysis
Nome progetto R Glass Analysis
ago 2016 – ago 2016
Descrizione progetto
R Glass Analysis è un progetto di analisi dei dati: il suo scopo è quello di analizzare diversi campioni di vetro (disponibili nel package "Glass" di R Studio), costruendo così un algoritmo capace di classificare i vetri a partire dai loro elementi chimici.
Repositioning based on side effects on mithril - ciccotta
TOP: Taxonomies on Protege
1. TOP
Taxonomies on Protege
Web Reasoning 2016/2017
Andrea Ciccotta
TOP è un’ontologia che modella la gerarchia degli organismi viventi
presenti in natura (ovvero le tassonomie), su Protege (software).
In natura esistono migliaia di specie e la loro classificazione inizia da
macro-insiemi per restringersi a insiemi di poche specie (talvolta
anche solo una per insieme).
Gli insiemi più grandi sono detti regni e contengono al loro interno
svariate migliaia di ulteriori suddivisioni che si restringono fino ad
arrivare alle specie uniche del loro genere per cui non è possibile fare
ulteriori suddivisioni sensate.
Esistono diverse suddivisioni dei regni:
La classificazione scelta per il progetto è quella di Cavalier-Smith
poiché è quella più splittata di tutte ed è perfetta per affrontare questo
problema.
Partendo da queste, come arriva TOP ad un organismo specifico?
Supponiamo di voler arrivare alla specie Homo Sapiens:
2.
3. Il problema è naturalmente splittato e anche se a una prima vista
sembra difficile gestire tutto ciò, sarà proprio questa gerarchia a dare
valore all’ontologia.
Proviamo a fare chiarezza considerando sempre l’esempio sopra
citato: che senso hanno tutte queste suddivisioni?
Tra gli organismi ci sono i “Bilatera”, ovvero tutti gli organismi che
hanno un aspetto simmetrico;
tra questi esiste un suo insieme che si chiama “PhylumChordata” che
è composto da tutti gli organismi che hanno sviluppato la bocca;
questi sono ulteriormente splittati negli “Infraphylum Gnathostomata”
che comprendono le specie che hanno sviluppato il cranio e tutte le
specie che hanno sviluppato anche la mandibola;
all’interno del sotto-insieme troviamo i Mammiferi che sono le specie
che si riproducono sessualmente, e dopo aver attraversato altre 4
suddivisioni arriviamo ai Primati da cui bisogna ad attraversare altre 5
gerarchie per arrivare agli HomoSapiens.
Il discorso dovrebbe essere adesso più chiaro: HomoSapiens è
caratterizzato da tutte le caratteristiche dei suoi super-insiemi; TOP
vuole quindi caratterizzare ogni specie presente al suo interno in
questo modo.
4. Classi dell’ontologia
BodyFeatures: è la classe che modella le caratteristiche del corpo
che distinguono le specie tra di loro.
conservationStatus: utilizza i 7 stati di conservazione principali che
indicano quanto una specie sia più o meno a rischio di estinzione.
Feeding: indica di cosa si nutrono le specie e permette quindi di
inferire se la specie è erbivora, carnivora o altro.
Habitat: indica in che tipo di ambiente vive in natura la specie.
Organism: è la classe che contiene i 6 regni con tutti i loro
sotto-insiemi.
Reproduction: oltre a indicare quali organismi si riproducono
sessualmente e quali no, indica se sono ovipari, vivipari oppure
ovovipari.
Size: ha al suo interno le classi che contengono le informazioni di
peso e altezza, le cui partizioni sono state fatte ad hoc per questa
ontologia.
World: indica le zone del mondo dove vive in natura la specie.
yearOfClassification: indica l’anno in cui è stata classificata la
specie
5. Classi, Entita' e Properties
Consideriamo l’ultima classe elencata: nella prima versione del
progetto, questa era una Properties. Ma ciò non rendeva dinamica
l’ontologia, non era ad esempio possibile navigare tra le specie
classificate in un determinato periodo.
Lo stesso ragionamento è stato fatto per altre classi che erano state
pensate come Entità o Properties.
Altre informazioni sono rimaste invece Properties come il
commonName, per cui non è possibile fare inferenze.
E ovviamente lo stesso vale per le dataProperties come “liveIn” o
“itFeedOn” che sono proprietà per cui è possibile specificare un
dominio e un range ben definito.
6. Problemi nella modellazione
Non è facile inserire in un’ontologia valori numerici che caratterizzino
un insieme o un individuo (range di peso e altezza per esempio) in
maniera tale che questi non rimangano solo valori numerici ma diano
la possibilità di fare inferenze e ricerche dinamiche all’interno
dell’ontologia.
In particolar modo il problema in questo caso è il peso che solo in
questo lavoro ha un range = [0.1kg - 7500kg]; che fare quindi?
Inserire manualmente tutti i valori possibili? La soluzione in questo
caso sta nella partizione efficiente dell’insieme che caratterizza il
peso.
E’ ovvio quindi che lo stesso discorso può essere fatto per le zone in
cui sono presenti gli organismi (cioè tutto il mondo!).
Caso a parte è stato l’insieme degli anni della catalogazione delle
specie che è abbastanza ristretto [1700-2000], per cui ogni strategia di
modellazione può rivelarsi buona.
Perche' usare TOP
Oltre ad avere al suo interno buona parte della gerarchia dei
mammiferi e tutte le divisioni principali e necessarie a caratterizzare i
6 regni, i problemi sopra discussi sono stati tutti risolti e quindi si
possono inserire immediatamente ulteriori insiemi ed entità senza
dover inventare strutture e partizioni particolari ma semplicemente
seguendo quelle già modellate.
ciccottandrea@gmail.com