SlideShare a Scribd company logo
Un metodo per il conteggio di
osservazioni incerte basato sulla
teoria della possibilità
TESI IN INTELLIGENZA COMPUTAZIONALE
CORSO DI LAUREA IN INFORMATICA
MAGISTRALE
RELATORE
Prof. Corrado Mencar
LAUREANDA
Annarita Fierro
2 di 24
GRANULAR COMPUTING
• Paradigma di calcolo per l'elaborazione delle informazioni
• Granuli di informazione: categorie di oggetti raggruppati in base a
caratteristiche comuni
• Information granulation: processo di costruzione dei granuli di
informazione
• Fuzzy information granulation
Annarita Fierro
3 di 24
LOGICA FUZZY
• Deriva dalla natura approssimata della gran parte dei modi di
ragionare umani
• Rappresenta un strumento matematico in grado di adattare i sistemi
della logica binaria al modo con cui gli esseri umani ragionano
• «Alla base della logica fuzzy tutto è graduale»
Annarita Fierro 3
4 di 24
TEORIA DEGLI INSIEMI FUZZY
• Teoria matematica che consente di definire insiemi che ammettono
l’appartenenza graduale
• Sia 𝑋 l’Universo del discorso, con 𝑥 generico elemento di 𝑋, un insieme fuzzy 𝐴 su
𝑋 è caratterizzato da una funzione di appartenenza (membership) 𝜇 𝐴(𝑥) che
associa ad ogni elemento di 𝑋 un numero reale nell’intervallo [0,1]
𝜇 𝐴 : 𝑋 → [0, 1]
• Un insieme fuzzy (sfumato) consente di modellare concetti di natura
percettiva, etichettati con termini del linguaggio naturale: “caldo”,
“freddo”, …
Annarita Fierro 4
5 di 24
TEORIA DELLA POSSIBILITÀ
• Un evento è oggettivamente possibile se c’è una fattibilità fisica nel suo
realizzarsi
• Una possibile interpretazione degli insiemi fuzzy si basa sulla teoria
della possibilità
• Funzione di possibilità
• rappresenta il grado con cui un valore della variabile è ritenuto possibile
• ha le stesse caratteristiche di continuità e variabilità in [0,1] di una
funzione di appartenenza fuzzy
• Applicazione: analisi di dataset affetti da particolari incertezze
Annarita Fierro 5
6 di 24
PROBLEMA DELLE OSSERVAZIONI INCERTE
ID osservazione ID referente Valore di possibilità
𝑜1 𝑟1 1
𝑜2 𝑟1 1
𝑜2 𝑟2 .79
𝑜2 𝑟3 .76
𝑜3 𝑟1 1
𝑜3 𝑟2 1
𝑜4 𝑟1 .86
𝑜4 𝑟2 .87
𝑜4 𝑟3 1
𝑜5 𝑟1 .76
𝑜5 𝑟2 1
Osservazione incerta
Annarita Fierro 6
• Osservazioni incerte di un fenomeno.
• Imprecisioni causate dagli strumenti di misurazione delle osservazioni
• Mancanza di informazioni esaustive sull’osservato
7 di 24
CONTEGGIO DI OSSERVAZIONI INCERTE
• Il metodo di conteggio è così definito:
• Sia 𝑅 un insieme finito e non vuoto di referenti:
𝑅 = {𝑟1, 𝑟2, … , 𝑟𝑛}
• E sia 𝑂 un insieme finito e non vuoto di osservazioni non interattive:
𝑂 = {𝑜1, 𝑜2, … , 𝑜 𝑚}
• Sia 𝜋 𝑜 𝑗
𝑟𝑖 ∈ [0,1] il grado di possibilità che l'osservazione 𝑜𝑗 si riferisca al
referente 𝑟𝑖.
• Il metodo di conteggio fornisce una risposta al seguente quesito:
quante osservazioni si riferiscono
(o sono associate) a ciascun referente?
Annarita Fierro 7
8 di 24
CONTEGGIO DI OSSERVAZIONI INCERTE
• Si considera un sottoinsieme 𝑂𝑥 ⊆ 𝑂 di 𝑥 osservazioni in 𝑂, cioè tale che |𝑂𝑥| = 𝑥.
• Il numero di tali sottoinsiemi è pari al coefficiente binomiale
𝑚
𝑥
per 𝑥 ≤ 𝑚, 0
altrimenti.
• La possibilità che esattamente gli elementi di 𝑂𝑥 si riferiscano a 𝑟 è data dalla
possibilità che tutti gli elementi di 𝑂𝑥 si riferiscano a 𝑟 e i restanti elementi in 𝑂𝑥 ∖ 𝑂
possano riferirsi agli altri referenti. Formalmente:
𝜋 𝑂 𝑥
(𝑟) = min min
𝑜∈𝑂 𝑥
𝜋 𝑜(𝑟), min
𝑜∉𝑂 𝑥
𝜋 𝑜( 𝑟),
• Se 𝑟 è il referente considerato, 𝑟 è un referente virtuale che sintetizza l’aggregazione
dei restanti referenti attraverso l'operatore max
Annarita Fierro 8
9 di 24
CONTEGGIO DI OSSERVAZIONI INCERTE
• Il valore di possibilità che il numero di osservazioni per un referente 𝑟
sia 𝑥, si definisce come:
𝜋 𝑁(𝑥) = max
𝑂 𝑥⊆𝑂
𝜋 𝑂 𝑥
( 𝑟)
dove: 𝑁 è il numero di osservazioni associate al referente 𝑟
𝜋 𝑁 è la distribuzione di possibilità per 𝑁
Annarita Fierro 9
10 di 24
METODO DI CONTEGGIO
• Distribuzione di possibilità per il referente 𝑟1
𝑟1 𝑟
𝑜1 1 0
𝑜2 1 .79
𝑜3 1 1
𝑜4 .86 1
𝑜5 .76 1
Annarita Fierro 10
ID
osservazione
ID
referente
Valore di
possibilità
𝑜1 𝑟1 1
𝑜2 𝑟1 1
𝑜2 𝑟2 .79
𝑜2 𝑟3 .76
𝑜3 𝑟1 1
𝑜3 𝑟2 1
𝑜4 𝑟1 .86
𝑜4 𝑟2 .87
𝑜4 𝑟3 1
𝑜5 𝑟1 .76
𝑜5 𝑟2 1
0 1 2 3 4 5 6
Risultati 0 0,79 1 1 0,86 0,76
0
0,2
0,4
0,6
0,8
1
1,2
Valoredipossibilità
Osservazioni
Distribuzione di possibilità per r1
11 di 24
METODO POLINOMIALE APPROSSIMATO (𝐴5)
• Si dimostra che 𝜋 𝑁 è un fuzzy set normale e che qualsiasi 𝛼-cut di 𝜋 𝑁 è un intervallo
(nel dominio dei numeri naturali)
• Fissato il numero di 𝛼-cut, 𝑘, il metodo consiste nel calcolare per ogni referente e per
ogni valore di 𝛼, gli estremi dell’intervallo
• Supponendo 𝑘 = 5, per 𝑟1:
𝑁1 0.0 = [𝑥 𝑚𝑖𝑛 = 1, 𝑥 𝑚𝑎𝑥 = 5]
𝑁1 0.25 = [𝑥 𝑚𝑖𝑛 = 1, 𝑥 𝑚𝑎𝑥 = 5]
𝑁1 0.5 = [𝑥 𝑚𝑖𝑛 = 1, 𝑥 𝑚𝑎𝑥 = 5]
𝑁1 0.75 = [𝑥 𝑚𝑖𝑛 = 1, 𝑥 𝑚𝑎𝑥 = 5]
𝑁1 1.0 = [𝑥 𝑚𝑖𝑛 = 2, 𝑥 𝑚𝑎𝑥 = 3]
Annarita Fierro 11
12 di 24
METODO POLINOMIALE APPROSSIMATO (𝐴5)
• Per ogni osservazione, si ottengono i seguenti valori:
osservazione: 0 = 0
osservazione: 1 = 0.75
osservazione: 2 = 1.0
osservazione: 3 = 1.0
osservazione: 4 = 0.75
osservazione: 5 = 0.75
Annarita Fierro 12
0 1 2 3 4 5 6
Risultati 0 0,75 1 1 0,75 0,75
0
0,2
0,4
0,6
0,8
1
1,2
Valoredipossibilità
Osservazioni
Distribuzione di possibilità per r1
13 di 24
METODO POLINOMIALE APPROSSIMATO (𝐴10)
• Per 𝑘 = 10:
osservazione: 0 = 0
osservazione: 1 = 0.78
osservazione: 2 = 1.0
osservazione: 3 = 1.0
osservazione: 4 = 0.78
osservazione: 5 = 0.67
Annarita Fierro 13
0 1 2 3 4 5 6
Risultati 0 0,78 1 1 0,78 0,67
0
0,2
0,4
0,6
0,8
1
1,2
Valoredipossibilità
Osservazioni
Distribuzione di possibilità per r1
14 di 24
METODO POLINOMIALE ESATTO (𝐸)
• Dalla matrice:
si ricavano i valori di 𝛼: 0, 0.76, 0.79, 0.86, 1.
• Si procede in maniera analoga al metodo
precedente per il calcolo dei seguenti valori:
osservazione: 0 = 0
osservazione: 1 = 0.79
osservazione: 2 = 1.0
osservazione: 3 = 1.0
osservazione: 4 = 0.86
osservazione: 5 = 0.76
Annarita Fierro 14
𝑟1 𝑟
𝑜1 𝟏 𝟎
𝑜2 1 . 𝟕𝟗
𝑜3 1 1
𝑜4 . 𝟖𝟔 1
𝑜5 .76 1
0 1 2 3 4 5 6
Risultati 0 0,79 1 1 0,86 0,76
0
0,2
0,4
0,6
0,8
1
1,2
Valoredipossibilità
Osservazioni
Distribuzione di possibilità per r1
15 di 24
METODO TRAPEZOIDALE FUZZY (𝑇)
• Permette di ottenere una rappresentazione semplificata del granular counting delle
osservazioni attraverso un insieme fuzzy trapezoidale
Annarita Fierro 15
• Il conteggio fuzzy per il
referente 𝑟1si riduce al
calcolo dei seguenti punti:
𝐴′ = 0
𝐵 = 2
𝐶 = 3
𝐷′ = 6
SPERIMENTAZIONE
• Misure di similarità:
• 𝐽 𝐴,𝐵 =
|𝐴∩𝐵|
|𝐴∪𝐵|
= 𝑖=1
𝑛
𝑎 𝑖 ∧ 𝑏 𝑖
𝑖=1
𝑛 𝑎 𝑖 ∨ 𝑏 𝑖
• 𝐿 𝐴,𝐵 = 1 − max
𝑖
𝑎𝑖 − 𝑏𝑖
• 𝑆 𝐴,𝐵 = 1 − 𝑖 𝑎 𝑖−𝑏 𝑖
𝑖 𝑎 𝑖+𝑏 𝑖
• 𝑊𝐴,𝐵 = 1 − 𝑖=1
𝑛
𝑎 𝑖−𝑏 𝑖
𝑛
• 𝑀𝐴,𝐵 = sup
𝑥∈𝑋
𝜇 𝐴∩𝐵(𝑥)
• 𝑃𝐴,𝐵 =
𝑎 ∙ 𝑏
max(𝑎 ∙ 𝑎, 𝑏 ∙ 𝑏)
dove 𝐴 e 𝐵 sono i fuzzy set per cui si
valuta il grado di similarità
Annarita Fierro 16 di 24
Misura 𝑪, 𝑬 𝑪, 𝑨 𝟓 𝑪, 𝑨 𝟏𝟎 𝑪, 𝑻 𝑻, 𝑨 𝟓 𝑻, 𝑨 𝟏𝟎
𝐽 1 .96 .96 .76 .82 .83
𝐿 1 .89 .91 .57 .58 .67
𝑆 1 .98 .98 .88 .9 .91
𝑊 1 .97 .97 .85 .88 .88
𝑀 1 1 1 1 1 1
𝑃 1 .96 .96 .82 .85 .86
SPERIMENTAZIONE
Annarita Fierro 17 di 24
0 1 2 3 4 5 6
Metodo C 0 0,79 1 1 0,86 0,76
Metodo E 0 0,79 1 1 0,86 0,76
Metodo A5 0 0,75 1 1 0,75 0,75
Metodo A10 0 0,78 1 1 0,78 0,67
Metodo T 0 0,5 1 1 0,67 0,33 0
0
0,2
0,4
0,6
0,8
1
1,2
Valoredipossibilità
Osservazioni
Confronto distribuzioni di possibilità per r1
APPLICAZIONE
ALLA
BIONFORMATICA
Annarita Fierro 18 di 24
Sequenziamento del
trascrittoma per la
comparazione dell’espressione
genica tra diverse condizioni
(sano-malato, diversi tessuti,
risposta ad uno stimolo, ecc…)
APPLICAZIONE
ALLA
BIONFORMATICA
Annarita Fierro 19 di 24
1http://bioinfo.cipf.es/babelomicstutorial/di
fferential_expression
Heatmap1 dell’espressione
genica che riporta le intensità
di una serie di geni (righe) che
mostrano significativa
espressione differenziale,
analizzata in diverse condizioni
sperimentali (colonne).
20 di 24
DATASET ASTHMA.READ GENE SCORE
• Il dataset contiene uno studio sull'asma, eseguito utilizzando Roche
454 per il sequenziamento di biopsie endobronchiali di 4 pazienti
asmatici e 5 pazienti sani.
• Porzione del dataset (82108 righe):
Multiread
Annarita Fierro 20
21 di 24
SPERIMENTAZIONE
DATI
BIOINFORMATICI
Annarita Fierro 21
22 di 24
SPERIMENTAZIONE
DATI
BIOINFORMATICI
Annarita Fierro 22
Tempi di esecuzione metodi di conteggio [hh:mm:ss]
206 reads in comune
Gene
OTTHUMG00000
Reads 𝐸 𝑇 𝐴10 𝐴25 𝐴100
152528|AC002480.6 206 00:00:01 00:00:00 00:00:00 00:00:01 00:00:02
020851|EEF1A1P5 213 00:00:01 00:00:00 00:00:00 00:00:01 00:00:02
344 reads in comune
Gene
OTTHUMG00000
Reads 𝐸 𝑇 𝐴10 𝐴25 𝐴100
184977|MTRNR2L6 344 00:00:01 00:00:00 00:00:00 00:00:01 00:00:03
190529|MTRNR2L6 344 00:00:01 00:00:00 00:00:00 00:00:01 00:00:03
1001 reads in comune
Gene
OTTHUMG00000
Reads 𝐸 𝑇 𝐴10 𝐴25 𝐴100
184980|MTRNR2L8 1656 00:00:13 00:00:01 00:00:02 00:00:05 00:00:11
175726|MTRNR2L12 5859 00:00:39 00:00:06 00:00:07 00:00:19 00:00:37
1537 reads in comune
Gene
OTTHUMG00000
Reads 𝐸 𝑇 𝐴2 𝐴5
189719|CH507513H4.3 1537 00:00:03 00:00:01 00:00:00 00:00:00
189719|CH507513H4.6 1537 00:00:03 00:00:01 00:00:00 00:00:00
23 di 24
CONCLUSIONI E SVILUPPI FUTURI
• I metodi di conteggio discussi e proposti nel presente lavoro di tesi forniscono delle
soluzioni ai quesiti posti
• Un metodo lineare come quello polinomiale approssimato, la cui complessità è
proporzionale a 𝑛 (numero di osservazioni) per 𝑘 (numero di 𝛼-cuts), risulta inadatto per
valori molto elevati di 𝑛, quindi in corrispondenza di dataset di grandi dimensioni,
contenenti diversi GigaByte di dati
• Sviluppi futuri:
• Clustering
• Sampling
• Il metodo polinomiale approssimato rappresenta in tutti i casi una sovrastima di
quello esatto
• Esiste una proprietà teorica che potrebbe essere esplorata e sfruttata per fornire dei limiti
certificati circa la distribuzione di possibilità risultante dall’applicazione del metodo
approssimato
Annarita Fierro 23
Grazie per l’attenzione
Annarita Fierro

More Related Content

Featured

How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
Albert Qian
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
Kurio // The Social Media Age(ncy)
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
Search Engine Journal
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
SpeakerHub
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
Tessa Mero
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Lily Ray
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
Rajiv Jayarajah, MAppComm, ACC
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
Christy Abraham Joy
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
Vit Horky
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
MindGenius
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
RachelPearson36
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Applitools
 
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work
GetSmarter
 
More than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike RoutesMore than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike Routes
Project for Public Spaces & National Center for Biking and Walking
 
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
DevGAMM Conference
 
Barbie - Brand Strategy Presentation
Barbie - Brand Strategy PresentationBarbie - Brand Strategy Presentation
Barbie - Brand Strategy Presentation
Erica Santiago
 
Good Stuff Happens in 1:1 Meetings: Why you need them and how to do them well
Good Stuff Happens in 1:1 Meetings: Why you need them and how to do them wellGood Stuff Happens in 1:1 Meetings: Why you need them and how to do them well
Good Stuff Happens in 1:1 Meetings: Why you need them and how to do them well
Saba Software
 
Introduction to C Programming Language
Introduction to C Programming LanguageIntroduction to C Programming Language
Introduction to C Programming Language
Simplilearn
 

Featured (20)

How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
 
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work
 
ChatGPT webinar slides
ChatGPT webinar slidesChatGPT webinar slides
ChatGPT webinar slides
 
More than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike RoutesMore than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike Routes
 
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
 
Barbie - Brand Strategy Presentation
Barbie - Brand Strategy PresentationBarbie - Brand Strategy Presentation
Barbie - Brand Strategy Presentation
 
Good Stuff Happens in 1:1 Meetings: Why you need them and how to do them well
Good Stuff Happens in 1:1 Meetings: Why you need them and how to do them wellGood Stuff Happens in 1:1 Meetings: Why you need them and how to do them well
Good Stuff Happens in 1:1 Meetings: Why you need them and how to do them well
 
Introduction to C Programming Language
Introduction to C Programming LanguageIntroduction to C Programming Language
Introduction to C Programming Language
 

Presentazione tesi

  • 1. Un metodo per il conteggio di osservazioni incerte basato sulla teoria della possibilità TESI IN INTELLIGENZA COMPUTAZIONALE CORSO DI LAUREA IN INFORMATICA MAGISTRALE RELATORE Prof. Corrado Mencar LAUREANDA Annarita Fierro
  • 2. 2 di 24 GRANULAR COMPUTING • Paradigma di calcolo per l'elaborazione delle informazioni • Granuli di informazione: categorie di oggetti raggruppati in base a caratteristiche comuni • Information granulation: processo di costruzione dei granuli di informazione • Fuzzy information granulation Annarita Fierro
  • 3. 3 di 24 LOGICA FUZZY • Deriva dalla natura approssimata della gran parte dei modi di ragionare umani • Rappresenta un strumento matematico in grado di adattare i sistemi della logica binaria al modo con cui gli esseri umani ragionano • «Alla base della logica fuzzy tutto è graduale» Annarita Fierro 3
  • 4. 4 di 24 TEORIA DEGLI INSIEMI FUZZY • Teoria matematica che consente di definire insiemi che ammettono l’appartenenza graduale • Sia 𝑋 l’Universo del discorso, con 𝑥 generico elemento di 𝑋, un insieme fuzzy 𝐴 su 𝑋 è caratterizzato da una funzione di appartenenza (membership) 𝜇 𝐴(𝑥) che associa ad ogni elemento di 𝑋 un numero reale nell’intervallo [0,1] 𝜇 𝐴 : 𝑋 → [0, 1] • Un insieme fuzzy (sfumato) consente di modellare concetti di natura percettiva, etichettati con termini del linguaggio naturale: “caldo”, “freddo”, … Annarita Fierro 4
  • 5. 5 di 24 TEORIA DELLA POSSIBILITÀ • Un evento è oggettivamente possibile se c’è una fattibilità fisica nel suo realizzarsi • Una possibile interpretazione degli insiemi fuzzy si basa sulla teoria della possibilità • Funzione di possibilità • rappresenta il grado con cui un valore della variabile è ritenuto possibile • ha le stesse caratteristiche di continuità e variabilità in [0,1] di una funzione di appartenenza fuzzy • Applicazione: analisi di dataset affetti da particolari incertezze Annarita Fierro 5
  • 6. 6 di 24 PROBLEMA DELLE OSSERVAZIONI INCERTE ID osservazione ID referente Valore di possibilità 𝑜1 𝑟1 1 𝑜2 𝑟1 1 𝑜2 𝑟2 .79 𝑜2 𝑟3 .76 𝑜3 𝑟1 1 𝑜3 𝑟2 1 𝑜4 𝑟1 .86 𝑜4 𝑟2 .87 𝑜4 𝑟3 1 𝑜5 𝑟1 .76 𝑜5 𝑟2 1 Osservazione incerta Annarita Fierro 6 • Osservazioni incerte di un fenomeno. • Imprecisioni causate dagli strumenti di misurazione delle osservazioni • Mancanza di informazioni esaustive sull’osservato
  • 7. 7 di 24 CONTEGGIO DI OSSERVAZIONI INCERTE • Il metodo di conteggio è così definito: • Sia 𝑅 un insieme finito e non vuoto di referenti: 𝑅 = {𝑟1, 𝑟2, … , 𝑟𝑛} • E sia 𝑂 un insieme finito e non vuoto di osservazioni non interattive: 𝑂 = {𝑜1, 𝑜2, … , 𝑜 𝑚} • Sia 𝜋 𝑜 𝑗 𝑟𝑖 ∈ [0,1] il grado di possibilità che l'osservazione 𝑜𝑗 si riferisca al referente 𝑟𝑖. • Il metodo di conteggio fornisce una risposta al seguente quesito: quante osservazioni si riferiscono (o sono associate) a ciascun referente? Annarita Fierro 7
  • 8. 8 di 24 CONTEGGIO DI OSSERVAZIONI INCERTE • Si considera un sottoinsieme 𝑂𝑥 ⊆ 𝑂 di 𝑥 osservazioni in 𝑂, cioè tale che |𝑂𝑥| = 𝑥. • Il numero di tali sottoinsiemi è pari al coefficiente binomiale 𝑚 𝑥 per 𝑥 ≤ 𝑚, 0 altrimenti. • La possibilità che esattamente gli elementi di 𝑂𝑥 si riferiscano a 𝑟 è data dalla possibilità che tutti gli elementi di 𝑂𝑥 si riferiscano a 𝑟 e i restanti elementi in 𝑂𝑥 ∖ 𝑂 possano riferirsi agli altri referenti. Formalmente: 𝜋 𝑂 𝑥 (𝑟) = min min 𝑜∈𝑂 𝑥 𝜋 𝑜(𝑟), min 𝑜∉𝑂 𝑥 𝜋 𝑜( 𝑟), • Se 𝑟 è il referente considerato, 𝑟 è un referente virtuale che sintetizza l’aggregazione dei restanti referenti attraverso l'operatore max Annarita Fierro 8
  • 9. 9 di 24 CONTEGGIO DI OSSERVAZIONI INCERTE • Il valore di possibilità che il numero di osservazioni per un referente 𝑟 sia 𝑥, si definisce come: 𝜋 𝑁(𝑥) = max 𝑂 𝑥⊆𝑂 𝜋 𝑂 𝑥 ( 𝑟) dove: 𝑁 è il numero di osservazioni associate al referente 𝑟 𝜋 𝑁 è la distribuzione di possibilità per 𝑁 Annarita Fierro 9
  • 10. 10 di 24 METODO DI CONTEGGIO • Distribuzione di possibilità per il referente 𝑟1 𝑟1 𝑟 𝑜1 1 0 𝑜2 1 .79 𝑜3 1 1 𝑜4 .86 1 𝑜5 .76 1 Annarita Fierro 10 ID osservazione ID referente Valore di possibilità 𝑜1 𝑟1 1 𝑜2 𝑟1 1 𝑜2 𝑟2 .79 𝑜2 𝑟3 .76 𝑜3 𝑟1 1 𝑜3 𝑟2 1 𝑜4 𝑟1 .86 𝑜4 𝑟2 .87 𝑜4 𝑟3 1 𝑜5 𝑟1 .76 𝑜5 𝑟2 1 0 1 2 3 4 5 6 Risultati 0 0,79 1 1 0,86 0,76 0 0,2 0,4 0,6 0,8 1 1,2 Valoredipossibilità Osservazioni Distribuzione di possibilità per r1
  • 11. 11 di 24 METODO POLINOMIALE APPROSSIMATO (𝐴5) • Si dimostra che 𝜋 𝑁 è un fuzzy set normale e che qualsiasi 𝛼-cut di 𝜋 𝑁 è un intervallo (nel dominio dei numeri naturali) • Fissato il numero di 𝛼-cut, 𝑘, il metodo consiste nel calcolare per ogni referente e per ogni valore di 𝛼, gli estremi dell’intervallo • Supponendo 𝑘 = 5, per 𝑟1: 𝑁1 0.0 = [𝑥 𝑚𝑖𝑛 = 1, 𝑥 𝑚𝑎𝑥 = 5] 𝑁1 0.25 = [𝑥 𝑚𝑖𝑛 = 1, 𝑥 𝑚𝑎𝑥 = 5] 𝑁1 0.5 = [𝑥 𝑚𝑖𝑛 = 1, 𝑥 𝑚𝑎𝑥 = 5] 𝑁1 0.75 = [𝑥 𝑚𝑖𝑛 = 1, 𝑥 𝑚𝑎𝑥 = 5] 𝑁1 1.0 = [𝑥 𝑚𝑖𝑛 = 2, 𝑥 𝑚𝑎𝑥 = 3] Annarita Fierro 11
  • 12. 12 di 24 METODO POLINOMIALE APPROSSIMATO (𝐴5) • Per ogni osservazione, si ottengono i seguenti valori: osservazione: 0 = 0 osservazione: 1 = 0.75 osservazione: 2 = 1.0 osservazione: 3 = 1.0 osservazione: 4 = 0.75 osservazione: 5 = 0.75 Annarita Fierro 12 0 1 2 3 4 5 6 Risultati 0 0,75 1 1 0,75 0,75 0 0,2 0,4 0,6 0,8 1 1,2 Valoredipossibilità Osservazioni Distribuzione di possibilità per r1
  • 13. 13 di 24 METODO POLINOMIALE APPROSSIMATO (𝐴10) • Per 𝑘 = 10: osservazione: 0 = 0 osservazione: 1 = 0.78 osservazione: 2 = 1.0 osservazione: 3 = 1.0 osservazione: 4 = 0.78 osservazione: 5 = 0.67 Annarita Fierro 13 0 1 2 3 4 5 6 Risultati 0 0,78 1 1 0,78 0,67 0 0,2 0,4 0,6 0,8 1 1,2 Valoredipossibilità Osservazioni Distribuzione di possibilità per r1
  • 14. 14 di 24 METODO POLINOMIALE ESATTO (𝐸) • Dalla matrice: si ricavano i valori di 𝛼: 0, 0.76, 0.79, 0.86, 1. • Si procede in maniera analoga al metodo precedente per il calcolo dei seguenti valori: osservazione: 0 = 0 osservazione: 1 = 0.79 osservazione: 2 = 1.0 osservazione: 3 = 1.0 osservazione: 4 = 0.86 osservazione: 5 = 0.76 Annarita Fierro 14 𝑟1 𝑟 𝑜1 𝟏 𝟎 𝑜2 1 . 𝟕𝟗 𝑜3 1 1 𝑜4 . 𝟖𝟔 1 𝑜5 .76 1 0 1 2 3 4 5 6 Risultati 0 0,79 1 1 0,86 0,76 0 0,2 0,4 0,6 0,8 1 1,2 Valoredipossibilità Osservazioni Distribuzione di possibilità per r1
  • 15. 15 di 24 METODO TRAPEZOIDALE FUZZY (𝑇) • Permette di ottenere una rappresentazione semplificata del granular counting delle osservazioni attraverso un insieme fuzzy trapezoidale Annarita Fierro 15 • Il conteggio fuzzy per il referente 𝑟1si riduce al calcolo dei seguenti punti: 𝐴′ = 0 𝐵 = 2 𝐶 = 3 𝐷′ = 6
  • 16. SPERIMENTAZIONE • Misure di similarità: • 𝐽 𝐴,𝐵 = |𝐴∩𝐵| |𝐴∪𝐵| = 𝑖=1 𝑛 𝑎 𝑖 ∧ 𝑏 𝑖 𝑖=1 𝑛 𝑎 𝑖 ∨ 𝑏 𝑖 • 𝐿 𝐴,𝐵 = 1 − max 𝑖 𝑎𝑖 − 𝑏𝑖 • 𝑆 𝐴,𝐵 = 1 − 𝑖 𝑎 𝑖−𝑏 𝑖 𝑖 𝑎 𝑖+𝑏 𝑖 • 𝑊𝐴,𝐵 = 1 − 𝑖=1 𝑛 𝑎 𝑖−𝑏 𝑖 𝑛 • 𝑀𝐴,𝐵 = sup 𝑥∈𝑋 𝜇 𝐴∩𝐵(𝑥) • 𝑃𝐴,𝐵 = 𝑎 ∙ 𝑏 max(𝑎 ∙ 𝑎, 𝑏 ∙ 𝑏) dove 𝐴 e 𝐵 sono i fuzzy set per cui si valuta il grado di similarità Annarita Fierro 16 di 24 Misura 𝑪, 𝑬 𝑪, 𝑨 𝟓 𝑪, 𝑨 𝟏𝟎 𝑪, 𝑻 𝑻, 𝑨 𝟓 𝑻, 𝑨 𝟏𝟎 𝐽 1 .96 .96 .76 .82 .83 𝐿 1 .89 .91 .57 .58 .67 𝑆 1 .98 .98 .88 .9 .91 𝑊 1 .97 .97 .85 .88 .88 𝑀 1 1 1 1 1 1 𝑃 1 .96 .96 .82 .85 .86
  • 17. SPERIMENTAZIONE Annarita Fierro 17 di 24 0 1 2 3 4 5 6 Metodo C 0 0,79 1 1 0,86 0,76 Metodo E 0 0,79 1 1 0,86 0,76 Metodo A5 0 0,75 1 1 0,75 0,75 Metodo A10 0 0,78 1 1 0,78 0,67 Metodo T 0 0,5 1 1 0,67 0,33 0 0 0,2 0,4 0,6 0,8 1 1,2 Valoredipossibilità Osservazioni Confronto distribuzioni di possibilità per r1
  • 18. APPLICAZIONE ALLA BIONFORMATICA Annarita Fierro 18 di 24 Sequenziamento del trascrittoma per la comparazione dell’espressione genica tra diverse condizioni (sano-malato, diversi tessuti, risposta ad uno stimolo, ecc…)
  • 19. APPLICAZIONE ALLA BIONFORMATICA Annarita Fierro 19 di 24 1http://bioinfo.cipf.es/babelomicstutorial/di fferential_expression Heatmap1 dell’espressione genica che riporta le intensità di una serie di geni (righe) che mostrano significativa espressione differenziale, analizzata in diverse condizioni sperimentali (colonne).
  • 20. 20 di 24 DATASET ASTHMA.READ GENE SCORE • Il dataset contiene uno studio sull'asma, eseguito utilizzando Roche 454 per il sequenziamento di biopsie endobronchiali di 4 pazienti asmatici e 5 pazienti sani. • Porzione del dataset (82108 righe): Multiread Annarita Fierro 20
  • 22. 22 di 24 SPERIMENTAZIONE DATI BIOINFORMATICI Annarita Fierro 22 Tempi di esecuzione metodi di conteggio [hh:mm:ss] 206 reads in comune Gene OTTHUMG00000 Reads 𝐸 𝑇 𝐴10 𝐴25 𝐴100 152528|AC002480.6 206 00:00:01 00:00:00 00:00:00 00:00:01 00:00:02 020851|EEF1A1P5 213 00:00:01 00:00:00 00:00:00 00:00:01 00:00:02 344 reads in comune Gene OTTHUMG00000 Reads 𝐸 𝑇 𝐴10 𝐴25 𝐴100 184977|MTRNR2L6 344 00:00:01 00:00:00 00:00:00 00:00:01 00:00:03 190529|MTRNR2L6 344 00:00:01 00:00:00 00:00:00 00:00:01 00:00:03 1001 reads in comune Gene OTTHUMG00000 Reads 𝐸 𝑇 𝐴10 𝐴25 𝐴100 184980|MTRNR2L8 1656 00:00:13 00:00:01 00:00:02 00:00:05 00:00:11 175726|MTRNR2L12 5859 00:00:39 00:00:06 00:00:07 00:00:19 00:00:37 1537 reads in comune Gene OTTHUMG00000 Reads 𝐸 𝑇 𝐴2 𝐴5 189719|CH507513H4.3 1537 00:00:03 00:00:01 00:00:00 00:00:00 189719|CH507513H4.6 1537 00:00:03 00:00:01 00:00:00 00:00:00
  • 23. 23 di 24 CONCLUSIONI E SVILUPPI FUTURI • I metodi di conteggio discussi e proposti nel presente lavoro di tesi forniscono delle soluzioni ai quesiti posti • Un metodo lineare come quello polinomiale approssimato, la cui complessità è proporzionale a 𝑛 (numero di osservazioni) per 𝑘 (numero di 𝛼-cuts), risulta inadatto per valori molto elevati di 𝑛, quindi in corrispondenza di dataset di grandi dimensioni, contenenti diversi GigaByte di dati • Sviluppi futuri: • Clustering • Sampling • Il metodo polinomiale approssimato rappresenta in tutti i casi una sovrastima di quello esatto • Esiste una proprietà teorica che potrebbe essere esplorata e sfruttata per fornire dei limiti certificati circa la distribuzione di possibilità risultante dall’applicazione del metodo approssimato Annarita Fierro 23