2. Summary
Introduzione
Concetti base di statistica inferenziale (30min)
Pattern recognition short view: SVM, clustering &
Neural Network (30min)
Text Mining: ontologie (OWL), Linguistica
computazionale (30min)
Bayesian decision framework (30min)
Esempi pratici: Bing il nuovo motore microsoft (30
min)
Marketing in rete
3. Web 2.0 > Web 3.0 Verso il 3.0
Web 1
Web 2.0
Web 3.0
HTML, AJAX, RIA IA,
HTTP, WS o Il Web
XML Servizi Semantico
RDB, Integrati GeoSpatial
PSTN Social (il 3D??)
Network
14. La terza fissazione
shape from: Intensity (7-4)
50
100
150
200
250
300
350
400
100 200 300 400 500 600 700 800
Dalla quarta in poi i meccanismi sono altri
17. Perchè
Teorema di Bayes
Neural network
Pattern Recognition
Statistica inferenziale
SVM
Text Mining
Genetic Algorithm Natural Language
Web Advertising Web Semantico
20. Moda, Media, Mediana e Varianza
La moda è un indice di posizione ed
è la modalità del carattere cui
corrisponde la massima frequenza.
La mediana è quel valore della
variabile che bipartisce la
distribuzione ordinata delle modalità
di un carattere.
La media aritmetica è l’indice
statistico più utilizzato per la facilità
di calcolo e per le proprietà di cui
gode. Essa esprime la posizione
globale di una distribuzione di
frequenza.
Lo scostamento quadratico medio
o deviazione standard è un indice
di variabilità .
L’intervallo di confidenza è uno
strumento statistico utilizzato per
attribuire un giudizio di validità circa
la stima dei parametri.
21. I test di significatività
Ci consentono di vedere se due gruppi sono
diversi, in via di massima:
Variabilità tra i gruppi / Variabilità all’interno del
gruppo
P = 30% >> 5%
23. I test non parametrici
Primo assunto: l'indipendenza dei gruppi campionari
Secondo assunto: normalità delle distribuzioni
Terzo assunto: omoschedasticità o omogeneità delle
varianze.
Test di Mann-Whitney (o della somma dei ranghi): due
campioni indipendenti; è uno dei test non parametrici più
potenti e serve a verificare se due gruppi indipendenti
appartengono alla stessa popolazione. È un'alternativa
molto valida al test parametrico T-Student, quando non
possono considerarsi i postulati del T test, oppure la scala
di misura è più debole di una scala ad intervalli.
24. La correlazione statistica
Per correlazione si intende una relazione tra due
variabili casuali tale che a ciascun valore della
prima variabile corrisponda con una certa
regolarità un valore della seconda.
26. Esercizio
Prendere Excel/SPSS/Matlab
Inserire dei dati relativi al numero di siti aperti
durante la settimana ordinati per giorni
Calcolare, Media, Mediana, Moda, e differenza tra
siti aperti nel WE e non.
Cercare la correlazione con i giorni
28. Il clustering
Tutte le tecniche di clustering si basano sul
concetto di distanza tra due elementi.
La bontà delle analisi ottenute dagli algoritmi di
clustering dipende molto dalla scelta della metrica,
e quindi da come è calcolata la distanza.
29. Tree classifier
Le tecniche di clustering gerarchico non
producono un partizionamento flat dei punti, ma
una rappresentazione gerarchica ad albero.
31. SVM
Una SVM è un classificatore binario che apprende il
confine fra esempi appartenenti a due diverse classi.
Funziona proiettando gli esempi in uno spazio
multidimensionale e cercando un iperpiano di
separazione in questo spazio.
L'iperpiano di separazione massimizza la sua distanza
(il “margine”) dagli esempi di training più vicini.
33. Neural Network
Una rete neurale artificiale (ANN
"Artificial Neural Network" in
inglese), normalmente è chiamata
solo "rete neurale" (NN "Neural
Network" in inglese), ed è un
modello matematico/informatico di
calcolo basato sulle reti neurali
biologiche. Tale modello è costituito
da un gruppo di interconnessioni di
informazioni costituite da neuroni
artificiali e processi che utilizzano un
approccio di connessionismo di
calcolo. Nella maggior parte dei casi
una rete neurale artificiale è un
sistema adattivo che cambia la sua
struttura basata su informazioni
esterne o interne che scorrono
attraverso la rete durante la fase di
apprendimento.
38. Concetti Base - NL
Ti racconto quello che mi è successo nella vita
Ti racconto il successo che ho avuto nella mia
vita
Lemmatizzazione: successo voce del verbo
succedere o successo sostantivo
Disambiguazione
Analisi sintattica: «IO» soggetto, «racconto» verbo
…
Analisi semantica: successo nel senso di
succedere
39. Text Mining
Il text mining è la disciplina che regola
l’apprendimento di un testo sulla base di concetti
statistici.
Stop word: il, lo, la, i gli
Verbi ausiliari
Frequenza della parola nel contesto:
«avvenire»,»dare», «lavoro»
Keyword: «Pinocchio», «Sintra»
41. Lucene Analyzer
IndexSearcher is = new IndexSearcher(indexDirectory);
Analyzer analyzer = new StandardAnalyzer();
QueryParser parser = new QueryParser("article", analyzer);
Query query = parser.parse(searchCriteria); Hits hits =
is.search(query);
for (int i=0; i<hits.length(); i++) {
Document doc = hits.doc(i); // display the articles that
were found to the user
}
is.close();
44. Ontologie come base di conoscenza
avente dati strutturati
Estrazione dati Inferire nuova conoscenza
Ragionamento
Ragionamento automatico che Ragionamento inteso come inferenza
sfrutta opportuni linguaggi di finalizzato a produrre nuova
query per ontologie (SQL, conoscenza attraverso i linguaggi di
SeRQL, SPARQL) per estrarre reasoning dei SW (SWRL, RuleML,
dati e rendere esplicita Fuzzy RuleML)
conoscenza implicita
Query and Reasoning Tools (Sesame, Jena, Racer, …)
45. I Linguaggi
A livello di sintassi (alberi e non grafi, mentre l’rdf
e’ un grafo. si perdono quindi le relazioni fra le
risorse)[XQuery ]
A livello di struttura (si interrogano le triple sogg-
predicato-oggetto direttamente a livello di data
model, ma vengono recuperate dalla query solo
asserzioni esplicite) [Squish ]
47. SeRQL (Sesame RDF Query
Language)
5 condizioni: SELECT, FROM, WHERE, LIMIT, OFFSET
SELECT-FROM
In una query di select –from si specificano quali valori devono essere
restituiti, da dove e in quale ordine.
WHERE
Condizione opzionale che specifica i paths del grafo RDF che sono rilevanti
nella query
select Church
from {Place} test:has_place_name {Church};
[test:has_style {Style}]
where Style like "Baroque"
using namespace
mis = <http://www.di.unito.it/~carmagno/mis.txt>
48. OWL
The OWL Web Ontology Language is designed for use by
applications that need to process the content of information
instead of just presenting information to humans. OWL
facilitates greater machine interpretability of Web content
than that supported by XML, RDF, and RDF Schema (RDF-
S) by providing additional vocabulary along with a formal
semantics. OWL has three increasingly-expressive
sublanguages: OWL Lite, OWL DL, and OWL Full.
49. Fuzzy Rule ML
• Necessità di gestione dell’incertezza nel Semantic
Web.
• In Fuzzy RuleML, si specifica nei fatti un “grado di
importanza” (peso) degli antecedenti in relazione al
conseguente.
Esempio:
Ricchezza (? p) 0.5 ^ Salute (? p) 0.9 -> Felicità (? p),
dove Ricchezza , Salute e Felicità sono predicati fuzzy
50. Application
OWL API – in JAVA
WordNet è un database semantico-lessicale per la lingua inglese elaborato dal linguista
George Armitage Miller presso l'Università di Princeton, che si propone di organizzare, definire
e descrivere i concetti espressi dai vocaboli.
• Bossam, a RETE-based rule engine with native supports for reasoning over OWL ontologies,
SWRL rules, and RuleML rules. Queries in Buchingae language;
• Hoolet, an implementation of an OWL-DL reasoner (rules encoded in SWRL);
• Pellet, an open-source Java OWL DL reasoner (rules encoded in SWRL, queries in SPARQL);
• KAON2 is an infrastructure for managing OWL-DL, SWRL, and F-Logic ontologies (rules
encoded in SWRL, queries in SPARQL);
• FaCT, a description logic (DL) classifier e FaCT++, the new generation of FaCT OWL-DL
reasoner;
• SweetRules, an integrated set of tools for Semantic web rules and ontologies (rules encoded in
SWRL);
RACER PRO , a semantic web reasoning system and information repository;
Jena (framework), an open source semantic web framework for Java;
Sesame an open source semantic web framework for Java.
51. Dal Web 2.0 al Web 3.0
giacomo.veneri@etinnova.it
g.veneri@unisi.it
Giacomo Veneri