Dal web 2 al web 3

Dal Web 2.0 al Web Giacomo Veneri
3.0

Summary

 Introduzione
 Concetti base di statistica inferenziale (30min)
 Pattern recognition short view: SVM, clustering &
Neural Network (30min)
 Text Mining: ontologie (OWL), Linguistica
computazionale (30min)
 Bayesian decision framework (30min)
 Esempi pratici: Bing il nuovo motore microsoft (30
min)
 Marketing in rete

Web 2.0 > Web 3.0 Verso il 3.0
Web 1

Web 2.0

Web 3.0
HTML, AJAX, RIA IA,
HTTP, WS o Il Web
XML Servizi Semantico
RDB, Integrati GeoSpatial
PSTN Social (il 3D??)
Network

Web 3.0 Cosa è?

Web 3.0

Web 2.0

L’aspetto E la grafica?

Grafica Centrico

HTML, SWF, … Interattivo
Centrico

XML, AJAX, … Contenuto
Centrico

XML, OWL, …

The Winner Take All
Method
Rendere efficiente la
prima visita!

OnMinuteSite

Foveate Animal
shape from: IntensitiesCM

50

100

150

200

250

300

350

400

100 200 300 400 500 600 700 800

Main Blocks

Internal status Attention
Working memory
Top
Down

Bottom-
Up
Peripheral vision
Saliency of Image/scene

WTA on OneMinute Site
ColorCM IntensitiesCM

5 5
10 10
15 15
20 20
25 25
10 20 30 40 50 10 20 30 40 50

OrientationsCM

5
10
15
20
25
10 20 30 40 50

The first Fixation

shape from: Red/Green (7-3)

50

100

150

200

250

300

350
IntensitiesCM
ColorCM

5
10
5
10
400
15 15
20 20
25 25
100 200 300 400 500 600 700 800
10 20 30 40 50 10 20 30 40 50

OrientationsCM

5
10
15
20
25
10 20 30 40 50

La prima fissazione

shape from: Red/Green (7-3)

50

100

150

200

250

300

350
IntensitiesCM
ColorCM

5
10
5
10
400
15 15
20 20
25 25
100 200 300 400 500 600 700 800
10 20 30 40 50 10 20 30 40 50

OrientationsCM

5
10
15
20
25
10 20 30 40 50

La seconda fissazione

shape from: Gabor90.0 (8-5)

50

100

150

200

250

300

350

400

100 200 300 400 500 600 700 800

La terza fissazione

shape from: Intensity (7-4)

50

100

150

200

250

300

350

400

100 200 300 400 500 600 700 800

Dalla quarta in poi i meccanismi sono altri

Aumentare l’efficienza della
prima visita

Winner Take All
http://ilab.usc.edu/bu/

Decidere per una
macchina

Perché questa roba noiosa?

Perchè

Teorema di Bayes
Neural network

Pattern Recognition
Statistica inferenziale
SVM

Text Mining

Genetic Algorithm Natural Language

Web Advertising Web Semantico

Decidere - Classificare

NO
Appartenere alla classe dei SI o dei NO

SI

Concetti base di
statistica inferenziale

Perché questa roba noiosa?

Moda, Media, Mediana e Varianza
 La moda è un indice di posizione ed
è la modalità del carattere cui
corrisponde la massima frequenza.
 La mediana è quel valore della
variabile che bipartisce la
distribuzione ordinata delle modalità
di un carattere.
 La media aritmetica è l’indice
statistico più utilizzato per la facilità
di calcolo e per le proprietà di cui
gode. Essa esprime la posizione
globale di una distribuzione di
frequenza.
 Lo scostamento quadratico medio
o deviazione standard è un indice
di variabilità .
 L’intervallo di confidenza è uno
strumento statistico utilizzato per
attribuire un giudizio di validità circa
la stima dei parametri.

I test di significatività

 Ci consentono di vedere se due gruppi sono
diversi, in via di massima:
 Variabilità tra i gruppi / Variabilità all’interno del
gruppo
P = 30% >> 5%

Esempio

P = 30% >> 5%

I test non parametrici

 Primo assunto: l'indipendenza dei gruppi campionari
 Secondo assunto: normalità delle distribuzioni
 Terzo assunto: omoschedasticità o omogeneità delle
varianze.

 Test di Mann-Whitney (o della somma dei ranghi): due
campioni indipendenti; è uno dei test non parametrici più
potenti e serve a verificare se due gruppi indipendenti
appartengono alla stessa popolazione. È un'alternativa
molto valida al test parametrico T-Student, quando non
possono considerarsi i postulati del T test, oppure la scala
di misura è più debole di una scala ad intervalli.

La correlazione statistica

 Per correlazione si intende una relazione tra due
variabili casuali tale che a ciascun valore della
prima variabile corrisponda con una certa
regolarità un valore della seconda.

Esercizio

 Prendere Excel/SPSS/Matlab
 Inserire dei dati relativi al numero di siti aperti
durante la settimana ordinati per giorni
 Calcolare, Media, Mediana, Moda, e differenza tra
siti aperti nel WE e non.
 Cercare la correlazione con i giorni

Pattern Recognition

Classificare

Il clustering

 Tutte le tecniche di clustering si basano sul
concetto di distanza tra due elementi.
 La bontà delle analisi ottenute dagli algoritmi di
clustering dipende molto dalla scelta della metrica,
e quindi da come è calcolata la distanza.

Tree classifier

 Le tecniche di clustering gerarchico non
producono un partizionamento flat dei punti, ma
una rappresentazione gerarchica ad albero.

SVM
 Una SVM è un classificatore binario che apprende il
confine fra esempi appartenenti a due diverse classi.
 Funziona proiettando gli esempi in uno spazio
multidimensionale e cercando un iperpiano di
separazione in questo spazio.
 L'iperpiano di separazione massimizza la sua distanza
(il “margine”) dagli esempi di training più vicini.

Neural Network
 Una rete neurale artificiale (ANN
"Artificial Neural Network" in
inglese), normalmente è chiamata
solo "rete neurale" (NN "Neural
Network" in inglese), ed è un
modello matematico/informatico di
calcolo basato sulle reti neurali
biologiche. Tale modello è costituito
da un gruppo di interconnessioni di
informazioni costituite da neuroni
artificiali e processi che utilizzano un
approccio di connessionismo di
calcolo. Nella maggior parte dei casi
una rete neurale artificiale è un
sistema adattivo che cambia la sua
struttura basata su informazioni
esterne o interne che scorrono
attraverso la rete durante la fase di
apprendimento.

Applicazione pratica - Weka

 Weka 3: Data Mining Software in Java

Il futuro dei motori di
ricerca

L’intelligenza in un sito

Bing Alpha

 Bing sfrutterà l’inferenza Bayesiana per decidere
la pubblicità

 Owl vs Bayesian Inference

Text Mining

Classificare il testo

Concetti Base - NL

 Ti racconto quello che mi è successo nella vita
 Ti racconto il successo che ho avuto nella mia
vita
 Lemmatizzazione: successo voce del verbo
succedere o successo sostantivo
 Disambiguazione
 Analisi sintattica: «IO» soggetto, «racconto» verbo
…
 Analisi semantica: successo nel senso di
succedere

Text Mining

 Il text mining è la disciplina che regola
l’apprendimento di un testo sulla base di concetti
statistici.
 Stop word: il, lo, la, i gli
 Verbi ausiliari
 Frequenza della parola nel contesto:
«avvenire»,»dare», «lavoro»
 Keyword: «Pinocchio», «Sintra»

Lucene

http://lucene.apache.org

Lucene Analyzer
IndexSearcher is = new IndexSearcher(indexDirectory);

Analyzer analyzer = new StandardAnalyzer();

QueryParser parser = new QueryParser("article", analyzer);

Query query = parser.parse(searchCriteria); Hits hits =
is.search(query);

for (int i=0; i<hits.length(); i++) {
Document doc = hits.doc(i); // display the articles that
were found to the user
}
is.close();

Indexer
Document document = new Document();
document.add(Field.Text("author", author));
document.add(Field.Text("title", title));
document.add(Field.Text("topic", topic));
document.add(Field.UnIndexed("url", url));
document.add(Field.Keyword("date", dateWritten));
document.add(Field.UnStored("article", article)); return
document;

Analyzer analyzer = new StandardAnalyzer();
IndexWriter writer = new IndexWriter(indexDirectory,
analyzer, false); writer.addDocument(document);
writer.optimize(); writer.close();

Ontology, semantic
and text mining

Il web semantico

Ontologie come base di conoscenza
avente dati strutturati

Estrazione dati Inferire nuova conoscenza

Ragionamento
Ragionamento automatico che Ragionamento inteso come inferenza
sfrutta opportuni linguaggi di finalizzato a produrre nuova
query per ontologie (SQL, conoscenza attraverso i linguaggi di
SeRQL, SPARQL) per estrarre reasoning dei SW (SWRL, RuleML,
dati e rendere esplicita Fuzzy RuleML)
conoscenza implicita

Query and Reasoning Tools (Sesame, Jena, Racer, …)

I Linguaggi

 A livello di sintassi (alberi e non grafi, mentre l’rdf
e’ un grafo. si perdono quindi le relazioni fra le
risorse)[XQuery ]

 A livello di struttura (si interrogano le triple sogg-
predicato-oggetto direttamente a livello di data
model, ma vengono recuperate dalla query solo
asserzioni esplicite) [Squish ]

<?xml version="1.0"?>
<rdf:RDF <owl:ObjectProperty rdf:ID="ama">

La struttura OWL
xmlns:rdf="http://www.w3.org/1999/02/22- <rdfs:domain
rdf-syntax-ns#" rdf:resource="#persona"/>
xmlns:rdfs="http://www.w3.org/2000/01/rdf- <rdfs:range
schema#" rdf:resource="#persona"/>
</owl:ObjectProperty>
xmlns:owl="http://www.w3.org/2002/07/owl#" <persona rdf:ID="John">
xmlns="http://www.owl- <amicoDi>
ontologies.com/unnamed.owl#" <femmina rdf:ID="Susan">
xml:base="http://www.owl- <ama rdf:resource="#Andrea"/>
ontologies.com/unnamed.owl"> </femmina>
<owl:Ontology rdf:about=""/> </amicoDi>
<owl:Class rdf:ID="maschio"> </persona>
<owl:disjointWith> </rdf:RDF>
<owl:Class rdf:ID="femmina"/>
</owl:disjointWith>  AMICIZIA(Femmina( AMARE Maschio))
<rdfs:subClassOf>
<owl:Class rdf:ID="persona"/>
</rdfs:subClassOf> <persona rdf:ID="John">
</owl:Class> <amicoDi>
<owl:Class rdf:about="#femmina"> <femmina rdf:ID =“Susan">
<rdfs:subClassOf
rdf:resource="#persona"/>
<owl:disjointWith <femmina rdf:ID="Susan">
rdf:resource="#maschio"/> <ama rdf:resource="#Andrea"/>
</owl:Class>
<owl:ObjectProperty rdf:ID="amicoDi">
<rdfs:domain rdf:resource="#persona"/>
<rdfs:range rdf:resource="#persona"/> John
</owl:ObjectProperty>

SeRQL (Sesame RDF Query
Language)

5 condizioni: SELECT, FROM, WHERE, LIMIT, OFFSET
SELECT-FROM
In una query di select –from si specificano quali valori devono essere
restituiti, da dove e in quale ordine.

WHERE
Condizione opzionale che specifica i paths del grafo RDF che sono rilevanti
nella query

select Church
from {Place} test:has_place_name {Church};
[test:has_style {Style}]
where Style like "Baroque"
using namespace
mis = <http://www.di.unito.it/~carmagno/mis.txt>

OWL

 The OWL Web Ontology Language is designed for use by
applications that need to process the content of information
instead of just presenting information to humans. OWL
facilitates greater machine interpretability of Web content
than that supported by XML, RDF, and RDF Schema (RDF-
S) by providing additional vocabulary along with a formal
semantics. OWL has three increasingly-expressive
sublanguages: OWL Lite, OWL DL, and OWL Full.

Fuzzy Rule ML
• Necessità di gestione dell’incertezza nel Semantic
Web.

• In Fuzzy RuleML, si specifica nei fatti un “grado di
importanza” (peso) degli antecedenti in relazione al
conseguente.

 Esempio:

 Ricchezza (? p) 0.5 ^ Salute (? p) 0.9 -> Felicità (? p),

 dove Ricchezza , Salute e Felicità sono predicati fuzzy

Application
 OWL API – in JAVA
 WordNet è un database semantico-lessicale per la lingua inglese elaborato dal linguista
George Armitage Miller presso l'Università di Princeton, che si propone di organizzare, definire
e descrivere i concetti espressi dai vocaboli.
• Bossam, a RETE-based rule engine with native supports for reasoning over OWL ontologies,
SWRL rules, and RuleML rules. Queries in Buchingae language;
• Hoolet, an implementation of an OWL-DL reasoner (rules encoded in SWRL);
• Pellet, an open-source Java OWL DL reasoner (rules encoded in SWRL, queries in SPARQL);
• KAON2 is an infrastructure for managing OWL-DL, SWRL, and F-Logic ontologies (rules
encoded in SWRL, queries in SPARQL);
• FaCT, a description logic (DL) classifier e FaCT++, the new generation of FaCT OWL-DL
reasoner;
• SweetRules, an integrated set of tools for Semantic web rules and ontologies (rules encoded in
SWRL);
 RACER PRO , a semantic web reasoning system and information repository;
 Jena (framework), an open source semantic web framework for Java;
 Sesame an open source semantic web framework for Java.

Dal Web 2.0 al Web 3.0

giacomo.veneri@etinnova.it
g.veneri@unisi.it

Giacomo Veneri

Dal web 2 al web 3

Recommended

Recommended

More Related Content

More from Giacomo Veneri

More from Giacomo Veneri (9)

Recently uploaded

Recently uploaded (7)

Dal web 2 al web 3