SlideShare a Scribd company logo
1 of 51
Dal Web 2.0 al Web   Giacomo Veneri
3.0
Summary

 Introduzione
 Concetti base di statistica inferenziale (30min)
 Pattern recognition short view: SVM, clustering &
    Neural Network (30min)
   Text Mining: ontologie (OWL), Linguistica
    computazionale (30min)
   Bayesian decision framework (30min)
   Esempi pratici: Bing il nuovo motore microsoft (30
    min)
   Marketing in rete
Web 2.0 > Web 3.0               Verso il 3.0
Web 1




                Web 2.0




                                               Web 3.0
        HTML,             AJAX, RIA                      IA,
        HTTP,             WS o                           Il Web
        XML               Servizi                        Semantico
        RDB,              Integrati                      GeoSpatial
        PSTN              Social                         (il 3D??)
                          Network
Web 3.0      Cosa è?




                       Web 3.0




   Web 2.0
L’aspetto                               E la grafica?




   Grafica Centrico




    HTML, SWF, …          Interattivo
                           Centrico


                      XML, AJAX, …                       Contenuto
                                                          Centrico


                                                        XML, OWL, …
The Winner Take All
      Method
Rendere efficiente la
   prima visita!


       OnMinuteSite
Foveate Animal
                  shape from: IntensitiesCM


50

100

150

200

250

300

350

400

      100   200    300      400      500      600   700   800
The Human Brain
Main Blocks


 Internal status                        Attention
Working memory
                                Top
                               Down



                     Bottom-
                       Up
                                      Peripheral vision
Saliency of Image/scene
WTA on OneMinute Site
               ColorCM                           IntensitiesCM

   5                                    5
  10                                   10
  15                                   15
  20                                   20
  25                                   25
       10     20    30       40   50        10     20    30      40   50




            OrientationsCM

   5
  10
  15
  20
  25
       10     20    30       40   50
The first Fixation

                                                                                     shape from: Red/Green (7-3)


                                                      50

                                                      100

                                                      150

                                                      200

                                                      250

                                                      300

                                                      350
                                               IntensitiesCM
             ColorCM

 5
10
                                      5
                                     10
                                                      400
15                                   15
20                                   20
25                                   25
                                                                         100   200     300      400      500       600   700   800
     10     20    30       40   50        10     20    30      40   50




          OrientationsCM

 5
10
15
20
25
     10     20    30       40   50
La prima fissazione

                                                                                     shape from: Red/Green (7-3)


                                                      50

                                                      100

                                                      150

                                                      200

                                                      250

                                                      300

                                                      350
                                               IntensitiesCM
             ColorCM

 5
10
                                      5
                                     10
                                                      400
15                                   15
20                                   20
25                                   25
                                                                         100   200     300      400      500       600   700   800
     10     20    30       40   50        10     20    30      40   50




          OrientationsCM

 5
10
15
20
25
     10     20    30       40   50
La seconda fissazione

                    shape from: Gabor90.0 (8-5)


50

100

150

200

250

300

350

400

        100   200     300      400      500       600   700   800
La terza fissazione

                  shape from: Intensity (7-4)


50

100

150

200

250

300

350

400

      100   200     300      400       500      600   700   800




 Dalla quarta in poi i meccanismi sono altri
Aumentare l’efficienza della
        prima visita

Winner Take All
http://ilab.usc.edu/bu/
Decidere per una
   macchina



 Perché questa roba noiosa?
Perchè

                               Teorema di Bayes
Neural network



 Pattern Recognition
                                                 Statistica inferenziale
                       SVM


                                                                      Text Mining

                             Genetic Algorithm       Natural Language


           Web Advertising                             Web Semantico
Decidere - Classificare



                               NO
Appartenere alla classe dei SI o dei NO


       SI
Concetti base di
statistica inferenziale



    Perché questa roba noiosa?
Moda, Media, Mediana e Varianza
 La moda è un indice di posizione ed
    è la modalità del carattere cui
    corrisponde la massima frequenza.
   La mediana è quel valore della
    variabile che bipartisce la
    distribuzione ordinata delle modalità
    di un carattere.
   La media aritmetica è l’indice
    statistico più utilizzato per la facilità
    di calcolo e per le proprietà di cui
    gode. Essa esprime la posizione
    globale di una distribuzione di
    frequenza.
   Lo scostamento quadratico medio
    o deviazione standard è un indice
    di variabilità .
   L’intervallo di confidenza è uno
    strumento statistico utilizzato per
    attribuire un giudizio di validità circa
    la stima dei parametri.
I test di significatività

 Ci consentono di vedere se due gruppi sono
  diversi, in via di massima:
 Variabilità tra i gruppi / Variabilità all’interno del
  gruppo
                                          P = 30% >> 5%
Esempio




          P = 30% >> 5%
I test non parametrici

 Primo assunto: l'indipendenza dei gruppi campionari
 Secondo assunto: normalità delle distribuzioni
 Terzo assunto: omoschedasticità o omogeneità delle
  varianze.

 Test di Mann-Whitney (o della somma dei ranghi): due
  campioni indipendenti; è uno dei test non parametrici più
  potenti e serve a verificare se due gruppi indipendenti
  appartengono alla stessa popolazione. È un'alternativa
  molto valida al test parametrico T-Student, quando non
  possono considerarsi i postulati del T test, oppure la scala
  di misura è più debole di una scala ad intervalli.
La correlazione statistica

 Per correlazione si intende una relazione tra due
 variabili casuali tale che a ciascun valore della
 prima variabile corrisponda con una certa
 regolarità un valore della seconda.
Esempio
Esercizio

 Prendere Excel/SPSS/Matlab
 Inserire dei dati relativi al numero di siti aperti
  durante la settimana ordinati per giorni
 Calcolare, Media, Mediana, Moda, e differenza tra
  siti aperti nel WE e non.
 Cercare la correlazione con i giorni
Pattern Recognition



      Classificare
Il clustering

 Tutte le tecniche di clustering si basano sul
  concetto di distanza tra due elementi.
 La bontà delle analisi ottenute dagli algoritmi di
  clustering dipende molto dalla scelta della metrica,
  e quindi da come è calcolata la distanza.
Tree classifier

 Le tecniche di clustering gerarchico non
 producono un partizionamento flat dei punti, ma
 una rappresentazione gerarchica ad albero.
Esercizio
SVM
 Una SVM è un classificatore binario che apprende il
  confine fra esempi appartenenti a due diverse classi.
 Funziona proiettando gli esempi in uno spazio
  multidimensionale e cercando un iperpiano di
  separazione in questo spazio.
 L'iperpiano di separazione massimizza la sua distanza
  (il “margine”) dagli esempi di training più vicini.
K-Mean
Neural Network
 Una rete neurale artificiale (ANN
  "Artificial Neural Network" in
  inglese), normalmente è chiamata
  solo "rete neurale" (NN "Neural
  Network" in inglese), ed è un
  modello matematico/informatico di
  calcolo basato sulle reti neurali
  biologiche. Tale modello è costituito
  da un gruppo di interconnessioni di
  informazioni costituite da neuroni
  artificiali e processi che utilizzano un
  approccio di connessionismo di
  calcolo. Nella maggior parte dei casi
  una rete neurale artificiale è un
  sistema adattivo che cambia la sua
  struttura basata su informazioni
  esterne o interne che scorrono
  attraverso la rete durante la fase di
  apprendimento.
Applicazione pratica - Weka

 Weka 3: Data Mining Software in Java
Il futuro dei motori di
        ricerca



     L’intelligenza in un sito
Bing Alpha

 Bing sfrutterà l’inferenza Bayesiana per decidere
 la pubblicità




 Owl vs Bayesian Inference
Text Mining



 Classificare il testo
Concetti Base - NL

 Ti racconto quello che mi è successo nella vita
 Ti racconto il successo che ho avuto nella mia
  vita
 Lemmatizzazione: successo voce del verbo
  succedere o successo sostantivo
   Disambiguazione
 Analisi sintattica: «IO» soggetto, «racconto» verbo
  …
 Analisi semantica: successo nel senso di
  succedere
Text Mining

 Il text mining è la disciplina che regola
    l’apprendimento di un testo sulla base di concetti
    statistici.
   Stop word: il, lo, la, i gli
   Verbi ausiliari
   Frequenza della parola nel contesto:
    «avvenire»,»dare», «lavoro»
   Keyword: «Pinocchio», «Sintra»
Lucene




http://lucene.apache.org
Lucene Analyzer
IndexSearcher is = new IndexSearcher(indexDirectory);

Analyzer analyzer = new StandardAnalyzer();

QueryParser parser = new QueryParser("article", analyzer);

Query query = parser.parse(searchCriteria); Hits hits =
is.search(query);

for (int i=0; i<hits.length(); i++) {
Document doc = hits.doc(i); // display the articles that
were found to the user
}
is.close();
Indexer
Document document = new Document();
document.add(Field.Text("author", author));
document.add(Field.Text("title", title));
document.add(Field.Text("topic", topic));
document.add(Field.UnIndexed("url", url));
document.add(Field.Keyword("date", dateWritten));
document.add(Field.UnStored("article", article)); return
document;


Analyzer analyzer = new StandardAnalyzer();
IndexWriter writer = new IndexWriter(indexDirectory,
analyzer, false); writer.addDocument(document);
writer.optimize(); writer.close();
Ontology, semantic
 and text mining



     Il web semantico
Ontologie come base di conoscenza
        avente dati strutturati


Estrazione dati                         Inferire nuova conoscenza


                         Ragionamento
Ragionamento automatico che      Ragionamento inteso come inferenza
sfrutta opportuni linguaggi di   finalizzato a produrre nuova
query per ontologie (SQL,        conoscenza attraverso i linguaggi di
SeRQL, SPARQL) per estrarre      reasoning dei SW (SWRL, RuleML,
dati e rendere esplicita         Fuzzy RuleML)
conoscenza implicita




        Query and Reasoning Tools (Sesame, Jena, Racer, …)
I Linguaggi

 A livello di sintassi (alberi e non grafi, mentre l’rdf
 e’ un grafo. si perdono quindi le relazioni fra le
 risorse)[XQuery ]

 A livello di struttura (si interrogano le triple sogg-
 predicato-oggetto direttamente a livello di data
 model, ma vengono recuperate dalla query solo
 asserzioni esplicite) [Squish ]
<?xml version="1.0"?>
<rdf:RDF                                         <owl:ObjectProperty rdf:ID="ama">

                     La struttura OWL
   xmlns:rdf="http://www.w3.org/1999/02/22-         <rdfs:domain
rdf-syntax-ns#"                                  rdf:resource="#persona"/>
   xmlns:rdfs="http://www.w3.org/2000/01/rdf-       <rdfs:range
schema#"                                         rdf:resource="#persona"/>
                                                  </owl:ObjectProperty>
xmlns:owl="http://www.w3.org/2002/07/owl#"        <persona rdf:ID="John">
   xmlns="http://www.owl-                        <amicoDi>
ontologies.com/unnamed.owl#"                          <femmina rdf:ID="Susan">
 xml:base="http://www.owl-                             <ama rdf:resource="#Andrea"/>
ontologies.com/unnamed.owl">                          </femmina>
 <owl:Ontology rdf:about=""/>                       </amicoDi>
 <owl:Class rdf:ID="maschio">                     </persona>
   <owl:disjointWith>                            </rdf:RDF>
     <owl:Class rdf:ID="femmina"/>
   </owl:disjointWith>                           AMICIZIA(Femmina( AMARE Maschio))
   <rdfs:subClassOf>
     <owl:Class rdf:ID="persona"/>
   </rdfs:subClassOf>                                     <persona rdf:ID="John">
 </owl:Class>                                               <amicoDi>
 <owl:Class rdf:about="#femmina">                         <femmina rdf:ID =“Susan">
   <rdfs:subClassOf
rdf:resource="#persona"/>
   <owl:disjointWith                                      <femmina rdf:ID="Susan">
rdf:resource="#maschio"/>                                 <ama rdf:resource="#Andrea"/>
 </owl:Class>
 <owl:ObjectProperty rdf:ID="amicoDi">
   <rdfs:domain rdf:resource="#persona"/>
   <rdfs:range rdf:resource="#persona"/>                            John
 </owl:ObjectProperty>
SeRQL (Sesame RDF Query
                 Language)

5 condizioni: SELECT, FROM, WHERE, LIMIT, OFFSET
SELECT-FROM
In una query di select –from si specificano quali valori devono essere
     restituiti, da dove e in quale ordine.

    WHERE
Condizione opzionale che specifica i paths del grafo RDF che sono rilevanti
    nella query

select Church
from {Place} test:has_place_name {Church};
[test:has_style {Style}]
where Style like "Baroque"
using namespace
  mis = <http://www.di.unito.it/~carmagno/mis.txt>
OWL

 The OWL Web Ontology Language is designed for use by
 applications that need to process the content of information
 instead of just presenting information to humans. OWL
 facilitates greater machine interpretability of Web content
 than that supported by XML, RDF, and RDF Schema (RDF-
 S) by providing additional vocabulary along with a formal
 semantics. OWL has three increasingly-expressive
 sublanguages: OWL Lite, OWL DL, and OWL Full.
Fuzzy Rule ML
• Necessità di gestione dell’incertezza nel Semantic
 Web.

• In Fuzzy RuleML, si specifica nei fatti un “grado di
 importanza” (peso) degli antecedenti in relazione al
 conseguente.

 Esempio:

 Ricchezza (? p) 0.5 ^ Salute (? p) 0.9 -> Felicità (? p),

 dove Ricchezza , Salute e Felicità sono predicati fuzzy
Application
 OWL API – in JAVA
 WordNet è un database semantico-lessicale per la lingua inglese elaborato dal linguista
  George Armitage Miller presso l'Università di Princeton, che si propone di organizzare, definire
  e descrivere i concetti espressi dai vocaboli.
• Bossam, a RETE-based rule engine with native supports for reasoning over OWL ontologies,
  SWRL rules, and RuleML rules. Queries in Buchingae language;
• Hoolet, an implementation of an OWL-DL reasoner (rules encoded in SWRL);
• Pellet, an open-source Java OWL DL reasoner (rules encoded in SWRL, queries in SPARQL);
• KAON2 is an infrastructure for managing OWL-DL, SWRL, and F-Logic ontologies (rules
  encoded in SWRL, queries in SPARQL);
• FaCT, a description logic (DL) classifier e FaCT++, the new generation of FaCT OWL-DL
  reasoner;
• SweetRules, an integrated set of tools for Semantic web rules and ontologies (rules encoded in
  SWRL);
 RACER PRO , a semantic web reasoning system and information repository;
 Jena (framework), an open source semantic web framework for Java;
 Sesame an open source semantic web framework for Java.
Dal Web 2.0 al Web 3.0

   giacomo.veneri@etinnova.it
        g.veneri@unisi.it




         Giacomo Veneri

More Related Content

More from Giacomo Veneri

Giacomo Veneri Thesis 1999 University of Siena
Giacomo Veneri Thesis 1999 University of SienaGiacomo Veneri Thesis 1999 University of Siena
Giacomo Veneri Thesis 1999 University of SienaGiacomo Veneri
 
Giiacomo Veneri PHD Dissertation
Giiacomo Veneri PHD Dissertation Giiacomo Veneri PHD Dissertation
Giiacomo Veneri PHD Dissertation Giacomo Veneri
 
Industrial IoT - build your industry 4.0 @techitaly
Industrial IoT - build your industry 4.0 @techitalyIndustrial IoT - build your industry 4.0 @techitaly
Industrial IoT - build your industry 4.0 @techitalyGiacomo Veneri
 
Preparing Java 7 Certifications
Preparing Java 7 CertificationsPreparing Java 7 Certifications
Preparing Java 7 CertificationsGiacomo Veneri
 
EVA – EYE TRACKING - STIMULUS INTEGRATED SEMI AUTOMATIC CASE BASE SYSTEM
EVA – EYE TRACKING - STIMULUS INTEGRATED SEMI AUTOMATIC CASE  BASE SYSTEMEVA – EYE TRACKING - STIMULUS INTEGRATED SEMI AUTOMATIC CASE  BASE SYSTEM
EVA – EYE TRACKING - STIMULUS INTEGRATED SEMI AUTOMATIC CASE BASE SYSTEMGiacomo Veneri
 
THE ROLE OF LATEST FIXATIONS ON ONGOING VISUAL SEARCH
THE ROLE OF LATEST FIXATIONS ON ONGOING VISUAL SEARCH THE ROLE OF LATEST FIXATIONS ON ONGOING VISUAL SEARCH
THE ROLE OF LATEST FIXATIONS ON ONGOING VISUAL SEARCH Giacomo Veneri
 
Evaluating Human Visual Search Performance by Monte Carlo methods and Heurist...
Evaluating Human Visual Search Performance by Monte Carlo methods and Heurist...Evaluating Human Visual Search Performance by Monte Carlo methods and Heurist...
Evaluating Human Visual Search Performance by Monte Carlo methods and Heurist...Giacomo Veneri
 
Giacomo Veneri 2012 phd dissertation
Giacomo Veneri 2012 phd dissertationGiacomo Veneri 2012 phd dissertation
Giacomo Veneri 2012 phd dissertationGiacomo Veneri
 

More from Giacomo Veneri (9)

Giacomo Veneri Thesis 1999 University of Siena
Giacomo Veneri Thesis 1999 University of SienaGiacomo Veneri Thesis 1999 University of Siena
Giacomo Veneri Thesis 1999 University of Siena
 
Giiacomo Veneri PHD Dissertation
Giiacomo Veneri PHD Dissertation Giiacomo Veneri PHD Dissertation
Giiacomo Veneri PHD Dissertation
 
Industrial IoT - build your industry 4.0 @techitaly
Industrial IoT - build your industry 4.0 @techitalyIndustrial IoT - build your industry 4.0 @techitaly
Industrial IoT - build your industry 4.0 @techitaly
 
Preparing Java 7 Certifications
Preparing Java 7 CertificationsPreparing Java 7 Certifications
Preparing Java 7 Certifications
 
Giacomo Veneri Thesis
Giacomo Veneri ThesisGiacomo Veneri Thesis
Giacomo Veneri Thesis
 
EVA – EYE TRACKING - STIMULUS INTEGRATED SEMI AUTOMATIC CASE BASE SYSTEM
EVA – EYE TRACKING - STIMULUS INTEGRATED SEMI AUTOMATIC CASE  BASE SYSTEMEVA – EYE TRACKING - STIMULUS INTEGRATED SEMI AUTOMATIC CASE  BASE SYSTEM
EVA – EYE TRACKING - STIMULUS INTEGRATED SEMI AUTOMATIC CASE BASE SYSTEM
 
THE ROLE OF LATEST FIXATIONS ON ONGOING VISUAL SEARCH
THE ROLE OF LATEST FIXATIONS ON ONGOING VISUAL SEARCH THE ROLE OF LATEST FIXATIONS ON ONGOING VISUAL SEARCH
THE ROLE OF LATEST FIXATIONS ON ONGOING VISUAL SEARCH
 
Evaluating Human Visual Search Performance by Monte Carlo methods and Heurist...
Evaluating Human Visual Search Performance by Monte Carlo methods and Heurist...Evaluating Human Visual Search Performance by Monte Carlo methods and Heurist...
Evaluating Human Visual Search Performance by Monte Carlo methods and Heurist...
 
Giacomo Veneri 2012 phd dissertation
Giacomo Veneri 2012 phd dissertationGiacomo Veneri 2012 phd dissertation
Giacomo Veneri 2012 phd dissertation
 

Recently uploaded

Lorenzo D'Emidio_Vita di Cristoforo Colombo.pptx
Lorenzo D'Emidio_Vita di Cristoforo Colombo.pptxLorenzo D'Emidio_Vita di Cristoforo Colombo.pptx
Lorenzo D'Emidio_Vita di Cristoforo Colombo.pptxlorenzodemidio01
 
Confronto tra Sparta e Atene classiche.ppt
Confronto tra Sparta e Atene classiche.pptConfronto tra Sparta e Atene classiche.ppt
Confronto tra Sparta e Atene classiche.pptcarlottagalassi
 
Lorenzo D'Emidio_Vita e opere di Aristotele.pptx
Lorenzo D'Emidio_Vita e opere di Aristotele.pptxLorenzo D'Emidio_Vita e opere di Aristotele.pptx
Lorenzo D'Emidio_Vita e opere di Aristotele.pptxlorenzodemidio01
 
Quadrilateri e isometrie studente di liceo
Quadrilateri e isometrie studente di liceoQuadrilateri e isometrie studente di liceo
Quadrilateri e isometrie studente di liceoyanmeng831
 
Presentazioni Efficaci e lezioni di Educazione Civica
Presentazioni Efficaci e lezioni di Educazione CivicaPresentazioni Efficaci e lezioni di Educazione Civica
Presentazioni Efficaci e lezioni di Educazione CivicaSalvatore Cianciabella
 
Lorenzo D'Emidio- Lavoro sulla Bioarchittetura.pptx
Lorenzo D'Emidio- Lavoro sulla Bioarchittetura.pptxLorenzo D'Emidio- Lavoro sulla Bioarchittetura.pptx
Lorenzo D'Emidio- Lavoro sulla Bioarchittetura.pptxlorenzodemidio01
 
Lorenzo D'Emidio_Francesco Petrarca.pptx
Lorenzo D'Emidio_Francesco Petrarca.pptxLorenzo D'Emidio_Francesco Petrarca.pptx
Lorenzo D'Emidio_Francesco Petrarca.pptxlorenzodemidio01
 

Recently uploaded (7)

Lorenzo D'Emidio_Vita di Cristoforo Colombo.pptx
Lorenzo D'Emidio_Vita di Cristoforo Colombo.pptxLorenzo D'Emidio_Vita di Cristoforo Colombo.pptx
Lorenzo D'Emidio_Vita di Cristoforo Colombo.pptx
 
Confronto tra Sparta e Atene classiche.ppt
Confronto tra Sparta e Atene classiche.pptConfronto tra Sparta e Atene classiche.ppt
Confronto tra Sparta e Atene classiche.ppt
 
Lorenzo D'Emidio_Vita e opere di Aristotele.pptx
Lorenzo D'Emidio_Vita e opere di Aristotele.pptxLorenzo D'Emidio_Vita e opere di Aristotele.pptx
Lorenzo D'Emidio_Vita e opere di Aristotele.pptx
 
Quadrilateri e isometrie studente di liceo
Quadrilateri e isometrie studente di liceoQuadrilateri e isometrie studente di liceo
Quadrilateri e isometrie studente di liceo
 
Presentazioni Efficaci e lezioni di Educazione Civica
Presentazioni Efficaci e lezioni di Educazione CivicaPresentazioni Efficaci e lezioni di Educazione Civica
Presentazioni Efficaci e lezioni di Educazione Civica
 
Lorenzo D'Emidio- Lavoro sulla Bioarchittetura.pptx
Lorenzo D'Emidio- Lavoro sulla Bioarchittetura.pptxLorenzo D'Emidio- Lavoro sulla Bioarchittetura.pptx
Lorenzo D'Emidio- Lavoro sulla Bioarchittetura.pptx
 
Lorenzo D'Emidio_Francesco Petrarca.pptx
Lorenzo D'Emidio_Francesco Petrarca.pptxLorenzo D'Emidio_Francesco Petrarca.pptx
Lorenzo D'Emidio_Francesco Petrarca.pptx
 

Dal web 2 al web 3

  • 1. Dal Web 2.0 al Web Giacomo Veneri 3.0
  • 2. Summary  Introduzione  Concetti base di statistica inferenziale (30min)  Pattern recognition short view: SVM, clustering & Neural Network (30min)  Text Mining: ontologie (OWL), Linguistica computazionale (30min)  Bayesian decision framework (30min)  Esempi pratici: Bing il nuovo motore microsoft (30 min)  Marketing in rete
  • 3. Web 2.0 > Web 3.0 Verso il 3.0 Web 1 Web 2.0 Web 3.0 HTML, AJAX, RIA IA, HTTP, WS o Il Web XML Servizi Semantico RDB, Integrati GeoSpatial PSTN Social (il 3D??) Network
  • 4. Web 3.0 Cosa è? Web 3.0 Web 2.0
  • 5. L’aspetto E la grafica? Grafica Centrico HTML, SWF, … Interattivo Centrico XML, AJAX, … Contenuto Centrico XML, OWL, …
  • 6. The Winner Take All Method Rendere efficiente la prima visita! OnMinuteSite
  • 7. Foveate Animal shape from: IntensitiesCM 50 100 150 200 250 300 350 400 100 200 300 400 500 600 700 800
  • 9. Main Blocks Internal status Attention Working memory Top Down Bottom- Up Peripheral vision Saliency of Image/scene
  • 10. WTA on OneMinute Site ColorCM IntensitiesCM 5 5 10 10 15 15 20 20 25 25 10 20 30 40 50 10 20 30 40 50 OrientationsCM 5 10 15 20 25 10 20 30 40 50
  • 11. The first Fixation shape from: Red/Green (7-3) 50 100 150 200 250 300 350 IntensitiesCM ColorCM 5 10 5 10 400 15 15 20 20 25 25 100 200 300 400 500 600 700 800 10 20 30 40 50 10 20 30 40 50 OrientationsCM 5 10 15 20 25 10 20 30 40 50
  • 12. La prima fissazione shape from: Red/Green (7-3) 50 100 150 200 250 300 350 IntensitiesCM ColorCM 5 10 5 10 400 15 15 20 20 25 25 100 200 300 400 500 600 700 800 10 20 30 40 50 10 20 30 40 50 OrientationsCM 5 10 15 20 25 10 20 30 40 50
  • 13. La seconda fissazione shape from: Gabor90.0 (8-5) 50 100 150 200 250 300 350 400 100 200 300 400 500 600 700 800
  • 14. La terza fissazione shape from: Intensity (7-4) 50 100 150 200 250 300 350 400 100 200 300 400 500 600 700 800 Dalla quarta in poi i meccanismi sono altri
  • 15. Aumentare l’efficienza della prima visita Winner Take All http://ilab.usc.edu/bu/
  • 16. Decidere per una macchina Perché questa roba noiosa?
  • 17. Perchè Teorema di Bayes Neural network Pattern Recognition Statistica inferenziale SVM Text Mining Genetic Algorithm Natural Language Web Advertising Web Semantico
  • 18. Decidere - Classificare NO Appartenere alla classe dei SI o dei NO SI
  • 19. Concetti base di statistica inferenziale Perché questa roba noiosa?
  • 20. Moda, Media, Mediana e Varianza  La moda è un indice di posizione ed è la modalità del carattere cui corrisponde la massima frequenza.  La mediana è quel valore della variabile che bipartisce la distribuzione ordinata delle modalità di un carattere.  La media aritmetica è l’indice statistico più utilizzato per la facilità di calcolo e per le proprietà di cui gode. Essa esprime la posizione globale di una distribuzione di frequenza.  Lo scostamento quadratico medio o deviazione standard è un indice di variabilità .  L’intervallo di confidenza è uno strumento statistico utilizzato per attribuire un giudizio di validità circa la stima dei parametri.
  • 21. I test di significatività  Ci consentono di vedere se due gruppi sono diversi, in via di massima:  Variabilità tra i gruppi / Variabilità all’interno del gruppo P = 30% >> 5%
  • 22. Esempio P = 30% >> 5%
  • 23. I test non parametrici  Primo assunto: l'indipendenza dei gruppi campionari  Secondo assunto: normalità delle distribuzioni  Terzo assunto: omoschedasticità o omogeneità delle varianze.  Test di Mann-Whitney (o della somma dei ranghi): due campioni indipendenti; è uno dei test non parametrici più potenti e serve a verificare se due gruppi indipendenti appartengono alla stessa popolazione. È un'alternativa molto valida al test parametrico T-Student, quando non possono considerarsi i postulati del T test, oppure la scala di misura è più debole di una scala ad intervalli.
  • 24. La correlazione statistica  Per correlazione si intende una relazione tra due variabili casuali tale che a ciascun valore della prima variabile corrisponda con una certa regolarità un valore della seconda.
  • 26. Esercizio  Prendere Excel/SPSS/Matlab  Inserire dei dati relativi al numero di siti aperti durante la settimana ordinati per giorni  Calcolare, Media, Mediana, Moda, e differenza tra siti aperti nel WE e non.  Cercare la correlazione con i giorni
  • 27. Pattern Recognition Classificare
  • 28. Il clustering  Tutte le tecniche di clustering si basano sul concetto di distanza tra due elementi.  La bontà delle analisi ottenute dagli algoritmi di clustering dipende molto dalla scelta della metrica, e quindi da come è calcolata la distanza.
  • 29. Tree classifier  Le tecniche di clustering gerarchico non producono un partizionamento flat dei punti, ma una rappresentazione gerarchica ad albero.
  • 31. SVM  Una SVM è un classificatore binario che apprende il confine fra esempi appartenenti a due diverse classi.  Funziona proiettando gli esempi in uno spazio multidimensionale e cercando un iperpiano di separazione in questo spazio.  L'iperpiano di separazione massimizza la sua distanza (il “margine”) dagli esempi di training più vicini.
  • 33. Neural Network  Una rete neurale artificiale (ANN "Artificial Neural Network" in inglese), normalmente è chiamata solo "rete neurale" (NN "Neural Network" in inglese), ed è un modello matematico/informatico di calcolo basato sulle reti neurali biologiche. Tale modello è costituito da un gruppo di interconnessioni di informazioni costituite da neuroni artificiali e processi che utilizzano un approccio di connessionismo di calcolo. Nella maggior parte dei casi una rete neurale artificiale è un sistema adattivo che cambia la sua struttura basata su informazioni esterne o interne che scorrono attraverso la rete durante la fase di apprendimento.
  • 34. Applicazione pratica - Weka  Weka 3: Data Mining Software in Java
  • 35. Il futuro dei motori di ricerca L’intelligenza in un sito
  • 36. Bing Alpha  Bing sfrutterà l’inferenza Bayesiana per decidere la pubblicità  Owl vs Bayesian Inference
  • 38. Concetti Base - NL  Ti racconto quello che mi è successo nella vita  Ti racconto il successo che ho avuto nella mia vita  Lemmatizzazione: successo voce del verbo succedere o successo sostantivo  Disambiguazione  Analisi sintattica: «IO» soggetto, «racconto» verbo …  Analisi semantica: successo nel senso di succedere
  • 39. Text Mining  Il text mining è la disciplina che regola l’apprendimento di un testo sulla base di concetti statistici.  Stop word: il, lo, la, i gli  Verbi ausiliari  Frequenza della parola nel contesto: «avvenire»,»dare», «lavoro»  Keyword: «Pinocchio», «Sintra»
  • 41. Lucene Analyzer IndexSearcher is = new IndexSearcher(indexDirectory); Analyzer analyzer = new StandardAnalyzer(); QueryParser parser = new QueryParser("article", analyzer); Query query = parser.parse(searchCriteria); Hits hits = is.search(query); for (int i=0; i<hits.length(); i++) { Document doc = hits.doc(i); // display the articles that were found to the user } is.close();
  • 42. Indexer Document document = new Document(); document.add(Field.Text("author", author)); document.add(Field.Text("title", title)); document.add(Field.Text("topic", topic)); document.add(Field.UnIndexed("url", url)); document.add(Field.Keyword("date", dateWritten)); document.add(Field.UnStored("article", article)); return document; Analyzer analyzer = new StandardAnalyzer(); IndexWriter writer = new IndexWriter(indexDirectory, analyzer, false); writer.addDocument(document); writer.optimize(); writer.close();
  • 43. Ontology, semantic and text mining Il web semantico
  • 44. Ontologie come base di conoscenza avente dati strutturati Estrazione dati Inferire nuova conoscenza Ragionamento Ragionamento automatico che Ragionamento inteso come inferenza sfrutta opportuni linguaggi di finalizzato a produrre nuova query per ontologie (SQL, conoscenza attraverso i linguaggi di SeRQL, SPARQL) per estrarre reasoning dei SW (SWRL, RuleML, dati e rendere esplicita Fuzzy RuleML) conoscenza implicita Query and Reasoning Tools (Sesame, Jena, Racer, …)
  • 45. I Linguaggi  A livello di sintassi (alberi e non grafi, mentre l’rdf e’ un grafo. si perdono quindi le relazioni fra le risorse)[XQuery ]  A livello di struttura (si interrogano le triple sogg- predicato-oggetto direttamente a livello di data model, ma vengono recuperate dalla query solo asserzioni esplicite) [Squish ]
  • 46. <?xml version="1.0"?> <rdf:RDF <owl:ObjectProperty rdf:ID="ama"> La struttura OWL xmlns:rdf="http://www.w3.org/1999/02/22- <rdfs:domain rdf-syntax-ns#" rdf:resource="#persona"/> xmlns:rdfs="http://www.w3.org/2000/01/rdf- <rdfs:range schema#" rdf:resource="#persona"/> </owl:ObjectProperty> xmlns:owl="http://www.w3.org/2002/07/owl#" <persona rdf:ID="John"> xmlns="http://www.owl- <amicoDi> ontologies.com/unnamed.owl#" <femmina rdf:ID="Susan"> xml:base="http://www.owl- <ama rdf:resource="#Andrea"/> ontologies.com/unnamed.owl"> </femmina> <owl:Ontology rdf:about=""/> </amicoDi> <owl:Class rdf:ID="maschio"> </persona> <owl:disjointWith> </rdf:RDF> <owl:Class rdf:ID="femmina"/> </owl:disjointWith>  AMICIZIA(Femmina( AMARE Maschio)) <rdfs:subClassOf> <owl:Class rdf:ID="persona"/> </rdfs:subClassOf> <persona rdf:ID="John"> </owl:Class> <amicoDi> <owl:Class rdf:about="#femmina"> <femmina rdf:ID =“Susan"> <rdfs:subClassOf rdf:resource="#persona"/> <owl:disjointWith <femmina rdf:ID="Susan"> rdf:resource="#maschio"/> <ama rdf:resource="#Andrea"/> </owl:Class> <owl:ObjectProperty rdf:ID="amicoDi"> <rdfs:domain rdf:resource="#persona"/> <rdfs:range rdf:resource="#persona"/> John </owl:ObjectProperty>
  • 47. SeRQL (Sesame RDF Query Language) 5 condizioni: SELECT, FROM, WHERE, LIMIT, OFFSET SELECT-FROM In una query di select –from si specificano quali valori devono essere restituiti, da dove e in quale ordine. WHERE Condizione opzionale che specifica i paths del grafo RDF che sono rilevanti nella query select Church from {Place} test:has_place_name {Church}; [test:has_style {Style}] where Style like "Baroque" using namespace mis = <http://www.di.unito.it/~carmagno/mis.txt>
  • 48. OWL  The OWL Web Ontology Language is designed for use by applications that need to process the content of information instead of just presenting information to humans. OWL facilitates greater machine interpretability of Web content than that supported by XML, RDF, and RDF Schema (RDF- S) by providing additional vocabulary along with a formal semantics. OWL has three increasingly-expressive sublanguages: OWL Lite, OWL DL, and OWL Full.
  • 49. Fuzzy Rule ML • Necessità di gestione dell’incertezza nel Semantic Web. • In Fuzzy RuleML, si specifica nei fatti un “grado di importanza” (peso) degli antecedenti in relazione al conseguente.  Esempio:  Ricchezza (? p) 0.5 ^ Salute (? p) 0.9 -> Felicità (? p),  dove Ricchezza , Salute e Felicità sono predicati fuzzy
  • 50. Application  OWL API – in JAVA  WordNet è un database semantico-lessicale per la lingua inglese elaborato dal linguista George Armitage Miller presso l'Università di Princeton, che si propone di organizzare, definire e descrivere i concetti espressi dai vocaboli. • Bossam, a RETE-based rule engine with native supports for reasoning over OWL ontologies, SWRL rules, and RuleML rules. Queries in Buchingae language; • Hoolet, an implementation of an OWL-DL reasoner (rules encoded in SWRL); • Pellet, an open-source Java OWL DL reasoner (rules encoded in SWRL, queries in SPARQL); • KAON2 is an infrastructure for managing OWL-DL, SWRL, and F-Logic ontologies (rules encoded in SWRL, queries in SPARQL); • FaCT, a description logic (DL) classifier e FaCT++, the new generation of FaCT OWL-DL reasoner; • SweetRules, an integrated set of tools for Semantic web rules and ontologies (rules encoded in SWRL);  RACER PRO , a semantic web reasoning system and information repository;  Jena (framework), an open source semantic web framework for Java;  Sesame an open source semantic web framework for Java.
  • 51. Dal Web 2.0 al Web 3.0 giacomo.veneri@etinnova.it g.veneri@unisi.it Giacomo Veneri