Basta cercare, vogliamo trovare! Content, Document Management & Corporate Portals  Conference 2006 IDC CMS, 24 Gennaio 200...
Il successo dei motori di ricerca <ul><li>Poco sforzo :  </li></ul><ul><ul><li>interfaccia minimalistica </li></ul></ul><u...
Cerchiamo di tutto e … <ul><li>Pagine di testo  </li></ul><ul><ul><li>L’articolo che descrive Google: “Anatomy of a search...
…  e cerchiamo ovunque, ma … IDC CMS, 24 Gennaio 2006, Milano © 2001-2005 E. Della Valle - CEFRIEL -   - Sul  Web , sul po...
…  ma finiamo per perderci, perché … <ul><li>Cercare ha un costo  …  </li></ul><ul><ul><li>Un utente medio </li></ul></ul>...
…  perché “trovare” è un’altra cosa! <ul><li>Volendo dare una pagella ai search engine attuali </li></ul>IDC CMS, 24 Genna...
…  perché “trovare” è un’altra cosa! <ul><li>Bassa recall </li></ul><ul><ul><li>Cercando su google images  Hermann   Maier...
…  perché “trovare” è un’altra cosa! <ul><li>Granularità non appropriata </li></ul><ul><ul><li>Cercando un servizio in cui...
Anatomia di un Search engine IDC CMS, 24 Gennaio 2006, Milano © 2001-2005 E. Della Valle - CEFRIEL -   - Sergey Brin, Lawr...
Anatomia di un Search engine  IDC CMS, 24 Gennaio 2006, Milano © 2001-2005 E. Della Valle - CEFRIEL -   - Indici Searcher ...
Ottima soluzione per trovare pagine Web IDC CMS, 24 Gennaio 2006, Milano © 2001-2005 E. Della Valle - CEFRIEL -   - Search...
Problemi con ricerca di risorse multimediali IDC CMS, 24 Gennaio 2006, Milano © 2001-2005 E. Della Valle - CEFRIEL -   - S...
Il problema è gestire l’ambiguità ! <ul><li>L’informazione contenuta in molte risorse non è direttamente elaborabile dalle...
Macchine più smart Image / Video processing: computer vision <ul><li>Con buona approssimazione riescono a </li></ul><ul><u...
<ul><li>Automatic Speech recognition  (ASR) </li></ul><ul><ul><li>da un po’ di tempo sono disponibili  sistemi di dettatur...
Macchine più smart Text processing : Natural language processing  <ul><li>Natural language processing  (NLP) studia la com...
Macchine più smart e search engine IDC CMS, 24 Gennaio 2006, Milano © 2001-2005 E. Della Valle - CEFRIEL -   - Searcher Ra...
Dati più Smart <ul><li>Il  Semantic Web  mette a disposizione  standard  per codificare e trasmettere  conoscenza  (non in...
Dati più smart un motore di ricerca sintattico vs. … IDC CMS, 24 Gennaio 2006, Milano © 2001-2005 E. Della Valle - CEFRIEL...
Dati più smart …  vs. motore di ricerca semantico IDC CMS, 24 Gennaio 2006, Milano © 2001-2005 E. Della Valle - CEFRIEL - ...
Dati più smart e search engine <ul><li>Dati più Intelligenti  nella forma di  metadati e ontologie  possono essere utilizz...
Dati più smart e search engine <ul><li>della musica </li></ul><ul><ul><li>sfruttando come ontologia della musica due vaste...
Next-generation search engine IDC CMS, 24 Gennaio 2006, Milano © 2001-2005 E. Della Valle - CEFRIEL -   - Searcher Ranker ...
Conclusioni <ul><li>Search engine tradizionali + </li></ul><ul><li>Macchine più smart + </li></ul><ul><li>Dati più smart =...
<ul><li>Grazie mille dell’attenzione </li></ul><ul><li>Domande? </li></ul><ul><li>Contatto </li></ul><ul><ul><li>Emanuele ...
Upcoming SlideShare
Loading in...5
×

Cefriel della valle-idc-cms-2006_basta-cercare-vogliamo-trovare_v1.0

798

Published on

Published in: Technology, News & Politics
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
798
On Slideshare
0
From Embeds
0
Number of Embeds
2
Actions
Shares
0
Downloads
10
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Cefriel della valle-idc-cms-2006_basta-cercare-vogliamo-trovare_v1.0

  1. 1. Basta cercare, vogliamo trovare! Content, Document Management & Corporate Portals Conference 2006 IDC CMS, 24 Gennaio 2006, Milano © 2001-2005 E. Della Valle - CEFRIEL
  2. 2. Il successo dei motori di ricerca <ul><li>Poco sforzo : </li></ul><ul><ul><li>interfaccia minimalistica </li></ul></ul><ul><ul><ul><li>Un semplice box in cui digitare la richiesta </li></ul></ul></ul><ul><ul><li>Segue il processo razionale di capire ciò che si cerca mentre lo si cerca </li></ul></ul><ul><ul><ul><li>Si opera per raffinamenti successivi </li></ul></ul></ul><ul><li>Risultati </li></ul><ul><ul><li>rilevanti, </li></ul></ul><ul><ul><ul><li>Se si cerca una pagina in Google il risultato è quasi sempre nella parte alta della prima pagina </li></ul></ul></ul><ul><ul><li>numerosi , e </li></ul></ul><ul><ul><li>facilmente utilizzabili </li></ul></ul><ul><ul><ul><li>(Cut & Paste !) </li></ul></ul></ul><ul><li>Ovvero, forte attenzione alla user experience! </li></ul>IDC CMS, 24 Gennaio 2006, Milano © 2001-2005 E. Della Valle - CEFRIEL - -
  3. 3. Cerchiamo di tutto e … <ul><li>Pagine di testo </li></ul><ul><ul><li>L’articolo che descrive Google: “Anatomy of a search engine” </li></ul></ul><ul><ul><li>http://www.google.it/ search?hl=it&q=Anatomy+of+a+search+engine&btnG=Cerca&meta = </li></ul></ul><ul><li>Musica </li></ul><ul><ul><li>L’mp3 di “Vorrei Cantare Come Biagio” </li></ul></ul><ul><ul><li>http://www.unitedmusic.it/umshop </li></ul></ul><ul><li>Immagini </li></ul><ul><ul><li>Una foto di “Giorgio Rocca” </li></ul></ul><ul><ul><li>http://images.google.it/ images?svnum=10&hl=it&lr=&q=giorgio+rocca+&btnG=Cerca </li></ul></ul><ul><li>Filmati </li></ul><ul><ul><li>Trailer di Harry Potter and the Goblet of Fire </li></ul></ul><ul><ul><li>http://emea-search.blinkx.com/ tv/search.do?query=%22harry+Potter%22+%22goblet+of+fire%22&bias=100 </li></ul></ul><ul><li>Servizi </li></ul><ul><ul><li>Chi vende online un “router ADSL” </li></ul></ul><ul><ul><li>http://shopping.kelkoo.it/ ctl/do/search?siteSearchQuery=router+adsl </li></ul></ul><ul><li>Persone </li></ul><ul><ul><li>Qualcuno che lavori per IDC </li></ul></ul><ul><ul><li>http://www.linkedin.com/ </li></ul></ul><ul><li>Luoghi </li></ul><ul><ul><li>La posizione dei Musei di New York </li></ul></ul><ul><ul><li>http://maps.google.com/ maps?f=l </li></ul></ul>IDC CMS, 24 Gennaio 2006, Milano © 2001-2005 E. Della Valle - CEFRIEL - - MAP
  4. 4. … e cerchiamo ovunque, ma … IDC CMS, 24 Gennaio 2006, Milano © 2001-2005 E. Della Valle - CEFRIEL - - Sul Web , sul portale aziendale, sul portale intranet , nel sistema di knowledge management sul nostro desktop , nei file server del nostro team operativo, nei folder condivisi dei nostri colleghi Anche nella posta perchè avendo poco tempo per fare ordine, ciò che è importante è di sicuro in una mail
  5. 5. … ma finiamo per perderci, perché … <ul><li>Cercare ha un costo … </li></ul><ul><ul><li>Un utente medio </li></ul></ul><ul><ul><ul><li>fa 2 ricerche al giorno </li></ul></ul></ul><ul><ul><ul><li>spendendo al più 10 minuti prima di rinunciare </li></ul></ul></ul><ul><ul><ul><li>se trova risultati a prima vista interessanti spende circa 2 min a risultato prima di lasciar perdere e passa al successivo </li></ul></ul></ul><ul><ul><ul><li>di solito si tende a scorrere in modo sequenziale i primi 5-10 risultati </li></ul></ul></ul><ul><ul><li>Il costo si cercare per un’azienda con N dipendenti è di … </li></ul></ul><ul><li>… perciò, se ci vengo ritornati troppi risultati </li></ul><ul><ul><li>è facile perdersi e </li></ul></ul><ul><ul><li>si finisce per trascurare informazione rilevante. </li></ul></ul><ul><li>Ma anche trascurare informazione rilevante ha un costo </li></ul><ul><ul><li>per un azienda è un problema efficienza produttiva, </li></ul></ul><ul><ul><li>per un cittadino significa recarsi di persona ad uno sportello </li></ul></ul><ul><ul><li>per un e-commerce provider significa perdere potenziali acquirenti </li></ul></ul><ul><li>significa perdere importanti opportunità. </li></ul>IDC CMS, 24 Gennaio 2006, Milano © 2001-2005 E. Della Valle - CEFRIEL - -
  6. 6. … perché “trovare” è un’altra cosa! <ul><li>Volendo dare una pagella ai search engine attuali </li></ul>IDC CMS, 24 Gennaio 2006, Milano © 2001-2005 E. Della Valle - CEFRIEL - - Pagine di testo 9- Solo se si cercano singole pagine intere Musica 8 Problemi di © e diritti di accesso Immagini 7 ½ Bassa precisione e bassa recall Video 6 Inizio interessante Persone 6- Spezzettate e di bassa qualità Servizi 5 Ci sarebbe bisogno di aggregare i risultati Contenuti 4 Non si riesce se non su singoli portali Dati 3 Impossibile sulla scala di Internet
  7. 7. … perché “trovare” è un’altra cosa! <ul><li>Bassa recall </li></ul><ul><ul><li>Cercando su google images Hermann Maier “ discesa libera ” ci vengo ritornate tutte le immagini con cui le parole sci e “discesa libera” sono in relazione, ma non tutte le immagini perché </li></ul></ul><ul><ul><ul><li>quelle di siti anglofoni saranno in relazione con downhill </li></ul></ul></ul><ul><ul><ul><li>quelle di siti tedeschi con abfahrt </li></ul></ul></ul><ul><ul><ul><li>quelle di siti francesi con descente … </li></ul></ul></ul><ul><ul><li>Sapendo tutto ciò si potrebbe chiedere </li></ul></ul><ul><ul><ul><li>Hermann Maier (“discesa libera” OR downhill OR abfahrt OR descente ) </li></ul></ul></ul><ul><li>Bassa precisione </li></ul><ul><ul><li>Cercando su google images jaguar (avendo in mente la nota casa automobilistica) si ottiene un mix di immagini di automobili e di giaguari </li></ul></ul>IDC CMS, 24 Gennaio 2006, Milano © 2001-2005 E. Della Valle - CEFRIEL - - Discesa libera downhill abfahrt descente totale 13 47 49 12 121
  8. 8. … perché “trovare” è un’altra cosa! <ul><li>Granularità non appropriata </li></ul><ul><ul><li>Cercando un servizio in cui si mostri la vittoria di Giorgio Rocca a Wengen, magari si trova il telegiornale in cui è stato trasmesso </li></ul></ul><ul><li>Necessità di aggregare i risultati spezzettati </li></ul><ul><ul><li>Se uno desidera trovare quante più informazioni possibili su una persona/azienda/luogo deve aggregare manualmente spezzoni di informazione (spesso di bassa qualità), perché </li></ul></ul><ul><ul><ul><li>Una persona può aver più volte cambiato ufficio/lavoro/abitazione, ma le informazioni relative non sono state aggiornate </li></ul></ul></ul><ul><ul><ul><li>Le informazioni di un’azienda/luogo sono tipicamente frammentarie </li></ul></ul></ul><ul><ul><li>Es. cerchiamo Toscana http://www.google.com/search?q=toscana </li></ul></ul>IDC CMS, 24 Gennaio 2006, Milano © 2001-2005 E. Della Valle - CEFRIEL - - “ Rocca vince il quinto slalom consecutivo : A Wengen rimonta dalla quarta posizione ed eguaglia il primato di Stenmark e Girardelli. Lo sciatore di Livigno si è imposto anche a Wengen …
  9. 9. Anatomia di un Search engine IDC CMS, 24 Gennaio 2006, Milano © 2001-2005 E. Della Valle - CEFRIEL - - Sergey Brin, Lawrence Page: The Anatomy of a Large-Scale Hypertextual Web Search Engine . Computer Networks 30(1-7): 107-117 (1998) http://www-db.stanford.edu/pub/papers/google.pdf Scovare tutti i contenuti di possibile interesse per l’utente Estrarre le informazioni rilevanti da ciascun contenuto Organizzare le informazioni estratte in modo da ottimizzare i tempi di ricerca Escogitare un metodo per ordinare i risultati Permettere la ricerca dei risultati e una loro ispezione efficace Strutturare le informazioni rilevanti
  10. 10. Anatomia di un Search engine IDC CMS, 24 Gennaio 2006, Milano © 2001-2005 E. Della Valle - CEFRIEL - - Indici Searcher Indexer Ranker Crawler Scovare tutti i contenuti di possibile interesse per l’utente Estrarre le informazioni rilevanti da ciascun contenuto Escogitare un metodo per ordinare i risultati Metadati Organizzare le informazioni estratte in modo da ottimizzare i tempi di ricerca Permettere la ricerca dei risultati e una loro ispezione efficace Strutturare le informazioni rilevanti
  11. 11. Ottima soluzione per trovare pagine Web IDC CMS, 24 Gennaio 2006, Milano © 2001-2005 E. Della Valle - CEFRIEL - - Searcher Indexer Ranker Crawler Le risorse sono tra loro legate tramite link ipertestuali che relativamente semplice seguire <ul><li>Estrarre informazioni dal testo è relativamente facile, </li></ul><ul><li>L’indicizzazione sfrutta a pieno il contenuto è testuale delle pagine Web pesando opportunamente i tag HTML (titolo, href, ect.) </li></ul>PageRank™ + link  + popolarità Chi cerca esprime a sua volta la ricerca come testo Il lessico si espande con l’espansione della conoscenza umana Indici Metadati
  12. 12. Problemi con ricerca di risorse multimediali IDC CMS, 24 Gennaio 2006, Milano © 2001-2005 E. Della Valle - CEFRIEL - - Searcher Indexer Ranker Crawler Le risorse multimediali compaiono spesso come contenuti di risorse solo di raro tra loro linkate . <ul><li>Estrarre informazioni da contenuti multimediali è estremamente difficile , </li></ul><ul><li>Che tipo di indicizzazione fare? Spesso è limitata ad indicizzare il testo che accompagna il contenuto multimediale o alcune informazioni ad esso associate (metadati) </li></ul>PageRank™ non funziona perché non ci sono riferimenti espliciti (ma tantissimi sono impliciti!) Difficoltà di ispezione , specialmente per registrazioni audio/filmati lunghi Che cos’è l’equivalente del lessico per contenuti multimediali? Indici Metadati
  13. 13. Il problema è gestire l’ambiguità ! <ul><li>L’informazione contenuta in molte risorse non è direttamente elaborabile dalle macchine (in particolare se le risorse non sono testo): </li></ul><ul><li>è ambigua. </li></ul><ul><li>Macchine più Smart </li></ul><ul><li>Insegnare alle macchine ad estrarre informazione dalle risorse </li></ul><ul><ul><li>Text processing : natural language processing (NLP), … </li></ul></ul><ul><ul><li>Audio processing : Acoustic finger prints, Automatic Speech recognition (ASR), … </li></ul></ul><ul><ul><li>Image / Video Processing : computer vision, scene change/segment detection </li></ul></ul><ul><li>Dati più Smart </li></ul><ul><li>Rendere i contenuti più semplici da trovare, accedere e processare per le macchine </li></ul><ul><li>Si tratta di </li></ul><ul><ul><li>esprimere i dati e il loro significato in formati standards direttamente elaborabili dalle macchine </li></ul></ul><ul><ul><ul><li>metadati e ontologie </li></ul></ul></ul><ul><ul><li>individuando meccanismi decentralizzati per la loro definizione e gestione. </li></ul></ul><ul><li>È il problema affrontato dal Semantic Web </li></ul>IDC CMS, 24 Gennaio 2006, Milano © 2001-2005 E. Della Valle - CEFRIEL - -
  14. 14. Macchine più smart Image / Video processing: computer vision <ul><li>Con buona approssimazione riescono a </li></ul><ul><ul><li>suddividere immagini in parti sensate </li></ul></ul><ul><ul><li>Riconoscere segmenti e cambi di scena </li></ul></ul><ul><li>Un servizio che mostra tutte le potenzialità dell’approccio è search by sketch (disponibile on-line a http://labs.systemone.at/retrievr ). </li></ul><ul><ul><li>Basta disegnare in modo approssimativo quello che si desidera nel box a sinistra perché il sistemi cerchi di ricuperare le immagini che più gli assomigliano. </li></ul></ul><ul><li>Ma le difficoltà sono tante </li></ul><ul><ul><li>Variazione della luce </li></ul></ul><ul><ul><li>Variazione del punto di vista </li></ul></ul><ul><ul><li>Variazione del soggetto nel tempo </li></ul></ul>IDC CMS, 24 Gennaio 2006, Milano © 2001-2005 E. Della Valle - CEFRIEL - - La computer vision escogita metodi per estrarre informazione dalle immagini e dalle sequenze video. SEGMENTI IP VP SCENE
  15. 15. <ul><li>Automatic Speech recognition (ASR) </li></ul><ul><ul><li>da un po’ di tempo sono disponibili sistemi di dettatura che una volta addestrati tollerano molto bene il rumore ambientale e i difetti di pronuncia. </li></ul></ul><ul><ul><li>la sfida è </li></ul></ul><ul><ul><ul><li>renderli tolleranti a timbro vocale di chi parla e alla lingua (italiano e inglese) </li></ul></ul></ul><ul><ul><ul><li>riconoscendo e associando correttamente chi parla </li></ul></ul></ul><ul><ul><li>Es. trascrivere in automatico l’intervista a Christopher Paolini da pubblicare su un servizio come http://www.speakers-corner.it/ </li></ul></ul><ul><li>Un acoustic fingerprint </li></ul><ul><li>è un codice univoco generato da un file audio che permette di </li></ul><ul><ul><li>distinguere il tipo di file audio: musica, parlato </li></ul></ul><ul><ul><li>riconoscere un file audio tollerando degradazione del segnale e interventi umani </li></ul></ul>Macchine più smart Audio processing IDC CMS, 24 Gennaio 2006, Milano © 2001-2005 E. Della Valle - CEFRIEL - - Intervistatore : Oggi abbiamo qui con noi Christopher Paolini. Welcome Christopher with us! Christopher : thank you. Intervistatrice : per discuterne con noi c’è anche un noto Eragonologo, Giordano Aterini … Giordano : buongiorno Intervistatrice : a cosa ti sei ispirato per creare il personaggio di Eragon? Traduttrice : whom did you get inspiration from … ASR Su musipedia è disponibile un motore che cerca canzoni fischiettate dall’utente calcolandone il Parson code 5th sifonia di Beethoven UDUDDUDUDUDDURU http://www.musipedia.org/whistle.0.html AP QuickNamer è una semplice applicazione open source che determina autore e titolo di un mp3 calcolandone l’acoustic fingerprint in formato TRM e confrontandolo con un DB pubblico di codici TR. http://phonascus.sourceforge.net
  16. 16. Macchine più smart Text processing : Natural language processing <ul><li>Natural language processing (NLP) studia la comprensione e la manipolazione del linguaggio naturale da parte delle macchine, </li></ul><ul><ul><li>determinando i confini di un concetto in una frase </li></ul></ul><ul><ul><ul><li>Es. nome di una persona, data, concetto espresso con più parole </li></ul></ul></ul><ul><ul><li>disambiguando il significato di una parola </li></ul></ul><ul><ul><ul><li>Es. “La vecchia porta cigola” vs. “La vecchia porta la bambina” </li></ul></ul></ul><ul><ul><li>cross-referenziando i pronomi </li></ul></ul><ul><ul><ul><li>Es. Anna è golosa di cioccolato , [ lei ] lo mangerebbe a tutte le ore </li></ul></ul></ul><ul><li>Esistono ottimi strumenti open-source come GATE e … </li></ul><ul><li>.. motori di ricerca che sfruttano NLP </li></ul><ul><ul><li>Es. provare a cercare “calcio” su http://www.governo.it/Cerca </li></ul></ul>IDC CMS, 24 Gennaio 2006, Milano © 2001-2005 E. Della Valle - CEFRIEL - - NLP http://gate.ac.uk/
  17. 17. Macchine più smart e search engine IDC CMS, 24 Gennaio 2006, Milano © 2001-2005 E. Della Valle - CEFRIEL - - Searcher Ranker Crawler Indici Metadati Indexer IP VP NLP AP <ul><li>Macchine più intelligenti sono in grado di estrarre maggiore informazione dalle risorse . Opportunamente combinate tra loro possono arrivare a </li></ul><ul><ul><li>Segmentare un telegiornale </li></ul></ul><ul><ul><li>Estrarre immagini chiave dalle sequenze </li></ul></ul><ul><ul><li>Catturare i sottotitoli </li></ul></ul><ul><ul><li>Catturare informazioni testuali sullo schermo </li></ul></ul><ul><ul><li>Trascrivere quanto detto dagli speaker </li></ul></ul><ul><ul><li>Indicizzare con tecniche di NLP le trascrizioni </li></ul></ul>http://www.doc.ic.ac.uk/~mjp3/anses/datesearch.cgi?aetos =
  18. 18. Dati più Smart <ul><li>Il Semantic Web mette a disposizione standard per codificare e trasmettere conoscenza (non informazione!) in modo che sia elaborabile dalle macchine: </li></ul><ul><li>RDF per veicolare metadati </li></ul><ul><li>SKOS per veicolare tassonomie </li></ul><ul><li>OWL per veicolare Ontologie (modelli della conoscenza necessaria ad una macchina per elaborare i metadati) </li></ul>IDC CMS, 24 Gennaio 2006, Milano © 2001-2005 E. Della Valle - CEFRIEL - - tipo sotto insieme Finanziamenti agevolati Impianti fotovoltaici pannelli solari incentivi fiscali ontologia
  19. 19. Dati più smart un motore di ricerca sintattico vs. … IDC CMS, 24 Gennaio 2006, Milano © 2001-2005 E. Della Valle - CEFRIEL - - “ incentivi fiscali” “pannelli solari” sono syntactic search , basata su keywords matching finanza , bla bla bla Finanziamenti agevolati bla; bla bla bla Impianti fo-tovoltaici bla bla bla bla: bla bla bla agevola . Un certo numero di informazioni addizionali può essere usato per migliorare la ricerca, ma peggiora la user experience Motore di ricerca sintattico Search Result No match found !!
  20. 20. Dati più smart … vs. motore di ricerca semantico IDC CMS, 24 Gennaio 2006, Milano © 2001-2005 E. Della Valle - CEFRIEL - - Type subClassOf “ incentivi fiscali” “pannelli solari” Finanziamenti agevolati Impianti fotovoltaici pannelli solari incentivi fiscali ontology Motore di ricerca semantico Un motore di ricerca semantico è in grado di trattare sia aspetti linguistici (a livello di terminologia) sia aspetti legati alla conoscenza di dominio (a livello di modello concettuale) Search Result Finanziamenti Agevolati Impianti fotovoltaici Finanziamenti Agevolati Impianti fotovoltaici Macchina Intelligente
  21. 21. Dati più smart e search engine <ul><li>Dati più Intelligenti nella forma di metadati e ontologie possono essere utilizzati </li></ul><ul><li>In fase di crawling per legare tra loro risorse apparentemente diverse </li></ul><ul><ul><li>Es. le notizie che parlano di “Giorgio Rocca” prese da siti diversi </li></ul></ul><ul><li>In fase di indicizzazione per mettere a disposizione dell’indexer informazione implicita aggiuntiva </li></ul><ul><ul><li>Es. nell’indicizzare un mp3 di Alanis Morissette si possono aggiungere i generi rock e pop </li></ul></ul><ul><li>In fase di ricerca per </li></ul><ul><ul><li>presentare all’utente i possibili significati di quello che sta cercando </li></ul></ul><ul><ul><ul><li>Es. se cercasse Jaguar </li></ul></ul></ul><ul><ul><li>rispondere a domande complesse </li></ul></ul><ul><ul><ul><li>Es. sciatore che ha vinto 5 gare consecutive </li></ul></ul></ul>IDC CMS, 24 Gennaio 2006, Milano © 2001-2005 E. Della Valle - CEFRIEL - - Searcher Indexer Ranker Crawler Indici Metadati Ontologie <ul><li>What do you mean ? </li></ul><ul><li>Jaguar : felin </li></ul><ul><li>Jaguar : car vendor </li></ul>
  22. 22. Dati più smart e search engine <ul><li>della musica </li></ul><ul><ul><li>sfruttando come ontologia della musica due vaste fonti di conoscenza: </li></ul></ul><ul><ul><ul><li>musicbrainz http://musicbrainz.org/ </li></ul></ul></ul><ul><ul><ul><li>Musicmoz http://musicmoz.org/ </li></ul></ul></ul><ul><ul><li>Permette ad un utente di trovare mp3 per autore, titolo e genere perché </li></ul></ul><ul><ul><ul><li>Suggerisce i possibili significati di una ricerca </li></ul></ul></ul><ul><ul><ul><li>Una volta che l’utente ha scelto il significato filtra i risultati (++ precisione) </li></ul></ul></ul><ul><ul><ul><li>Suggerisce possibili risultati legati a quello cercato (++ recall) </li></ul></ul></ul><ul><ul><ul><ul><li>Genere simile </li></ul></ul></ul></ul><ul><ul><ul><ul><li>Canzoni dello stesso artista </li></ul></ul></ul></ul><ul><ul><ul><ul><li>Artisti collegati </li></ul></ul></ul></ul><ul><li>http://squiggle.cefriel.it/music </li></ul><ul><li>delle discipline olimpiche invernali </li></ul><ul><ul><li>Costruendo un’ontologia a partire dai dati pubblicati sul sito della FIS-SKI http://www.fis-ski.com/ </li></ul></ul><ul><ul><li>Utilizzando Google Images </li></ul></ul><ul><ul><li>Realizzando un crawler guidato dall’ontologia </li></ul></ul><ul><ul><ul><li>Es. per trovare le immagini di discesa libera di Hermann Maier ha richiesto le immagini usando la parole “discesa libera” in tutte le lingue (downhill, abfahrt, …) </li></ul></ul></ul><ul><ul><li>Permette </li></ul></ul><ul><ul><ul><li>di trovare immagini di atleti che hanno vinto almeno una medaglia alle olimpiadi o ai campionati del mondo FIS di specialità </li></ul></ul></ul><ul><ul><ul><li>suggerendo alternative in casi ambigui e risultati simili. </li></ul></ul></ul><ul><li>http://squiggle.cefriel.it/ski </li></ul>IDC CMS, 24 Gennaio 2006, Milano © 2001-2005 E. Della Valle - CEFRIEL - - Al CEFRIEL abbiamo realizzato un search engine con le tecnologie del Semantic Web chiamato squiggle e lo abbiamo testato nel contesto
  23. 23. Next-generation search engine IDC CMS, 24 Gennaio 2006, Milano © 2001-2005 E. Della Valle - CEFRIEL - - Searcher Ranker Crawler Indici Indexer IP VP NLP AP Metadati Ontologie VP Video Processing IP Image Processing AP Audio Processing NLP Natural Language Processing
  24. 24. Conclusioni <ul><li>Search engine tradizionali + </li></ul><ul><li>Macchine più smart + </li></ul><ul><li>Dati più smart = </li></ul><ul><li>Next-generation search engine </li></ul>IDC CMS, 24 Gennaio 2006, Milano © 2001-2005 E. Della Valle - CEFRIEL - - Basta cercare, … … vogliamo trovare!
  25. 25. <ul><li>Grazie mille dell’attenzione </li></ul><ul><li>Domande? </li></ul><ul><li>Contatto </li></ul><ul><ul><li>Emanuele Della Valle </li></ul></ul><ul><ul><li>Area Middleware - CEFRIEL </li></ul></ul><ul><ul><li>email: [email_address] </li></ul></ul><ul><ul><li>Web: www.cefriel.it/~dellavalle </li></ul></ul><ul><ul><li>Tel: 02 23954-324 </li></ul></ul>IDC CMS, 24 Gennaio 2006, Milano © 2001-2005 E. Della Valle - CEFRIEL - - Un ringraziamento particolare va ai miei colleghi Irene Celino e Dario Cerizza per le idee che insieme abbiamo elaborato e per il loro supporto quotidiano.
  1. Gostou de algum slide específico?

    Recortar slides é uma maneira fácil de colecionar informações para acessar mais tarde.

×