ANATOMIA
DI UN
MOTORE DI RICERCA
INFORMAZIONE
Immagazzinata
UtilizzataTrasferita
Ricercabile
Era Digitale
Internet è Grande!
14.3 Trilioni – pagine attive
672,000,000,000 Gigabytes di dati
Motori di Ricerca
Componenti
Componenti
CRAWLERS INDEX
SERPQUERIES
Crawlers
Impossibile fare una Live Search
Pre indicizzazione con i Crawlers
Crawlers
Internet è come una ragnatela
Google indicizza 48 miliardi di pagine
Bing 16 miliardi di pagine
I crawler percorr...
Il crawler categorizza le pagine trovate
- Estrae le parole chiave
(no stop-words)
- Varie meta informazioni
- Dati tecnic...
Immagazzinamento e Strutturazione
Index
Indice Inverso
Index
Docs:
1. Le volpi scappano dai cani.
2. La volpe ha il pelo rosso.
3. Cani da caccia.
Estrazione e St...
Indice Inverso
Index
Key Doc
volpe 1, 2
cane 1, 3
pelo 2
rosso 2
caccia 3
scappare 1
Estrazione e Stemming
volpe
cane
pelo...
Parole da cercare dentro l’indice
Queries
Singolarmente o in congiunzione
con operatori Booleani:
AND, OR, NOT
Queries
Key Doc
volpe 1, 2
cane 1, 3
pelo 2
rosso 2
caccia 3
scappare 1
Query:
“volpe”: 1, 2
“Cani OR volpi”: 1, 2, 3
“Can...
SERP
SERP
Search Engine Result Page
SERP
Ranking
SERP
Ranking: Tf-idf
SERP
Term Frequency (Tf) = ni,j/dj
Inverse Document Frequency (idf) = log(D/dt)
Tf-idf = Tf x idf
Ranking: Page Rank
SERP
Media pesata del Page Rank delle pagine referenti
Ranking: Page Rank
SERP
Algoritmi moderni:
SERP
- Velocità di caricamento
- Correttezza e velocità del codice
- Correttezza grammaticale
- User Pr...
Esempi
Concludendo…
Grazie e…
Buona Ricerca!
Anatomia motori ricerca
Anatomia motori ricerca
Upcoming SlideShare
Loading in …5
×

Anatomia motori ricerca

330 views
261 views

Published on

Introduzione al funzionamento dei motori di ricerca indirizzati a personale medico non technical savvy.
Introduction to the functioning of sample search engines for non-techy medical personnel.

Published in: Internet
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
330
On SlideShare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
1
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide
  • Ogni giorno registriamo più informazione di tutta quella prodotta nella storia prima degli anni 50.
  • Internet ha generato una data sfera intorno al pianeta densissima di informazioneCiò che vogliamo trovare può veramente diventare l'emblematico ago nel pagliaio!
  • Di conseguenza insieme all'era dell'informazione è nata anche l'arte della ricerca.Un motore di ricerca può prendere vari aspetti e talvolta non ci rendiamo conto neanche che stiamo usando un motore di ricerca.Apparte la classica ricerca su internetcercare una pagina all'interno di un sitouna via o un ristorante sulla nostra applicazione di navigazioneun paziente nel nostro database clinicoriconoscere una canzone automaticamente con programmi tipo ShazamOra faremo un carrellata veloce per vedere i concetti comuni alle spalle di più o meno tutti i motori di ricerca ed infine faremo qualche esempio di qualche caso particolare.Questi concetti non si applicano solo ai motori di ricerca per internet ma in generale
  • Di conseguenza insieme all'era dell'informazione è nata anche l'arte della ricerca.Un motore di ricerca può prendere vari aspetti e talvolta non ci rendiamo conto neanche che stiamo usando un motore di ricerca.Apparte la classica ricerca su internetcercare una pagina all'interno di un sitouna via o un ristorante sulla nostra applicazione di navigazioneun paziente nel nostro database clinicoriconoscere una canzone automaticamente con programmi tipo ShazamOra faremo un carrellata veloce per vedere i concetti comuni alle spalle di più o meno tutti i motori di ricerca ed infine faremo qualche esempio di qualche caso particolare.Questi concetti non si applicano solo ai motori di ricerca per internet ma in generale
  • Di conseguenza insieme all'era dell'informazione è nata anche l'arte della ricerca.Un motore di ricerca può prendere vari aspetti e talvolta non ci rendiamo conto neanche che stiamo usando un motore di ricerca.Apparte la classica ricerca su internetcercare una pagina all'interno di un sitouna via o un ristorante sulla nostra applicazione di navigazioneun paziente nel nostro database clinicoriconoscere una canzone automaticamente con programmi tipo ShazamOra faremo un carrellata veloce per vedere i concetti comuni alle spalle di più o meno tutti i motori di ricerca ed infine faremo qualche esempio di qualche caso particolare.Questi concetti non si applicano solo ai motori di ricerca per internet ma in generale
  • Di conseguenza insieme all'era dell'informazione è nata anche l'arte della ricerca.Un motore di ricerca può prendere vari aspetti e talvolta non ci rendiamo conto neanche che stiamo usando un motore di ricerca.Apparte la classica ricerca su internetcercare una pagina all'interno di un sitouna via o un ristorante sulla nostra applicazione di navigazioneun paziente nel nostro database clinicoriconoscere una canzone automaticamente con programmi tipo ShazamOra faremo un carrellata veloce per vedere i concetti comuni alle spalle di più o meno tutti i motori di ricerca ed infine faremo qualche esempio di qualche caso particolare.Questi concetti non si applicano solo ai motori di ricerca per internet ma in generale
  • Di conseguenza insieme all'era dell'informazione è nata anche l'arte della ricerca.Un motore di ricerca può prendere vari aspetti e talvolta non ci rendiamo conto neanche che stiamo usando un motore di ricerca.Apparte la classica ricerca su internetcercare una pagina all'interno di un sitouna via o un ristorante sulla nostra applicazione di navigazioneun paziente nel nostro database clinicoriconoscere una canzone automaticamente con programmi tipo ShazamOra faremo un carrellata veloce per vedere i concetti comuni alle spalle di più o meno tutti i motori di ricerca ed infine faremo qualche esempio di qualche caso particolare.Questi concetti non si applicano solo ai motori di ricerca per internet ma in generale
  • Di conseguenza insieme all'era dell'informazione è nata anche l'arte della ricerca.Un motore di ricerca può prendere vari aspetti e talvolta non ci rendiamo conto neanche che stiamo usando un motore di ricerca.Apparte la classica ricerca su internetcercare una pagina all'interno di un sitouna via o un ristorante sulla nostra applicazione di navigazioneun paziente nel nostro database clinicoriconoscere una canzone automaticamente con programmi tipo ShazamOra faremo un carrellata veloce per vedere i concetti comuni alle spalle di più o meno tutti i motori di ricerca ed infine faremo qualche esempio di qualche caso particolare.Questi concetti non si applicano solo ai motori di ricerca per internet ma in generale
  • Quindi i motori di ricerca attraverso i crawler cercano di immagazzinare solo alcune informazioni essenziali:Prima di tutto le parole chiave.Il testo viene estratto dalla pagina, ripulito degli elementi non semantici e di tutte quelle parole che sono troppo di uso comune, come articoli e proposizioni, comunemente dette stop words.Altre informazioni che dipendono dal motore di ricerca stessovelocità di caricamentopesantezza della paginadata di pubblicazione,linksimmaginietc...A questo punto tali informazioni vanno immagazzinate
  • Qui entra in gioco l'indice, ovvero il tentativo di trasformare informazione sparsa e non strutturata in informazione facilmente cercabile.l'indice è un database in cui sono immagazzinati separatemente gli url delle pagine con le altre informazioni prese dal crawler da una parte e le varie parole estratte dai siti dall'altra.questo permette da una parte di avere un database con le informazioni che ci servono e dall'altra un database di ricerca per facilitare il ritrovamento delle risorse.Gli indici possono essere di vari tipi e ne escono sempre di nuovi e con tecnologie più potenti.
  • I moderni motori eseguono almeno alcune operazioniCome abbiamo detto il testo viene estratto dalle pagine trovate e ripulito degli elementi inutili. Inoltre alcuni motori eseguono persino lo stemming delle parole ovvero trasformano una parola nella sua forma base prima di immagazzinarla.tipo se trovano cani -> caneAlcuni motori come google cercano anche i sinonimi, acronimi, metodi alternativi di scrivere una parola.
  • Una volta isolate le parole queste vengono messe nell'indice, ovviamente togliendo i doppioni. Ad ogni parola vengono quindi associati le pagine in cui è stata trovata.
  • Una volta isolate le parole queste vengono messe nell'indice, ovviamente togliendo i doppioni. Ad ogni parola vengono quindi associati le pagine in cui è stata trovata.
  • I motori di ricerca più potenti sono molto flessibili nell'interpretare le query riportando suggerimenti, correggendo probabili errori di battitura, trovando sinonimi, etc...Costruire delle buone query, essendo consci del funzionamento dei motori di ricerca è fondamentale per trovare ciò che cercate ed è un argomento che verrà trattato in modo approfindito oggi.
  • Una volta isolate le parole queste vengono messe nell'indice, ovviamente togliendo i doppioni. Ad ogni parola vengono quindi associati le pagine in cui è stata trovata.
  • Passiamo quindi ai risultati.In gergo, indipendentemente dal formato, si dice che un motore di ricerca ritorna i risultati organizzati in una SERP (Search Engine Result Page)Ovviamente le SERP cambiano molto in funzione del tipo di motore di ricerca.Si puo andare da un elenco di pagine come su google, ad un elenco di indirizzi su un'applicazione di navigazione (google, maps, apple)
  • Una volta isolate le parole queste vengono messe nell'indice, ovviamente togliendo i doppioni. Ad ogni parola vengono quindi associati le pagine in cui è stata trovata.
  • Una volta isolate le parole queste vengono messe nell'indice, ovviamente togliendo i doppioni. Ad ogni parola vengono quindi associati le pagine in cui è stata trovata.
  • Un altro sistema di ranking, introdotto dai creatori di google, è il cosiddetto PageRank.si basa sul concetto che se una pagina è linkata da buone fonti, allora anche la pagina in questione sarà buona.Il calcolo è presto fatto: basta fare la media dei PageRank di tutte le pagine che linkano alla pagina in questioneÈ iterativo
  • Una volta isolate le parole queste vengono messe nell'indice, ovviamente togliendo i doppioni. Ad ogni parola vengono quindi associati le pagine in cui è stata trovata.
  • Una volta isolate le parole queste vengono messe nell'indice, ovviamente togliendo i doppioni. Ad ogni parola vengono quindi associati le pagine in cui è stata trovata.
  • Di conseguenza insieme all'era dell'informazione è nata anche l'arte della ricerca.Un motore di ricerca può prendere vari aspetti e talvolta non ci rendiamo conto neanche che stiamo usando un motore di ricerca.Apparte la classica ricerca su internetcercare una pagina all'interno di un sitouna via o un ristorante sulla nostra applicazione di navigazioneun paziente nel nostro database clinicoriconoscere una canzone automaticamente con programmi tipo ShazamOra faremo un carrellata veloce per vedere i concetti comuni alle spalle di più o meno tutti i motori di ricerca ed infine faremo qualche esempio di qualche caso particolare.Questi concetti non si applicano solo ai motori di ricerca per internet ma in generale
  • Di conseguenza insieme all'era dell'informazione è nata anche l'arte della ricerca.Un motore di ricerca può prendere vari aspetti e talvolta non ci rendiamo conto neanche che stiamo usando un motore di ricerca.Apparte la classica ricerca su internetcercare una pagina all'interno di un sitouna via o un ristorante sulla nostra applicazione di navigazioneun paziente nel nostro database clinicoriconoscere una canzone automaticamente con programmi tipo ShazamOra faremo un carrellata veloce per vedere i concetti comuni alle spalle di più o meno tutti i motori di ricerca ed infine faremo qualche esempio di qualche caso particolare.Questi concetti non si applicano solo ai motori di ricerca per internet ma in generale
  • Anatomia motori ricerca

    1. 1. ANATOMIA DI UN MOTORE DI RICERCA
    2. 2. INFORMAZIONE
    3. 3. Immagazzinata UtilizzataTrasferita
    4. 4. Ricercabile
    5. 5. Era Digitale
    6. 6. Internet è Grande! 14.3 Trilioni – pagine attive 672,000,000,000 Gigabytes di dati
    7. 7. Motori di Ricerca
    8. 8. Componenti
    9. 9. Componenti CRAWLERS INDEX SERPQUERIES
    10. 10. Crawlers Impossibile fare una Live Search Pre indicizzazione con i Crawlers
    11. 11. Crawlers Internet è come una ragnatela Google indicizza 48 miliardi di pagine Bing 16 miliardi di pagine I crawler percorrono Internet passando da link a link
    12. 12. Il crawler categorizza le pagine trovate - Estrae le parole chiave (no stop-words) - Varie meta informazioni - Dati tecnici della pagina - Dati stilistici Etc… Crawlers
    13. 13. Immagazzinamento e Strutturazione Index
    14. 14. Indice Inverso Index Docs: 1. Le volpi scappano dai cani. 2. La volpe ha il pelo rosso. 3. Cani da caccia. Estrazione e Stemming volpe cane pelo rosso caccia scappare
    15. 15. Indice Inverso Index Key Doc volpe 1, 2 cane 1, 3 pelo 2 rosso 2 caccia 3 scappare 1 Estrazione e Stemming volpe cane pelo rosso caccia scappare
    16. 16. Parole da cercare dentro l’indice Queries Singolarmente o in congiunzione con operatori Booleani: AND, OR, NOT
    17. 17. Queries Key Doc volpe 1, 2 cane 1, 3 pelo 2 rosso 2 caccia 3 scappare 1 Query: “volpe”: 1, 2 “Cani OR volpi”: 1, 2, 3 “Cani volpi”: 1 “Cani -volpi”: 3
    18. 18. SERP SERP Search Engine Result Page
    19. 19. SERP
    20. 20. Ranking SERP
    21. 21. Ranking: Tf-idf SERP Term Frequency (Tf) = ni,j/dj Inverse Document Frequency (idf) = log(D/dt) Tf-idf = Tf x idf
    22. 22. Ranking: Page Rank SERP Media pesata del Page Rank delle pagine referenti
    23. 23. Ranking: Page Rank SERP
    24. 24. Algoritmi moderni: SERP - Velocità di caricamento - Correttezza e velocità del codice - Correttezza grammaticale - User Profiling (check out DuckDuckGo.com) - Etc… Potenti e segreti
    25. 25. Esempi
    26. 26. Concludendo…
    27. 27. Grazie e… Buona Ricerca!

    ×