Zoekmachines weten het antwoord

Zoekmachines weten het antwoord
.. geen 10 blauwe links, maar feiten ..
.. de knowledge graph en andere semantiek ..
Eric Sieverts
VVBAD | Gent, 25 juni 2015
@sieverts

Google geeft steeds vaker concrete antwoorden
("direct answers") op onze zoekvragen
"liever een antwoord dan 10 blauwe links"
wat krijgt u liever?
of
dit
dat
eric sieverts, juni 20152

Credits original photo:
https://www.flickr.com/photos/celesteh/1660764786/
direct answers
uit presentatie op "SMX West" congres
(3-5 maart 2015, San Jose):
• Google geeft "direct answer" bij
 20% van de zoekvragen
maar:
kunnen we op die antwoorden vertrouwen?
hoe komen ze aan die antwoorden?

vertrouwen we op Google's antwoord?
of willen we zelf antwoorden zoeken?

semantisch zoeken
het kunnen geven van concrete antwoorden
hangt direct samen met de ontwikkeling van
"semantische zoeksystemen"
wat moet computer daarvoor kunnen?
1. begrijpen wat de zoeker bedoelt
2. a) weten wat het antwoord is ("het staat klaar")
b) begrijpen wat documenten "bedoelen", zodat
daaruit antwoorden kunnen worden afgeleid
3. (als "next best") in de tien blauwe links
relevante context tonen
deze punten vormen de agenda voor vanmiddag

semantisch zoeken
semantisch zoeken ≡ semantisch web
van het semantisch web zoals dat Tim Berners Lee in 2004 voor
ogen stond, zijn alleen pas wat losse bouwstenen gerealiseerd,
maar die helpen wel al bij "semantisch zoeken"
semantisch
zoeken
semantisch
web
entiteiten
ontologieën
metadata
….

semantisch zoeken
terug naar de 2 aspecten van semantisch zoeken
1. wat bedoelt de zoeker met zijn zoekvraag?
"not strings but things"
– wat is betekenis van gebruikte zoekwoorden (dubbelzinnigheden?)
– wat is bedoeling/intentie van de zoeker
 om concreet antwoord te kunnen geven,
in plaats van lijstje met "ten blue links"
2. wat is betekenis van content in webpagina's
 ten behoeve van die concrete antwoorden
 om toch ook in de "ten blue links" relevante extra informatie te
kunnen tonen

intentie van de zoeker
1. bepalen van bedoeling / intentie van de zoeker
– uit locatie van de zoeker
– globaal:
op basis van internetdomein waar gebruiker zit (ip-adres)
op google.be krijg je ander antwoord dan op google.nl of google.com
– heel precies:
op basis van bekende gps- of gsm-gegevens (mobiel)
bijv.: zoekt mobiel in buurt van de Rozengracht naar “pizza”
>> adres van pizzeria in de buurt
– uit gebruikt apparaat
– op desktop krijg je (vaak) ander antwoord dan op mobieltje
– uit eerder zoekgedrag van de zoeker
– door analyse van de zoekvraag
– ...
12 eric sieverts, juni 2015

– wat voor zoekvragen stelde gebruiker eerder
– naar welke resultaten keek gebruiker dan
bijvoorbeeld al toegepast in Google's personalisatie van
relevance ranking;
de opgeslagen "web history" is ook al "big data"
– ...

– door herkennen van "entiteiten" in de vraag
bijv.: "Parijs" is een stad (waarover feiten beschikbaar zijn)
 naam van persoon, bedrijf, product, gebeurtenis, … >> feiten
 naam van gewoon persoon >> facebook / linked-in gegevens
– herkent vaste combinaties van woorden
– natuurlijke taal interpretatie
– uit algemene statistiek van zoekvragen
bijv.: wie "bach" zoekt bedoelt 95% zeker "Johann Sebastian"
wolfram|alpha
Google
Knowledge
Graph
~ Google

content van webpagina
2. bepalen van betekenis van content in webpagina's
<op enkele punten kom ik later nog terug>
– herkennen van entiteiten in de tekst
bijv.: namen van personen, bedrijven, steden, producten, ...
– gebruik van metadata/codering volgens ontologieën
bijv.: informatie gecodeerd met begrippen uit schema.org ontologie
– uit (variabele) structuur van beschikbare informatie
bijv.: herkennen van tabellen, kenmerk-waarde koppels, ....
– uit (vaste) structuur van beschikbare informatie
bijv.: gestructureerd opgeslagen kenmerken in Facebook
– automatisch herkennen van betekenis/onderwerp uit hele tekst
bijv.: door "machine learning" getraind op vaste concepten
– koppelen aan data uit andere bronnen
bijv.: via linked (open) data
– ...

Wie op “Bach” zoekt, vindt vermoedelijk liever
gegevens over hem dan websites over hem.
Google's Knowledge Graph kent >500 miljoen
objecten met >3,5 miljard kenmerken
16
gegevens o.a. afkomstig uit:
Freebase (crowdsourced kennisbank),
Wikipedia (dbpedia), CIA World factbook,
Wikidata, analyse van gegevens op web

wat is in dit verband een "graph"?
 een netwerk van al die concepten met
hun onderlinge relaties en kenmerken
17

tripels
al die informatie wordt in feite opgeslagen als "tripels" (later meer)
L. Da Vinci schilderde Mona Lisa
J.S. Bach geboren op 31-03-1685
J.S. Bach geboren in Eisenach
Eisenach ligt in Duitsland
C.P.E. Bach kind van J.S. Bach

knowledge cards
• dit soort gegevens die bij een
persoon/object/entiteit horen,
worden gecombineerd in
"knowledge cards"
• die knowledge cards
verschijnen - zoals bij het
eerdere voorbeeld van Bach -
rechts naast het gewone
zoekresultaat

maar niets over
de diefstal ….

generieke
vragen
leveren
"carousel"

soms verschijnt ook
feitelijk antwoord
(eveneens een "tripel")
boven de gewone
zoekresultaten

daarbij wordt ook
d.m.v. natuurlijke taal
technieken herkend
wat er gevraagd /
bedoeld wordt

in werkelijkheid varieert die afstand dus tussen
ongeveer 356.000 en 407.000 km
[bron: NASA - via Wikipedia]
dus dat cijfer op 4 decimalen nauwkeurig is
eigenlijk onzin (hoewel dat ook uit de Wikipedia komt)
maar:

ook wordt (soms)
herkend als je dingen
wilt vergelijken en
worden relevante
gegevens in een tabel
gezet

antwoord is
geen feit uit
Knowl. Graph,
maar tekst uit
web-pagina
40

Oeps ....
42

43
soms extra
informatie
bij specifieke
resultaten

knowledge vault
• inhoud van "knowledge graph" komt uit gecontroleerde
gestructureerde bronnen als wikipedia/dbpedia, freebase, …
• in "knowledge vault" wordt dat uitgebreid met gegevens die
uit allerlei webpagina's worden onttrokken (ook als tripels)

This paper
[http://www.cs.cmu.edu/~nlao/publication/2014.kdd.pdf]
published by Google goes into more detail about the concepts
behind the Knowledge Vault, citing three major components:
Extractors: These systems extract triples from a huge number of
Web sources. Each extractor assigns a confidence score to an
extracted triple, representing uncertainty about the identity of
the relation and its corresponding arguments.
Graph-based priors: These systems learn the probability of each
possible triple, based on triples scored in an existing KB
(knowledge base).
Knowledge fusion: This system computes the probability of a
triple being true, based on agreement between different
extractors and priors
45

Google tables
zoeken naar/in tabellen
https://research.google.com/tables
zie ook:
"Applying WebTables in Practice"
http://www.cidrdb.org/cidr2015/
Papers/CIDR15_Paper3.pdf
google heeft een
speciaal tool voor
herkennen van
tabellen en om
daaraan gegevens
te ontlenen
- ook publiekelijk
beschikbaar
46

voorbeelden:
huis
Pittsburg
oppervlak
# inwoners
4849 sqft
334.563
uitwikipedia

Bing heeft zijn "Entity Engine" (Snapshots)
maar die reageert vaak nog wat minder
slim op combinaties van woorden
48

... en alleen bij landeninstelling
"Verenigde Staten"
49

en nog meer …
er zijn nog meer (semantische) zoeksystemen
die proberen concrete antwoorden te geven
een paar voorbeelden:
• wolfram|alpha
• kngine
• cluuz
• sensebot
• …..

hoe doen reguliere zoekmachines en
gespecialiseerde semantische systemen
het bij inhoudelijke vragen
"how many people live in Paris ?"
52

het bij inhoudelijke vragen?
"how many plays wrote Shakespeare ?"
54
"how many plays wrote
Shakespeare ?"

55
"how many plays wrote
Shakespeare ?"

56
"who won the 1992
Nobel Peace Prize ?"

het bij inhoudelijke vragen?
"who won the 1992 Nobel Peace Prize ?"
57
"who won the 1992
Nobel Peace Prize ?"

resource description framework
RDF = resource description framework
RDF is standaard voor het beschrijven van de relatie tussen een
resource (of een object) en zijn metadata
• eigenschappen (metadata) worden vastgelegd in zogenaamde
tripels: subject <predicaat> object
(wat je ook zou mogen noemen : ding <eigenschap> waarde )
• waarbij
– te beschrijven ding een webadres (URI) heeft
– eigenschap van dat ding liefst ook een URI heeft
– "waarde" van die eigenschap liefst ook een URI heeft
• voorbeeld:
– boek (heeft een webadres: URI)
– heeft auteur (betekenis van eigenschap ergens beschreven: URI)
– persoon (gegevens van persoon ergens op web te vinden: URI)
58
intermezzo
RDF-tripels

rdf tripels grafisch weergegeven
subject <predicaat> object
doc1 <heeft auteur> auth1
auth1 <heeft naam> john smith
auth1 <heeft affiliatie> home inc.
auth1 <heeft email> smith@home.com
grafische representatie van
simpel netwerk van 4 RDF-tripels
59
intermezzo
RDF-tripels

rdf tripels
60
naar idee van
Lucas Koster / IP
"Uit Berlijn"
boek
Uit Berlijn
"Armando"
Schuldig
landschap
http://www.worldcat.org/oclc/10098995
http://www.w3.org/1999/02/22-rdf-syntax-ns#type
http://xmlns.com/foaf/spec/#term_name
http://viaf.org/viaf/9885610/
http://hdl.handle.net/10934/RM0001.COLLECT.496040
http://purl.org/dc/terms/creator
http://purl.org/dc/terms/creator
http://schema.org/Book
Armando
http://purl.org/dc/terms/title
intermezzo
RDF-tripels

rdf tripels
• RDF is bedoeld om bestaande semantische systemen te
(her)gebruiken en te combineren
• RDF wordt meestal in XML- of JSON-notatie weergegeven
• RDFa = “RDF in attributes” , verwerkt metadata in de inhoud van
(X)HTML webpagina’s (als attributen van HTML-codes)
• RDF-tripels worden ook gebruikt in "linked data"
• ze worden opgeslagen in zogenaamde triple-stores
61
intermezzo
RDF-tripels

nog even terug …
2. bepalen van betekenis van content in webpagina's
– herkennen van entiteiten in de tekst
– gebruik van metadata/codering volgens ontologieën
"betekenis vooraf gekarakteriseerd"
bijv.: informatie gecodeerd met begrippen uit schema.org ontologie
– uit (variabele) structuur van beschikbare informatie
"betekenis achteraf afgeleid / geraden"
bijv.: herkennen van tabellen, kenmerk-waarde koppels, ....
– uit (vaste) structuur van beschikbare informatie
bijv.: gestructureerd opgeslagen kenmerken in Facebook
– automatisch herkennen van betekenis/onderwerp uit hele tekst
– koppelen aan data uit andere bronnen
– ...

semantische codering
gestandaardiseerde markering van kenmerken in
webpagina's - "semantic markup"
voorbeeld van zulke "embedded metadata":
– recipe search bij Google en Yahoo
daarbij gebruikte standaarden:
– rich snippet markup / schema.org
(Google, Yahoo, Bing, Yandex)
onder andere voor: recepten, recencies, personen,
producten, organisaties, gebeurtenissen, muziek
– RDFa / microdata /Json

schema.org
65

standaard (metadata/ontologie?) voor karakteriseren van content in webpagina
66
+ nu ook
Yandex

voorbeeld van
codering met
restaurant
metadata
(zoals gebruikt
door o.a. IENS)
zoals in HTML gecodeerd volgens microdata standaard

gevolg voor Google zoekresultaat
69

schema.org
recept-metadata
volgens microdata
standaard in
HTML gecodeerd
70

wat heeft zoeker eraan?
• zoeker kan gerichter zoeken en filteren
(zoals in Google's receptenzoeker)
• zoeker krijgt duidelijker informatie over gevonden
items in zijn 10 blue links
(zoals Google's rich snippets)

waarom en hoe?
• toepassing van deze technieken is vaak "SEO-driven"
( >> betere vindbaarheid; hogere ranking)
• zie bijvoorbeeld blogposts van Barbara Starr op SearchEngineLand:
http://searchengineland.com/see-
entities-web-page-tools-help-194710
http://searchengineland.com/5-ways-
optimize-markup-knowledge-graph-
semantic-search-186755
http://searchengineland.com/how-to-
use-rich-snippets-semantic-markup-
to-send-rich-signals-139886

metadata tools
er zijn handige tools die analyse maken van in webpagina
aanwezige metadata volgens microdata of RDFa standaard
http://searchengineland.com/see-entities-web-page-tools-help-194710
• Extensions voor Chrome browser:
https://chrome.google.com/webstore/category/extensions
• Google's "webmaster structured data testing tool":
https://developers.google.com/structured-data/testing-tool/

wat biedt schema.org voor bibliotheken
• voor bibliotheken als organisatie alleen generieke zaken
(adressen, openingstijden, rating, ...)
 kan in rich snippets en in “knowledge card” terechtkomen

• wordt nog weinig toegepast
• alleen generiekere kenmerken

• van bibliotheken die ik uitprobeerde bleek alleen de British
Library beperkt gebruik te maken van organisatiegegevens

• voor materiaal van bibliotheken wel al veel mogelijkheden
• OCLC gebruikt schema.org om metadata uit WorldCat als
Linked Data beschikbaar te stellen
zie ook OCLC Webinar
"Library Linked Data in the Cloud"
n.a.v. hun boek hierover
 afhankelijk van zoekmachine-policy welke gegevens ze
op enig moment als rich-snippets in resultaatpagina's
(SERP) tonen

materiaalsoorten voor bibliotheken vind je
onder "creative works"
81

• sommige wel al veel toegepast

schema.org (e.a.) als linked data in worldcat
eric sieverts, mei 201483

twee conclusies
1. ook al geven zoekmachines concrete antwoorden,
informatievaardigheid blijft van belang
 voor het beoordelen van de kwaliteit van die antwoorden
(en van de daarvoor gebruikte bronnen)
 om daartoe ook nog steeds de beste "10 blue links" te vinden
(en liefst ook meer dan 10)
2. semantisch coderen in webpagina's (met bijv. schema.org)
wordt ook voor bibliotheken van belang
 voor makkelijker herkenning van relevante gegevens in de "SERP"
 omdat het een rol speelt bij ranking / SEO (dus voor vindbaarheid)
 maar haak aan bij / laat over aan grote spelers die het toch al doen

Zoekmachines weten het antwoord

Recommended

Recommended

More Related Content

Viewers also liked

Viewers also liked (17)

Similar to Zoekmachines weten het antwoord

Similar to Zoekmachines weten het antwoord (20)

More from Eric Sieverts

More from Eric Sieverts (11)

Zoekmachines weten het antwoord