Workshop
Vertrouwen op semantische
zoeksystemen of zelf aan het stuur?
Eric
Sieverts
VOGIN-IP-lezing
26 maart 2015
OBA Amsterdam
Google geeft steeds vaker concrete antwoorden
("direct answers") op onze zoekvragen
"liever een antwoord dan 10 blauwe links"
direct answers
uit presentaties op "SMX West" congres
(3-5 maart 2015, San Jose):
• Google geeft "direct answer" bij  20% van de zoekvragen
• Bing geeft "direct answer" bij  1% van de zoekvragen
maar:
moeten we op die antwoorden vertrouwen?
eric sieverts, maart 20153
Vertrouwen we op
Google's antwoord,
of willen we zelf het
antwoord zoeken?
semantisch zoeken
het kunnen geven van concrete antwoorden
hangt direct samen met de ontwikkeling van
"semantische zoeksystemen"
wat moet computer daarvoor kunnen?
1. begrijpen wat de zoeker bedoelt
2. • weten wat het antwoord is ("dat staat klaar")
• begrijpen wat documenten "bedoelen", zodat
antwoord daaruit kan worden afgeleid
eric sieverts, maart 20156
semantisch zoeken
enkele van de punten die Hakia Company als belangrijke
kenmerken van semantische zoeksystemen noemde:
1. Handling morphological variations
2. Handling synonyms with correct senses
3. Handling generalizations
4. Handling concept matching
5. Handling knowledge matching
6. Handling natural language queries and questions
7. Ability to point to uninterrupted paragraph and the
most relevant sentence
maar daarnaast nu ook steeds meer gebruik van
 structuur in webpagina's
 kennissystemen (Google Knowledge Graph)
eric sieverts, maart 20157
hulp bij het
"begrijpen"
alinea met
het antwoord
semantisch zoeken
semantisch zoeken ≡ semantisch web
van het semantisch web zoals dat Tim Berners Lee in 2004 voor
ogen stond, zijn alleen pas wat losse bouwstenen gerealiseerd,
maar die helpen wel al bij "semantisch zoeken"
eric sieverts, maart 20158
semantisch
zoeken
semantisch
web
entiteiten
ontologieën
metadata
….
9
semantisch zoeken
terug naar de 2 aspecten van semantisch zoeken
1. wat bedoelt de zoeker met zijn zoekvraag?
"not strings but things"
– om concreet antwoord te kunnen geven,
in plaats van lijstje met "ten blue links"
2. wat is betekenis van content in webpagina's
– ten behoeve van die concrete antwoorden
– maar ook: om in de "ten blue links" extra informatie te kunnen
tonen
eric sieverts, maart 201511
intentie van de zoeker
1. bepalen van bedoeling / intentie van de zoeker
– uit locatie van de zoeker
– globaal:
op basis van internetdomein waar gebruiker zit (ip-adres)
op google.nl krijg je ander antwoord dan op google.com
– heel precies:
op basis van bekende gps- of gsm-gegevens (mobiel)
bijv.: zoekt mobiel in buurt van de Rozengracht naar “pizza”
>> adres van pizzeria in de buurt
– uit eerder zoekgedrag van de zoeker
– door analyse van de zoekvraag
– ...
12 eric sieverts, maart 2015
intentie van de zoeker
1. bepalen van bedoeling / intentie van de zoeker
– uit locatie van de zoeker
– uit eerder zoekgedrag van de zoeker
– wat voor zoekvragen stelde gebruiker eerder
– naar welke resultaten keek gebruiker dan
bijvoorbeeld al toegepast in Google's personalisatie van
relevance ranking;
de opgeslagen "web history" is ook al "big data"
– door analyse van de zoekvraag
– ...
13 eric sieverts, maart 2015
intentie van de zoeker
1. bepalen van bedoeling / intentie van de zoeker
– uit locatie van de zoeker
– uit eerder zoekgedrag van de zoeker
– door analyse van de zoekvraag
– uit algemene statistiek van zoekvragen
bijv.: wie "bach" zoekt bedoelt 95% zeker "Johann Sebastian"
– door herkennen van "entiteiten" in de vraag
bijv.: "Parijs" is een stad (waarover feiten beschikbaar zijn)
 naam van persoon, bedrijf, product, gebeurtenis, … >> feiten
 naam van gewoon persoon >> facebook / linked-in gegevens
– herkent vaste combinaties van woorden
– natuurlijke taal interpretatie
14 eric sieverts, maart 2015
wolfram|alpha
Google
Knowledge
Graph
~ Google
content van webpagina
2. bepalen van betekenis van content in webpagina's
– herkennen van entiteiten in de tekst
bijv.: namen van personen, bedrijven, steden, producten, ...
– gebruik van metadata/codering volgens ontologieën
bijv.: informatie gecodeerd met begrippen uit schema.org ontologie
<kom ik later nog even op terug>
– uit vaste structuur van beschikbare informatie
bijv.: gestructureerd opgeslagen kenmerken in Facebook
– automatisch herkennen van betekenis/onderwerp uit hele tekst
bijv.: door "machine learning" getraind op vaste concepten
– koppelen aan data uit andere bronnen
bijv.: via linked (open) data
– ...
15 eric sieverts, maart 2015
Wie op “Bach” zoekt, vindt vermoedelijk liever
gegevens over hem dan websites over hem.
Google's Knowledge Graph kent 500 miljoen
objecten met 3,5 miljard kenmerken
16
gegevens o.a. afkomstig uit:
"Freebase" (crowdsourced kennisbank),
Wikipedia (dbpedia), CIA World factbook en
(statistische) analyse van eigen gegevens
wat is in dit verband een "graph"?
 een netwerk van al die concepten met
hun onderlinge relaties en kenmerken
17
tripels
al die informatie wordt in feite opgeslagen als "tripels"
L. Da Vinci schilderde Mona Lisa
J.S. Bach geboren op 31-03-1685
J.S. Bach geboren in Eisenach
Eisenach ligt in Duitsland
C.P.E. Bach kind van J.S. Bach
18 eric sieverts, maart 2015
knowledge cards
• dit soort gegevens die bij een
persoon/object/entiteit horen,
worden gecombineerd in
"knowledge cards"
• die knowledge cards
verschijnen - zoals bij het
eerdere voorbeeld van Bach -
rechts naast het gewone
zoekresultaat
19 eric sieverts, maart 2015
maar niets over
de diefstal ….
20
21 eric sieverts, maart 2015
generieke
vragen
leveren
"carousel"
22 eric sieverts, maart 2015
23 eric sieverts, maart 2015
29 eric sieverts, maart 2015
soms verschijnt ook
feitelijk antwoord
(eveneens een "tripel")
boven de gewone
zoekresultaten
eric sieverts, maart 201530
31 eric sieverts, maart 2015
eric sieverts, maart 201532
33 eric sieverts, maart 2015
daarbij wordt ook
d.m.v. natuurlijke taal
technieken herkend
wat er gevraagd /
bedoeld wordt
34 eric sieverts, maart 2015
in werkelijkheid varieert die afstand dus tussen
ongeveer 356.000 en 407.000 km
[bron: NASA - via Wikipedia]
dus dat cijfer op 4 decimalen nauwkeurig is
eigenlijk onzin (hoewel dat ook uit de Wikipedia komt)
maar:
eric sieverts, maart 201535
36 eric sieverts, maart 2015
ook wordt (soms)
herkend als je dingen
wilt vergelijken en
worden relevante
gegevens in een tabel
gezet
antwoord is
geen feit uit
Knowl. Graph,
maar tekst uit
web-pagina
??
soms extra
informatie
bij specifieke
resultaten
knowledge vault
• inhoud van "knowledge graph" komt uit gecontroleerde
gestructureerde bronnen als wikipedia/dbpedia, freebase, …
• in "knowledge vault" wordt dat uitgebreid met gegevens die
uit allerlei webpagina's worden onttrokken (ook als tripels)
40 eric sieverts, maart 2015
This paper
[http://www.cs.cmu.edu/~nlao/publication/2014.kdd.pdf]
published by Google goes into more detail about the concepts
behind the Knowledge Vault, citing three major components:
Extractors: These systems extract triples from a huge number of
Web sources. Each extractor assigns a confidence score to an
extracted triple, representing uncertainty about the identity of
the relation and its corresponding arguments.
Graph-based priors: These systems learn the probability of each
possible triple, based on triples scored in an existing KB
(knowledge base).
Knowledge fusion: This system computes the probability of a
triple being true, based on agreement between different
extractors and priors
Google tables
zoeken naar/in tabellen
https://research.google.com/tables
zie ook:
"Applying WebTables in Practice"
http://www.cidrdb.org/cidr2015/
Papers/CIDR15_Paper3.pdf
google heeft een
speciaal tool om
tabellen te herkennen
en daar gegevens aan
te ontlenen
- ook publiekelijk
beschikbaar
voorbeelden:
huis
Pittsburg
oppervlak
# inwoners
4849 sqft
334.563
Bing heeft zijn "Entity Engine" (Snapshots)
maar die reageert vaak nog wat minder
slim op combinaties van woorden
45
... en alleen bij landeninstelling
"Verenigde Staten"
46
en nog meer …
er zijn nog meer (semantische) zoeksystemen
die proberen concrete antwoorden te geven
een paar voorbeelden:
• wolfram|alpha
• kngine
• cluuz
• sensebot
• …..
47 eric sieverts, maart 2015
eric sieverts, maart 201548
het onderzoek
wat geeft beter antwoord op wat voor soort vragen?
• bekijken bij Google:
– antwoord uit Knowledge Graph (boven zoekresultaat , of rechts ernaast)
– extra gegevens bij individuele resultaten
• alternatieven om ook eens te proberen als er tijd over is:
– antwoord uit Bing's Entity Engine [http://www.bing.com/]
– antwoord uit Wolfram|Alpha [http://www.wolframalpha.com/]
– door Sensebot geselecteerde antwoorden
[http://www.sensebot.net/sense6.aspx]
– door Cluuz geselecteerde antwoorden [http://cluuz.com/]
– antwoord uit Ask-Cluuz [http://ask.cluuz.com/]
– antwoord uit Kngine [http://www.kngine.com/]
eric sieverts, maart 201551
het onderzoek
ieder groepje stelt een aantal zoekvragen in de eigen
belangstellingssfeer en analyseert de resultaten
• Op welke (soorten) vragen komt een concreet antwoord?
• Zijn die concrete antwoorden zinnig?
• Wat is de bron van die antwoorden?
• Is die bron betrouwbaar?
• Hoe verhouden die antwoorden zich tot de gewone resultaten
van de zoekvragen?
• ....
eric sieverts, maart 201552
nog even terug naar …
2. bepalen van betekenis van content in webpagina's
– herkennen van entiteiten in de tekst
– gebruik van metadata/codering volgens ontologieën
"betekenis vooraf gekarakteriseerd"
bijv.: informatie gecodeerd met begrippen uit schema.org ontologie
– uit (variabele) structuur van beschikbare informatie
"betekenis achteraf afgeleid / geraden"
bijv.: herkennen van tabellen, kenmerk-waarde koppels, ....
– uit (vaste) structuur van beschikbare informatie
bijv.: gestructureerd opgeslagen kenmerken in Facebook
– automatisch herkennen van betekenis/onderwerp uit hele tekst
– koppelen aan data uit andere bronnen
– ...
53 eric sieverts, maart 2015
semantische codering
gestandaardiseerde markering van kenmerken in
webpagina's - "semantic markup"
voorbeeld van zulke "embedded metadata":
– recipe search bij Google en Yahoo
daarbij gebruikte standaarden:
– rich snippet markup / microdata / schema.org
(Google, Yahoo, Bing, Yandex)
onder andere voor: recepten, recencies, personen,
producten, organisaties, gebeurtenissen, muziek
– RDFa
54 eric sieverts, maart 2015
55
nieuwe standaard van de zoekmachinegiganten: microdata
hiërarchie van kenmerken voor embeddable metadata in webpagina’s
56
+ nu ook
Yandex
eric sieverts, maart 201558
voorbeeld van
codering met
restaurant
metadata
(zoals gebruikt
door o.a. IENS)
zoals in HTML gecodeerd volgens microdata standaard
schema.org
recept-metadata
volgens microdata
standaard in
HTML gecodeerd
microdata en RDFa
• toepassing van deze technieken is vaak "SEO-driven"
• Google biedt webmasters "Structured data testing tool" dat fouten in
codering detecteert
zie blogposts op
SearchEngineLand:
http://searchengineland.com/how-
to-use-rich-snippets-semantic-
markup-to-send-rich-signals-
139886
http://searchengineland.com/5-
ways-optimize-markup-knowledge-
graph-semantic-search-186755
eric sieverts, maart 201560
wat heeft zoeker hieraan?
• zoeker kan gerichter zoeken en filteren
(zoals in Google's receptenzoeker)
• zoeker krijgt duidelijker informatie over gevonden
items in zijn 10 blue links
(zoals Google's rich snippets)
we blijken al anders te kijken …
we zijn al zo gewend aan schermindeling met op allerlei plaatsen
antwoorden, dat eye-tracking studies ander kijkgedrag laten zien
2014
2005
62
conclusies uit
recente studie:
1. where searchers
have been
conditioned to
look has changed
2. searchers are
viewing more
results during a
single session
and spending
less time viewing
each one
semantische zoekmachines
voor "semantisch" gaan door :
• Wolfram|Alpha "computational knowledge engine", feitelijke gegevens
• DuckDuckGo niet semantischer dan google
• Sensebot vat ook inhoud van meer documenten samen
• Factbites samengevatte informatie uit geselecteerde bronnen
• Cluuz selecteert (uit) antwoorden
• ask.cluuz beantwoordt vragen
• Kngine heeft ook een app voor smartphones
noemen zich niet "semantisch",
maar wel handig voor feitelijke gegevens :
• Zanran data zoekmachine (zoekt in tabellen, grafieken en visualisaties)
• Google tables zoeken naar/in tabellen [https://research.google.com/tables]
63 eric sieverts, maart 2015
eric sieverts, maart 2015
any questions ?

Vertrouwen op semantische zoeksystemen of zelf aan het stuur

  • 1.
    Workshop Vertrouwen op semantische zoeksystemenof zelf aan het stuur? Eric Sieverts VOGIN-IP-lezing 26 maart 2015 OBA Amsterdam
  • 2.
    Google geeft steedsvaker concrete antwoorden ("direct answers") op onze zoekvragen "liever een antwoord dan 10 blauwe links"
  • 3.
    direct answers uit presentatiesop "SMX West" congres (3-5 maart 2015, San Jose): • Google geeft "direct answer" bij  20% van de zoekvragen • Bing geeft "direct answer" bij  1% van de zoekvragen maar: moeten we op die antwoorden vertrouwen? eric sieverts, maart 20153
  • 5.
    Vertrouwen we op Google'santwoord, of willen we zelf het antwoord zoeken?
  • 6.
    semantisch zoeken het kunnengeven van concrete antwoorden hangt direct samen met de ontwikkeling van "semantische zoeksystemen" wat moet computer daarvoor kunnen? 1. begrijpen wat de zoeker bedoelt 2. • weten wat het antwoord is ("dat staat klaar") • begrijpen wat documenten "bedoelen", zodat antwoord daaruit kan worden afgeleid eric sieverts, maart 20156
  • 7.
    semantisch zoeken enkele vande punten die Hakia Company als belangrijke kenmerken van semantische zoeksystemen noemde: 1. Handling morphological variations 2. Handling synonyms with correct senses 3. Handling generalizations 4. Handling concept matching 5. Handling knowledge matching 6. Handling natural language queries and questions 7. Ability to point to uninterrupted paragraph and the most relevant sentence maar daarnaast nu ook steeds meer gebruik van  structuur in webpagina's  kennissystemen (Google Knowledge Graph) eric sieverts, maart 20157 hulp bij het "begrijpen" alinea met het antwoord
  • 8.
    semantisch zoeken semantisch zoeken≡ semantisch web van het semantisch web zoals dat Tim Berners Lee in 2004 voor ogen stond, zijn alleen pas wat losse bouwstenen gerealiseerd, maar die helpen wel al bij "semantisch zoeken" eric sieverts, maart 20158 semantisch zoeken semantisch web entiteiten ontologieën metadata ….
  • 9.
  • 11.
    semantisch zoeken terug naarde 2 aspecten van semantisch zoeken 1. wat bedoelt de zoeker met zijn zoekvraag? "not strings but things" – om concreet antwoord te kunnen geven, in plaats van lijstje met "ten blue links" 2. wat is betekenis van content in webpagina's – ten behoeve van die concrete antwoorden – maar ook: om in de "ten blue links" extra informatie te kunnen tonen eric sieverts, maart 201511
  • 12.
    intentie van dezoeker 1. bepalen van bedoeling / intentie van de zoeker – uit locatie van de zoeker – globaal: op basis van internetdomein waar gebruiker zit (ip-adres) op google.nl krijg je ander antwoord dan op google.com – heel precies: op basis van bekende gps- of gsm-gegevens (mobiel) bijv.: zoekt mobiel in buurt van de Rozengracht naar “pizza” >> adres van pizzeria in de buurt – uit eerder zoekgedrag van de zoeker – door analyse van de zoekvraag – ... 12 eric sieverts, maart 2015
  • 13.
    intentie van dezoeker 1. bepalen van bedoeling / intentie van de zoeker – uit locatie van de zoeker – uit eerder zoekgedrag van de zoeker – wat voor zoekvragen stelde gebruiker eerder – naar welke resultaten keek gebruiker dan bijvoorbeeld al toegepast in Google's personalisatie van relevance ranking; de opgeslagen "web history" is ook al "big data" – door analyse van de zoekvraag – ... 13 eric sieverts, maart 2015
  • 14.
    intentie van dezoeker 1. bepalen van bedoeling / intentie van de zoeker – uit locatie van de zoeker – uit eerder zoekgedrag van de zoeker – door analyse van de zoekvraag – uit algemene statistiek van zoekvragen bijv.: wie "bach" zoekt bedoelt 95% zeker "Johann Sebastian" – door herkennen van "entiteiten" in de vraag bijv.: "Parijs" is een stad (waarover feiten beschikbaar zijn)  naam van persoon, bedrijf, product, gebeurtenis, … >> feiten  naam van gewoon persoon >> facebook / linked-in gegevens – herkent vaste combinaties van woorden – natuurlijke taal interpretatie 14 eric sieverts, maart 2015 wolfram|alpha Google Knowledge Graph ~ Google
  • 15.
    content van webpagina 2.bepalen van betekenis van content in webpagina's – herkennen van entiteiten in de tekst bijv.: namen van personen, bedrijven, steden, producten, ... – gebruik van metadata/codering volgens ontologieën bijv.: informatie gecodeerd met begrippen uit schema.org ontologie <kom ik later nog even op terug> – uit vaste structuur van beschikbare informatie bijv.: gestructureerd opgeslagen kenmerken in Facebook – automatisch herkennen van betekenis/onderwerp uit hele tekst bijv.: door "machine learning" getraind op vaste concepten – koppelen aan data uit andere bronnen bijv.: via linked (open) data – ... 15 eric sieverts, maart 2015
  • 16.
    Wie op “Bach”zoekt, vindt vermoedelijk liever gegevens over hem dan websites over hem. Google's Knowledge Graph kent 500 miljoen objecten met 3,5 miljard kenmerken 16 gegevens o.a. afkomstig uit: "Freebase" (crowdsourced kennisbank), Wikipedia (dbpedia), CIA World factbook en (statistische) analyse van eigen gegevens
  • 17.
    wat is indit verband een "graph"?  een netwerk van al die concepten met hun onderlinge relaties en kenmerken 17
  • 18.
    tripels al die informatiewordt in feite opgeslagen als "tripels" L. Da Vinci schilderde Mona Lisa J.S. Bach geboren op 31-03-1685 J.S. Bach geboren in Eisenach Eisenach ligt in Duitsland C.P.E. Bach kind van J.S. Bach 18 eric sieverts, maart 2015
  • 19.
    knowledge cards • ditsoort gegevens die bij een persoon/object/entiteit horen, worden gecombineerd in "knowledge cards" • die knowledge cards verschijnen - zoals bij het eerdere voorbeeld van Bach - rechts naast het gewone zoekresultaat 19 eric sieverts, maart 2015
  • 20.
    maar niets over dediefstal …. 20
  • 21.
    21 eric sieverts,maart 2015 generieke vragen leveren "carousel"
  • 22.
  • 23.
  • 29.
    29 eric sieverts,maart 2015 soms verschijnt ook feitelijk antwoord (eveneens een "tripel") boven de gewone zoekresultaten
  • 30.
  • 31.
  • 32.
  • 33.
    33 eric sieverts,maart 2015 daarbij wordt ook d.m.v. natuurlijke taal technieken herkend wat er gevraagd / bedoeld wordt
  • 34.
  • 35.
    in werkelijkheid varieertdie afstand dus tussen ongeveer 356.000 en 407.000 km [bron: NASA - via Wikipedia] dus dat cijfer op 4 decimalen nauwkeurig is eigenlijk onzin (hoewel dat ook uit de Wikipedia komt) maar: eric sieverts, maart 201535
  • 36.
    36 eric sieverts,maart 2015 ook wordt (soms) herkend als je dingen wilt vergelijken en worden relevante gegevens in een tabel gezet
  • 37.
    antwoord is geen feituit Knowl. Graph, maar tekst uit web-pagina
  • 38.
  • 39.
  • 40.
    knowledge vault • inhoudvan "knowledge graph" komt uit gecontroleerde gestructureerde bronnen als wikipedia/dbpedia, freebase, … • in "knowledge vault" wordt dat uitgebreid met gegevens die uit allerlei webpagina's worden onttrokken (ook als tripels) 40 eric sieverts, maart 2015
  • 41.
    This paper [http://www.cs.cmu.edu/~nlao/publication/2014.kdd.pdf] published byGoogle goes into more detail about the concepts behind the Knowledge Vault, citing three major components: Extractors: These systems extract triples from a huge number of Web sources. Each extractor assigns a confidence score to an extracted triple, representing uncertainty about the identity of the relation and its corresponding arguments. Graph-based priors: These systems learn the probability of each possible triple, based on triples scored in an existing KB (knowledge base). Knowledge fusion: This system computes the probability of a triple being true, based on agreement between different extractors and priors
  • 42.
    Google tables zoeken naar/intabellen https://research.google.com/tables zie ook: "Applying WebTables in Practice" http://www.cidrdb.org/cidr2015/ Papers/CIDR15_Paper3.pdf google heeft een speciaal tool om tabellen te herkennen en daar gegevens aan te ontlenen - ook publiekelijk beschikbaar
  • 43.
  • 45.
    Bing heeft zijn"Entity Engine" (Snapshots) maar die reageert vaak nog wat minder slim op combinaties van woorden 45
  • 46.
    ... en alleenbij landeninstelling "Verenigde Staten" 46
  • 47.
    en nog meer… er zijn nog meer (semantische) zoeksystemen die proberen concrete antwoorden te geven een paar voorbeelden: • wolfram|alpha • kngine • cluuz • sensebot • ….. 47 eric sieverts, maart 2015
  • 48.
  • 51.
    het onderzoek wat geeftbeter antwoord op wat voor soort vragen? • bekijken bij Google: – antwoord uit Knowledge Graph (boven zoekresultaat , of rechts ernaast) – extra gegevens bij individuele resultaten • alternatieven om ook eens te proberen als er tijd over is: – antwoord uit Bing's Entity Engine [http://www.bing.com/] – antwoord uit Wolfram|Alpha [http://www.wolframalpha.com/] – door Sensebot geselecteerde antwoorden [http://www.sensebot.net/sense6.aspx] – door Cluuz geselecteerde antwoorden [http://cluuz.com/] – antwoord uit Ask-Cluuz [http://ask.cluuz.com/] – antwoord uit Kngine [http://www.kngine.com/] eric sieverts, maart 201551
  • 52.
    het onderzoek ieder groepjestelt een aantal zoekvragen in de eigen belangstellingssfeer en analyseert de resultaten • Op welke (soorten) vragen komt een concreet antwoord? • Zijn die concrete antwoorden zinnig? • Wat is de bron van die antwoorden? • Is die bron betrouwbaar? • Hoe verhouden die antwoorden zich tot de gewone resultaten van de zoekvragen? • .... eric sieverts, maart 201552
  • 53.
    nog even terugnaar … 2. bepalen van betekenis van content in webpagina's – herkennen van entiteiten in de tekst – gebruik van metadata/codering volgens ontologieën "betekenis vooraf gekarakteriseerd" bijv.: informatie gecodeerd met begrippen uit schema.org ontologie – uit (variabele) structuur van beschikbare informatie "betekenis achteraf afgeleid / geraden" bijv.: herkennen van tabellen, kenmerk-waarde koppels, .... – uit (vaste) structuur van beschikbare informatie bijv.: gestructureerd opgeslagen kenmerken in Facebook – automatisch herkennen van betekenis/onderwerp uit hele tekst – koppelen aan data uit andere bronnen – ... 53 eric sieverts, maart 2015
  • 54.
    semantische codering gestandaardiseerde markeringvan kenmerken in webpagina's - "semantic markup" voorbeeld van zulke "embedded metadata": – recipe search bij Google en Yahoo daarbij gebruikte standaarden: – rich snippet markup / microdata / schema.org (Google, Yahoo, Bing, Yandex) onder andere voor: recepten, recencies, personen, producten, organisaties, gebeurtenissen, muziek – RDFa 54 eric sieverts, maart 2015
  • 55.
  • 56.
    nieuwe standaard vande zoekmachinegiganten: microdata hiërarchie van kenmerken voor embeddable metadata in webpagina’s 56 + nu ook Yandex
  • 58.
    eric sieverts, maart201558 voorbeeld van codering met restaurant metadata (zoals gebruikt door o.a. IENS) zoals in HTML gecodeerd volgens microdata standaard
  • 59.
  • 60.
    microdata en RDFa •toepassing van deze technieken is vaak "SEO-driven" • Google biedt webmasters "Structured data testing tool" dat fouten in codering detecteert zie blogposts op SearchEngineLand: http://searchengineland.com/how- to-use-rich-snippets-semantic- markup-to-send-rich-signals- 139886 http://searchengineland.com/5- ways-optimize-markup-knowledge- graph-semantic-search-186755 eric sieverts, maart 201560
  • 61.
    wat heeft zoekerhieraan? • zoeker kan gerichter zoeken en filteren (zoals in Google's receptenzoeker) • zoeker krijgt duidelijker informatie over gevonden items in zijn 10 blue links (zoals Google's rich snippets)
  • 62.
    we blijken alanders te kijken … we zijn al zo gewend aan schermindeling met op allerlei plaatsen antwoorden, dat eye-tracking studies ander kijkgedrag laten zien 2014 2005 62 conclusies uit recente studie: 1. where searchers have been conditioned to look has changed 2. searchers are viewing more results during a single session and spending less time viewing each one
  • 63.
    semantische zoekmachines voor "semantisch"gaan door : • Wolfram|Alpha "computational knowledge engine", feitelijke gegevens • DuckDuckGo niet semantischer dan google • Sensebot vat ook inhoud van meer documenten samen • Factbites samengevatte informatie uit geselecteerde bronnen • Cluuz selecteert (uit) antwoorden • ask.cluuz beantwoordt vragen • Kngine heeft ook een app voor smartphones noemen zich niet "semantisch", maar wel handig voor feitelijke gegevens : • Zanran data zoekmachine (zoekt in tabellen, grafieken en visualisaties) • Google tables zoeken naar/in tabellen [https://research.google.com/tables] 63 eric sieverts, maart 2015
  • 64.
    eric sieverts, maart2015 any questions ?