semantischzoeken-2013.ppt

Eric Sieverts
semantisch zoeken
iets over metadata, semantisch web,
ontologieën, interoperabiliteit, linked data
VOGIN-IP-lezing 2013

2019
?
2025
?
Holy Grail
Modelling the human brain, and figuring out how it works, has
long been one of the Holy Grails of supercomputing,
prompting fears of a "technological singularity," where
successively advanced artificial intelligences design ever
more refined versions of themselves, leading to a future
where humans become increasingly irrelevant.
...
…
Thinking the way that humans think would allow Google or
Microsoft to anticipate even more what their users want, and to
provide them with that data. Both companies can do that to
some extent through data accumulated from millions of users; if
the most common "t" word I search for is Twitter.com, Google
can start pre-loading the page in the background. But thinking
like a human thinks, and making the seemingly random
associations that humans make thousands of times faster than
we make, could mean everything from artificially-crafted memes
to pre-processed sound bites for politicians.
...
de ultieme
semantische
zoekmachine?
2

semantisch zoeken
vraag 1:
• wanneer is een zoeksysteem een semantisch
zoeksysteem?
.... als het erop staat?
eric sieverts, februari 2013
4

semantisch zoeken
vraag 2:
• welke functionaliteit van een zoeksysteem zou u
semantisch noemen?
5

semantisch zoeken
10 Things that Make Search a Semantic Search
[volgens Hakia dat zelf beweert semantische zoekmachine te zijn]
1. Handling morphological variations
2. Handling synonyms with correct senses
3. Handling generalizations
4. Handling concept matching
5. Handling knowledge matching
6. Handling natural language queries and questions
7. Ability to point to uninterrupted paragraph and the most relevant
sentence
8. Ability to Customize and Organic Progress
9. Ability to operate without relying on statistics, user behavior, and
other artificial means
10. Ability to detect its own performance
http://company.hakia.com/whatis.html
6

semantisch zoeken
1. Related searches/queries. The engine proposes searches that are in some
way similar to the entered search
2. Reference results. The search engine is responding with materials that
define the search terms. Presumption is that the user is probably searching
for practical information rather than document hit lists.
3. Semantically annotated results. You're returned pages or documents with
highlighting of text features, especially named or pattern-defined entities,
that are semantically related to the search terms.
4. Full-text similarity search. A block of text ranging from a phrase to a full
document is submitted. While matching techniques rely on statistical or
vector-space similarity rather than meaning, results do fit the semantic label
5. Search on semantic/syntactic annotations. The user tags a search term
to indicate the syntactic role the term plays or its semantic meaning --
whether it's a company name, location, or event.
6. Concept search. I enter "Ford films" and I get also documents that contain
the word "movies". Conceptual relationships could be specified by a
taxonomy or inferred by statistical co-occurrence.
7. Ontology-based search . . . . . . .
http://www.informationweek.com/software/
business-intelligence/breakthrough-
analysis-two-nine-types-of/222400100
Seth Grimes (2010):
Two + Nine Views of Semantic Search
7

semantisch zoeken
1. Related searches/queries. The engine proposes searches that are in some way similar to the entered search
2. Reference results. The search engine is responding with materials that define the search terms. Presumption is that the user is probably searching ...
3. Semantically annotated results. You're returned pages or documents with highlighting of text features, especially named or pattern-defined entities ...
4. Full-text similarity search. A block of text ranging from a phrase to a full document is submitted. While matching techniques rely on statistical or ...
5. Search on semantic/syntactic annotations. The user tags a search term to indicate the syntactic role the term plays or its semantic meaning -- ...
6. Concept search. I enter "Ford films" and I get also documents that contain the word "movies". Conceptual ...
7. Ontology-based search. The engine not only understands hierarchical
relationships of entities and concepts as in a taxonomy, but also more complex
inter-entity relationships.
8. Semantic Web search. The Semantic Web seeks to capture data
relationships and make the resulting "Web of data" queryable. This lofty and
worthy goal is years from practical usability.
9. Faceted search. Faceted search provides a means of exploring results
according to a set of predefined, high-level categories called facets.
10. Clustered search. Clustered search is like faceted search, but without the
predefined categories. Here, meaning is inferred from topics statistically
extracted from the content of search results.
11. Natural language search.
These 11 approaches don't each apply to every semantic search, all of the time,
but they do each win the semantic-search label at least some of the time.
http://www.informationweek.com/software/
business-intelligence/breakthrough-
analysis-two-nine-types-of/222400100
Seth Grimes (2010):
Two + Nine Views of Semantic Search
8

semantisch zoeken
Current trend : the semantic search system should be able to understand the
query and give relevant results based on the current trend and news.
Location of search : When searching for 'what is the temperature', semantic
search should provide results based on the current location.
Intent of the search : Semantic search should give appropriate search results
based on the intent of the search and not on the specific words used.
Variations of words : Semantic search should consider tenses, plural, singular
etc and provide results for all semantic word variations.
Synonyms : Semantic search should understand synonyms and give more or
less the same results on any synonyms of the word users search for.
Generalized and Specialized queries : Semantic Search should set relation
between generalized and specialized queries and provide appropriate results.
Concept matching : Sub-set of context matching. Semantic search should
understand the broad concept of the query and return relevant results.
Natural language queries : On search for 'What time is it in Arizona‘, Semantic
Search would show you the current time in Arizona, USA.
Change of meaning based on the group of words. The last word in a query
may completely change its meaning. Semantic Search should distinguish such
differences and give relevant search results.
http://www.techulator.com/resources/
5933-What-Semantic-Search.aspx
Tony John (2012) - Semantic Search:
Factors considered by Search Engines
9

semantisch zoeken
samenvattend: globaal 3 soorten toepassingen
1. inschatten van de intentie van de zoeker
bijv.: hij zoekt mobiel in buurt van de Rozengracht naar “pizza”
>> adres van pizzeria in de buurt
2. bepalen van betekenis van woorden/tekst in documenten
vooraf bij indexeren of achteraf in zoekresultaat;
van eenvoudige herkenning van entiteiten of meegegeven metadata,
tot complexe kennis van de wereld, zodat automatisch concepten
worden toegekend of relevante aanvullende informatie gelinkt wordt
3. automatisch aanpassen van zoekacties
bijv.: zoekactie uitbreiden met gerelateerde zoekwoorden,
zoekwoorden vervangen door betere zoekwoorden,
(ook) in andere systemen zoeken
10

1. intentie van de zoeker
intentie of context van vraag kan worden bepaald:
• op basis van de lokatie van de zoeker
– globaal:
op basis van internetdomein waar gebruiker zit (ip-adres)
op google.nl krijg je ander antwoord dan op google.com
– heel precies:
op basis van bekende gps- of gsm-gegevens (mobiel)
• op basis van analyse van de gestelde vraag
• op basis van eerder zoekgedrag van de zoeker
ook bij dubbelzinnige zoekwoorden?
11

intentie van de zoeker
• op basis van lokatie
• op basis van vraaganalyse
– eenvoudig:
• wie naam intikt van bekend persoon, bedrijf, product, gebeurtenis,
object, zal wel algemene informatie daarover willen
• wie naam van gewoon persoon intikt zal wel facebook / linked-in enz.
gegevens willen (maar hoe weet systeem dat het een naam is?)
– ietsje geavanceerd:
• veel voorkomende combinaties met vaste woorden
– geavanceerd:
• natuurlijke taal technieken
• op basis van statistiek op grote aantallen eerder ontvangen vragen
• op basis van eerder zoekgedrag
12

Wie op “Bach” zoekt, vindt vermoedelijk liever
gegevens over hem dan websites over hem
14

Google Knowledge Graph
• kent 500 miljoen objecten met 3,5 miljard kenmerken en
vele onderlinge relaties
(maar nog alleen in het Engels)
• toch nog verrassend hoe vaak je niet dit soort gegevens
krijgt, terwijl je dat wel zou verwachten
• wat is in dit verband een "graph"?
een netwerk van al die concepten met hun onderlinge relaties en
kenmerken
• hoe komt Google aan al die gegevens?
uit "Freebase" (crowdsourced kennisbank), Wikipedia, CIA World
factbook en uit statistische analyse van eigen gegevens
18

• op basis van de lokatie van de zoeker
• op basis van analyse van de gestelde vraag
• op basis van eerder zoekgedrag van de zoeker
– wat voor zoekvragen stelde gebruiker eerder
– naar welke resultaten keek gebruiker dan
(bijvoorbeeld al toegepast in Google's relevantie-personalisatie;
opgeslagen "history" is ook al "big data")
23

2. bepalen van betekenis
betekenis herkennen van woorden en gegevens in te
indexeren tekst en/of in al gevonden resultaten
• herkennen van "entiteiten" in tekst
(herkennen van woorden/samenstellingen behorend tot categorieën
als plaats, persoon, bedrijf, product, ...)
• betekenis die herkenbaar aanwezig is in "embedded metadata"
(bijvoorbeeld binnen XML of (X)HTML coderingen)
• tekstanalyse zoals bij automatische classificatie
• tekstanalyse en koppeling met geselecteerde andere bronnen
(bijvoorbeeld via "linked data")
• ...
24

The Calais Web Service
automatically creates
rich semantic metadata
Named
Entities
Facts Events
herkennen van "entiteiten"
25

example:
article from NYTimes
analysed by
….. >>
herkennen van "entiteiten"
26

example:
analysed by
"Open Calais"
http://viewer.opencalais.com/
27

example:
analysed by "Zemanta"
http://www.zemanta.com/demo/
30

bepalen van betekenis
• betekenis herkenbaar aanwezig in "embedded metadata"
(bijvoorbeeld binnen XML of (X)HTML coderingen)
• ...
31

herkennen van kenmerken
gestandaardiseerde markering van kenmerken in
webpagina's
voorbeelden van “embedded metadata”:
– Google recipes
– toepassing e-commerce ontology
daarbij gebruikte standaarden:
– microformats
– RDFa
– microdata
32

Google "rich snippets
• standaardisatie van "kenmerken" in de beschrijving van
recepten met "microformats" / "rich snippets markup"
• andere soorten informatie waarvoor kenmerken in rich
snippet markup zijn gestandaardiseerd:
recencies, personen, producten, organisaties, gebeurtenissen
en muziek
34

standaardisatie van
kenmerken van producten
met "GR-ontologie"
volgens "RDFa“ in “XHTML”
35

nieuwe standaard van de zoekmachinegiganten: microdata
hiërarchie van kenmerken voor embeddable metadata in webpagina’s
38

de concepten uit de
good relations ontology
zijn recent ook in
schema.org geïncorporeerd
39

microformats en RDFa
• toepassing van deze technieken is vaak "SEO-driven"
zie blogpost op
SearchEngineLand
http://searchengineland.com/how
-to-use-rich-snippets-semantic-
markup-to-send-rich-signals-
139886
40

wat heeft zoeker hieraan?
• zoeker kan gerichter zoeken en filteren
(zoals in Google's receptenzoeker)
• zoeker krijgt duidelijker informatie over
gevonden items
(zoals Google's rich snippets)
41

bepalen van betekenis
• betekenis herkenbaar aanwezig in "embedded metadata"
(door "machine learning" getraind op taxonomie of thesaurus,
zowel inhoudelijke concepten als bijv. "sentiment" in tekst,
zodat zoekresultaat gecategoriseerd kan worden)
(bijvoorbeeld via "linked data")
• ...
42

voorbeeld:
PDF document
geanalyseerd met
Dewey Classifier
automatische classificatie
45

resultaat van analyse
van PDF document
46

intermezzo: rdf
RDF = resource description framework
• RDF is een standaard voor het beschrijven van de relatie
tussen een resource (of een object) en zijn metadata
• RDF verwijst naar daarbij gebruikte metadatastandaard(en)
• RDF gebruikt “namespaces” om naar computer-leesbare
beschrijving van die standaarden te verwijzen (link via URL)
• RDF is bedoeld om bestaande semantische systemen te
(her)gebruiken en te combineren
• RDF-beschrijvingen worden meestal in XML-notatie
weergegeven
• RDFa = “RDF in attributes” , standaard om metadata in de
inhoud van (X)HTML webpagina’s te verwerken
47

rdf
RDF = resource description framework
• resources moeten een URI hebben (een uniform resource
identifier, zoals een URL) om ernaar te kunnen verwijzen
• eigenschappen (metadata) worden vastgelegd in
zogenaamde tripels: subject <predicaat> object
(wat je ook zou kunnen weergeven als :
ding <eigenschap> waarde )
• naar definities van die eigenschappen wordt meestal ook via
een URI verwezen
• RDF-tripels worden ook gebruikt in "linked data"
48

rdf tripels (en linked data)
beschrijving van metadata in RDF tripels:
• waarbij
– te beschrijven ding een webadres (URI) heeft
– eigenschap van dat ding liefst ook een URI heeft
– "waarde" van die eigenschap liefst ook een URI heeft
• voorbeeld:
– boek (heeft een webadres: URI)
– heeft auteur (betekenis van eigenschap ergens beschreven: URI)
– persoon (gegevens van persoon ergens op web te vinden: URI)
• als linked data worden ze opgeslagen in zogenaamde
RDF triple stores
49

rdf tripels
subject <predicaat> object
doc1 <heeft auteur> auth1
auth1 <heeft naam> john smith
auth1 <heeft affiliatie> home inc.
auth1 <heeft email> smith@home.com
grafische representatie van
simpel netwerk van 4 RDF-tripels
50

rdf - weergave in xml
<rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"
xmlns="http://www.john.smith.net/rdfexample/">
<rdf:Description rdf:about="http://www.xxx.com/yyy/doc1.xml">
<author>
<rdf:Description rdf:about="http://www.xxx.com/autId/7801">
<name>John Smith</name>
<affiliation>Home Inc.</affiliation>
<email>Smith@home.com</email>
</rdf:Description>
</author>
</rdf:Description>
</rdf:RDF>
namespaces
URI's van beschreven resources
51

via die webadressen (URI's) kan iedereen aan deze data linken
= "resource" met URI
= "literal" (gegeven)
getypeerde
(en op het web
gedefinieerde)
relaties tussen
resources en
gegevens
rdf tripels
52

rdf-tripels en graphs
verschillen zulke netwerkjes van RDF-tripels
van die eerdere "graphs"?
 niet wezenlijk
gegevens en relaties uit RDF tripels kun je
ook in zulke graphs weergeven
53

in webpagina verwerkte
verwijzingen naar de
standaarden voor gebruikte
beschrijvingselementen:
• v: vcard
• mo: music ontology
• foaf: friend of a friend
• owl: web ontology language
• geo
54

intermezzo: metadata tools
• er zijn handige browsertools (voor chrome) die analyse
maken van in webpagina aanwezige metadata volgens
microformat, microdata of RDFa standaard
http://searchengineland.com/how-to-use-rich-snippets-semantic-
markup-to-send-rich-signals-139886
57

3. aanpassen zoekacties
aanpassen / verbeteren van zoekacties
 vooraf (automatisch) bewerken van zoekvraag
• variaties op zoekwoord meenemen in query
– spelling verbeterd (statistiek?) [veilgheid >> veiligheid]
– zoeken op woordstam (enkel/meervoud, vervoegingen, ….)
[vaccination >> vaccinations, vaccine, vaccinate, vaccinated, …]
– spellingsvariaties [immunisation <> immunization]
– samenstellingen opbreken (en omgekeerd)
[catfood <> cat food ; maatregel + veiligheid <> veiligheidsmaatregelen]
• synoniemen, acroniemen aan query toevoegen
(uit woordenlijst, semantisch netwerk, ontologie)
[vaccination <> immunization ; jfk <> john f kennedy]
• verwante en specifiekere begrippen aan query toevoegen
(uit semantisch netwerk, thesaurus, ontologie)
72

3. aanpassen zoekacties
aanpassen / verbeteren van zoekacties
 achteraf bewerken van zoekresultaat
• zoekresultaten clusteren op basis van inhoud
– meestal op basis van woordstatistiek (voorbeeld Clusty, Polymeta)
– soms op basis van automatische classificatie
• in gevonden document alinea(s) tonen die antwoord op de vraag
bevat
– KWIC display van zoekmachines is eenvoudige vorm daarvan
• uit meer zoekresultaten samenvatting genereren van belangrijkste
bevindingen / antwoorden
73

semantisch zoeken
vraag 3:
• welke semantische zoekmachines kent u?
(en waarom zijn die semantisch?)
78

semantische zoekmachines
vaak genoemd in overzichten van semantisch zoeken:
• Hakia enterprise search; webresultaten nogal middelmatig
• DuckDuckGo niet semantischer dan google
• Wolfram|Alpha "computational knowledge engine", feitelijke gegevens
• Sensebot vat ook inhoud van meer documenten samen
• Cognition voor specifieke databases, bijv. voor Medline
• Factbites samengevatte informatie uit geselecteerde bronnen
• Cluuz analyseert recultaten en geeft relaties
• Kngine is alleen nog een app voor smartphones
• Swoogle RDF ontology search engine
• Sindice zoekmachine voor sites met RDF metadata
• Powerset is opgekocht door (en geïntegreerd in) Bing
• Kosmix
• Evri bestaan niet meer als (web)zoekachine
• Truevert
79

finale: semantisch web
in semantisch web
wordt van "alles"
betekenis vastgelegd
om betekenis ook te
begrijpen heeft men
"ontologieën" nodig
80

ontologieën
definitie:
een strikt en uitputtend schema
voor een bepaald onderwerpsdomein,
meestal in een hiërarchische structuur,
die alle relevante grootheden en hun relaties bevat,
alsmede de regels waaraan die grootheden en relaties
binnen dat domein voldoen
filosofie kunstmatige
intelligentie
computerleesbare
kennisrepresentatie
81

ontologieën
• "kennis-representatie“ waarin kennis over (klein stukje van)
de wereld in geformaliseerde vorm is weergegeven
• meestal niet rechtstreeks gebruikt voor ontsluiting
• maakt vollediger en meer complexe representaties van de
werkelijkheid mogelijk dan met een thesaurus
• veel mogelijke soorten relaties tussen concepten
• vastgelegde rollen en eigenschappen van die concepten
• vaak voor een beperkt onderwerpsdomein (“wijn ontologie”)
• soms breder in een zogenaamde “core ontology”
bijvoorbeeld: CIDOC-CRM (conceptual reference model) voor
concepten, relaties en eigenschappen op gebied van cultureel erfgoed
82

relaties tussen enkele concepten
in een eenvoudige "wijn-ontologie"
Château Lafitte Rothschild {is een} wijnhuis
Château Lafitte Rothschild {produceert} Château Lafitte Rothschild Pauillac
Bordeaux {heeft als beste wijnhuizen} Château Lafitte Rothschild
Château Lafitte Rothschild Pauillac {wordt gemaakt door} Château Lafitte Rothschild
Château Lafitte Rothschild Pauillac {is een} Pauillac
Bordeaux {is een} wijnstreek
....
veel meer soorten relaties mogelijk dan alleen BT, NT, RT, Use, Used for
83

hiërarchische structuur van
concepten van één soort in
een eenvoudige "wijn-ontologie"
klassen-hiërarchie van
DBpedia-ontologie
84

voorbeeld van de relaties
tussen concepten m.b.t.
het standbeeld van Balzac
door Rodin [CIDOC-CRM]
85

ontologieën
“ontologieën” in kader van het semantisch web
• in meer algemene zin :
algemene naam voor allerlei soorten onderwerpsontsluiting
(thesauri, classificaties, taxonomieën, namenlijsten, .....)
en ook voor concordanties tussen dergelijke systemen
• essentiële vereisten :
ontologie moet beschikbaar zijn in een vorm waarin hij door
een computerprogramma kan worden gelezen, verwerkt
en geïnterpreteerd
→ vereist gestandaardiseerde notaties en formele talen
om ze te beschrijven
86

ontologie-notatie
beschrijving van ontologieën voor semantisch web
RDF resource description framework
standaard om relaties tussen een object en zijn
metadata te beschrijven
OWL web ontology language
standaard voor computer-leesbaar beschrijven van
ontologieën
RDFS RDF-schema
standaard voor het beschrijven van metadata-modellen
in RDF
SKOS simple knowledge organization system
standaard voor het beschrijven van thesauri,
classificaties en hun onderlinge relaties in RDF
87

interoperabiliteit en SKOS
om interoperabiliteit tussen systemen “automatisch” te
kunnen laten verlopen is een standaard nodig om
computerleesbaar te beschrijven:
– hoe een bepaald ontsluitingssysteem in elkaar zit
– hoe relaties tussen begrippen moeten worden geïnterpreteerd
(bijv.: of iets een BT is, een scope note of .... )
– hoe begrippen zich verhouden tot die in een ander systeem,
– ...
om dat makkelijk en gestandaardiseerd te kunnen doen is
SKOS ontwikkeld
SKOS: Simple Knowledge Organisation System
88

interoperabiliteit
definities
• Interoperability is the ability of two or more systems or components to
exchange information and to use the information that has been
exchanged
• Semantic Interoperability is the ability of computer systems to
communicate information and have that information properly
interpreted by the receiving system in the same sense as intended by
the transmitting system.
bron: Wikipedia
• Interoperabiliteit betekent in het algemeen dat systemen (of
apparatuur) in staat zijn tot onderlinge uitwisseling of/en communicatie.
De systemen kunnen m.a.w. ‘praten met elkaar’ en zijn in zekere zin
‘compatibel’. Om interoperabiliteit te bereiken zijn standaarden,
protocollen en procedures erg belangrijk
bron: http://www.cjsm.vlaanderen.be/e-cultuur/beleidskader/bouwstenen/lexicon.html
eric sieverts, november 2012
89

grafische weergave van
SKOS-representatie van
thesaurustermen & relaties:
netwerk van RDF-tripels
Term: Economic cooperation
Used For: Economic co-operation
Broader terms: Economic policy
Narrower terms: Economic integration,
European economic cooperation,
European industrial cooperation,
Industrial cooperation
Related terms: Interdependence
Scope Note: Includes cooperative measures
in banking, trade, industry etc., between
and among countries.
SKOS
90

SKOS representatie in RDF
<rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"
xmlns:skos="http://www.w3.org/2004/02/skos/core#">
<skos:Concept>
<skos:prefLabel>Economic cooperation</skos:prefLabel>
<skos:altLabel>Economic co-operation</skos:altLabel>
<skos:scopeNote>Includes cooperative measures in banking, trade,
industry etc., between and among countries. </skos:scopeNote>
<skos:broader>
<skos:Concept>
<skos:prefLabel>Economic policy</skos:prefLabel>
</skos:Concept>
</skos:broader>
<skos:related>
<skos:Concept>
<skos:prefLabel>Interdependence</skos:prefLabel>
</skos:Concept>
</skos:related>
<skos:narrower>
<skos:Concept>
<skos:prefLabel>Economic integration</skos:prefLabel>
</skos:Concept>
</skos:narrower>

</skos:Concept>
</rdf:RDF>
computerleesbare
weergave - in xml
91

SKOS relaties
in dit voorbeeld zagen we standaard thesaurusrelaties:
<skos:prefLabel> voorkeursterm voor concept
<skos:altLabel> synoniemen
<skos:scopeNote> omschrijving van concept
<skos:broader> algemener concept
<skos:narrower> specifieker concept
ook beschrijving in hoeverre termen uit verschillende
thesauri inhoudelijk overeenkomen (concordantie) :
<skos:mappingRelation> overeenkomst met term uit ander systeem
<skos:exactMatch> term heeft zelfde betekenis
<skos:closeMatch> term heeft bijna zelfde betekenis
<skos:broadMatch> term is ruimer
<skos:narrowMatch> term is specifieker
zo kunnen zoekacties worden uitgebreid,
ook met termen uit andere systemen
92

semantisch web
• ultieme toepassing van interoperabiliteit
• gebruikt combinatie van
– RDF(S)
– ontologieën (ook thesauri, taxonomieën, semantisch netwerken, …)
– formele talen (zoals SKOS en OWL)
– annotatie van resources/objecten (=metadatering)
• als vanuit allerlei systemen maar naar dergelijke
computerleesbare "databases" met semantische kennis
gelinkt wordt, kan programmatuur allerlei termen met
elkaar in verband brengen ten behoeve van zoeken
(en andere functionaliteit)
• dat wordt bijvoorbeeld in Europeana toegepast
• en met "linked data" moet dat nog makkelijker worden
93

RDF en "linked data"
er is momenteel veel publiciteit rond "linked (open) data"
• dat zijn in principe RDF-tripels
zodat die data computer-leesbaar zijn
• ze staan op internet
zodat het "open" is
• ze zijn bedoeld om te worden hergebruikt
zodat ze een belangrijk ingrediënt voor het semantisch web zijn
• ze zijn gestandaardiseerd
zodat ze makkelijk hergebruikt kunnen worden
• iedereen kan (en moet!) data bijdragen
waardoor het toch nog wel een beetje een rommeltje is
94

Tim Berners Lee:
1989: "invented" the World Wide Web
2004: proposed the "semantic web"
2006: designed "linked data" as a step towards
realisation of the semantic web
95

dbpedia: data
from Wikipedia
last.fm: artists
geonames:
6.2 M toponyms
BBC: wildlife
finder
project
Gutenberg
IMDB
music brainz
Reuters:
openCalais
viaf: virtual
international
authority file
LCSH
NY times
Flickr
"linked open data cloud" - 31 miljard data online – 504 miljoen links daartussen
door standaardisering van dataformats en metadata,
kunnen computers betekenis van die data "begrijpen" en die data gebruiken
rechtspraak.nl
98

fragment uit het
linked data
VIAF-record voor
Lewis Carroll
viaf.org/viaf/66462036/rdf.xml
99

fragment uit het
linked data
VIAF-record voor
Hugo Brandt Corstius
viaf.org/viaf/94439179/rdf.xml
100

sparql - endpoints
nog wat linked data jargon:
SPARQL Sparql Protocol And Rdf Query Language
wat SQL is voor relationele databases
is SPARQL voor RDF triple stores
Endpoints toegangspunten op het web waar je SPARQL
zoekactie op RDF triple stores kunt uitvoeren
(je moet daarvoor de SPARQL syntax kennen
- door een computer laten uitvoeren)
101

kernbegrippen
kernbegrippen die we tegenkwamen
• semantiek (= betekenis, begrijpen)
• interoperabiliteit (= kunnen samenwerken)
• metadata (= beschrijven & karakteriseren)
• ontologieën (= kennis organisatie systemen)
• semantisch web (= informatie op web begrijpen)
• linked data (= gegevens op web begrijpen,
linken en hergebruiken)
op allerlei manieren horen daar standaarden bij
meer "didactische" informatie o.a. op: semantic university
http://www.cambridgesemantics.com/semantic-university
eric sieverts, november 2012
102

what all that alphabet soup means
• CC Creative Commons
• CIDOC-CRM CIDOC Conceptual Reference Model
• DC Dublin Core
• FOAF Friend-of-a friend
• GR Good Relations Ontology
• HTML HyperText Markup Language
• LOD Linked Open Data
• MO Music Ontology
• OG Open Graph protocol
• OWL Web Ontology Language
• RDF Resource Description Framework
• RDFa RDF in Attributes
• SKOS Simple Knowledge Organisation System
• SPARQL Sparql Protocol And Rdf Query Language
• URI Uniform Resource Identifier
• URL Uniform Resource Locator
• VIAF Virtual International Authority File (authors)
• XHTML eXtensible HyperText Markup Language
• XML eXtensible Markup Language

the end
104

semantischzoeken-2013.ppt

Recommended

Recommended

More Related Content

Similar to semantischzoeken-2013.ppt

Similar to semantischzoeken-2013.ppt (20)

More from voginip

More from voginip (20)

semantischzoeken-2013.ppt