SlideShare a Scribd company logo
1 of 104
Eric Sieverts
semantisch zoeken
iets over metadata, semantisch web,
ontologieën, interoperabiliteit, linked data
VOGIN-IP-lezing 2013
2019
?
2025
?
Holy Grail
Modelling the human brain, and figuring out how it works, has
long been one of the Holy Grails of supercomputing,
prompting fears of a "technological singularity," where
successively advanced artificial intelligences design ever
more refined versions of themselves, leading to a future
where humans become increasingly irrelevant.
...
…
Thinking the way that humans think would allow Google or
Microsoft to anticipate even more what their users want, and to
provide them with that data. Both companies can do that to
some extent through data accumulated from millions of users; if
the most common "t" word I search for is Twitter.com, Google
can start pre-loading the page in the background. But thinking
like a human thinks, and making the seemingly random
associations that humans make thousands of times faster than
we make, could mean everything from artificially-crafted memes
to pre-processed sound bites for politicians.
...
de ultieme
semantische
zoekmachine?
2
3
semantisch zoeken
vraag 1:
• wanneer is een zoeksysteem een semantisch
zoeksysteem?
.... als het erop staat?
eric sieverts, februari 2013
4
semantisch zoeken
vraag 2:
• welke functionaliteit van een zoeksysteem zou u
semantisch noemen?
eric sieverts, februari 2013
5
semantisch zoeken
10 Things that Make Search a Semantic Search
[volgens Hakia dat zelf beweert semantische zoekmachine te zijn]
1. Handling morphological variations
2. Handling synonyms with correct senses
3. Handling generalizations
4. Handling concept matching
5. Handling knowledge matching
6. Handling natural language queries and questions
7. Ability to point to uninterrupted paragraph and the most relevant
sentence
8. Ability to Customize and Organic Progress
9. Ability to operate without relying on statistics, user behavior, and
other artificial means
10. Ability to detect its own performance
eric sieverts, februari 2013
http://company.hakia.com/whatis.html
6
semantisch zoeken
1. Related searches/queries. The engine proposes searches that are in some
way similar to the entered search
2. Reference results. The search engine is responding with materials that
define the search terms. Presumption is that the user is probably searching
for practical information rather than document hit lists.
3. Semantically annotated results. You're returned pages or documents with
highlighting of text features, especially named or pattern-defined entities,
that are semantically related to the search terms.
4. Full-text similarity search. A block of text ranging from a phrase to a full
document is submitted. While matching techniques rely on statistical or
vector-space similarity rather than meaning, results do fit the semantic label
5. Search on semantic/syntactic annotations. The user tags a search term
to indicate the syntactic role the term plays or its semantic meaning --
whether it's a company name, location, or event.
6. Concept search. I enter "Ford films" and I get also documents that contain
the word "movies". Conceptual relationships could be specified by a
taxonomy or inferred by statistical co-occurrence.
7. Ontology-based search . . . . . . .
eric sieverts, februari 2013
http://www.informationweek.com/software/
business-intelligence/breakthrough-
analysis-two-nine-types-of/222400100
Seth Grimes (2010):
Two + Nine Views of Semantic Search
7
semantisch zoeken
1. Related searches/queries. The engine proposes searches that are in some way similar to the entered search
2. Reference results. The search engine is responding with materials that define the search terms. Presumption is that the user is probably searching ...
3. Semantically annotated results. You're returned pages or documents with highlighting of text features, especially named or pattern-defined entities ...
4. Full-text similarity search. A block of text ranging from a phrase to a full document is submitted. While matching techniques rely on statistical or ...
5. Search on semantic/syntactic annotations. The user tags a search term to indicate the syntactic role the term plays or its semantic meaning -- ...
6. Concept search. I enter "Ford films" and I get also documents that contain the word "movies". Conceptual ...
7. Ontology-based search. The engine not only understands hierarchical
relationships of entities and concepts as in a taxonomy, but also more complex
inter-entity relationships.
8. Semantic Web search. The Semantic Web seeks to capture data
relationships and make the resulting "Web of data" queryable. This lofty and
worthy goal is years from practical usability.
9. Faceted search. Faceted search provides a means of exploring results
according to a set of predefined, high-level categories called facets.
10. Clustered search. Clustered search is like faceted search, but without the
predefined categories. Here, meaning is inferred from topics statistically
extracted from the content of search results.
11. Natural language search.
These 11 approaches don't each apply to every semantic search, all of the time,
but they do each win the semantic-search label at least some of the time.
eric sieverts, februari 2013
http://www.informationweek.com/software/
business-intelligence/breakthrough-
analysis-two-nine-types-of/222400100
Seth Grimes (2010):
Two + Nine Views of Semantic Search
8
semantisch zoeken
Current trend : the semantic search system should be able to understand the
query and give relevant results based on the current trend and news.
Location of search : When searching for 'what is the temperature', semantic
search should provide results based on the current location.
Intent of the search : Semantic search should give appropriate search results
based on the intent of the search and not on the specific words used.
Variations of words : Semantic search should consider tenses, plural, singular
etc and provide results for all semantic word variations.
Synonyms : Semantic search should understand synonyms and give more or
less the same results on any synonyms of the word users search for.
Generalized and Specialized queries : Semantic Search should set relation
between generalized and specialized queries and provide appropriate results.
Concept matching : Sub-set of context matching. Semantic search should
understand the broad concept of the query and return relevant results.
Natural language queries : On search for 'What time is it in Arizona‘, Semantic
Search would show you the current time in Arizona, USA.
Change of meaning based on the group of words. The last word in a query
may completely change its meaning. Semantic Search should distinguish such
differences and give relevant search results.
eric sieverts, februari 2013
http://www.techulator.com/resources/
5933-What-Semantic-Search.aspx
Tony John (2012) - Semantic Search:
Factors considered by Search Engines
9
semantisch zoeken
samenvattend: globaal 3 soorten toepassingen
1. inschatten van de intentie van de zoeker
bijv.: hij zoekt mobiel in buurt van de Rozengracht naar “pizza”
>> adres van pizzeria in de buurt
2. bepalen van betekenis van woorden/tekst in documenten
vooraf bij indexeren of achteraf in zoekresultaat;
van eenvoudige herkenning van entiteiten of meegegeven metadata,
tot complexe kennis van de wereld, zodat automatisch concepten
worden toegekend of relevante aanvullende informatie gelinkt wordt
3. automatisch aanpassen van zoekacties
bijv.: zoekactie uitbreiden met gerelateerde zoekwoorden,
zoekwoorden vervangen door betere zoekwoorden,
(ook) in andere systemen zoeken
eric sieverts, februari 2013
10
1. intentie van de zoeker
intentie of context van vraag kan worden bepaald:
• op basis van de lokatie van de zoeker
– globaal:
op basis van internetdomein waar gebruiker zit (ip-adres)
op google.nl krijg je ander antwoord dan op google.com
– heel precies:
op basis van bekende gps- of gsm-gegevens (mobiel)
• op basis van analyse van de gestelde vraag
• op basis van eerder zoekgedrag van de zoeker
ook bij dubbelzinnige zoekwoorden?
eric sieverts, februari 2013
11
intentie van de zoeker
intentie of context van vraag kan worden bepaald:
• op basis van lokatie
• op basis van vraaganalyse
– eenvoudig:
• wie naam intikt van bekend persoon, bedrijf, product, gebeurtenis,
object, zal wel algemene informatie daarover willen
• wie naam van gewoon persoon intikt zal wel facebook / linked-in enz.
gegevens willen (maar hoe weet systeem dat het een naam is?)
– ietsje geavanceerd:
• veel voorkomende combinaties met vaste woorden
– geavanceerd:
• natuurlijke taal technieken
• op basis van statistiek op grote aantallen eerder ontvangen vragen
• op basis van eerder zoekgedrag
eric sieverts, februari 2013
12
Wie op “Bach” zoekt, vindt vermoedelijk liever
gegevens over hem dan websites over hem
14
15
16
17
intentie van de zoeker
Google Knowledge Graph
• kent 500 miljoen objecten met 3,5 miljard kenmerken en
vele onderlinge relaties
(maar nog alleen in het Engels)
• toch nog verrassend hoe vaak je niet dit soort gegevens
krijgt, terwijl je dat wel zou verwachten
• wat is in dit verband een "graph"?
een netwerk van al die concepten met hun onderlinge relaties en
kenmerken
• hoe komt Google aan al die gegevens?
uit "Freebase" (crowdsourced kennisbank), Wikipedia, CIA World
factbook en uit statistische analyse van eigen gegevens
eric sieverts, februari 2013
18
19
visualisaties van graphs
20
relaties in Freebase
21
22
intentie van de zoeker
intentie of context van vraag kan worden bepaald:
• op basis van de lokatie van de zoeker
• op basis van analyse van de gestelde vraag
• op basis van eerder zoekgedrag van de zoeker
– wat voor zoekvragen stelde gebruiker eerder
– naar welke resultaten keek gebruiker dan
(bijvoorbeeld al toegepast in Google's relevantie-personalisatie;
opgeslagen "history" is ook al "big data")
eric sieverts, februari 2013
23
2. bepalen van betekenis
betekenis herkennen van woorden en gegevens in te
indexeren tekst en/of in al gevonden resultaten
• herkennen van "entiteiten" in tekst
(herkennen van woorden/samenstellingen behorend tot categorieën
als plaats, persoon, bedrijf, product, ...)
• betekenis die herkenbaar aanwezig is in "embedded metadata"
(bijvoorbeeld binnen XML of (X)HTML coderingen)
• tekstanalyse zoals bij automatische classificatie
• tekstanalyse en koppeling met geselecteerde andere bronnen
(bijvoorbeeld via "linked data")
• ...
eric sieverts, februari 2013
24
The Calais Web Service
automatically creates
rich semantic metadata
Named
Entities
Facts Events
herkennen van "entiteiten"
25
example:
article from NYTimes
analysed by
….. >>
herkennen van "entiteiten"
26
example:
article from NYTimes
analysed by
"Open Calais"
http://viewer.opencalais.com/
27
28
29
example:
article from NYTimes
analysed by "Zemanta"
http://www.zemanta.com/demo/
30
bepalen van betekenis
betekenis herkennen van woorden en gegevens in te
indexeren tekst en/of in al gevonden resultaten
• herkennen van "entiteiten" in tekst
• betekenis herkenbaar aanwezig in "embedded metadata"
(bijvoorbeeld binnen XML of (X)HTML coderingen)
• tekstanalyse zoals bij automatische classificatie
• tekstanalyse en koppeling met geselecteerde andere bronnen
• ...
eric sieverts, februari 2013
31
eric sieverts, februari 2013
herkennen van kenmerken
gestandaardiseerde markering van kenmerken in
webpagina's
voorbeelden van “embedded metadata”:
– Google recipes
– toepassing e-commerce ontology
daarbij gebruikte standaarden:
– microformats
– RDFa
– microdata
32
33
eric sieverts, februari 2013
Google "rich snippets
• standaardisatie van "kenmerken" in de beschrijving van
recepten met "microformats" / "rich snippets markup"
• andere soorten informatie waarvoor kenmerken in rich
snippet markup zijn gestandaardiseerd:
recencies, personen, producten, organisaties, gebeurtenissen
en muziek
34
standaardisatie van
kenmerken van producten
met "GR-ontologie"
volgens "RDFa“ in “XHTML”
35
36
37
nieuwe standaard van de zoekmachinegiganten: microdata
hiërarchie van kenmerken voor embeddable metadata in webpagina’s
38
de concepten uit de
good relations ontology
zijn recent ook in
schema.org geïncorporeerd
39
microformats en RDFa
• toepassing van deze technieken is vaak "SEO-driven"
zie blogpost op
SearchEngineLand
http://searchengineland.com/how
-to-use-rich-snippets-semantic-
markup-to-send-rich-signals-
139886
eric sieverts, februari 2013
40
wat heeft zoeker hieraan?
• zoeker kan gerichter zoeken en filteren
(zoals in Google's receptenzoeker)
• zoeker krijgt duidelijker informatie over
gevonden items
(zoals Google's rich snippets)
eric sieverts, februari 2013
41
bepalen van betekenis
betekenis herkennen van woorden en gegevens in te
indexeren tekst en/of in al gevonden resultaten
• herkennen van "entiteiten" in tekst
• betekenis herkenbaar aanwezig in "embedded metadata"
• tekstanalyse zoals bij automatische classificatie
(door "machine learning" getraind op taxonomie of thesaurus,
zowel inhoudelijke concepten als bijv. "sentiment" in tekst,
zodat zoekresultaat gecategoriseerd kan worden)
• tekstanalyse en koppeling met geselecteerde andere bronnen
(bijvoorbeeld via "linked data")
• ...
eric sieverts, februari 2013
42
sentiment detection
43
sentiment detection
44
voorbeeld:
PDF document
geanalyseerd met
Dewey Classifier
automatische classificatie
45
resultaat van analyse
van PDF document
46
intermezzo: rdf
RDF = resource description framework
• RDF is een standaard voor het beschrijven van de relatie
tussen een resource (of een object) en zijn metadata
• RDF verwijst naar daarbij gebruikte metadatastandaard(en)
• RDF gebruikt “namespaces” om naar computer-leesbare
beschrijving van die standaarden te verwijzen (link via URL)
• RDF is bedoeld om bestaande semantische systemen te
(her)gebruiken en te combineren
• RDF-beschrijvingen worden meestal in XML-notatie
weergegeven
• RDFa = “RDF in attributes” , standaard om metadata in de
inhoud van (X)HTML webpagina’s te verwerken
eric sieverts, februari 2013
47
rdf
RDF = resource description framework
• resources moeten een URI hebben (een uniform resource
identifier, zoals een URL) om ernaar te kunnen verwijzen
• eigenschappen (metadata) worden vastgelegd in
zogenaamde tripels: subject <predicaat> object
(wat je ook zou kunnen weergeven als :
ding <eigenschap> waarde )
• naar definities van die eigenschappen wordt meestal ook via
een URI verwezen
• RDF-tripels worden ook gebruikt in "linked data"
eric sieverts, februari 2013
48
rdf tripels (en linked data)
eric sieverts, februari 2013
beschrijving van metadata in RDF tripels:
• waarbij
– te beschrijven ding een webadres (URI) heeft
– eigenschap van dat ding liefst ook een URI heeft
– "waarde" van die eigenschap liefst ook een URI heeft
• voorbeeld:
– boek (heeft een webadres: URI)
– heeft auteur (betekenis van eigenschap ergens beschreven: URI)
– persoon (gegevens van persoon ergens op web te vinden: URI)
• als linked data worden ze opgeslagen in zogenaamde
RDF triple stores
49
rdf tripels
eric sieverts, februari 2013
subject <predicaat> object
doc1 <heeft auteur> auth1
auth1 <heeft naam> john smith
auth1 <heeft affiliatie> home inc.
auth1 <heeft email> smith@home.com
grafische representatie van
simpel netwerk van 4 RDF-tripels
50
rdf - weergave in xml
eric sieverts, februari 2013
<rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"
xmlns="http://www.john.smith.net/rdfexample/">
<rdf:Description rdf:about="http://www.xxx.com/yyy/doc1.xml">
<author>
<rdf:Description rdf:about="http://www.xxx.com/autId/7801">
<name>John Smith</name>
<affiliation>Home Inc.</affiliation>
<email>Smith@home.com</email>
</rdf:Description>
</author>
</rdf:Description>
</rdf:RDF>
namespaces
URI's van beschreven resources
51
via die webadressen (URI's) kan iedereen aan deze data linken
= "resource" met URI
= "literal" (gegeven)
getypeerde
(en op het web
gedefinieerde)
relaties tussen
resources en
gegevens
rdf tripels
52
rdf-tripels en graphs
verschillen zulke netwerkjes van RDF-tripels
van die eerdere "graphs"?
 niet wezenlijk
gegevens en relaties uit RDF tripels kun je
ook in zulke graphs weergeven
eric sieverts, februari 2013
53
in webpagina verwerkte
verwijzingen naar de
standaarden voor gebruikte
beschrijvingselementen:
• v: vcard
• mo: music ontology
• foaf: friend of a friend
• owl: web ontology language
• geo
54
55
56
intermezzo: metadata tools
• er zijn handige browsertools (voor chrome) die analyse
maken van in webpagina aanwezige metadata volgens
microformat, microdata of RDFa standaard
http://searchengineland.com/how-to-use-rich-snippets-semantic-
markup-to-send-rich-signals-139886
eric sieverts, februari 2013
57
58
59
metadata tools
60
metadata tools
61
metadata tools
62
metadata tools
63
metadata tools
64
metadata tools
65
metadata tools
66
metadata tools
67
metadata tools
68
metadata tools
69
metadata tools
70
metadata tools
71
3. aanpassen zoekacties
aanpassen / verbeteren van zoekacties
 vooraf (automatisch) bewerken van zoekvraag
• variaties op zoekwoord meenemen in query
– spelling verbeterd (statistiek?) [veilgheid >> veiligheid]
– zoeken op woordstam (enkel/meervoud, vervoegingen, ….)
[vaccination >> vaccinations, vaccine, vaccinate, vaccinated, …]
– spellingsvariaties [immunisation <> immunization]
– samenstellingen opbreken (en omgekeerd)
[catfood <> cat food ; maatregel + veiligheid <> veiligheidsmaatregelen]
• synoniemen, acroniemen aan query toevoegen
(uit woordenlijst, semantisch netwerk, ontologie)
[vaccination <> immunization ; jfk <> john f kennedy]
• verwante en specifiekere begrippen aan query toevoegen
(uit semantisch netwerk, thesaurus, ontologie)
eric sieverts, februari 2013
72
3. aanpassen zoekacties
aanpassen / verbeteren van zoekacties
 achteraf bewerken van zoekresultaat
• zoekresultaten clusteren op basis van inhoud
– meestal op basis van woordstatistiek (voorbeeld Clusty, Polymeta)
– soms op basis van automatische classificatie
• in gevonden document alinea(s) tonen die antwoord op de vraag
bevat
– KWIC display van zoekmachines is eenvoudige vorm daarvan
• uit meer zoekresultaten samenvatting genereren van belangrijkste
bevindingen / antwoorden
eric sieverts, februari 2013
73
74
75
76
77
semantisch zoeken
vraag 3:
• welke semantische zoekmachines kent u?
(en waarom zijn die semantisch?)
eric sieverts, februari 2013
78
semantische zoekmachines
vaak genoemd in overzichten van semantisch zoeken:
• Hakia enterprise search; webresultaten nogal middelmatig
• DuckDuckGo niet semantischer dan google
• Wolfram|Alpha "computational knowledge engine", feitelijke gegevens
• Sensebot vat ook inhoud van meer documenten samen
• Cognition voor specifieke databases, bijv. voor Medline
• Factbites samengevatte informatie uit geselecteerde bronnen
• Cluuz analyseert recultaten en geeft relaties
• Kngine is alleen nog een app voor smartphones
• Swoogle RDF ontology search engine
• Sindice zoekmachine voor sites met RDF metadata
• Powerset is opgekocht door (en geïntegreerd in) Bing
• Kosmix
• Evri bestaan niet meer als (web)zoekachine
• Truevert
eric sieverts, februari 2013
79
finale: semantisch web
in semantisch web
wordt van "alles"
betekenis vastgelegd
eric sieverts, februari 2013
om betekenis ook te
begrijpen heeft men
"ontologieën" nodig
80
ontologieën
eric sieverts, februari 2013
definitie:
een strikt en uitputtend schema
voor een bepaald onderwerpsdomein,
meestal in een hiërarchische structuur,
die alle relevante grootheden en hun relaties bevat,
alsmede de regels waaraan die grootheden en relaties
binnen dat domein voldoen
filosofie kunstmatige
intelligentie
computerleesbare
kennisrepresentatie
81
ontologieën
• "kennis-representatie“ waarin kennis over (klein stukje van)
de wereld in geformaliseerde vorm is weergegeven
• meestal niet rechtstreeks gebruikt voor ontsluiting
• maakt vollediger en meer complexe representaties van de
werkelijkheid mogelijk dan met een thesaurus
• veel mogelijke soorten relaties tussen concepten
• vastgelegde rollen en eigenschappen van die concepten
• vaak voor een beperkt onderwerpsdomein (“wijn ontologie”)
• soms breder in een zogenaamde “core ontology”
bijvoorbeeld: CIDOC-CRM (conceptual reference model) voor
concepten, relaties en eigenschappen op gebied van cultureel erfgoed
eric sieverts, februari 2013
82
relaties tussen enkele concepten
in een eenvoudige "wijn-ontologie"
Château Lafitte Rothschild {is een} wijnhuis
Château Lafitte Rothschild {produceert} Château Lafitte Rothschild Pauillac
Bordeaux {heeft als beste wijnhuizen} Château Lafitte Rothschild
Château Lafitte Rothschild Pauillac {wordt gemaakt door} Château Lafitte Rothschild
Château Lafitte Rothschild Pauillac {is een} Pauillac
Bordeaux {is een} wijnstreek
....
veel meer soorten relaties mogelijk dan alleen BT, NT, RT, Use, Used for
83
hiërarchische structuur van
concepten van één soort in
een eenvoudige "wijn-ontologie"
klassen-hiërarchie van
DBpedia-ontologie
84
voorbeeld van de relaties
tussen concepten m.b.t.
het standbeeld van Balzac
door Rodin [CIDOC-CRM]
85
ontologieën
“ontologieën” in kader van het semantisch web
• in meer algemene zin :
algemene naam voor allerlei soorten onderwerpsontsluiting
(thesauri, classificaties, taxonomieën, namenlijsten, .....)
en ook voor concordanties tussen dergelijke systemen
• essentiële vereisten :
ontologie moet beschikbaar zijn in een vorm waarin hij door
een computerprogramma kan worden gelezen, verwerkt
en geïnterpreteerd
→ vereist gestandaardiseerde notaties en formele talen
om ze te beschrijven
eric sieverts, februari 2013
86
ontologie-notatie
beschrijving van ontologieën voor semantisch web
RDF resource description framework
standaard om relaties tussen een object en zijn
metadata te beschrijven
OWL web ontology language
standaard voor computer-leesbaar beschrijven van
ontologieën
RDFS RDF-schema
standaard voor het beschrijven van metadata-modellen
in RDF
SKOS simple knowledge organization system
standaard voor het beschrijven van thesauri,
classificaties en hun onderlinge relaties in RDF
eric sieverts, februari 2013
87
interoperabiliteit en SKOS
om interoperabiliteit tussen systemen “automatisch” te
kunnen laten verlopen is een standaard nodig om
computerleesbaar te beschrijven:
– hoe een bepaald ontsluitingssysteem in elkaar zit
– hoe relaties tussen begrippen moeten worden geïnterpreteerd
(bijv.: of iets een BT is, een scope note of .... )
– hoe begrippen zich verhouden tot die in een ander systeem,
– ...
om dat makkelijk en gestandaardiseerd te kunnen doen is
SKOS ontwikkeld
SKOS: Simple Knowledge Organisation System
eric sieverts, februari 2013
88
interoperabiliteit
definities
• Interoperability is the ability of two or more systems or components to
exchange information and to use the information that has been
exchanged
• Semantic Interoperability is the ability of computer systems to
communicate information and have that information properly
interpreted by the receiving system in the same sense as intended by
the transmitting system.
bron: Wikipedia
• Interoperabiliteit betekent in het algemeen dat systemen (of
apparatuur) in staat zijn tot onderlinge uitwisseling of/en communicatie.
De systemen kunnen m.a.w. ‘praten met elkaar’ en zijn in zekere zin
‘compatibel’. Om interoperabiliteit te bereiken zijn standaarden,
protocollen en procedures erg belangrijk
bron: http://www.cjsm.vlaanderen.be/e-cultuur/beleidskader/bouwstenen/lexicon.html
eric sieverts, november 2012
89
grafische weergave van
SKOS-representatie van
thesaurustermen & relaties:
netwerk van RDF-tripels
Term: Economic cooperation
Used For: Economic co-operation
Broader terms: Economic policy
Narrower terms: Economic integration,
European economic cooperation,
European industrial cooperation,
Industrial cooperation
Related terms: Interdependence
Scope Note: Includes cooperative measures
in banking, trade, industry etc., between
and among countries.
SKOS
90
SKOS representatie in RDF
<rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"
xmlns:skos="http://www.w3.org/2004/02/skos/core#">
<skos:Concept>
<skos:prefLabel>Economic cooperation</skos:prefLabel>
<skos:altLabel>Economic co-operation</skos:altLabel>
<skos:scopeNote>Includes cooperative measures in banking, trade,
industry etc., between and among countries. </skos:scopeNote>
<skos:broader>
<skos:Concept>
<skos:prefLabel>Economic policy</skos:prefLabel>
</skos:Concept>
</skos:broader>
<skos:related>
<skos:Concept>
<skos:prefLabel>Interdependence</skos:prefLabel>
</skos:Concept>
</skos:related>
<skos:narrower>
<skos:Concept>
<skos:prefLabel>Economic integration</skos:prefLabel>
</skos:Concept>
</skos:narrower>
<!-- ...more narrower terms omitted ... -->
</skos:Concept>
</rdf:RDF>
computerleesbare
weergave - in xml
eric sieverts, februari 2013
91
SKOS relaties
in dit voorbeeld zagen we standaard thesaurusrelaties:
<skos:prefLabel> voorkeursterm voor concept
<skos:altLabel> synoniemen
<skos:scopeNote> omschrijving van concept
<skos:broader> algemener concept
<skos:narrower> specifieker concept
ook beschrijving in hoeverre termen uit verschillende
thesauri inhoudelijk overeenkomen (concordantie) :
<skos:mappingRelation> overeenkomst met term uit ander systeem
<skos:exactMatch> term heeft zelfde betekenis
<skos:closeMatch> term heeft bijna zelfde betekenis
<skos:broadMatch> term is ruimer
<skos:narrowMatch> term is specifieker
zo kunnen zoekacties worden uitgebreid,
ook met termen uit andere systemen
eric sieverts, februari 2013
92
semantisch web
• ultieme toepassing van interoperabiliteit
• gebruikt combinatie van
– RDF(S)
– ontologieën (ook thesauri, taxonomieën, semantisch netwerken, …)
– formele talen (zoals SKOS en OWL)
– annotatie van resources/objecten (=metadatering)
• als vanuit allerlei systemen maar naar dergelijke
computerleesbare "databases" met semantische kennis
gelinkt wordt, kan programmatuur allerlei termen met
elkaar in verband brengen ten behoeve van zoeken
(en andere functionaliteit)
• dat wordt bijvoorbeeld in Europeana toegepast
• en met "linked data" moet dat nog makkelijker worden
eric sieverts, februari 2013
93
RDF en "linked data"
er is momenteel veel publiciteit rond "linked (open) data"
• dat zijn in principe RDF-tripels
zodat die data computer-leesbaar zijn
• ze staan op internet
zodat het "open" is
• ze zijn bedoeld om te worden hergebruikt
zodat ze een belangrijk ingrediënt voor het semantisch web zijn
• ze zijn gestandaardiseerd
zodat ze makkelijk hergebruikt kunnen worden
• iedereen kan (en moet!) data bijdragen
waardoor het toch nog wel een beetje een rommeltje is
eric sieverts, februari 2013
94
Tim Berners Lee:
1989: "invented" the World Wide Web
2004: proposed the "semantic web"
2006: designed "linked data" as a step towards
realisation of the semantic web
eric sieverts, februari 2013
95
96
97
dbpedia: data
from Wikipedia
last.fm: artists
geonames:
6.2 M toponyms
BBC: wildlife
finder
project
Gutenberg
IMDB
music brainz
Reuters:
openCalais
viaf: virtual
international
authority file
LCSH
NY times
Flickr
"linked open data cloud" - 31 miljard data online – 504 miljoen links daartussen
door standaardisering van dataformats en metadata,
kunnen computers betekenis van die data "begrijpen" en die data gebruiken
rechtspraak.nl
98
fragment uit het
linked data
VIAF-record voor
Lewis Carroll
viaf.org/viaf/66462036/rdf.xml
99
fragment uit het
linked data
VIAF-record voor
Hugo Brandt Corstius
viaf.org/viaf/94439179/rdf.xml
100
sparql - endpoints
nog wat linked data jargon:
SPARQL Sparql Protocol And Rdf Query Language
wat SQL is voor relationele databases
is SPARQL voor RDF triple stores
Endpoints toegangspunten op het web waar je SPARQL
zoekactie op RDF triple stores kunt uitvoeren
(je moet daarvoor de SPARQL syntax kennen
- door een computer laten uitvoeren)
eric sieverts, februari 2013
101
kernbegrippen
kernbegrippen die we tegenkwamen
• semantiek (= betekenis, begrijpen)
• interoperabiliteit (= kunnen samenwerken)
• metadata (= beschrijven & karakteriseren)
• ontologieën (= kennis organisatie systemen)
• semantisch web (= informatie op web begrijpen)
• linked data (= gegevens op web begrijpen,
linken en hergebruiken)
op allerlei manieren horen daar standaarden bij
meer "didactische" informatie o.a. op: semantic university
http://www.cambridgesemantics.com/semantic-university
eric sieverts, november 2012
102
what all that alphabet soup means
• CC Creative Commons
• CIDOC-CRM CIDOC Conceptual Reference Model
• DC Dublin Core
• FOAF Friend-of-a friend
• GR Good Relations Ontology
• HTML HyperText Markup Language
• LOD Linked Open Data
• MO Music Ontology
• OG Open Graph protocol
• OWL Web Ontology Language
• RDF Resource Description Framework
• RDFa RDF in Attributes
• SKOS Simple Knowledge Organisation System
• SPARQL Sparql Protocol And Rdf Query Language
• URI Uniform Resource Identifier
• URL Uniform Resource Locator
• VIAF Virtual International Authority File (authors)
• XHTML eXtensible HyperText Markup Language
• XML eXtensible Markup Language
the end
eric sieverts, februari 2013
104

More Related Content

Similar to semantischzoeken-2013.ppt

Wij zullen vinden - ook in 2023
Wij zullen vinden - ook in 2023Wij zullen vinden - ook in 2023
Wij zullen vinden - ook in 2023Eric Sieverts
 
What the f@#% is the Semantic Web?
What the f@#% is the Semantic Web?What the f@#% is the Semantic Web?
What the f@#% is the Semantic Web?Martin Hietkamp
 
Vinden dankzij / ondanks metadata
Vinden dankzij / ondanks metadataVinden dankzij / ondanks metadata
Vinden dankzij / ondanks metadataEric Sieverts
 
Iad2 1011q3 V04 Les1
Iad2 1011q3 V04 Les1Iad2 1011q3 V04 Les1
Iad2 1011q3 V04 Les1rolfHRO
 
Zoeken in SharePoint by Arno Flapper Imtech ICT
Zoeken in SharePoint by Arno Flapper Imtech ICTZoeken in SharePoint by Arno Flapper Imtech ICT
Zoeken in SharePoint by Arno Flapper Imtech ICTDynamic People B.V.
 
40 jaar informatiegebruik
40 jaar informatiegebruik40 jaar informatiegebruik
40 jaar informatiegebruikEric Sieverts
 
De kracht van Structured Data
De kracht van Structured DataDe kracht van Structured Data
De kracht van Structured DataOrangeValley
 
UBU 3.0: semantisch web & linked data voor de UB?
UBU 3.0: semantisch web & linked data voor de UB?UBU 3.0: semantisch web & linked data voor de UB?
UBU 3.0: semantisch web & linked data voor de UB?Eric Sieverts
 
Ruben Verborgh - Creëren, aanbieden en gebruiken van Connected Data (CC BY-SA...
Ruben Verborgh - Creëren, aanbieden en gebruiken van Connected Data (CC BY-SA...Ruben Verborgh - Creëren, aanbieden en gebruiken van Connected Data (CC BY-SA...
Ruben Verborgh - Creëren, aanbieden en gebruiken van Connected Data (CC BY-SA...CLICKNL
 
Gaat Artificial Intelligence helpen het zoeken verder te automatiseren?
Gaat Artificial Intelligence helpen het zoeken verder te automatiseren?Gaat Artificial Intelligence helpen het zoeken verder te automatiseren?
Gaat Artificial Intelligence helpen het zoeken verder te automatiseren?voginip
 
Semantic web in Health Care
Semantic web in Health CareSemantic web in Health Care
Semantic web in Health Carescholten
 
Metadata & Google: a love story
Metadata & Google: a love storyMetadata & Google: a love story
Metadata & Google: a love storyArne van Elk
 
Grote hoeveelheden tekst analyseren als data
Grote hoeveelheden tekst analyseren als dataGrote hoeveelheden tekst analyseren als data
Grote hoeveelheden tekst analyseren als datavoginip
 
Webwijsheid juni 2014 Workshop Onderwijsdag vmbo & mbo techniek
Webwijsheid juni 2014 Workshop Onderwijsdag vmbo & mbo techniekWebwijsheid juni 2014 Workshop Onderwijsdag vmbo & mbo techniek
Webwijsheid juni 2014 Workshop Onderwijsdag vmbo & mbo techniekMarielle van Rijn
 
Webwijsheid juni 2014 Workshop landelijke onderwijsdag vmbo & mbo Techniek
Webwijsheid juni 2014 Workshop landelijke onderwijsdag vmbo & mbo TechniekWebwijsheid juni 2014 Workshop landelijke onderwijsdag vmbo & mbo Techniek
Webwijsheid juni 2014 Workshop landelijke onderwijsdag vmbo & mbo TechniekMediaprofiel ❖
 
Knowledge Graphs: Concept, mogelijkheden en aandachtspunten
Knowledge Graphs: Concept, mogelijkheden en aandachtspuntenKnowledge Graphs: Concept, mogelijkheden en aandachtspunten
Knowledge Graphs: Concept, mogelijkheden en aandachtspuntenChristophe Debruyne
 

Similar to semantischzoeken-2013.ppt (20)

Wij zullen vinden - ook in 2023
Wij zullen vinden - ook in 2023Wij zullen vinden - ook in 2023
Wij zullen vinden - ook in 2023
 
What the f@#% is the Semantic Web?
What the f@#% is the Semantic Web?What the f@#% is the Semantic Web?
What the f@#% is the Semantic Web?
 
Vinden dankzij / ondanks metadata
Vinden dankzij / ondanks metadataVinden dankzij / ondanks metadata
Vinden dankzij / ondanks metadata
 
Webwijsheid def.workshop
Webwijsheid def.workshopWebwijsheid def.workshop
Webwijsheid def.workshop
 
Iad2 1011q3 V04 Les1
Iad2 1011q3 V04 Les1Iad2 1011q3 V04 Les1
Iad2 1011q3 V04 Les1
 
Zoeken in SharePoint by Arno Flapper Imtech ICT
Zoeken in SharePoint by Arno Flapper Imtech ICTZoeken in SharePoint by Arno Flapper Imtech ICT
Zoeken in SharePoint by Arno Flapper Imtech ICT
 
IOD
IODIOD
IOD
 
Van Zoeken Naar Vinden
Van Zoeken Naar VindenVan Zoeken Naar Vinden
Van Zoeken Naar Vinden
 
40 jaar informatiegebruik
40 jaar informatiegebruik40 jaar informatiegebruik
40 jaar informatiegebruik
 
De kracht van Structured Data
De kracht van Structured DataDe kracht van Structured Data
De kracht van Structured Data
 
UBU 3.0: semantisch web & linked data voor de UB?
UBU 3.0: semantisch web & linked data voor de UB?UBU 3.0: semantisch web & linked data voor de UB?
UBU 3.0: semantisch web & linked data voor de UB?
 
Ruben Verborgh - Creëren, aanbieden en gebruiken van Connected Data (CC BY-SA...
Ruben Verborgh - Creëren, aanbieden en gebruiken van Connected Data (CC BY-SA...Ruben Verborgh - Creëren, aanbieden en gebruiken van Connected Data (CC BY-SA...
Ruben Verborgh - Creëren, aanbieden en gebruiken van Connected Data (CC BY-SA...
 
Gaat Artificial Intelligence helpen het zoeken verder te automatiseren?
Gaat Artificial Intelligence helpen het zoeken verder te automatiseren?Gaat Artificial Intelligence helpen het zoeken verder te automatiseren?
Gaat Artificial Intelligence helpen het zoeken verder te automatiseren?
 
Semantic web in Health Care
Semantic web in Health CareSemantic web in Health Care
Semantic web in Health Care
 
Eday Web3
Eday Web3Eday Web3
Eday Web3
 
Metadata & Google: a love story
Metadata & Google: a love storyMetadata & Google: a love story
Metadata & Google: a love story
 
Grote hoeveelheden tekst analyseren als data
Grote hoeveelheden tekst analyseren als dataGrote hoeveelheden tekst analyseren als data
Grote hoeveelheden tekst analyseren als data
 
Webwijsheid juni 2014 Workshop Onderwijsdag vmbo & mbo techniek
Webwijsheid juni 2014 Workshop Onderwijsdag vmbo & mbo techniekWebwijsheid juni 2014 Workshop Onderwijsdag vmbo & mbo techniek
Webwijsheid juni 2014 Workshop Onderwijsdag vmbo & mbo techniek
 
Webwijsheid juni 2014 Workshop landelijke onderwijsdag vmbo & mbo Techniek
Webwijsheid juni 2014 Workshop landelijke onderwijsdag vmbo & mbo TechniekWebwijsheid juni 2014 Workshop landelijke onderwijsdag vmbo & mbo Techniek
Webwijsheid juni 2014 Workshop landelijke onderwijsdag vmbo & mbo Techniek
 
Knowledge Graphs: Concept, mogelijkheden en aandachtspunten
Knowledge Graphs: Concept, mogelijkheden en aandachtspuntenKnowledge Graphs: Concept, mogelijkheden en aandachtspunten
Knowledge Graphs: Concept, mogelijkheden en aandachtspunten
 

More from voginip

Zo wordt je factchecker - Aafko Boonstra
Zo wordt je factchecker - Aafko BoonstraZo wordt je factchecker - Aafko Boonstra
Zo wordt je factchecker - Aafko Boonstravoginip
 
Automatisch metadateren - de kansen en de uitdagingen
Automatisch metadateren - de kansen en de uitdagingenAutomatisch metadateren - de kansen en de uitdagingen
Automatisch metadateren - de kansen en de uitdagingenvoginip
 
Hybride Intelligentie: de rol van Large Language Models in informatieverwerking
Hybride Intelligentie: de rol van Large Language Models in informatieverwerkingHybride Intelligentie: de rol van Large Language Models in informatieverwerking
Hybride Intelligentie: de rol van Large Language Models in informatieverwerkingvoginip
 
Solving World War II Photo Mysteries with Open Source Techniques
Solving World War II Photo Mysteries with Open Source TechniquesSolving World War II Photo Mysteries with Open Source Techniques
Solving World War II Photo Mysteries with Open Source Techniquesvoginip
 
PiCo: Historische personen beter vindbaar maken
PiCo: Historische personen beter vindbaar makenPiCo: Historische personen beter vindbaar maken
PiCo: Historische personen beter vindbaar makenvoginip
 
Red het internet! Op weg naar de online publieke ruimte
Red het internet! Op weg naar de online publieke ruimteRed het internet! Op weg naar de online publieke ruimte
Red het internet! Op weg naar de online publieke ruimtevoginip
 
AI en IP (Artificieele Intelligentie en Intellectueel Eigendom)
AI en IP (Artificieele Intelligentie en Intellectueel Eigendom)AI en IP (Artificieele Intelligentie en Intellectueel Eigendom)
AI en IP (Artificieele Intelligentie en Intellectueel Eigendom)voginip
 
ASML's Taxonomy Adventure by Daniel Canter
ASML's Taxonomy Adventure by Daniel CanterASML's Taxonomy Adventure by Daniel Canter
ASML's Taxonomy Adventure by Daniel Cantervoginip
 
The Dark Side of Science: Misconduct in Biomedical Research
The Dark Side of Science: Misconduct in Biomedical ResearchThe Dark Side of Science: Misconduct in Biomedical Research
The Dark Side of Science: Misconduct in Biomedical Researchvoginip
 
Oude boeken, nieuwe vaardigheden en Wikipedia
Oude boeken, nieuwe vaardigheden en WikipediaOude boeken, nieuwe vaardigheden en Wikipedia
Oude boeken, nieuwe vaardigheden en Wikipediavoginip
 
De kracht van samenwerking: hoe de Universiteitsbibliotheek Gent open kennisc...
De kracht van samenwerking: hoe de Universiteitsbibliotheek Gent open kennisc...De kracht van samenwerking: hoe de Universiteitsbibliotheek Gent open kennisc...
De kracht van samenwerking: hoe de Universiteitsbibliotheek Gent open kennisc...voginip
 
Open yet everywhere in chains: Where next for open knowledge?
Open yet everywhere in chains: Where next for open knowledge?Open yet everywhere in chains: Where next for open knowledge?
Open yet everywhere in chains: Where next for open knowledge?voginip
 
The three layers of a knowledge graph and what it means for authoring, storag...
The three layers of a knowledge graph and what it means for authoring, storag...The three layers of a knowledge graph and what it means for authoring, storag...
The three layers of a knowledge graph and what it means for authoring, storag...voginip
 
Vijf vindbaarheidsproblemen waar een taxonomie de schuld van krijgt (maar nik...
Vijf vindbaarheidsproblemen waar een taxonomie de schuld van krijgt (maar nik...Vijf vindbaarheidsproblemen waar een taxonomie de schuld van krijgt (maar nik...
Vijf vindbaarheidsproblemen waar een taxonomie de schuld van krijgt (maar nik...voginip
 
Why one-size-fits all does not work in Explainable Artificial Intelligence!
Why one-size-fits all does not work in Explainable Artificial Intelligence!Why one-size-fits all does not work in Explainable Artificial Intelligence!
Why one-size-fits all does not work in Explainable Artificial Intelligence!voginip
 
Systematisch zoeken op het web
Systematisch zoeken op het webSystematisch zoeken op het web
Systematisch zoeken op het webvoginip
 
Werken met Wikidata
Werken met WikidataWerken met Wikidata
Werken met Wikidatavoginip
 
Een gereedschapskist voor digitale vaardigheden
Een gereedschapskist voor digitale vaardighedenEen gereedschapskist voor digitale vaardigheden
Een gereedschapskist voor digitale vaardighedenvoginip
 
Een startende éénpitter in informatieland: wat goed ging en wat niet
Een startende éénpitter in informatieland: wat goed ging en wat nietEen startende éénpitter in informatieland: wat goed ging en wat niet
Een startende éénpitter in informatieland: wat goed ging en wat nietvoginip
 
Van de droom van het Semantic Web naar de realiteit van Linked Open
Van de droom van het Semantic Web naar de realiteit van Linked Open Van de droom van het Semantic Web naar de realiteit van Linked Open
Van de droom van het Semantic Web naar de realiteit van Linked Open voginip
 

More from voginip (20)

Zo wordt je factchecker - Aafko Boonstra
Zo wordt je factchecker - Aafko BoonstraZo wordt je factchecker - Aafko Boonstra
Zo wordt je factchecker - Aafko Boonstra
 
Automatisch metadateren - de kansen en de uitdagingen
Automatisch metadateren - de kansen en de uitdagingenAutomatisch metadateren - de kansen en de uitdagingen
Automatisch metadateren - de kansen en de uitdagingen
 
Hybride Intelligentie: de rol van Large Language Models in informatieverwerking
Hybride Intelligentie: de rol van Large Language Models in informatieverwerkingHybride Intelligentie: de rol van Large Language Models in informatieverwerking
Hybride Intelligentie: de rol van Large Language Models in informatieverwerking
 
Solving World War II Photo Mysteries with Open Source Techniques
Solving World War II Photo Mysteries with Open Source TechniquesSolving World War II Photo Mysteries with Open Source Techniques
Solving World War II Photo Mysteries with Open Source Techniques
 
PiCo: Historische personen beter vindbaar maken
PiCo: Historische personen beter vindbaar makenPiCo: Historische personen beter vindbaar maken
PiCo: Historische personen beter vindbaar maken
 
Red het internet! Op weg naar de online publieke ruimte
Red het internet! Op weg naar de online publieke ruimteRed het internet! Op weg naar de online publieke ruimte
Red het internet! Op weg naar de online publieke ruimte
 
AI en IP (Artificieele Intelligentie en Intellectueel Eigendom)
AI en IP (Artificieele Intelligentie en Intellectueel Eigendom)AI en IP (Artificieele Intelligentie en Intellectueel Eigendom)
AI en IP (Artificieele Intelligentie en Intellectueel Eigendom)
 
ASML's Taxonomy Adventure by Daniel Canter
ASML's Taxonomy Adventure by Daniel CanterASML's Taxonomy Adventure by Daniel Canter
ASML's Taxonomy Adventure by Daniel Canter
 
The Dark Side of Science: Misconduct in Biomedical Research
The Dark Side of Science: Misconduct in Biomedical ResearchThe Dark Side of Science: Misconduct in Biomedical Research
The Dark Side of Science: Misconduct in Biomedical Research
 
Oude boeken, nieuwe vaardigheden en Wikipedia
Oude boeken, nieuwe vaardigheden en WikipediaOude boeken, nieuwe vaardigheden en Wikipedia
Oude boeken, nieuwe vaardigheden en Wikipedia
 
De kracht van samenwerking: hoe de Universiteitsbibliotheek Gent open kennisc...
De kracht van samenwerking: hoe de Universiteitsbibliotheek Gent open kennisc...De kracht van samenwerking: hoe de Universiteitsbibliotheek Gent open kennisc...
De kracht van samenwerking: hoe de Universiteitsbibliotheek Gent open kennisc...
 
Open yet everywhere in chains: Where next for open knowledge?
Open yet everywhere in chains: Where next for open knowledge?Open yet everywhere in chains: Where next for open knowledge?
Open yet everywhere in chains: Where next for open knowledge?
 
The three layers of a knowledge graph and what it means for authoring, storag...
The three layers of a knowledge graph and what it means for authoring, storag...The three layers of a knowledge graph and what it means for authoring, storag...
The three layers of a knowledge graph and what it means for authoring, storag...
 
Vijf vindbaarheidsproblemen waar een taxonomie de schuld van krijgt (maar nik...
Vijf vindbaarheidsproblemen waar een taxonomie de schuld van krijgt (maar nik...Vijf vindbaarheidsproblemen waar een taxonomie de schuld van krijgt (maar nik...
Vijf vindbaarheidsproblemen waar een taxonomie de schuld van krijgt (maar nik...
 
Why one-size-fits all does not work in Explainable Artificial Intelligence!
Why one-size-fits all does not work in Explainable Artificial Intelligence!Why one-size-fits all does not work in Explainable Artificial Intelligence!
Why one-size-fits all does not work in Explainable Artificial Intelligence!
 
Systematisch zoeken op het web
Systematisch zoeken op het webSystematisch zoeken op het web
Systematisch zoeken op het web
 
Werken met Wikidata
Werken met WikidataWerken met Wikidata
Werken met Wikidata
 
Een gereedschapskist voor digitale vaardigheden
Een gereedschapskist voor digitale vaardighedenEen gereedschapskist voor digitale vaardigheden
Een gereedschapskist voor digitale vaardigheden
 
Een startende éénpitter in informatieland: wat goed ging en wat niet
Een startende éénpitter in informatieland: wat goed ging en wat nietEen startende éénpitter in informatieland: wat goed ging en wat niet
Een startende éénpitter in informatieland: wat goed ging en wat niet
 
Van de droom van het Semantic Web naar de realiteit van Linked Open
Van de droom van het Semantic Web naar de realiteit van Linked Open Van de droom van het Semantic Web naar de realiteit van Linked Open
Van de droom van het Semantic Web naar de realiteit van Linked Open
 

semantischzoeken-2013.ppt

  • 1. Eric Sieverts semantisch zoeken iets over metadata, semantisch web, ontologieën, interoperabiliteit, linked data VOGIN-IP-lezing 2013
  • 2. 2019 ? 2025 ? Holy Grail Modelling the human brain, and figuring out how it works, has long been one of the Holy Grails of supercomputing, prompting fears of a "technological singularity," where successively advanced artificial intelligences design ever more refined versions of themselves, leading to a future where humans become increasingly irrelevant. ... … Thinking the way that humans think would allow Google or Microsoft to anticipate even more what their users want, and to provide them with that data. Both companies can do that to some extent through data accumulated from millions of users; if the most common "t" word I search for is Twitter.com, Google can start pre-loading the page in the background. But thinking like a human thinks, and making the seemingly random associations that humans make thousands of times faster than we make, could mean everything from artificially-crafted memes to pre-processed sound bites for politicians. ... de ultieme semantische zoekmachine? 2
  • 3. 3
  • 4. semantisch zoeken vraag 1: • wanneer is een zoeksysteem een semantisch zoeksysteem? .... als het erop staat? eric sieverts, februari 2013 4
  • 5. semantisch zoeken vraag 2: • welke functionaliteit van een zoeksysteem zou u semantisch noemen? eric sieverts, februari 2013 5
  • 6. semantisch zoeken 10 Things that Make Search a Semantic Search [volgens Hakia dat zelf beweert semantische zoekmachine te zijn] 1. Handling morphological variations 2. Handling synonyms with correct senses 3. Handling generalizations 4. Handling concept matching 5. Handling knowledge matching 6. Handling natural language queries and questions 7. Ability to point to uninterrupted paragraph and the most relevant sentence 8. Ability to Customize and Organic Progress 9. Ability to operate without relying on statistics, user behavior, and other artificial means 10. Ability to detect its own performance eric sieverts, februari 2013 http://company.hakia.com/whatis.html 6
  • 7. semantisch zoeken 1. Related searches/queries. The engine proposes searches that are in some way similar to the entered search 2. Reference results. The search engine is responding with materials that define the search terms. Presumption is that the user is probably searching for practical information rather than document hit lists. 3. Semantically annotated results. You're returned pages or documents with highlighting of text features, especially named or pattern-defined entities, that are semantically related to the search terms. 4. Full-text similarity search. A block of text ranging from a phrase to a full document is submitted. While matching techniques rely on statistical or vector-space similarity rather than meaning, results do fit the semantic label 5. Search on semantic/syntactic annotations. The user tags a search term to indicate the syntactic role the term plays or its semantic meaning -- whether it's a company name, location, or event. 6. Concept search. I enter "Ford films" and I get also documents that contain the word "movies". Conceptual relationships could be specified by a taxonomy or inferred by statistical co-occurrence. 7. Ontology-based search . . . . . . . eric sieverts, februari 2013 http://www.informationweek.com/software/ business-intelligence/breakthrough- analysis-two-nine-types-of/222400100 Seth Grimes (2010): Two + Nine Views of Semantic Search 7
  • 8. semantisch zoeken 1. Related searches/queries. The engine proposes searches that are in some way similar to the entered search 2. Reference results. The search engine is responding with materials that define the search terms. Presumption is that the user is probably searching ... 3. Semantically annotated results. You're returned pages or documents with highlighting of text features, especially named or pattern-defined entities ... 4. Full-text similarity search. A block of text ranging from a phrase to a full document is submitted. While matching techniques rely on statistical or ... 5. Search on semantic/syntactic annotations. The user tags a search term to indicate the syntactic role the term plays or its semantic meaning -- ... 6. Concept search. I enter "Ford films" and I get also documents that contain the word "movies". Conceptual ... 7. Ontology-based search. The engine not only understands hierarchical relationships of entities and concepts as in a taxonomy, but also more complex inter-entity relationships. 8. Semantic Web search. The Semantic Web seeks to capture data relationships and make the resulting "Web of data" queryable. This lofty and worthy goal is years from practical usability. 9. Faceted search. Faceted search provides a means of exploring results according to a set of predefined, high-level categories called facets. 10. Clustered search. Clustered search is like faceted search, but without the predefined categories. Here, meaning is inferred from topics statistically extracted from the content of search results. 11. Natural language search. These 11 approaches don't each apply to every semantic search, all of the time, but they do each win the semantic-search label at least some of the time. eric sieverts, februari 2013 http://www.informationweek.com/software/ business-intelligence/breakthrough- analysis-two-nine-types-of/222400100 Seth Grimes (2010): Two + Nine Views of Semantic Search 8
  • 9. semantisch zoeken Current trend : the semantic search system should be able to understand the query and give relevant results based on the current trend and news. Location of search : When searching for 'what is the temperature', semantic search should provide results based on the current location. Intent of the search : Semantic search should give appropriate search results based on the intent of the search and not on the specific words used. Variations of words : Semantic search should consider tenses, plural, singular etc and provide results for all semantic word variations. Synonyms : Semantic search should understand synonyms and give more or less the same results on any synonyms of the word users search for. Generalized and Specialized queries : Semantic Search should set relation between generalized and specialized queries and provide appropriate results. Concept matching : Sub-set of context matching. Semantic search should understand the broad concept of the query and return relevant results. Natural language queries : On search for 'What time is it in Arizona‘, Semantic Search would show you the current time in Arizona, USA. Change of meaning based on the group of words. The last word in a query may completely change its meaning. Semantic Search should distinguish such differences and give relevant search results. eric sieverts, februari 2013 http://www.techulator.com/resources/ 5933-What-Semantic-Search.aspx Tony John (2012) - Semantic Search: Factors considered by Search Engines 9
  • 10. semantisch zoeken samenvattend: globaal 3 soorten toepassingen 1. inschatten van de intentie van de zoeker bijv.: hij zoekt mobiel in buurt van de Rozengracht naar “pizza” >> adres van pizzeria in de buurt 2. bepalen van betekenis van woorden/tekst in documenten vooraf bij indexeren of achteraf in zoekresultaat; van eenvoudige herkenning van entiteiten of meegegeven metadata, tot complexe kennis van de wereld, zodat automatisch concepten worden toegekend of relevante aanvullende informatie gelinkt wordt 3. automatisch aanpassen van zoekacties bijv.: zoekactie uitbreiden met gerelateerde zoekwoorden, zoekwoorden vervangen door betere zoekwoorden, (ook) in andere systemen zoeken eric sieverts, februari 2013 10
  • 11. 1. intentie van de zoeker intentie of context van vraag kan worden bepaald: • op basis van de lokatie van de zoeker – globaal: op basis van internetdomein waar gebruiker zit (ip-adres) op google.nl krijg je ander antwoord dan op google.com – heel precies: op basis van bekende gps- of gsm-gegevens (mobiel) • op basis van analyse van de gestelde vraag • op basis van eerder zoekgedrag van de zoeker ook bij dubbelzinnige zoekwoorden? eric sieverts, februari 2013 11
  • 12. intentie van de zoeker intentie of context van vraag kan worden bepaald: • op basis van lokatie • op basis van vraaganalyse – eenvoudig: • wie naam intikt van bekend persoon, bedrijf, product, gebeurtenis, object, zal wel algemene informatie daarover willen • wie naam van gewoon persoon intikt zal wel facebook / linked-in enz. gegevens willen (maar hoe weet systeem dat het een naam is?) – ietsje geavanceerd: • veel voorkomende combinaties met vaste woorden – geavanceerd: • natuurlijke taal technieken • op basis van statistiek op grote aantallen eerder ontvangen vragen • op basis van eerder zoekgedrag eric sieverts, februari 2013 12
  • 13.
  • 14. Wie op “Bach” zoekt, vindt vermoedelijk liever gegevens over hem dan websites over hem 14
  • 15. 15
  • 16. 16
  • 17. 17
  • 18. intentie van de zoeker Google Knowledge Graph • kent 500 miljoen objecten met 3,5 miljard kenmerken en vele onderlinge relaties (maar nog alleen in het Engels) • toch nog verrassend hoe vaak je niet dit soort gegevens krijgt, terwijl je dat wel zou verwachten • wat is in dit verband een "graph"? een netwerk van al die concepten met hun onderlinge relaties en kenmerken • hoe komt Google aan al die gegevens? uit "Freebase" (crowdsourced kennisbank), Wikipedia, CIA World factbook en uit statistische analyse van eigen gegevens eric sieverts, februari 2013 18
  • 19. 19
  • 22. 22
  • 23. intentie van de zoeker intentie of context van vraag kan worden bepaald: • op basis van de lokatie van de zoeker • op basis van analyse van de gestelde vraag • op basis van eerder zoekgedrag van de zoeker – wat voor zoekvragen stelde gebruiker eerder – naar welke resultaten keek gebruiker dan (bijvoorbeeld al toegepast in Google's relevantie-personalisatie; opgeslagen "history" is ook al "big data") eric sieverts, februari 2013 23
  • 24. 2. bepalen van betekenis betekenis herkennen van woorden en gegevens in te indexeren tekst en/of in al gevonden resultaten • herkennen van "entiteiten" in tekst (herkennen van woorden/samenstellingen behorend tot categorieën als plaats, persoon, bedrijf, product, ...) • betekenis die herkenbaar aanwezig is in "embedded metadata" (bijvoorbeeld binnen XML of (X)HTML coderingen) • tekstanalyse zoals bij automatische classificatie • tekstanalyse en koppeling met geselecteerde andere bronnen (bijvoorbeeld via "linked data") • ... eric sieverts, februari 2013 24
  • 25. The Calais Web Service automatically creates rich semantic metadata Named Entities Facts Events herkennen van "entiteiten" 25
  • 26. example: article from NYTimes analysed by ….. >> herkennen van "entiteiten" 26
  • 27. example: article from NYTimes analysed by "Open Calais" http://viewer.opencalais.com/ 27
  • 28. 28
  • 29. 29
  • 30. example: article from NYTimes analysed by "Zemanta" http://www.zemanta.com/demo/ 30
  • 31. bepalen van betekenis betekenis herkennen van woorden en gegevens in te indexeren tekst en/of in al gevonden resultaten • herkennen van "entiteiten" in tekst • betekenis herkenbaar aanwezig in "embedded metadata" (bijvoorbeeld binnen XML of (X)HTML coderingen) • tekstanalyse zoals bij automatische classificatie • tekstanalyse en koppeling met geselecteerde andere bronnen • ... eric sieverts, februari 2013 31
  • 32. eric sieverts, februari 2013 herkennen van kenmerken gestandaardiseerde markering van kenmerken in webpagina's voorbeelden van “embedded metadata”: – Google recipes – toepassing e-commerce ontology daarbij gebruikte standaarden: – microformats – RDFa – microdata 32
  • 33. 33
  • 34. eric sieverts, februari 2013 Google "rich snippets • standaardisatie van "kenmerken" in de beschrijving van recepten met "microformats" / "rich snippets markup" • andere soorten informatie waarvoor kenmerken in rich snippet markup zijn gestandaardiseerd: recencies, personen, producten, organisaties, gebeurtenissen en muziek 34
  • 35. standaardisatie van kenmerken van producten met "GR-ontologie" volgens "RDFa“ in “XHTML” 35
  • 36. 36
  • 37. 37
  • 38. nieuwe standaard van de zoekmachinegiganten: microdata hiërarchie van kenmerken voor embeddable metadata in webpagina’s 38
  • 39. de concepten uit de good relations ontology zijn recent ook in schema.org geïncorporeerd 39
  • 40. microformats en RDFa • toepassing van deze technieken is vaak "SEO-driven" zie blogpost op SearchEngineLand http://searchengineland.com/how -to-use-rich-snippets-semantic- markup-to-send-rich-signals- 139886 eric sieverts, februari 2013 40
  • 41. wat heeft zoeker hieraan? • zoeker kan gerichter zoeken en filteren (zoals in Google's receptenzoeker) • zoeker krijgt duidelijker informatie over gevonden items (zoals Google's rich snippets) eric sieverts, februari 2013 41
  • 42. bepalen van betekenis betekenis herkennen van woorden en gegevens in te indexeren tekst en/of in al gevonden resultaten • herkennen van "entiteiten" in tekst • betekenis herkenbaar aanwezig in "embedded metadata" • tekstanalyse zoals bij automatische classificatie (door "machine learning" getraind op taxonomie of thesaurus, zowel inhoudelijke concepten als bijv. "sentiment" in tekst, zodat zoekresultaat gecategoriseerd kan worden) • tekstanalyse en koppeling met geselecteerde andere bronnen (bijvoorbeeld via "linked data") • ... eric sieverts, februari 2013 42
  • 45. voorbeeld: PDF document geanalyseerd met Dewey Classifier automatische classificatie 45
  • 46. resultaat van analyse van PDF document 46
  • 47. intermezzo: rdf RDF = resource description framework • RDF is een standaard voor het beschrijven van de relatie tussen een resource (of een object) en zijn metadata • RDF verwijst naar daarbij gebruikte metadatastandaard(en) • RDF gebruikt “namespaces” om naar computer-leesbare beschrijving van die standaarden te verwijzen (link via URL) • RDF is bedoeld om bestaande semantische systemen te (her)gebruiken en te combineren • RDF-beschrijvingen worden meestal in XML-notatie weergegeven • RDFa = “RDF in attributes” , standaard om metadata in de inhoud van (X)HTML webpagina’s te verwerken eric sieverts, februari 2013 47
  • 48. rdf RDF = resource description framework • resources moeten een URI hebben (een uniform resource identifier, zoals een URL) om ernaar te kunnen verwijzen • eigenschappen (metadata) worden vastgelegd in zogenaamde tripels: subject <predicaat> object (wat je ook zou kunnen weergeven als : ding <eigenschap> waarde ) • naar definities van die eigenschappen wordt meestal ook via een URI verwezen • RDF-tripels worden ook gebruikt in "linked data" eric sieverts, februari 2013 48
  • 49. rdf tripels (en linked data) eric sieverts, februari 2013 beschrijving van metadata in RDF tripels: • waarbij – te beschrijven ding een webadres (URI) heeft – eigenschap van dat ding liefst ook een URI heeft – "waarde" van die eigenschap liefst ook een URI heeft • voorbeeld: – boek (heeft een webadres: URI) – heeft auteur (betekenis van eigenschap ergens beschreven: URI) – persoon (gegevens van persoon ergens op web te vinden: URI) • als linked data worden ze opgeslagen in zogenaamde RDF triple stores 49
  • 50. rdf tripels eric sieverts, februari 2013 subject <predicaat> object doc1 <heeft auteur> auth1 auth1 <heeft naam> john smith auth1 <heeft affiliatie> home inc. auth1 <heeft email> smith@home.com grafische representatie van simpel netwerk van 4 RDF-tripels 50
  • 51. rdf - weergave in xml eric sieverts, februari 2013 <rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" xmlns="http://www.john.smith.net/rdfexample/"> <rdf:Description rdf:about="http://www.xxx.com/yyy/doc1.xml"> <author> <rdf:Description rdf:about="http://www.xxx.com/autId/7801"> <name>John Smith</name> <affiliation>Home Inc.</affiliation> <email>Smith@home.com</email> </rdf:Description> </author> </rdf:Description> </rdf:RDF> namespaces URI's van beschreven resources 51
  • 52. via die webadressen (URI's) kan iedereen aan deze data linken = "resource" met URI = "literal" (gegeven) getypeerde (en op het web gedefinieerde) relaties tussen resources en gegevens rdf tripels 52
  • 53. rdf-tripels en graphs verschillen zulke netwerkjes van RDF-tripels van die eerdere "graphs"?  niet wezenlijk gegevens en relaties uit RDF tripels kun je ook in zulke graphs weergeven eric sieverts, februari 2013 53
  • 54. in webpagina verwerkte verwijzingen naar de standaarden voor gebruikte beschrijvingselementen: • v: vcard • mo: music ontology • foaf: friend of a friend • owl: web ontology language • geo 54
  • 55. 55
  • 56. 56
  • 57. intermezzo: metadata tools • er zijn handige browsertools (voor chrome) die analyse maken van in webpagina aanwezige metadata volgens microformat, microdata of RDFa standaard http://searchengineland.com/how-to-use-rich-snippets-semantic- markup-to-send-rich-signals-139886 eric sieverts, februari 2013 57
  • 58. 58
  • 59. 59
  • 72. 3. aanpassen zoekacties aanpassen / verbeteren van zoekacties  vooraf (automatisch) bewerken van zoekvraag • variaties op zoekwoord meenemen in query – spelling verbeterd (statistiek?) [veilgheid >> veiligheid] – zoeken op woordstam (enkel/meervoud, vervoegingen, ….) [vaccination >> vaccinations, vaccine, vaccinate, vaccinated, …] – spellingsvariaties [immunisation <> immunization] – samenstellingen opbreken (en omgekeerd) [catfood <> cat food ; maatregel + veiligheid <> veiligheidsmaatregelen] • synoniemen, acroniemen aan query toevoegen (uit woordenlijst, semantisch netwerk, ontologie) [vaccination <> immunization ; jfk <> john f kennedy] • verwante en specifiekere begrippen aan query toevoegen (uit semantisch netwerk, thesaurus, ontologie) eric sieverts, februari 2013 72
  • 73. 3. aanpassen zoekacties aanpassen / verbeteren van zoekacties  achteraf bewerken van zoekresultaat • zoekresultaten clusteren op basis van inhoud – meestal op basis van woordstatistiek (voorbeeld Clusty, Polymeta) – soms op basis van automatische classificatie • in gevonden document alinea(s) tonen die antwoord op de vraag bevat – KWIC display van zoekmachines is eenvoudige vorm daarvan • uit meer zoekresultaten samenvatting genereren van belangrijkste bevindingen / antwoorden eric sieverts, februari 2013 73
  • 74. 74
  • 75. 75
  • 76. 76
  • 77. 77
  • 78. semantisch zoeken vraag 3: • welke semantische zoekmachines kent u? (en waarom zijn die semantisch?) eric sieverts, februari 2013 78
  • 79. semantische zoekmachines vaak genoemd in overzichten van semantisch zoeken: • Hakia enterprise search; webresultaten nogal middelmatig • DuckDuckGo niet semantischer dan google • Wolfram|Alpha "computational knowledge engine", feitelijke gegevens • Sensebot vat ook inhoud van meer documenten samen • Cognition voor specifieke databases, bijv. voor Medline • Factbites samengevatte informatie uit geselecteerde bronnen • Cluuz analyseert recultaten en geeft relaties • Kngine is alleen nog een app voor smartphones • Swoogle RDF ontology search engine • Sindice zoekmachine voor sites met RDF metadata • Powerset is opgekocht door (en geïntegreerd in) Bing • Kosmix • Evri bestaan niet meer als (web)zoekachine • Truevert eric sieverts, februari 2013 79
  • 80. finale: semantisch web in semantisch web wordt van "alles" betekenis vastgelegd eric sieverts, februari 2013 om betekenis ook te begrijpen heeft men "ontologieën" nodig 80
  • 81. ontologieën eric sieverts, februari 2013 definitie: een strikt en uitputtend schema voor een bepaald onderwerpsdomein, meestal in een hiërarchische structuur, die alle relevante grootheden en hun relaties bevat, alsmede de regels waaraan die grootheden en relaties binnen dat domein voldoen filosofie kunstmatige intelligentie computerleesbare kennisrepresentatie 81
  • 82. ontologieën • "kennis-representatie“ waarin kennis over (klein stukje van) de wereld in geformaliseerde vorm is weergegeven • meestal niet rechtstreeks gebruikt voor ontsluiting • maakt vollediger en meer complexe representaties van de werkelijkheid mogelijk dan met een thesaurus • veel mogelijke soorten relaties tussen concepten • vastgelegde rollen en eigenschappen van die concepten • vaak voor een beperkt onderwerpsdomein (“wijn ontologie”) • soms breder in een zogenaamde “core ontology” bijvoorbeeld: CIDOC-CRM (conceptual reference model) voor concepten, relaties en eigenschappen op gebied van cultureel erfgoed eric sieverts, februari 2013 82
  • 83. relaties tussen enkele concepten in een eenvoudige "wijn-ontologie" Château Lafitte Rothschild {is een} wijnhuis Château Lafitte Rothschild {produceert} Château Lafitte Rothschild Pauillac Bordeaux {heeft als beste wijnhuizen} Château Lafitte Rothschild Château Lafitte Rothschild Pauillac {wordt gemaakt door} Château Lafitte Rothschild Château Lafitte Rothschild Pauillac {is een} Pauillac Bordeaux {is een} wijnstreek .... veel meer soorten relaties mogelijk dan alleen BT, NT, RT, Use, Used for 83
  • 84. hiërarchische structuur van concepten van één soort in een eenvoudige "wijn-ontologie" klassen-hiërarchie van DBpedia-ontologie 84
  • 85. voorbeeld van de relaties tussen concepten m.b.t. het standbeeld van Balzac door Rodin [CIDOC-CRM] 85
  • 86. ontologieën “ontologieën” in kader van het semantisch web • in meer algemene zin : algemene naam voor allerlei soorten onderwerpsontsluiting (thesauri, classificaties, taxonomieën, namenlijsten, .....) en ook voor concordanties tussen dergelijke systemen • essentiële vereisten : ontologie moet beschikbaar zijn in een vorm waarin hij door een computerprogramma kan worden gelezen, verwerkt en geïnterpreteerd → vereist gestandaardiseerde notaties en formele talen om ze te beschrijven eric sieverts, februari 2013 86
  • 87. ontologie-notatie beschrijving van ontologieën voor semantisch web RDF resource description framework standaard om relaties tussen een object en zijn metadata te beschrijven OWL web ontology language standaard voor computer-leesbaar beschrijven van ontologieën RDFS RDF-schema standaard voor het beschrijven van metadata-modellen in RDF SKOS simple knowledge organization system standaard voor het beschrijven van thesauri, classificaties en hun onderlinge relaties in RDF eric sieverts, februari 2013 87
  • 88. interoperabiliteit en SKOS om interoperabiliteit tussen systemen “automatisch” te kunnen laten verlopen is een standaard nodig om computerleesbaar te beschrijven: – hoe een bepaald ontsluitingssysteem in elkaar zit – hoe relaties tussen begrippen moeten worden geïnterpreteerd (bijv.: of iets een BT is, een scope note of .... ) – hoe begrippen zich verhouden tot die in een ander systeem, – ... om dat makkelijk en gestandaardiseerd te kunnen doen is SKOS ontwikkeld SKOS: Simple Knowledge Organisation System eric sieverts, februari 2013 88
  • 89. interoperabiliteit definities • Interoperability is the ability of two or more systems or components to exchange information and to use the information that has been exchanged • Semantic Interoperability is the ability of computer systems to communicate information and have that information properly interpreted by the receiving system in the same sense as intended by the transmitting system. bron: Wikipedia • Interoperabiliteit betekent in het algemeen dat systemen (of apparatuur) in staat zijn tot onderlinge uitwisseling of/en communicatie. De systemen kunnen m.a.w. ‘praten met elkaar’ en zijn in zekere zin ‘compatibel’. Om interoperabiliteit te bereiken zijn standaarden, protocollen en procedures erg belangrijk bron: http://www.cjsm.vlaanderen.be/e-cultuur/beleidskader/bouwstenen/lexicon.html eric sieverts, november 2012 89
  • 90. grafische weergave van SKOS-representatie van thesaurustermen & relaties: netwerk van RDF-tripels Term: Economic cooperation Used For: Economic co-operation Broader terms: Economic policy Narrower terms: Economic integration, European economic cooperation, European industrial cooperation, Industrial cooperation Related terms: Interdependence Scope Note: Includes cooperative measures in banking, trade, industry etc., between and among countries. SKOS 90
  • 91. SKOS representatie in RDF <rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" xmlns:skos="http://www.w3.org/2004/02/skos/core#"> <skos:Concept> <skos:prefLabel>Economic cooperation</skos:prefLabel> <skos:altLabel>Economic co-operation</skos:altLabel> <skos:scopeNote>Includes cooperative measures in banking, trade, industry etc., between and among countries. </skos:scopeNote> <skos:broader> <skos:Concept> <skos:prefLabel>Economic policy</skos:prefLabel> </skos:Concept> </skos:broader> <skos:related> <skos:Concept> <skos:prefLabel>Interdependence</skos:prefLabel> </skos:Concept> </skos:related> <skos:narrower> <skos:Concept> <skos:prefLabel>Economic integration</skos:prefLabel> </skos:Concept> </skos:narrower> <!-- ...more narrower terms omitted ... --> </skos:Concept> </rdf:RDF> computerleesbare weergave - in xml eric sieverts, februari 2013 91
  • 92. SKOS relaties in dit voorbeeld zagen we standaard thesaurusrelaties: <skos:prefLabel> voorkeursterm voor concept <skos:altLabel> synoniemen <skos:scopeNote> omschrijving van concept <skos:broader> algemener concept <skos:narrower> specifieker concept ook beschrijving in hoeverre termen uit verschillende thesauri inhoudelijk overeenkomen (concordantie) : <skos:mappingRelation> overeenkomst met term uit ander systeem <skos:exactMatch> term heeft zelfde betekenis <skos:closeMatch> term heeft bijna zelfde betekenis <skos:broadMatch> term is ruimer <skos:narrowMatch> term is specifieker zo kunnen zoekacties worden uitgebreid, ook met termen uit andere systemen eric sieverts, februari 2013 92
  • 93. semantisch web • ultieme toepassing van interoperabiliteit • gebruikt combinatie van – RDF(S) – ontologieën (ook thesauri, taxonomieën, semantisch netwerken, …) – formele talen (zoals SKOS en OWL) – annotatie van resources/objecten (=metadatering) • als vanuit allerlei systemen maar naar dergelijke computerleesbare "databases" met semantische kennis gelinkt wordt, kan programmatuur allerlei termen met elkaar in verband brengen ten behoeve van zoeken (en andere functionaliteit) • dat wordt bijvoorbeeld in Europeana toegepast • en met "linked data" moet dat nog makkelijker worden eric sieverts, februari 2013 93
  • 94. RDF en "linked data" er is momenteel veel publiciteit rond "linked (open) data" • dat zijn in principe RDF-tripels zodat die data computer-leesbaar zijn • ze staan op internet zodat het "open" is • ze zijn bedoeld om te worden hergebruikt zodat ze een belangrijk ingrediënt voor het semantisch web zijn • ze zijn gestandaardiseerd zodat ze makkelijk hergebruikt kunnen worden • iedereen kan (en moet!) data bijdragen waardoor het toch nog wel een beetje een rommeltje is eric sieverts, februari 2013 94
  • 95. Tim Berners Lee: 1989: "invented" the World Wide Web 2004: proposed the "semantic web" 2006: designed "linked data" as a step towards realisation of the semantic web eric sieverts, februari 2013 95
  • 96. 96
  • 97. 97
  • 98. dbpedia: data from Wikipedia last.fm: artists geonames: 6.2 M toponyms BBC: wildlife finder project Gutenberg IMDB music brainz Reuters: openCalais viaf: virtual international authority file LCSH NY times Flickr "linked open data cloud" - 31 miljard data online – 504 miljoen links daartussen door standaardisering van dataformats en metadata, kunnen computers betekenis van die data "begrijpen" en die data gebruiken rechtspraak.nl 98
  • 99. fragment uit het linked data VIAF-record voor Lewis Carroll viaf.org/viaf/66462036/rdf.xml 99
  • 100. fragment uit het linked data VIAF-record voor Hugo Brandt Corstius viaf.org/viaf/94439179/rdf.xml 100
  • 101. sparql - endpoints nog wat linked data jargon: SPARQL Sparql Protocol And Rdf Query Language wat SQL is voor relationele databases is SPARQL voor RDF triple stores Endpoints toegangspunten op het web waar je SPARQL zoekactie op RDF triple stores kunt uitvoeren (je moet daarvoor de SPARQL syntax kennen - door een computer laten uitvoeren) eric sieverts, februari 2013 101
  • 102. kernbegrippen kernbegrippen die we tegenkwamen • semantiek (= betekenis, begrijpen) • interoperabiliteit (= kunnen samenwerken) • metadata (= beschrijven & karakteriseren) • ontologieën (= kennis organisatie systemen) • semantisch web (= informatie op web begrijpen) • linked data (= gegevens op web begrijpen, linken en hergebruiken) op allerlei manieren horen daar standaarden bij meer "didactische" informatie o.a. op: semantic university http://www.cambridgesemantics.com/semantic-university eric sieverts, november 2012 102
  • 103. what all that alphabet soup means • CC Creative Commons • CIDOC-CRM CIDOC Conceptual Reference Model • DC Dublin Core • FOAF Friend-of-a friend • GR Good Relations Ontology • HTML HyperText Markup Language • LOD Linked Open Data • MO Music Ontology • OG Open Graph protocol • OWL Web Ontology Language • RDF Resource Description Framework • RDFa RDF in Attributes • SKOS Simple Knowledge Organisation System • SPARQL Sparql Protocol And Rdf Query Language • URI Uniform Resource Identifier • URL Uniform Resource Locator • VIAF Virtual International Authority File (authors) • XHTML eXtensible HyperText Markup Language • XML eXtensible Markup Language
  • 104. the end eric sieverts, februari 2013 104