Semantisch Zoeken - knowledge graph, semantisch web, linked data, rdf, ontologieën, metadata, ....

714 views

Published on

Cursus Semantisch Zoeken bij GO Opleidingen, Voorburg

Published in: Technology
0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
714
On SlideShare
0
From Embeds
0
Number of Embeds
24
Actions
Shares
0
Downloads
12
Comments
0
Likes
1
Embeds 0
No embeds

No notes for slide

Semantisch Zoeken - knowledge graph, semantisch web, linked data, rdf, ontologieën, metadata, ....

  1. 1. semantisch zoeken knowledge graph, semantisch web, linked data, rdf, ontologieën, metadata, interoperabiliteit, .... Eric Sieverts @sieverts GO-Opleidingen mei 2014
  2. 2. semantisch zoeken vraag: • wanneer is een zoeksysteem een semantisch zoeksysteem? .... als het erop staat? eric sieverts, mei 20142
  3. 3. semantisch zoeken 10 Things that Make Search a Semantic Search [Hakia Company] 1. Handling morphological variations 2. Handling synonyms with correct senses 3. Handling generalizations 4. Handling concept matching 5. Handling knowledge matching 6. Handling natural language queries and questions 7. Ability to point to uninterrupted paragraph and the most relevant sentence 8. Ability to Customize and Organic Progress 9. Ability to operate without relying on statistics, user behavior, and other artificial means 10. Ability to detect its own performance eric sieverts, mei 20143
  4. 4. semantisch zoeken Current trend : the semantic search system should be able to understand the query and give relevant results based on the current trend and news. Location of search : When searching for 'what is the temperature', semantic search should provide results based on the current location. Intent of the search : Semantic search should give appropriate search results based on the intent of the search and not on the specific words used. Variations of words : Semantic search should consider tenses, plural, singular etc and provide results for all semantic word variations. Synonyms : Semantic search should understand synonyms and give more or less the same results on any synonyms of the word users search for. Generalized and Specialized queries : Semantic Search should set relation between generalized and specialized queries and provide appropriate results. Concept matching : Sub-set of context matching. Semantic search should understand the broad concept of the query and return relevant results. Natural language queries : On search for 'What time is it in Arizona‘, Semantic Search would show you the current time in Arizona, USA. Change of meaning based on the group of words. The last word in a query may completely change its meaning. Semantic Search should distinguish such differences and give relevant search results. eric sieverts, mei 2014 http://www.techulator.com/resources/59Tony John (2012) - Semantic Search: Factors considered by Search Engines 4
  5. 5. meningen over het semantisch web? Semantic Web Business: Going Nowhere Slowly I've been a semantic web skeptic for years. SemWeb is useful for information enrichment in certain domains, via a circumscribed set of tools. However, the SemWeb offers a vanishingly small benefit to the vast majority of businesses. The vision persists but is unachievable; the business reality of SemWeb is going pretty much nowhere. The SemWeb dream centers on sharing linked data via the W3C's Resource Description Framework protocol. There is no question that SemWeb aspires to a worthy goal, but its tools and processes are no match for the reality of never-diminishing online, social, and enterprise data chaos. We will never achieve its ideal universe of neatly marked up data, published by content producers in accordance with the prescriptive W3C standards. Seth Grimes on January 7, 2014 in InformationWeek eric sieverts, mei 20145 In case you missed it, a series of recent articles have made a Big Announcement: The Semantic Web is not here yet. Additionally, neither are flying cars, the cure for cancer, humans traveling to Mars or a bunch of other futuristic ideas that still have merit. A problem with many of these articles is that they conflate the Vision of the Semantic Web with the practical technologies associated with the standards. While the Whole Enchilada has yet to emerge (and may never do so), the individual technologies are finding their way into ever more systems in a wide variety of industries. These are not all necessarily on the public Web, they are simply Webs of Data. Brian Sletten on January 13, 2014 in semanticweb.com
  6. 6. 6 maar dat is vooral vanuit SEO perspectief
  7. 7. semantisch zoeken samenvattend globaal 3 soorten toepassingen: 1. inschatten van de intentie van de zoeker - en liefst een concreet antwoord in plaats van "ten blue links" bijv.: zoekt mobiel in buurt van de Rozengracht naar “pizza” >> adres van pizzeria in de buurt 2. bepalen van betekenis van tekst in documenten t.b.v. selectie vooraf bij indexeren of achteraf in zoekresultaat; van eenvoudige herkenning van entiteiten of meegegeven metadata, tot complexe kennis van de wereld, zodat automatisch concepten worden toegekend of relevante aanvullende informatie verschijnt 3. automatisch aanpassen van zoekacties t.b.v. beter resultaat bijv.: zoekactie uitbreiden met gerelateerde zoekwoorden, zoekwoorden vervangen door betere zoekwoorden, (ook) in andere systemen zoeken eric sieverts, mei 20147
  8. 8. inhoud van de cursus 10.00 - 10.30 inleiding 10.30 - 11.15 concrete/feitelijke antwoorden 11.15 - 12.00 herkennen van betekenis 12.00 - 12.30 embedded metadata 12.30 - 13.30 lunch 13.30 - 14.00 embedded metadata, microdata 14.00 - 14.30 RDF 14.30 - 15.15 semantisch web en ontologieën 15.15 - 15.45 linked data 15.45 - 16.15 transformeren van zoekvragen en resultaten 16.15 - 16.30 andere semantische zoekmachines 16.30 - 16.45 slotdiscussie voor opdrachten, zie: http://webzoek.pbworks.com/semant eric sieverts, mei 20148
  9. 9. 1. intentie van de zoeker intentie of context van vraag kan worden bepaald: • op basis van de locatie van de zoeker – globaal: op basis van internetdomein waar gebruiker zit (ip-adres) op google.nl krijg je ander antwoord dan op google.com – heel precies: op basis van bekende gps- of gsm-gegevens (mobiel) • op basis van analyse van gestelde vraag • op basis van eerder zoekgedrag van de zoeker ook bij dubbelzinnige zoekwoorden? eric sieverts, mei 20149
  10. 10. 1. intentie van de zoeker intentie of context van vraag kan worden bepaald: • op basis van locatie • op basis van analyse van de gestelde vraag – naam van persoon, bedrijf, product, gebeurtenis, … >> feiten – naam van gewoon persoon >> facebook / linked-in gegevens – herkent vaste combinaties van woorden – natuurlijke taal interpretatie – statistiek op frequente eerdere vragen • op basis van eerder zoekgedrag eric sieverts, mei 201410 Google Knowledge Graph wolfram|alpha
  11. 11. 11 eric sieverts, mei 2014
  12. 12. Wie op “Bach” zoekt, vindt vermoedelijk liever gegevens over hem dan websites over hem. Google's Knowledge Graph kent 500 miljoen objecten met 3,5 miljard kenmerken (binnenkort ook in het Nederlands) 12 gegevens o.a. afkomstig uit: "Freebase" (crowdsourced kennisbank), Wikipedia, CIA World factbook en (statistische) analyse van eigen gegevens
  13. 13. wat is in dit verband een "graph"?  een netwerk van al die concepten met hun onderlinge relaties en kenmerken 13
  14. 14. graphs zijn "hot" en zie je nu overal 14 eric sieverts, mei 2014 social graph uit Twitter social graph uit Facebook relaties in Freebase
  15. 15. 15
  16. 16. 16 eric sieverts, mei 2014 meer uit de Knowledge Graph generieke vragen leveren "carousel" genre-lijstje intussen weer verdwenen
  17. 17. 17 eric sieverts, mei 2014
  18. 18. 18 eric sieverts, mei 2014 intussen weer verdwenen
  19. 19. maar niets over de diefstal …. 20
  20. 20. 21 eric sieverts, mei 2014 feitelijk antwoord boven gewone resultaten
  21. 21. eric sieverts, mei 201422
  22. 22. 23 eric sieverts, mei 2014
  23. 23. eric sieverts, mei 201424
  24. 24. eric sieverts, mei 2014 ??? 25
  25. 25. 26 eric sieverts, mei 2014
  26. 26. 27 eric sieverts, mei 2014
  27. 27. 28 eric sieverts, mei 2014 vergelijkingen
  28. 28. 29 eric sieverts, mei 2014
  29. 29. Bing heeft zijn "Entity Engine" (Satori) maar die reageert nog niet altijd zo slim op combinaties van woorden 30
  30. 30. ... en alleen bij landeninstelling "Verenigde Staten" 31
  31. 31. doe opdracht 1 eric sieverts, mei 201432
  32. 32. 1. intentie van de zoeker intentie of context van vraag kan worden bepaald: • op basis van de locatie van de zoeker • op basis van analyse van de gestelde vraag • op basis van eerder zoekgedrag van de zoeker – wat voor zoekvragen stelde gebruiker eerder – naar welke resultaten keek gebruiker dan (bijvoorbeeld al toegepast in Google's relevantie-personalisatie; opgeslagen "history" is ook al "big data") eric sieverts, mei 201433
  33. 33. 2. bepalen van betekenis betekenis herkennen van woorden en gegevens in te indexeren tekst en/of in al gevonden resultaten • herkennen van "entiteiten" in tekst (herkennen van woorden/samenstellingen behorend tot categorieën zoals plaats, persoon, bedrijf, product, ...) • automatische categorisering door training via "machine learning" (met taxonomie of thesaurus, zowel inhoudelijk als bijv. "sentiment detection") • betekenis die herkenbaar aanwezig is in "embedded metadata" (bijvoorbeeld binnen XML of (X)HTML coderingen) >> semantisch web • inhoudelijke koppeling met geselecteerde andere bronnen (bijvoorbeeld via "linked data") • ... eric sieverts, mei 201434
  34. 34. herkennen van "entiteiten" example: article from NYTimes analysed by ….. >> 35
  35. 35. example: article from NYTimes analysed by "Open Calais" http://viewer.opencalais.com/ zie vb Powerhouse museum
  36. 36. example: article from NYTimes analysed by "Zemanta" http://www.zemanta.com/demo/ 37 eric sieverts, mei 2014
  37. 37. betekenis door structuur Facebook • kent betekenis toe door gegevens gestructureerd op te slaan • doet dat ook in een "graph" >> graph search 38 eric sieverts, mei 2014 Facebook Graph Search alles wat gebruikers registreren, wordt gestructureerd opgeslagen in Facebook's graph (met gestandaardiseerde betekenis), waardoor ook gestructureerd gezocht kan worden
  38. 38. 2. bepalen van betekenis betekenis herkennen van woorden en gegevens in te indexeren tekst en/of in al gevonden resultaten • herkennen van "entiteiten" in tekst (herkennen van woorden/samenstellingen behorend tot categorieën zoals plaats, persoon, bedrijf, product, ...) • automatische categorisering door training via "machine learning" (met taxonomie of thesaurus, zowel inhoudelijk als bijv. "sentiment detection") • betekenis die herkenbaar aanwezig is in "embedded metadata" (bijvoorbeeld binnen XML of (X)HTML coderingen) >> semantisch web • inhoudelijke koppeling met geselecteerde andere bronnen (bijvoorbeeld via "linked data") • ... eric sieverts, mei 201440
  39. 39. eric sieverts, mei 2014 categorisatie: sentiment detection
  40. 40. voorbeeld: PDF document geanalyseerd met Dewey Classifier automatische classificatie 42
  41. 41. resultaat van analyse van PDF document 43
  42. 42. Google herkent objecten in images 44
  43. 43. pinterest biedt automatisch (?) gegenereerde filters op onder meer recepten ? doe opdrachten 2 t/m 5
  44. 44. 2. bepalen van betekenis betekenis herkennen van woorden en gegevens in te indexeren tekst en/of in al gevonden resultaten • herkennen van "entiteiten" in tekst (herkennen van woorden/samenstellingen behorend tot categorieën zoals plaats, persoon, bedrijf, product, ...) • automatische categorisering door training via "machine learning" (met taxonomie of thesaurus, zowel inhoudelijk als bijv. "sentiment detection") • betekenis die herkenbaar aanwezig is in "embedded metadata" (bijvoorbeeld binnen XML of (X)HTML coderingen) >> semantisch web • inhoudelijke koppeling met geselecteerde andere bronnen (bijvoorbeeld via "linked data") • ... eric sieverts, mei 201446
  45. 45. eric sieverts, mei 2014 gebruik van semantische codering gestandaardiseerde markering van kenmerken in webpagina's voorbeelden van “embedded metadata”: – recipe search bij Google en Yahoo – toepassing e-commerce ontology daarbij gebruikte standaarden: – microformats / rich snippet markup / microdata / schema.org (Google, Yahoo, Bing, Yandex) onder andere voor: recepten, recencies, personen, producten, organisaties, gebeurtenissen, muziek – RDFa 47
  46. 46. 48 in huidig Google-interface onzichtbaar en minder handig geworden; NB: alleen in google.com bij Yahoo overzichtelijker
  47. 47. browser extensies (in Chrome) om embedded metadata uit pagina's te pikken
  48. 48. standaardisatie van kenmerken van producten met "GR-ontologie" volgens "RDFa“ in “XHTML”
  49. 49. 51
  50. 50. nieuwe standaard van de zoekmachinegiganten: microdata hiërarchie van kenmerken voor embeddable metadata in webpagina’s 52 + nu ook Yandex
  51. 51. de concepten uit de good relations ontology zijn recent ook in schema.org geïncorporeerd door Google, Bing en Yahoo vastgelegde standaard: microdata met hiërarchie van embeddable metadata kenmerken voor het web
  52. 52. microdata en RDFa • toepassing van deze technieken is vaak "SEO-driven" • Google biedt webmasters "Structured data testing tool" dat fouten in codering detecteert zie blogposts op SearchEngineLand: http://searchengineland.com/how-to-u http://searchengineland.com/5-ways-o eric sieverts, mei 201454
  53. 53. wat heeft zoeker hieraan? • zoeker kan gerichter zoeken en filteren (zoals in Google's receptenzoeker) • zoeker krijgt duidelijker informatie over gevonden items (zoals Google's rich snippets)
  54. 54. metadata tools • er zijn handige browsertools (voor chrome) die analyse maken van in webpagina aanwezige metadata volgens microformat, microdata of RDFa standaard http://searchengineland.com/how-to-use-rich-snippets-semantic-markup chrome extensions: https://chrome.google.com/webstore/category/extensions • met Google's "webmaster structured data testing tool" kun je indirect net zo iets: http://www.google.com/webmasters/tools/richsnippets eric sieverts, mei 201456 intermezzo metadata tools
  55. 55. 57
  56. 56. 58
  57. 57. 59
  58. 58. hulp voor makers van pagina's voor toevoegen metadata 60
  59. 59. 61
  60. 60. 63
  61. 61. doe opdracht 6 64
  62. 62. resource description framework eric sieverts, mei 2014 RDF = resource description framework • RDF is een standaard voor het beschrijven van de relatie tussen een resource (of een object) en zijn metadata • RDF gebruikt “namespaces” om naar computer-leesbare beschrijving van gebruikte metadatastandaarden te verwijzen (link via URL) • RDF is bedoeld om bestaande semantische systemen te (her)gebruiken en te combineren • RDF wordt vaak in XML- (of JSON-) notatie weergegeven • RDFa = “RDF in attributes” , verwerkt metadata in de inhoud van (X)HTML webpagina’s (als attributen van HTML-tags) 65 intermezzo RDF
  63. 63. rdf tripels eric sieverts, mei 2014 • eigenschappen (metadata) worden vastgelegd in zogenaamde tripels: subject <predicaat> object (wat je ook zou mogen noemen : ding <eigenschap> waarde ) • waarbij – te beschrijven ding een webadres (URI) heeft – eigenschap van dat ding liefst ook een URI heeft – "waarde" van die eigenschap liefst ook een URI heeft • voorbeeld: – boek (heeft een webadres: URI) – heeft auteur (betekenis van eigenschap ergens beschreven: URI) – persoon (gegevens van persoon ergens op web te vinden: URI) • RDF-tripels worden ook gebruikt in "linked data" • ze worden opgeslagen in zogenaamde triple-stores 66 intermezzo RDF
  64. 64. rdf tripels grafisch weergegeven eric sieverts, mei 2014 subject <predicaat> object doc1 <heeft auteur> auth1 auth1 <heeft naam> john smith auth1 <heeft affiliatie> home inc. auth1 <heeft email> smith@home.com grafische representatie van simpel netwerk van 4 RDF-tripels 67 intermezzo RDF
  65. 65. rdf - weergave in xml eric sieverts, mei 2014 <rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" xmlns="http://www.john.smith.net/rdfexample/"> <rdf:Description rdf:about="http://www.xxx.com/yyy/doc1.xml"> <author> <rdf:Description rdf:about="http://www.xxx.com/autId/7801"> <name>John Smith</name> <affiliation>Home Inc.</affiliation> <email>Smith@home.com</email> </rdf:Description> </author> </rdf:Description> </rdf:RDF> namespaces URI's van beschreven resources 68 je zou eigenlijk ook nog met URI's moeten verwijzen naar de plek waar die kenmerken gedefinieerd zijn intermezzo RDF
  66. 66. rdf tripels eric sieverts, mei 201469 naar idee van Lucas Koster / IP "Uit Berlijn" boek Uit Berlijn "Armando" Schuldig landschap http://www.worldcat.org/oclc/10098995   is een http://www.w3.org/1999/02/22-rdf-syntax-ns#type naam http://xmlns.com/foaf/spec/#term_name http://viaf.org/viaf/9885610/  http://hdl.handle.net/10934/RM0001.COLLECT.496040  is geschreven door is schilder van http://purl.org/dc/terms/creator   http://purl.org/dc/terms/creator   http://schema.org/Book title Armando http://purl.org/dc/terms/title   intermezzo RDF
  67. 67. rdf bekijken eric sieverts, mei 201470 voor het bekijken van RDF in webpagina's bestaan, behalve een paar (niet zo handige) Chrome extensies, ook zogenaamde RDF Browsers als webservices, waar je URL's van te analyseren pagina's kunt invoeren bijvoorbeeld: "graphite" – http://graphite.ecs.soton.ac.uk/browser intermezzo RDF
  68. 68. in semantisch web wordt van "alles" de betekenis vastgelegd eric sieverts, mei 2014 semantisch web om betekenis ook te kunnen begrijpen zijn "ontologieën" nodig 71 intermezzo semantisch web & ontologieën
  69. 69. Originally from: http://www.emiliosanfilippo.it/?page_id=1172 ontologieën 72
  70. 70. "Ontology is the philosophical study of the nature of being, becoming, existence, or reality, as well as the basic categories of being and their relations" Wikipedia filosofie kunstmatige intelligentie semantisch web 73 linked (open) data ontologieën eric sieverts, mei 2014 intermezzo semantisch web & ontologieën 73
  71. 71. filosofie kunstmatige intelligentie semantisch web 74 linked (open) data ontologieën eric sieverts, mei 2014 intermezzo semantisch web & ontologieën “een ontologie is een strikt en uitputtend schema voor een bepaald onderwerpsdomein, meestal in een hiërarchische structuur, die alle relevante grootheden en hun relaties bevat, alsmede de regels waaraan die grootheden en relaties binnen dat domein voldoen” 74
  72. 72. • "kennis-representatie“ waarin kennis over (klein stukje van) de wereld in geformaliseerde vorm is weergegeven • meestal niet rechtstreeks gebruikt voor ontsluiting • maakt vollediger en meer complexe representaties van de werkelijkheid mogelijk dan met een thesaurus • veel mogelijke soorten relaties tussen concepten • vastgelegde rollen en eigenschappen van die concepten • biedt mogelijkheid tot redenaties / gevolgtrekkingen • vaak voor een beperkt onderwerpsdomein (“wijn ontologie”) • soms breder in een zogenaamde “core ontology” vb: CIDOC-CRM (conceptual reference model) voor concepten, relaties en eigenschappen op gebied van cultureel erfgoed eric sieverts, mei 201475 intermezzo semantisch web & ontologieënontologieën
  73. 73. relaties tussen enkele concepten in een eenvoudige "wijn-ontologie" Château Lafitte Rothschild {is een} wijnhuis Château Lafitte Rothschild {produceert} Château Lafitte Rothschild Pauillac Bordeaux {heeft als beste wijnhuizen} Château Lafitte Rothschild Château Lafitte Rothschild Pauillac {wordt gemaakt door} Château Lafitte Rothschild Château Lafitte Rothschild Pauillac {is een} Pauillac Bordeaux {is een} wijnstreek .... veel meer soorten relaties mogelijk dan alleen BT, NT, RT, Use, Used for 76 hiërarchische structuur van concepten van één soort in een eenvoudige "wijn-ontologie" klassen-hiërarchie van DBpedia-ontologie
  74. 74. voorbeeld van de relaties tussen concepten m.b.t. het standbeeld van Balzac door Rodin [CIDOC-CRM] 77
  75. 75. elk soort kennisorganisatiesysteem waarmee betekenis beschreven kan worden, zoals • "echte" ontologieën • thesauri • taxonomieën • semantische netwerken • namenlijsten • concordanties • … filosofie kunstmatige intelligentie semantisch web 78 linked (open) data schema.org is ook simpele vorm hiervan ontologieën eric sieverts, mei 2014 intermezzo semantisch web & ontologieën 78
  76. 76. "conceptuele datamodellen" voor allerlei domeinen, zoals • foaf (persoonsgegevens) • dublin core (15 velden voor vooral erfgoed) • good-relations ontology (e-commerce) • music ontology (muziek) • skos (thesaurusrelaties) • cidoc-crm (erfgoed) definities van "velden", klassen van eigenschappen, e.d., meestal niet van hun inhouden filosofie kunstmatige intelligentie semantisch web 79 linked (open) data eric sieverts, mei 2014 intermezzo semantisch web & ontologieënontologieën 79
  77. 77. 80
  78. 78. “ontologieën” in kader van het semantisch web • in meer algemene zin : aanduiding voor allerlei soorten onderwerpsontsluiting (thesauri, classificaties, taxonomieën, namenlijsten, .....) en ook voor concordanties daartussen • essentieel vereiste : ontologie moet zo beschikbaar zijn dat een computer- programma hem kan lezen, verwerken en interpreteren → vereist gestandaardiseerde notaties en formele talen om ze te beschrijven (zoals SKOS en OWL) eric sieverts, mei 201481 intermezzo semantisch web & ontologieënontologieën
  79. 79. semantisch web • ultieme toepassing van interoperabiliteit • gebruikt combinatie van – RDF(S) – ontologieën (ook thesauri, taxonomieën, semantisch netwerken, …) – formele talen (zoals SKOS en OWL) – annotatie van resources/objecten (=onderwerpsontsluiting) • als vanuit allerlei systemen wordt gelinkt naar dergelijke computerleesbare "databases" met semantische kennis, kan programmatuur allerlei termen met elkaar in verband brengen ten behoeve van zoeken (en andere functies) • dat wordt bijvoorbeeld in Europeana toegepast • en "linked data" moet dat nog makkelijker maken eric sieverts, mei 201482 intermezzo semantisch web & ontologieën
  80. 80. voorbeeld hoe diverse semantische standaarden (ontologieën) via RDF werden gecombineerd vroeger veel gebruikte standaarden voor beschrijvingselementen: • v: vcard • mo: music ontology • foaf: friend of a friend • owl: web ontology language • geo maar worden nu algemeen vervangen door schema.org 83 oud doe opdracht 7
  81. 81. 2. bepalen van betekenis betekenis herkennen van woorden en gegevens in te indexeren tekst en/of in al gevonden resultaten • herkennen van "entiteiten" in tekst (herkennen van woorden/samenstellingen behorend tot categorieën zoals plaats, persoon, bedrijf, product, ...) • automatische categorisering door training via "machine learning" (met taxonomie of thesaurus, zowel inhoudelijk als bijv. "sentiment detection") • betekenis die herkenbaar aanwezig is in "embedded metadata" (bijvoorbeeld binnen XML of (X)HTML coderingen) >> semantisch web • inhoudelijke koppeling met geselecteerde andere bronnen (bijvoorbeeld via "linked data") • ... eric sieverts, mei 201484
  82. 82. Tim Berners Lee: 1989: "invented" the World Wide Web 2004: proposed the "semantic web" 2006: designed "linked data" as a step towards realisation of the semantic web eric sieverts, mei 201485 van web tot linked data intermezzo linked data
  83. 83. 86 intermezzo linked data
  84. 84. linked data linked (open) data • kan weergegeven als RDF-tripels zodat die data computer-leesbaar zijn • ze staan op internet zodat het "open" is • bedoeld om te worden hergebruikt zodat het belangrijk ingrediënt voor het semantisch web is • is gestandaardiseerd zodat het makkelijk hergebruikt kan worden • iedereen kan (en moet!) data bijdragen waardoor het soms wel een beetje een rommeltje is • je kunt zoeken in linked data triple-stores SPARQL is voor linked data wat SQL is voor relationele database eric sieverts, mei 201487 intermezzo linked data
  85. 85. dbpedia: data from Wikipedia last.fm: artists geonames: 6.2 M toponyms BBC: wildlife finder project GutenbergIMDB music brainz Reuters: openCalais viaf: virtual international authority file LCSH NY times Flickr "linked open data cloud" - 31 miljard data online – 504 miljoen links daartussen door standaardisering van dataformats en metadata, kunnen computers betekenis van die data "begrijpen" en die data gebruiken rechtspraak.nl sept 2011
  86. 86. fragment uit het linked data VIAF-record voor Lewis Carroll viaf.org/viaf/66462036/rdf.xml 89
  87. 87. fragment uit het linked data VIAF-record voor Hugo Brandt Corstius viaf.org/viaf/94439179/rdf.xml 90
  88. 88. embedded linked data in worldcat eric sieverts, mei 201491
  89. 89. embedded linked data in worldcat eric sieverts, mei 201492
  90. 90. sparql - endpoints nog wat linked data jargon: SPARQL Sparql Protocol And Rdf Query Language wat SQL is voor relationele databases is SPARQL voor RDF triple stores Endpoints toegangspunten op het web waar je SPARQL zoekactie op RDF triple stores kunt uitvoeren (je moet daarvoor de SPARQL syntax kennen - door een computer laten uitvoeren) eric sieverts, mei 201493 intermezzo linked data
  91. 91. eric sieverts, mei 2014 3. aanpassen van zoekactie aanpassen / verbeteren van zoekacties  vooraf (automatisch) bewerken van zoekvraag • variaties op zoekwoord meenemen in query – spelling verbeterd (statistiek?) [veilgheid >> veiligheid] – zoeken op woordstam (enkel/meervoud, vervoegingen, ….) [vaccination >> vaccinations, vaccine, vaccinate, vaccinated, …] – spellingsvariaties [immunisation <> immunization] – samenstellingen opbreken (en omgekeerd) [catfood <> cat food ; maatregel + veiligheid <> veiligheidsmaatregelen] • synoniemen, acroniemen aan query toevoegen (uit woordenlijst, semantisch netwerk, ontologie) [vaccination <> immunization ; jfk <> john f kennedy] • verwante en specifiekere begrippen aan query toevoegen (uit semantisch netwerk, thesaurus, ontologie) heeft nog niet zo veel met "semantiek" te maken; Google doet dat wel al allemaal 94
  92. 92. eric sieverts, mei 2014 3. aanpassen van zoekactie aanpassen / verbeteren van zoekacties  achteraf bewerken van zoekresultaat • zoekresultaten clusteren op basis van inhoud – meestal op basis van woordstatistiek (voorbeeld Clusty, Polymeta) – soms op basis van automatische classificatie • in gevonden document alinea(s) tonen die antwoord op vraag geeft – KWIC display van zoekmachines is eenvoudige vorm daarvan – zie bijv. Sensebot • uit meer zoekresultaten samenvatting genereren van belangrijkste bevindingen / antwoorden – zie bijv. Factbites 95
  93. 93. 96
  94. 94. 97
  95. 95. semantische zoekmachines voor "semantisch" gaan door : • Wolfram|Alpha "computational knowledge engine", feitelijke gegevens • DuckDuckGo niet semantischer dan google • Swoogle RDF ontology search engine • Sindice zoekt pagina's met RDF metadata (niet meer onderhouden) • Sensebot vat ook inhoud van meer documenten samen • Factbites samengevatte informatie uit geselecteerde bronnen • Cluuz selecteert (uit) antwoorden; ask.cluuz beantwoordt vragen • Kngine heeft ook een app voor smartphones • Cognition voor specifieke databases, bijv. voor Medline • Unsilo nog in ontwikkeling ("invite" aanvragen) • Powerset opgekocht door (en geïntegreerd in) Bing • Kosmix • Evri bestaan niet meer als • Truevert (web)zoekachines 99 eric sieverts, mei 2014 doe opdracht 8
  96. 96. kernbegrippen kernbegrippen die we tegenkwamen • semantiek (= betekenis, begrijpen) • interoperabiliteit (= kunnen samenwerken) • metadata (= beschrijven & karakteriseren) • ontologieën (= kennis organisatie systemen) • semantisch web (= informatie op web begrijpen) • linked data (= gegevens op web begrijpen, linken en hergebruiken) op allerlei manieren horen daar standaarden bij meer "didactische" informatie o.a. op: semantic university http://www.cambridgesemantics.com/semantic-university eric sieverts, mei 2014100
  97. 97. what all that alphabet soup means • CC Creative Commons • CIDOC-CRM CIDOC Conceptual Reference Model • DC Dublin Core • FOAF Friend-of-a friend • GR Good Relations Ontology • HTML HyperText Markup Language • LOD Linked Open Data • MO Music Ontology • OG Open Graph protocol • OWL Web Ontology Language • RDF Resource Description Framework • RDFa RDF in Attributes • SKOS Simple Knowledge Organisation System • SPARQL Sparql Protocol And Rdf Query Language • URI Uniform Resource Identifier • URL Uniform Resource Locator • VIAF Virtual International Authority File (authors) • XHTML eXtensible HyperText Markup Language • XML eXtensible Markup Language
  98. 98. the end eric sieverts, mei 2014102

×