information retrieval:
van specialisme tot commodity
online zoeken - 1980-2014
Eric Sieverts
@sieverts
UB Utrecht HvA-MICG...
Eric Sieverts, IBW-UA, 4-4-2014
informatievoorziening van specialisme tot commodity
het komt nu gewoon "uit de muur"
maar ...
de geschiedenis in één slide .....
Eric Sieverts, IBW-UA, 4-4-20143
Eric Sieverts, IBW-UA, 4-4-20141980
verbinding met "The Cloud" anno 1980
datacom-kosten (PTT) : ca f 0,30 / kB
online info...
online verbinding anno 1980:
300 baud acoustisch modem
met thermische lijnprinter
Eric Sieverts, IBW-UA, 4-4-2014
online in1985: draagbare IBM PC met "domme terminal" software en 1200 bit/s modem
Eric Sieverts, IBW-UA, 4-4-2014
ARPAnet 1969
en internet is zelfs nog ouder ….
webzoekmachines
zijn er al 20 jaar
webcrawler
in 1993 de eerste die ook tekst
uit de pagina zelf indexeerde8
lycos
in 1994 de eerste "echte",
met bijna 1,5 miljoen pagina's9
webzoekmachines
zijn er al 20 jaar
altavista
in 1996 de nieuwste grootste,
met ruim 30 miljoen pagina's
10
webzoekmachines
zijn er al 20 jaar
Eric Sieverts, IBW-UA, 4-4-2014
Google vierde vorig jaar
zijn 15de
verjaardag
11
agenda
• informatiegroei / informatieinflatie
– wetenschap
– web
– data
• vinden van "al" die informatie
– zoektrends voor...
1. de wetenschap
groei van te vinden informatie
overhead sheet bij
colleges ca. 1985
bronnen:
• Derek de Solla Price
• Gale Directory
• Ulrich's
• ...
14 Eric Sieverts, I...
10
100
1000
10000
100000
1000000
10000000
100000000
1720
1740
1760
1780
1800
1820
1840
1860
1880
1900
1920
1940
1960
1980
...
10
100
1000
10000
100000
1000000
10000000
100000000
1720
1740
1760
1780
1800
1820
1840
1860
1880
1900
1920
1940
1960
1980
...
Eric Sieverts, IBW-UA, 4-4-2014
10
100
1000
10000
100000
1000000
10000000
100000000
1720
1740
1760
1780
1800
1820
1840
186...
publish or perish
©
18
extrapolatie naar 2024 ?
 30 miljoen wetenschappelijke artikelen per jaar ?
? database Scopus bevat dan 100 miljoen artik...
"what next" voor wetenschappelijk publiceren ?
• ook blogs
• ook tweets
• ook onderzoeksdata
• klassieke artikelen ontleed...
Barend Mons, Jan Velterop, et al., Nature Genetics 43, 281–283 (2011)
doi:10.1038/ng0411-281
21 Eric Sieverts, IBW-UA, 4-4...
 trend: fragmentering van informatie
willen we dan nog naar artikelen zoeken
of naar die losse feiten of fragmenten?
22 E...
2. het web
groei van te vinden informatie
23
Eric Sieverts, IBW-UA, 4-4-2014
Dutch Home Page
najaar 1993
Dutch Home Page
zomer 1994
gegevens aanvankelijk uit:
1998
hoeveel doorzoeken webzoekmachines?
20011995
25 Eric Sieverts, IBW-UA, 4-4-2014
1
10
100
1000
10000
100000
1000000
1992
1994
1996
1998
2000
2002
2004
2006
2008
2010
aantal miljoenen
webpagina's in groot...
but presently:
• do we want to
find any page?
• does Google
want to index
any page?
• what is a web
page anyhow?
september...
extrapolatie naar 2024
 4 biljard webpagina's in Google?
(4.000.000.000.000.000)
maar blijft Google alles indexeren
en bl...
29
Eric Sieverts, IBW-UA, 4-4-2014
linked open data
• met linked open data komen losse feiten en gegevens
gestandaardiseerd o...
31
van web tot
linked data
Tim Berners Lee:
1989: "invented" the WWW
2004: proposed the "semantic web"
2006: designed "lin...
dbpedia: data
from Wikipedia
last.fm: artists
geonames:
6.2 M toponyms
BBC: wildlife
finder
project
GutenbergIMDB
music br...
 trend: fragmentering van informatie
zoeken we in 2024 nog naar webpagina's
of naar losse feiten en fragmenten?
33 Eric S...
informatiegroei
informatie of data ?
&
informatieinflatie
© Foam Amsterdam
Eric Sieverts, IBW-UA, 4-4-201434
informatie of data?
informatieinflatie
2000 Hall & Varian onderzoek:
gezamenlijk produceerden we dat jaar 1,5 exabyte
(mil...
Eric Sieverts, IBW-UA, 4-4-201437
informatie of data?
informatieinflatie
elk jaar verdubbelt aantal bytes dat we produceren
 is dat groei of inflatie?
• TX...
Eric Sieverts, IBW-UA, 4-4-201439
YouTube groeit met 100 uur per minuut
datavloedgolf
2011 - 1 biljoen YouTube filmpjes bekeken
2012 - Internet Archive: 10 PetaByte (10
16
)
2013 - 100 uur video...
Eric Sieverts, IBW-UA, 4-4-2014
5 MB harde schijf
in 1956
2 TB in 2013
prijs van opslagmedia:
in 1956:
$ 7000 / MB / jaar ...
1051
atomen
2110: ~1051
bits
2024: ~1026
bits (10 yottabyte)
2010: ~1022
bits
2000: ~1019
bits (1 exabyte)
onze jaarlijkse...
vinden van die informatie
1. de wetenschap
43
vinden van wetenschappelijke
informatie
1980 - 2005 - in bibliografische databases
belang van metadata - zoektermen
uit th...
zoeksystemen voor gestructureerde informatie
(bibliografisch, metadata, ….)
• basis: booleaanse building block methode
• f...
46
zoeksystemen voor gestructureerde informatie
(bibliografisch, metadata, ….)
• ….
• zeer exacte zoekresultaten (aantallen)
...
2000
zoeksystemen voor gestructureerde informatie
(bibliografisch, metadata, ….)
willen aanbieders hiermee gebruikers blijven t...
vinden van wetenschappelijke
informatie
1980 - 2005 - in bibliografische databases
belang van metadata - zoektermen
uit th...
2000 - 2013
discovery tool
avant la lettre
51
2011
52
Eric Sieverts, SIG-CI, 1-11-2012
2011
year of the webscale discovery tools
53
vinden van wetenschappelijke
informatie
kenmerken "discovery tools"
– ranking van resultaat op basis van best match
– face...
Eric Sieverts, IBW-UA, 4-4-2014
van google zijn we dat gewend
in fysieke bibliotheek was dat gewoon
maar in deze voorbeeld...
vinden van wetenschappelijke
informatie
kenmerken "discovery tools"
– ranking van resultaat op basis van best match
– face...
voor informatie zoeken zijn (waren?)
bibliotheekcatalogi geheel ongeschikt
voorbeeld: boek van 480 bladzijden
met onderwer...
zelfs user-tags in Librarything bieden
maar weinig meer zinvolle ingangen
vergeleken met die inhoudsopgave
metadata in een...
de 21 hoofdstukken op de bijbehorende website
een paar van de 117
paragrafen uit de TOC
vinden van wetenschappelijke
informatie
kenmerken "discovery tools"
– ranking van resultaat op basis van best match
– face...
vinden van wetenschappelijke
informatie
2012 - 2013 : UB Utrecht onderzocht
– of eigen "discovery tool" Omega afgesloten k...
Eric Sieverts
@sieverts
Bianca Kramer
@MsPhelps
onderdeel uit
dat onderzoek
62
acromioclavicular joint fracture surgery
greenhouse emission dairy cattle
dangling bond passivation amorphous silicon
"ver...
Medicine Physics Biology
Geosciences Social sciences Law Humanities
Overlap Scopus / Web of Science
7 search queries
#publications
← results Scopus + WoS
Scopus / WoS results found in Google Scholar ?
#publications
← results Scopus + WoS
#publications
← results Scopus + WoS
#publications
← results Scopus + WoS
#publications
← results Scopus + WoS
← results Scopus + WoS
Medicine Physics Biology
Geosciences Social sciences Law Humanities
72
73
7 search queries Scopus
1st
100 Google Scholar results: in Scopus / Wos ?
7 search queries Web of Science
2
1st
100 Google Scholar results: in Scopus / Wos ?
Medicine Physics Biology
Geosciences Social sciences Law Humanities
Scopus
Medicine Physics Biology
Geosciences Social sciences Law Humanities
Web of Science
78
vinden van die informatie
op het web: voorkeur slingert tussen
zoekmachine en ontsluiting
yahoo! directory
yahoo! directory
open directory
startpagina's
lycos
altavista
google
web-2.0
tagging/folksonomies
1990
20...
webzoekmachines
• introduceerden best-match zoeken (i.p.v. booleaans)
• (ca. 1997) van "most of the terms" "all of the ter...
webzoekmachines
• ….
• doordat je zoveel vindt, vind je ook steeds meer niet
(niet > 1000 ! ook niet bij Google Scholar)
•...
webzoekmachines
• ….
• doordat je zoveel vindt, vind je ook steeds meer niet
(niet > 1000 ! ook niet bij Google Scholar)
•...
webzoekmachines
• ….
• is benchmark geworden voor (uiterlijk van) zoeksystemen
MAAR:
syntax voor geavanceerde functies van...
webzoekmachines
• EN:
­ ...
­ in hoog tempo verdwijnen functies en mogelijkheden
als "graveyard of broken dreams" :
• hele...
webzoekmachines
• ….
• personalisatie van (ranking van) zoekresultaat op basis van
• eerder zoekgedrag
• je "sociale kring...
webzoekmachines
• Google 2013: not STRINGS but THINGS
geen DOCUMENTEN maar DINGEN
geen 10 blue links maar ANTWOORDEN
van i...
semantisch web
semantisch zoeken
Eric Sieverts, IBW-UA, 4-4-201488
Wie op “Bach” zoekt, vindt vermoedelijk liever
gegevens over hem dan websites over hem.
Google's Knowledge Graph kent 500 ...
wat is in dit verband een "graph"?
 een netwerk van al die concepten met hun
onderlinge relaties en kenmerken
90
graphs zijn nu "hot"
91
social graph uit Twitter
social graph uit Facebook
relaties in Freebase
Eric Sieverts, IBW-UA, 4-4...
92
meer uit de Knowledge Graph
generieke vragen
leveren lijstjes/"carousel",
soms in meer rubrieken
Eric Sieverts, IBW-UA,...
93 Eric Sieverts, IBW-UA, 4-4-2014
94 Eric Sieverts, IBW-UA, 4-4-2014
maar niets over
de diefstal ….
96
97
feitelijk antwoord
boven gewone
resultaten
Eric Sieverts, IBW-UA, 4-4-2014
98
Eric Sieverts, IBW-UA, 4-4-201499
Eric Sieverts, IBW-UA, 4-4-2014100
Eric Sieverts, IBW-UA, 4-4-2014101
Eric Sieverts, IBW-UA, 4-4-2014102
103
vergelijkingen
Eric Sieverts, IBW-UA, 4-4-2014
Eric Sieverts, IBW-UA, 4-4-2014104
Bing heeft zijn "Entity Engine" (Satori)
maar die reageert nog niet altijd zo
slim op combinaties van woorden
105
Facebook Graph Search
alle gegevens die gebruikers registreren, worden
gestructureerd opgeslagen in Facebook's graph
(met ...
semantisch zoeken
drie soorten toepassingen
1. inschatten van de intentie van de zoeker - en liefst concreet
antwoord in p...
interpretatie van
natuurlijke taal
om tot concreet
antwoord te komen
109
1. antwoordmachines
110 Eric Sieverts, IBW-UA, 4-4-2014
maar willen we als informatieprofessionals wel
antwoordmachines in...
2. betekenis in documenten
• herkennen van "entiteiten" in tekst
zoals namen van plaatsen, personen, bedrijven,
producten,...
sentiment detection
112
Google herkent
objecten in images
113
pinterest
biedt automatisch (?) gegenereerde
filters op onder meer recepten
?
uit semantische codering
gestandaardiseerde markering van kenmerken in
webpagina's
voorbeelden van “embedded metadata”:
– ...
in huidig Google-interface
onzichtbaar en minder
handig geworden;
NB: alleen in google.com
bij Yahoo overzichtelijker
116 ...
browser extensies
(in Chrome) om
embedded metadata
uit pagina's te pikken
standaardisatie van
kenmerken van producten
met "GR-ontologie"
volgens "RDFa“ in “XHTML”
118
119 Eric Sieverts, IBW-UA, 4-4-2014
120 Eric Sieverts, IBW-UA, 4-4-2014
nieuwe standaard van de zoekmachinegiganten: microdata
hiërarchie van kenmerken voor embeddable metadata in webpagina’s
+ ...
de concepten uit de
good relations ontology
zijn recent ook in
schema.org geïncorporeerd
door Google, Bing en Yahoo vastge...
microdata en RDFa
• toepassing van deze technieken is vaak "SEO-driven"
• Google biedt webmasters "Structured data testing...
Eric Sieverts, IBW-UA, 4-4-2014
wat heeft zoeker hieraan?
• zoeker kan gerichter zoeken en filteren
(zoals in Google's rec...
in semantisch web
wordt van "alles"
de betekenis
vastgelegd
semantisch web
om betekenis ook te
kunnen begrijpen zijn
"onto...
Originally from: http://www.emiliosanfilippo.it/?page_id=1172
ontologieën
ontologieën
"Ontology is the philosophical study of the nature of
being, becoming, existence, or reality, as well as
the b...
ontologieën
"een strikt en uitputtend schema
voor een bepaald onderwerpsdomein,
meestal in een hiërarchische structuur,
di...
ontologieën
elk soort kennisorganisatiesysteem waarmee betekenis
beschreven kan worden, zoals
• "echte" ontologieën
• thes...
ontologieën
"conceptuele datamodellen" voor allerlei domeinen, zoals
• foaf (persoonsgegevens)
• dublin core (15 velden vo...
voorbeeld van de relaties
tussen concepten m.b.t.
het standbeeld van Balzac
door Rodin [CIDOC-CRM]
131
132
voorbeeld hoe diverse semantische standaarden
(ontologieën) via RDF werden gecombineerd
vroeger veel gebruikte
standaarden...
ontologieën
voor “ontologieën” in het kader van semantisch web en
linked data is essentieel dat:
– ontologie zo beschikbaa...
fragment uit het
linked data
VIAF-record voor
Hugo Brandt Corstius
viaf.org/viaf/94439179/rdf.xml
135
Eric Sieverts, IBW-UA, 4-4-2014
linked data in worldcat
136
we've come a long way
van informatieschaarste
naar informatieoverload
van gespecialiseerde bestanden
naar universele zoeks...
foto: Jan-Jaap Heine
Information Retrieval: van specialisme tot commodity
Information Retrieval: van specialisme tot commodity
Information Retrieval: van specialisme tot commodity
Information Retrieval: van specialisme tot commodity
Upcoming SlideShare
Loading in...5
×

Information Retrieval: van specialisme tot commodity

323
-1

Published on

Over informatiegroei en online zoeken 1980-2014

Published in: Technology
0 Comments
1 Like
Statistics
Notes
 • Be the first to comment

No Downloads
Views
Total Views
323
On Slideshare
0
From Embeds
0
Number of Embeds
1
Actions
Shares
0
Downloads
6
Comments
0
Likes
1
Embeds 0
No embeds

No notes for slide
 • 20% van totale UB bezit komt in LT voor, maar 75% van de opgevraagde boeken bevat LT informatie. Vooral oudere boeken, die nog geen isbn hebben worden niet gematched. Menno was echter plezierig verrast door het hoge percentage van boeken dat opgevraagd wordt en LT informatie bevat.
 • Information Retrieval: van specialisme tot commodity

  1. 1. information retrieval: van specialisme tot commodity online zoeken - 1980-2014 Eric Sieverts @sieverts UB Utrecht HvA-MICGO Opleidingen IBW UA - 4 april 2014
  2. 2. Eric Sieverts, IBW-UA, 4-4-2014 informatievoorziening van specialisme tot commodity het komt nu gewoon "uit de muur" maar soms wel wat veel ....... 2
  3. 3. de geschiedenis in één slide ..... Eric Sieverts, IBW-UA, 4-4-20143
  4. 4. Eric Sieverts, IBW-UA, 4-4-20141980 verbinding met "The Cloud" anno 1980 datacom-kosten (PTT) : ca f 0,30 / kB online informatie zoeken kunnen we al meer dan 40 jaar 4
  5. 5. online verbinding anno 1980: 300 baud acoustisch modem met thermische lijnprinter Eric Sieverts, IBW-UA, 4-4-2014
  6. 6. online in1985: draagbare IBM PC met "domme terminal" software en 1200 bit/s modem Eric Sieverts, IBW-UA, 4-4-2014
  7. 7. ARPAnet 1969 en internet is zelfs nog ouder ….
  8. 8. webzoekmachines zijn er al 20 jaar webcrawler in 1993 de eerste die ook tekst uit de pagina zelf indexeerde8
  9. 9. lycos in 1994 de eerste "echte", met bijna 1,5 miljoen pagina's9 webzoekmachines zijn er al 20 jaar
  10. 10. altavista in 1996 de nieuwste grootste, met ruim 30 miljoen pagina's 10 webzoekmachines zijn er al 20 jaar
  11. 11. Eric Sieverts, IBW-UA, 4-4-2014 Google vierde vorig jaar zijn 15de verjaardag 11
  12. 12. agenda • informatiegroei / informatieinflatie – wetenschap – web – data • vinden van "al" die informatie – zoektrends voor de wetenschap • resultaten vergelijking Scopus - WoS - Google Scholar – zoektrends voor het web • Google - meer of minder / beter of slechter • semantisch zoeken Eric Sieverts, IBW-UA, 4-4-201412
  13. 13. 1. de wetenschap groei van te vinden informatie
  14. 14. overhead sheet bij colleges ca. 1985 bronnen: • Derek de Solla Price • Gale Directory • Ulrich's • ... 14 Eric Sieverts, IBW-UA, 4-4-2014
  15. 15. 10 100 1000 10000 100000 1000000 10000000 100000000 1720 1740 1760 1780 1800 1820 1840 1860 1880 1900 1920 1940 1960 1980 2000 2020 schatting jaarlijks aantal wetenschappelijke publicaties aantal tijdschriften al 260 jaar verdubbelt jaarlijks aantal wetenschappelijke artikelen elke 14 jaar en aantal tijdschriften ook zo ongeveer 15 Eric Sieverts, IBW-UA, 4-4-2014
  16. 16. 10 100 1000 10000 100000 1000000 10000000 100000000 1720 1740 1760 1780 1800 1820 1840 1860 1880 1900 1920 1940 1960 1980 2000 2020 schatting jaarlijks aantal wetenschappelijke publicaties (Sieverts 1981-1994) 10 100 1000 10000 100000 1000000 10000000 100000000 1720 1740 1760 1780 1800 1820 1840 1860 1880 1900 1920 1940 1960 1980 2000 2020 schatting jaarlijks aantal wetenschappelijke publicaties (Sieverts 1981-1994) na (exponentiële) groei met factor 100.000 neiging tot verzadiging? NRC 12 maart 2011 16 Eric Sieverts, IBW-UA, 4-4-2014
  17. 17. Eric Sieverts, IBW-UA, 4-4-2014 10 100 1000 10000 100000 1000000 10000000 100000000 1720 1740 1760 1780 1800 1820 1840 1860 1880 1900 1920 1940 1960 1980 2000 2020 schatting jaarlijks aantal wetenschappelijke publicaties (Eric Sieverts, 1981-1994) jaarlijks aantal wetenschappelijke publicaties (NRC-Handelsblad, maart 2011) exponentiële groei blijkt na 280 jaar toch nog niet afgevlakt wetenschappers raken niet op? • meer in china en india • nog meer "publish or perish" • …. ? 17
  18. 18. publish or perish © 18
  19. 19. extrapolatie naar 2024 ?  30 miljoen wetenschappelijke artikelen per jaar ? ? database Scopus bevat dan 100 miljoen artikelen ? Web of Science bevat dan 90 miljoen artikelen ? Pubmed bevat dan 50 miljoen artikelen maar blijven het (alleen) klassieke artikelen? 19 Eric Sieverts, IBW-UA, 4-4-2014
  20. 20. "what next" voor wetenschappelijk publiceren ? • ook blogs • ook tweets • ook onderzoeksdata • klassieke artikelen ontleed / opgesplitst tot "nanopublicaties": afzonderlijke beweringen die beschreven worden als RDF-tripels (zelfde techniek als voor "linked open data") DNA variant NG_000007.3:g.70628G>A (Subject) has a frequency (Predicate) of 0.25% (Object). The assertion holds for the Sardinian population Provenance includes authors of the article (Giardine et. al.), the date when the nanopublication was created, et cetera. voorbeeld nog meer "items" 20
  21. 21. Barend Mons, Jan Velterop, et al., Nature Genetics 43, 281–283 (2011) doi:10.1038/ng0411-281 21 Eric Sieverts, IBW-UA, 4-4-2014
  22. 22.  trend: fragmentering van informatie willen we dan nog naar artikelen zoeken of naar die losse feiten of fragmenten? 22 Eric Sieverts, IBW-UA, 4-4-2014
  23. 23. 2. het web groei van te vinden informatie 23
  24. 24. Eric Sieverts, IBW-UA, 4-4-2014 Dutch Home Page najaar 1993 Dutch Home Page zomer 1994
  25. 25. gegevens aanvankelijk uit: 1998 hoeveel doorzoeken webzoekmachines? 20011995 25 Eric Sieverts, IBW-UA, 4-4-2014
  26. 26. 1 10 100 1000 10000 100000 1000000 1992 1994 1996 1998 2000 2002 2004 2006 2008 2010 aantal miljoenen webpagina's in grootste zoekmachine (verschillende bronnen) 15 jaar lang verdubbelde elk jaar het aantal webpagina's in de grootste zoekmachine content in betaalde online bronnen miljoenenwebpagina's ? hoeveel doorzoeken webzoekmachines? zie: Eric Sieverts. Van Lycos tot Google. in: NRC 9 februari 2013, special "Slimmer zoeken op internet" http://sieverts.pbworks.com/f/ NRC_Lycos_Google.pdf 26 Eric Sieverts, IBW-UA, 4-4-2014
  27. 27. but presently: • do we want to find any page? • does Google want to index any page? • what is a web page anyhow? september 2012: Google knew about the existence of 30 trillion URL's 30,000,000,000,000 various estimates: presently about 500,000,000,000 indexed pages 27 Eric Sieverts, IBW-UA, 4-4-2014
  28. 28. extrapolatie naar 2024  4 biljard webpagina's in Google? (4.000.000.000.000.000) maar blijft Google alles indexeren en blijven het webpagina's? 28 Eric Sieverts, IBW-UA, 4-4-2014
  29. 29. 29
  30. 30. Eric Sieverts, IBW-UA, 4-4-2014 linked open data • met linked open data komen losse feiten en gegevens gestandaardiseerd op internet beschikbaar • in de linked open data cloud zijn al duizenden datasets met vele biljoenen RDF-tripels toegankelijk • Google's Knowledge Graph bevat al miljarden gegevens 3030
  31. 31. 31 van web tot linked data Tim Berners Lee: 1989: "invented" the WWW 2004: proposed the "semantic web" 2006: designed "linked data" as a step towards realisation of the semantic web
  32. 32. dbpedia: data from Wikipedia last.fm: artists geonames: 6.2 M toponyms BBC: wildlife finder project GutenbergIMDB music brainz Reuters: openCalais viaf: virtual international authority file LCSH NY times Flickr "linked open data cloud" - 31 miljard data online – 504 miljoen links daartussen door standaardisering van dataformats en metadata, kunnen computers betekenis van die data "begrijpen" en die data gebruiken rechtspraak.nl sept 2011
  33. 33.  trend: fragmentering van informatie zoeken we in 2024 nog naar webpagina's of naar losse feiten en fragmenten? 33 Eric Sieverts, IBW-UA, 4-4-2014
  34. 34. informatiegroei informatie of data ? & informatieinflatie © Foam Amsterdam Eric Sieverts, IBW-UA, 4-4-201434
  35. 35. informatie of data? informatieinflatie 2000 Hall & Varian onderzoek: gezamenlijk produceerden we dat jaar 1,5 exabyte (miljard gigabyte) informatie en dat verdubbelt elk jaar (maar: is dat informatie of zijn het data?) 2011 uit een "infographic": in 2010 produceerden we gezamenlijk 2 zettabytes : 2 x 10 21 bytes (2000 miljard gigabyte) en dat verdubbelt elk jaar [d.w.z. ruim 300 GB per persoon] 35 Eric Sieverts, IBW-UA, 4-4-2014
  36. 36. Eric Sieverts, IBW-UA, 4-4-201437
  37. 37. informatie of data? informatieinflatie elk jaar verdubbelt aantal bytes dat we produceren  is dat groei of inflatie? • TXT documentje met mijn tekst: 50 kB videoregistratie van mijn lezing: 500 MB dezelfde informatie(!?) maar 10.000 x zoveel data • berichten op het web worden 100-voudig gerepliceerd, herblogd en geretweet • van alles maken we ongecoördineerd back-ups • ... 38 Eric Sieverts, IBW-UA, 4-4-2014
  38. 38. Eric Sieverts, IBW-UA, 4-4-201439 YouTube groeit met 100 uur per minuut
  39. 39. datavloedgolf 2011 - 1 biljoen YouTube filmpjes bekeken 2012 - Internet Archive: 10 PetaByte (10 16 ) 2013 - 100 uur video per minuut YouTube - 4000 foto's per seconde Facebook - 250 miljard foto's op Facebook - 540 miljard tweets in Topsy zoekmachine 2014 - Beeld & Geluid (NL): 15 PetaByte 40 Eric Sieverts, IBW-UA, 4-4-2014
  40. 40. Eric Sieverts, IBW-UA, 4-4-2014 5 MB harde schijf in 1956 2 TB in 2013 prijs van opslagmedia: in 1956: $ 7000 / MB / jaar lease in 2013: $10 / TB (= $ 0,00001 / MB) dataopslag 41
  41. 41. 1051 atomen 2110: ~1051 bits 2024: ~1026 bits (10 yottabyte) 2010: ~1022 bits 2000: ~1019 bits (1 exabyte) onze jaarlijkse data productie ?? exponentiële groei blijft voortduren ? 42 "grenzen aan de groei" • minder produceren? • niet alles (willen) bewaren? Eric Sieverts, IBW-UA, 4-4-2014
  42. 42. vinden van die informatie 1. de wetenschap 43
  43. 43. vinden van wetenschappelijke informatie 1980 - 2005 - in bibliografische databases belang van metadata - zoektermen uit thesauri en classificaties gestructureerd booleaans combineren versnipperd aanbod 2005 - 2014 …. Eric Sieverts, IBW-UA, 4-4-201444
  44. 44. zoeksystemen voor gestructureerde informatie (bibliografisch, metadata, ….) • basis: booleaanse building block methode • functionaliteit zeer stabiel (conservatief?) databases bij host Dialog waren tot vorig jaar nog vrijwel net zo te bevragen als 35 jaar geleden (als je dat wilde) • …. veiligheid lange tunnels veiligheid veilig onveiligheid beveiliging veiligheidsmaatregelen .... lang lengte ... tunnels verkeerstunnels autotunnels spoortunnels .... OR OR ANDAND Eric Sieverts, IBW-UA, 4-4-201445
  45. 45. 46
  46. 46. zoeksystemen voor gestructureerde informatie (bibliografisch, metadata, ….) • …. • zeer exacte zoekresultaten (aantallen) • ook moderner uitziende interfaces (Ovid, Proquest, Ebsco, LexisNexis, …) nog niet erg gebruiksvriendelijk • automatisch "vervangend zoeken" ten behoeve van gecontroleerd vocabulair (thesaurus) nog niet heel algemeen (wel bij PubMed, Ovid) • automatisch "generiek zoeken" (zoekvraag uitbreiden met specifiekere begrippen - uit thesaurus) nog niet heel algemeen (wel bij PubMed) • elk systeem heeft zijn eigen interface (en eigen zoeksyntax) Eric Sieverts, IBW-UA, 4-4-201447
  47. 47. 2000
  48. 48. zoeksystemen voor gestructureerde informatie (bibliografisch, metadata, ….) willen aanbieders hiermee gebruikers blijven trekken, dan moet • het er net zo makkelijk (& aantrekkelijk?) uitzien als • het net zo makkelijk lijken als • het een "experience" opleveren discovery tools proberen dit wel te bieden >> bij aanbieders van bibliografische databases is dat allemaal (nog) meestal niet het geval Eric Sieverts, IBW-UA, 4-4-201449
  49. 49. vinden van wetenschappelijke informatie 1980 - 2005 - in bibliografische databases belang van metadata - zoektermen uit thesauri en classificaties gestuctureerd booleaans combineren versnipperd aanbod 2005 - 2014 - in "discovery tools" - in Google Scholar belang van woorden uit de full-text (ongecontroleerd vocabulair) "bag of words" zoekacties één ingang Eric Sieverts, IBW-UA, 4-4-201450
  50. 50. 2000 - 2013 discovery tool avant la lettre 51
  51. 51. 2011 52
  52. 52. Eric Sieverts, SIG-CI, 1-11-2012 2011 year of the webscale discovery tools 53
  53. 53. vinden van wetenschappelijke informatie kenmerken "discovery tools" – ranking van resultaat op basis van best match – facetten op basis van standaard formele kenmerken (parametrisch zoeken) - metadata! – beperken tot materiaal waarvoor toegang (licenties) waardoor discovery = delivery Eric Sieverts, IBW-UA, 4-4-201454
  54. 54. Eric Sieverts, IBW-UA, 4-4-2014 van google zijn we dat gewend in fysieke bibliotheek was dat gewoon maar in deze voorbeelden is de discovery wat beperkt ....... discovery = delivery
  55. 55. vinden van wetenschappelijke informatie kenmerken "discovery tools" – ranking van resultaat op basis van best match – facetten op basis van standaard formele kenmerken (parametrisch zoeken) - metadata! – beperken tot materiaal waarvoor toegang (licenties) – de catalogus is erin geïntegreerd maar is die geschikt voor "discovery" ? Eric Sieverts, IBW-UA, 4-4-201456
  56. 56. voor informatie zoeken zijn (waren?) bibliotheekcatalogi geheel ongeschikt voorbeeld: boek van 480 bladzijden met onderwerpsindex van 14 dichtbedrukte bladzijden met inhoudsopgave van 5 blz. met 21 hoofdstukken en 117 paragrafen in een catalogus beschreven met 1 onderwerpscategorie en 1 (daaraan identiek!) trefwoord 7 Eric Sieverts, IBW-UA, 4-4-2014
  57. 57. zelfs user-tags in Librarything bieden maar weinig meer zinvolle ingangen vergeleken met die inhoudsopgave metadata in een bibliotheekcatalogus kunnen wel eens problematisch zijn voorbeeld: boek van 480 bladzijden met onderwerpsindex van 14 dichtbedrukte bladzijden met inhoudsopgave van 5 blz. met 21 hoofdstukken en 117 paragrafen 8
  58. 58. de 21 hoofdstukken op de bijbehorende website een paar van de 117 paragrafen uit de TOC
  59. 59. vinden van wetenschappelijke informatie kenmerken "discovery tools" – ranking van resultaat op basis van best match – facetten op basis van standaard formele kenmerken (parametrisch zoeken) - metadata! – beperken tot materiaal waarvoor toegang (licenties) – de catalogus is erin geïntegreerd kenmerken Google Scholar – in ranking spelen citaties grote rol  nieuwste informatie wordt benadeeld **>> – geen metadata, maar patroonherkenning – vaak meer versies van artikelen, waarbij soms ook gratis (bijv. uit Institutioneel Repository) Eric Sieverts, IBW-UA, 4-4-201460
  60. 60. vinden van wetenschappelijke informatie 2012 - 2013 : UB Utrecht onderzocht – of eigen "discovery tool" Omega afgesloten kon worden (leed onder wet van de remmende voorsprong) – of Google Scholar en/of al aanwezige betaalde zoeksystemen als Web of Science en/of Scopus alternatief vormden voor nieuw in te richten discovery tool – of catalogus t.z.t. als zoekhulpmiddel afgedankt kon worden uitkomst: • meer nadruk op delivery dan op (eigen) discovery • verder met Google Scholar + Scopus + WoS – met verbeterde link resolving – met gerichte communicatie naar gebruikers Eric Sieverts, IBW-UA, 4-4-201461
  61. 61. Eric Sieverts @sieverts Bianca Kramer @MsPhelps onderdeel uit dat onderzoek 62
  62. 62. acromioclavicular joint fracture surgery greenhouse emission dairy cattle dangling bond passivation amorphous silicon "verbal memory" children dyslexia ethnicity "residential areas" "sarbanes oxley" compliance legislation modern literature cultural continuity Medicine Biology Physics Law Humanities Social sciences Geosciences
  63. 63. Medicine Physics Biology Geosciences Social sciences Law Humanities Overlap Scopus / Web of Science
  64. 64. 7 search queries #publications ← results Scopus + WoS Scopus / WoS results found in Google Scholar ?
  65. 65. #publications ← results Scopus + WoS
  66. 66. #publications ← results Scopus + WoS
  67. 67. #publications ← results Scopus + WoS
  68. 68. #publications ← results Scopus + WoS
  69. 69. ← results Scopus + WoS
  70. 70. Medicine Physics Biology Geosciences Social sciences Law Humanities
  71. 71. 72
  72. 72. 73
  73. 73. 7 search queries Scopus 1st 100 Google Scholar results: in Scopus / Wos ?
  74. 74. 7 search queries Web of Science 2 1st 100 Google Scholar results: in Scopus / Wos ?
  75. 75. Medicine Physics Biology Geosciences Social sciences Law Humanities Scopus
  76. 76. Medicine Physics Biology Geosciences Social sciences Law Humanities Web of Science 78
  77. 77. vinden van die informatie op het web: voorkeur slingert tussen zoekmachine en ontsluiting
  78. 78. yahoo! directory yahoo! directory open directory startpagina's lycos altavista google web-2.0 tagging/folksonomies 1990 2013 zoeken ontsluiten semantisch zoeken semantisch web content curation80
  79. 79. webzoekmachines • introduceerden best-match zoeken (i.p.v. booleaans) • (ca. 1997) van "most of the terms" "all of the terms" • (ca. 1998) suggesties voor alternatieve zoektermen (op basis van statistiek), vooral voor inperken van zoekactie, soms (AltaVista) ook geclusterd (al deden online hosts ESA en Dialog anno 1985 al net zo iets, met ZOOM- of RANK-commando) • (1998) introduceert link-statistiek als ranking parameter • (2003-2008) suggesties voor extra termen verdwijnen weer (wel nog bij gespecialiseerde zoeksystemen) • (2010) soort van verfijnen komt terug in de vorm van facetten (maar databases als Scopus waren daar al veel eerder mee) • vermelde aantallen zoekresultaten kloppen van geen kant • …. Eric Sieverts, IBW-UA, 4-4-201481
  80. 80. webzoekmachines • …. • doordat je zoveel vindt, vind je ook steeds meer niet (niet > 1000 ! ook niet bij Google Scholar) • verbeteren zoekvraag door "did you mean:" • verbreden door automatisch zoeken op woordstammen • verbreden door automatisch zoeken op synoniemen, samenstellingen, afkortingen, enz. • verbeteren zoekvraag zonder nog te vragen "did you mean:" • niet zoeken wat je vraagt (de ingetikte zoekwoorden), maar wat (zoekmachine denkt dat) je bedoelt: "user intent" • .... Eric Sieverts, IBW-UA, 4-4-2014 maar zoekspecialisten niet meer zo tevreden door die automatismes 82
  81. 81. webzoekmachines • …. • doordat je zoveel vindt, vind je ook steeds meer niet (niet > 1000 ! ook niet bij Google Scholar) • verbeteren zoekvraag door "did you mean:" • verbreden door automatisch zoeken op woordstammen • verbreden door automatisch zoeken op synoniemen, samenstellingen, enz. • verbeteren zoekvraag zonder nog te vragen "did you mean:" • niet zoeken wat je vraagt (de ingetikte zoekwoorden), maar wat (zoekmachine denkt dat) je bedoelt: "user intent" • (2011) introduceert "Verbatim" om toch weer "woordelijk" te laten zoeken • .... Eric Sieverts, IBW-UA, 4-4-201483
  82. 82. webzoekmachines • …. • is benchmark geworden voor (uiterlijk van) zoeksystemen MAAR: syntax voor geavanceerde functies van Google (en Bing, Blekko, DuckDuckGo, ...) nog net zo ingewikkeld als Dialog anno 1980 EN: ­ bij Google hangt zoekresultaat af van  welke browser  landenversie  taalinstelling  of je ingelogd bent  of je Google+ gebruiker bent  .... ­ wekelijks verschijnen en verdwijnen functies en mogelijkheden (vooral bij Google) Eric Sieverts, IBW-UA, 4-4-201484
  83. 83. webzoekmachines • EN: ­ ... ­ in hoog tempo verdwijnen functies en mogelijkheden als "graveyard of broken dreams" : • helemaal verdwenen:  + operator, ~ synonym operator  timeline, wonder wheel, toolbar, sidewiki, searchwiki, ...  real time results, code search, translated search, desktop search  google buzz, google wave, google directory, google reader, iGoogle, google answers, google talk, google sets, ... • alleen maar verstopt:  advanced search & settings (onder "tandwiel”)  "similar page" & "cache"-links (onder groen driehoekje)  material specific search (onder "grid")  Scholar, Patents, Discussions (Groups), Blogs, Recipes helemaal niet meer genoemd (je moet URL weten)  "backlink search" niet meer in advanced search  … Eric Sieverts, IBW-UA, 4-4-201485
  84. 84. webzoekmachines • …. • personalisatie van (ranking van) zoekresultaat op basis van • eerder zoekgedrag • je "sociale kring" meer algemeen gaan we: van zoeken filteren (via sociale media)  de "filter bubble" Eric Sieverts, IBW-UA, 4-4-201486
  85. 85. webzoekmachines • Google 2013: not STRINGS but THINGS geen DOCUMENTEN maar DINGEN geen 10 blue links maar ANTWOORDEN van indexen op documenten (webpagina's) "graphs" van feiten en gegevens  Google Knowledge Graph  Bing Entity Engine (Satori)  Facebook Graph search semantisch web & semantisch zoeken ?? Eric Sieverts, IBW-UA, 4-4-201487
  86. 86. semantisch web semantisch zoeken Eric Sieverts, IBW-UA, 4-4-201488
  87. 87. Wie op “Bach” zoekt, vindt vermoedelijk liever gegevens over hem dan websites over hem. Google's Knowledge Graph kent 500 miljoen objecten met 3,5 miljard kenmerken (binnenkort ook in het Nederlands) 89 gegevens o.a. afkomstig uit: "Freebase" (crowdsourced kennisbank), Wikipedia, CIA World factbook en statistische analyse van eigen gegevens
  88. 88. wat is in dit verband een "graph"?  een netwerk van al die concepten met hun onderlinge relaties en kenmerken 90
  89. 89. graphs zijn nu "hot" 91 social graph uit Twitter social graph uit Facebook relaties in Freebase Eric Sieverts, IBW-UA, 4-4-201491
  90. 90. 92 meer uit de Knowledge Graph generieke vragen leveren lijstjes/"carousel", soms in meer rubrieken Eric Sieverts, IBW-UA, 4-4-2014
  91. 91. 93 Eric Sieverts, IBW-UA, 4-4-2014
  92. 92. 94 Eric Sieverts, IBW-UA, 4-4-2014
  93. 93. maar niets over de diefstal …. 96
  94. 94. 97 feitelijk antwoord boven gewone resultaten Eric Sieverts, IBW-UA, 4-4-2014
  95. 95. 98
  96. 96. Eric Sieverts, IBW-UA, 4-4-201499
  97. 97. Eric Sieverts, IBW-UA, 4-4-2014100
  98. 98. Eric Sieverts, IBW-UA, 4-4-2014101
  99. 99. Eric Sieverts, IBW-UA, 4-4-2014102
  100. 100. 103 vergelijkingen Eric Sieverts, IBW-UA, 4-4-2014
  101. 101. Eric Sieverts, IBW-UA, 4-4-2014104
  102. 102. Bing heeft zijn "Entity Engine" (Satori) maar die reageert nog niet altijd zo slim op combinaties van woorden 105
  103. 103. Facebook Graph Search alle gegevens die gebruikers registreren, worden gestructureerd opgeslagen in Facebook's graph (met gestandaardiseerde betekenis), waardoor ook gestructureerd gezocht kan worden
  104. 104. semantisch zoeken drie soorten toepassingen 1. inschatten van de intentie van de zoeker - en liefst concreet antwoord in plaats van "10 blue links" (zoals bij Knowledge Graph) bijv.: zoekt mobiel in buurt van de Groenplaats naar “pizza” >> adres van pizzeria in de buurt 2. bepalen van betekenis van woorden/tekst in documenten vooraf bij indexeren of achteraf in zoekresultaat; bijv.: herkennen van entiteiten of meegegeven metadata, via complexe kennis van de wereld, concepten met tekst associeren 3. automatisch aanpassen van zoekactie / zoekresultaat bijv.: toevoegen van betere en/of gerelateerde zoekwoorden, zoekresultaat analyseren, (ook) in andere systemen zoeken 108 Eric Sieverts, IBW-UA, 4-4-2014
  105. 105. interpretatie van natuurlijke taal om tot concreet antwoord te komen 109
  106. 106. 1. antwoordmachines 110 Eric Sieverts, IBW-UA, 4-4-2014 maar willen we als informatieprofessionals wel antwoordmachines in paats van zoekmachines? wie bepaalt wat juiste antwoord is ? google ? wikipedia ? ik zelf ? wie maakt afweging voor de juiste nuances ? wie verzamelt voors en tegens ?
  107. 107. 2. betekenis in documenten • herkennen van "entiteiten" in tekst zoals namen van plaatsen, personen, bedrijven, producten, ... • automatische categorisering door via "machine learning" getraind systeem • gebruik van "embedded metadata" / semantische codering bijvoorbeeld binnen (X)HTML coderingen • inhoudelijke koppeling met geselecteerde andere bronnen bijvoorbeeld via "linked data" • ... Eric Sieverts, IBW-UA, 4-4-2014111
  108. 108. sentiment detection 112
  109. 109. Google herkent objecten in images 113
  110. 110. pinterest biedt automatisch (?) gegenereerde filters op onder meer recepten ?
  111. 111. uit semantische codering gestandaardiseerde markering van kenmerken in webpagina's voorbeelden van “embedded metadata”: – recipe search bij Google en Yahoo – toepassing e-commerce ontology daarbij gebruikte standaarden: – microformats / rich snippet markup / microdata / schema.org (Google, Yahoo, Bing) onder andere voor: recepten, recencies, personen, producten, organisaties, gebeurtenissen, muziek – RDFa 115 Eric Sieverts, IBW-UA, 4-4-2014115
  112. 112. in huidig Google-interface onzichtbaar en minder handig geworden; NB: alleen in google.com bij Yahoo overzichtelijker 116 Eric Sieverts, IBW-UA, 4-4-2014
  113. 113. browser extensies (in Chrome) om embedded metadata uit pagina's te pikken
  114. 114. standaardisatie van kenmerken van producten met "GR-ontologie" volgens "RDFa“ in “XHTML” 118
  115. 115. 119 Eric Sieverts, IBW-UA, 4-4-2014
  116. 116. 120 Eric Sieverts, IBW-UA, 4-4-2014
  117. 117. nieuwe standaard van de zoekmachinegiganten: microdata hiërarchie van kenmerken voor embeddable metadata in webpagina’s + nu ook Yandex 121
  118. 118. de concepten uit de good relations ontology zijn recent ook in schema.org geïncorporeerd door Google, Bing en Yahoo vastgelegde standaard: microdata met hiërarchie van embeddable metadata kenmerken voor het web
  119. 119. microdata en RDFa • toepassing van deze technieken is vaak "SEO-driven" • Google biedt webmasters "Structured data testing tool" dat fouten in codering detecteert zie blogpost op SearchEngineLand http://searchengineland.com/how -to-use-rich-snippets-semantic- markup-to-send-rich-signals- 139886 123 Eric Sieverts, IBW-UA, 4-4-2014
  120. 120. Eric Sieverts, IBW-UA, 4-4-2014 wat heeft zoeker hieraan? • zoeker kan gerichter zoeken en filteren (zoals in Google's receptenzoeker) • zoeker krijgt duidelijker informatie over gevonden items (zoals Google's rich snippets)
  121. 121. in semantisch web wordt van "alles" de betekenis vastgelegd semantisch web om betekenis ook te kunnen begrijpen zijn "ontologieën" nodig 125 Eric Sieverts, IBW-UA, 4-4-2014
  122. 122. Originally from: http://www.emiliosanfilippo.it/?page_id=1172 ontologieën
  123. 123. ontologieën "Ontology is the philosophical study of the nature of being, becoming, existence, or reality, as well as the basic categories of being and their relations" Wikipedia filosofie kunstmatige intelligentie semantisch web 127 linked (open) data Eric Sieverts, IBW-UA, 4-4-2014
  124. 124. ontologieën "een strikt en uitputtend schema voor een bepaald onderwerpsdomein, meestal in een hiërarchische structuur, die alle relevante grootheden en hun relaties bevat, alsmede de regels waaraan die grootheden en relaties binnen dat domein voldoen" "kennis-representatie“ waarin kennis over (klein stukje van) de wereld in geformaliseerde vorm is weergegeven en die vollediger en meer complexe representatie van de werkelijkheid mogelijk maakt dan bijv. een thesaurus filosofie kunstmatige intelligentie semantisch web 128 linked (open) data Eric Sieverts, IBW-UA, 4-4-2014
  125. 125. ontologieën elk soort kennisorganisatiesysteem waarmee betekenis beschreven kan worden, zoals • "echte" ontologieën • thesauri • taxonomieën • semantische netwerken • namenlijsten • concordanties • … filosofie kunstmatige intelligentie semantisch web 129 linked (open) data schema.org is ook simpele vorm hiervan Eric Sieverts, IBW-UA, 4-4-2014
  126. 126. ontologieën "conceptuele datamodellen" voor allerlei domeinen, zoals • foaf (persoonsgegevens) • dublin core (15 velden voor vooral erfgoed) • good-relations ontology (e-commerce) • music ontology (muziek) • skos (thesaurusrelaties) • cidoc-crm (erfgoed) definities van "velden", klassen van eigenschappen, e.d., meestal niet van hun inhouden filosofie kunstmatige intelligentie semantisch web 130 linked (open) data Eric Sieverts, IBW-UA, 4-4-2014
  127. 127. voorbeeld van de relaties tussen concepten m.b.t. het standbeeld van Balzac door Rodin [CIDOC-CRM] 131
  128. 128. 132
  129. 129. voorbeeld hoe diverse semantische standaarden (ontologieën) via RDF werden gecombineerd vroeger veel gebruikte standaarden voor beschrijvingselementen: • v: vcard • mo: music ontology • foaf: friend of a friend • owl: web ontology language • geo maar worden nu algemeen vervangen door schema.org 133 oud
  130. 130. ontologieën voor “ontologieën” in het kader van semantisch web en linked data is essentieel dat: – ontologie zo beschikbaar is dat een computer-programma hem kan lezen, verwerken en interpreteren → vereist gestandaardiseerde notaties en formele talen om ze te beschrijven, zoals • rdf • rdfs • owl • skos • … 134 Eric Sieverts, IBW-UA, 4-4-2014
  131. 131. fragment uit het linked data VIAF-record voor Hugo Brandt Corstius viaf.org/viaf/94439179/rdf.xml 135
  132. 132. Eric Sieverts, IBW-UA, 4-4-2014 linked data in worldcat 136
  133. 133. we've come a long way van informatieschaarste naar informatieoverload van gespecialiseerde bestanden naar universele zoeksystemen van complexe commandotalen naar systemen die onze vragen begrijpen maar : - informatievaardige kritische gebruikers blijven nodig - "there will always be a place for 10 blue links" 137 Eric Sieverts, IBW-UA, 4-4-2014
  134. 134. foto: Jan-Jaap Heine
  1. A particular slide catching your eye?

   Clipping is a handy way to collect important slides you want to go back to later.

  ×