<foaf:Person rdf:ID="me"><foaf:name>Stian Danenbarger</foaf:name><foaf:givenname>Stian</foaf:givenname><foaf:family_name>D...
"semantisk"
RE - SEARCH ?
maskinell informasjonsekstrahering
Securities              Ship                                    Indiasecurities   94.96324   ship        109.41212        ...
technorati.com/tag/<tag>…:•   ”hovefestivalen”: 113 bloggposter, 739 bilder•   ”hovefestivalen08”: 27 bloggposter, 20 bild...
"semantisk"
Identity
Reference
Expressivity                                                              RDF /                                           ...
Meningsfylte sammenstillinger forutsetter deltsemantikk…
”Nye          ”Jeg vet                                                     sammenhenger           hva jeg                 ...
Atom/RSS (inkl. podcasts)                                           SMS/MMS                                           IM/X...
”   In some sense when people come toGoogle, that’s exactly what they’re asking   for — our editorial judgment. They’reexp...
Tom Coates, Yahoo: ”The web as it was”…
Tom Coates, Yahoo: ”Web of the future?”
<foaf:Person rdf:ID="me"><foaf:name>Stian Danenbarger</foaf:name><foaf:givenname>Stian</foaf:givenname><foaf:family_name>D...
"Maskiner som leser" (Nordic Research 2011)
"Maskiner som leser" (Nordic Research 2011)
"Maskiner som leser" (Nordic Research 2011)
"Maskiner som leser" (Nordic Research 2011)
"Maskiner som leser" (Nordic Research 2011)
"Maskiner som leser" (Nordic Research 2011)
"Maskiner som leser" (Nordic Research 2011)
"Maskiner som leser" (Nordic Research 2011)
"Maskiner som leser" (Nordic Research 2011)
"Maskiner som leser" (Nordic Research 2011)
"Maskiner som leser" (Nordic Research 2011)
"Maskiner som leser" (Nordic Research 2011)
"Maskiner som leser" (Nordic Research 2011)
"Maskiner som leser" (Nordic Research 2011)
"Maskiner som leser" (Nordic Research 2011)
"Maskiner som leser" (Nordic Research 2011)
"Maskiner som leser" (Nordic Research 2011)
"Maskiner som leser" (Nordic Research 2011)
"Maskiner som leser" (Nordic Research 2011)
"Maskiner som leser" (Nordic Research 2011)
"Maskiner som leser" (Nordic Research 2011)
"Maskiner som leser" (Nordic Research 2011)
"Maskiner som leser" (Nordic Research 2011)
"Maskiner som leser" (Nordic Research 2011)
"Maskiner som leser" (Nordic Research 2011)
"Maskiner som leser" (Nordic Research 2011)
"Maskiner som leser" (Nordic Research 2011)
"Maskiner som leser" (Nordic Research 2011)
"Maskiner som leser" (Nordic Research 2011)
"Maskiner som leser" (Nordic Research 2011)
"Maskiner som leser" (Nordic Research 2011)
"Maskiner som leser" (Nordic Research 2011)
Upcoming SlideShare
Loading in …5
×

"Maskiner som leser" (Nordic Research 2011)

460 views
430 views

Published on

Presentation (in Norwegian) on semantic technology for a non-technical audience of journalists and journalistic researchers, made for the bi-annual Nordic research conference in Oslo, Oct 2011 (http://nordresearch.wordpress.com/).

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
460
On SlideShare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
1
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide
  • «Worldwide Information Growth Ticker» fra http://www.emc.com/leadership/programs/digital-universe.htm
  • Lisens: http://creativecommons.org/licenses/by-sa/3.0/no/ (for alle deler av presentasjonen der jeg selv er opphavsmann. Alle skjermbilder, foto og video har tredjepartsopphav, og omfattes derved ikke av dette)
  • Eksempel 1a: LMK.com (Hearst Corp), temasentriske nyheter og personalisering for mobil og ipad
  • Eksempel 1b: Kategoriseringsteknologien bak LMK.com (evri.com)
  • Eksempel 2a: «Menneskelesbar» HTML-artistside på BBC Music (BBC)http://www.bbc.co.uk/music/artists/e20747e7-55a4-452e-8766-7b985585082d
  • Eksempel 2a: «Maskinlesbar» utgave av samme artistside på BBC Music (BBC)http://www.bbc.co.uk/music/artists/e20747e7-55a4-452e-8766-7b985585082d.rdf
  • Eksempel 3: Åpent tilgjengelig tjeneste som gjenkjenner entiteter (personer, organisasjoner, steder) og relasjoner i tekst (Thomson Reuters)http://www.opencalais.com/http://semanticproxy.com/
  • «semantisk» i denne sammenhengen = hva en tekst handler om
  • De foregående eksemplene koster mye penger…
  • Hvorfor investerer disse organisasjonene så mye penger i teknologi «ingen» har hørt om?
  • Kanskjenoen hint her…?2 Exabytes: volume of information generated in 1999. 30 % progression per year -&gt; doubling time 2,3 yrs (100*ln2/30)-&gt; Exponensiellvekst….!Exabyte (EB) 1 000 000 000 000 000 000 (10^18) bytes
  • Kanskjenoen hint her…?Video: http://www.youtube.com/watch?v=iIKPjOuwqHoBasertpå:Martin Hilbert &amp; PriscilaLópez (2011). The World&apos;s Technological Capacity to Store, Communicate, and Compute Information. Science, 332(6025), 60-65.http://http://www.sciencemag.org/content/332/6025/60 (accessible throughhttp://www.martinhilbert.net/WorldInfoCapacity.html)It was conceptualized, produced, and animated by Martin Hilbert, Gavin Wright, Stuart Allan, and Dan St. Pierre (www.proof-inc.com), with the support from The Economist and USC&apos;s Annenberg School of Communication.
  • MerbakgrunnWashington Post: “Rise of the digital information age”http://www.washingtonpost.com/wp-dyn/content/graphic/2011/02/11/GR2011021100614.htmlMengdenanalogtlagretinformasjonavtar10 TB: The print collections of the U.S. Library of Congress. Terabyte (TB) 1 000 000 000 000 (10^12) bytes 200 Petabytes: All printed material. Petabyte (PB) 1 000 000 000 000 000 (10^15) bytes
  • Konsekvens: Bruksmønstre i endring!Mer og mertidpåmedier og informasjonhttp://www.thewrap.com/media/column-post/people-spend-more-12-day-consuming-media-study-finds-21005…men relativt lite avdettepånyheter, og mindre og mindrepåtradisjonelleplattformer…! http://www.people-press.org/2010/09/12/americans-spending-more-time-following-the-news/
  • I en oppmerksomhetsøkonomi -&gt;Forretningsmodeller i endring!Fylle behov =&gt; god økonomi
  • Konsekvens for researchere: Overveldendeomfang!30 Megabytes: 30 cm of shelved books memorized information/year by an expert Megabyte (MB) 1 000 000 (10^6) bytes 2 Kilobyte (KB) 2 000 bytes: A Typewritten page. 10 TB: The print collections of the U.S. Library of Congress. Terabyte (TB) 1 000 000 000 000 (10^12) bytes 200 Petabytes: All printed material. Petabyte (PB) 1 000 000 000 000 000 (10^15) bytes 2 Exabytes: volume of information generated in 1999. 30 % progression per year Exabyte (EB) 1 000 000 000 000 000 000 (10^18) byteshttp://www.sxc.hu/photo/324541
  • Verktøy for research«Anvendt datalingvistikk»(Jigsaw, Georgia Tech, USA)
  • EntitetsgjenkjenningKonsepter og relasjonerAutokategorisering/-autoklassifikasjon (modelldrevet)textUrgy (Norge)
  • Autokategorisering/-klassifikasjon (datadrevet)(Recommind, USA/Tyskland)
  • DisambigueringProblemet med tagging (fra technorati.com)
  • Visualisering (personer, organisasjoner, steder, tema)Silobreaker (Sverige)
  • TrendanalyseVisualiseringSilobreaker (Sverige)
  • «Lytte» på sosiale medier:Løpende analyse av positive og negative holdninger (sentiment)Eksempel fra Twitter under TV-debattene ifb valget i StorbritanniaLinguamatics (UK)
  • Tilbake til «semantikk» – litt mer inngående
  • Semantisk teknologi: Du slipper å lete etter «nåler i høystakken» – får entitetene (personer, organisasjoner, steder, tema, …) «servert» i strukturert (maskinprosesserbar) formhttp://www.stockxpert.com/browse_image/view/404665
  • …Ikke bare entiteter, men også sammenhengene («relasjonene») mellom dem…http://www.stockxpert.com/browse_image/view/33052791
  • Med åpne modeller kan mange små strukturer sammenstilles til store, sammenhengende strukturer
  • Det finnes allerede et omfattende «økosystem» av åpne, semantiske modeller («Linked Open Data») som referer til hverandre.«Kulene» i diagrammet over representerer modeller, og størrelsen antyder omfanget av publiserte data.«DBPedia» (midten) er en tjeneste som tilgjengelliggjør strukturert informasjon som er ekstrahert fra Wikipedia – et naturlig nav.Wikipedia-artikler består for det meste av tekst, men de inneholder også strukturert informasjon, for eksempel informasjonsbokser, tabeller, kategorier, geografiske koordinater og eksterne henvisninger til informasjon utenfor Wikipedia (eksterne lenker). Disse informationene kan ekstraheres og benyttes som datagrunnlag for mer kompliserte forespørsler. I november 2010 hadde DBpedia 3,4 millioner data-sett med mer enn en milliard enkeltdata
  • For de mer teknisk orienterte:Teknologien og standardene for sammenstilling («informasjonsintegrasjon») og utvekslinghar blitt etablert på under 20 år, helt opp til og med semantikklaget, som er temaet i dag.Vi har ennå en jobb å gjøre rundt nivåene over («pragmatikk» knytter seg for eksempel til vår evne til å tolke mening ut fra kontekst, dvs. ikke ordrett)…Videoen jeg nå skal vise, illustrerer likevel godt hvor langt vi er kommet.(fig.: Michael Bergman)
  • Watson er etdatasystem utviklet som et ledd i IBMs såkalte DeepQA prosjekt.I 2011konkurrerte Watson på quiz-showetJeopardy!I en tre-episoders match slo Watson mestrene Brad Rutter, som har vunnet mest penger noensinne i Jeopardy!, og Ken Jennings, som har innehatt mestertittelen lengst.Video:http://www.youtube.com/watch?v=WFR3lOm_xhEWatson hadde problemer med å svare på noen få kategorier, særlig de som bare inneholdt noen få ord. For hver ledetråd vises Watsons tre mest sannsynlige svar på TV-skjermen. Watson hadde tilgang til 200 millioner sider strukturert og ustrukturert innhold (blant annet gjennom det nevnte «økosystemet» av åpne, semantiske modeller) gjennom sine fire terabyte med diskplass, inkludert den fullstendige teksten i Wikipedia, og var ikke koblet til Internett i løpet av spillet.
  • Watson-teknologi er ennå ikke tilgjengelig for «folk flest», menVåren 2010 kjøpte Apple Siri (siri.com), som kan gi en liten pekepinn om liknende muligheter framover.En tidlig versjon er tilgjengelig via iPhone 4S.
  • CTO i Siri, Tom Gruber, er kjent i sematikkmiljøet, bl.a. for sin definisjon av begrepet «ontologi».
  • Nevnte endrede brukerbehov i starten…Brukerbehov – overordnet
  • Silobreaker forsøker å besvare behovet automatisk, menstøter på et fundamentalt problem med nyheter i dag…
  • Rapport for Associated Press i 2008: http://www.ap.org/newmodel.pdfIntervjuobjektene savner utdypinger, forklaringer, helhet og sammenhengNyhetene settes for lite i kontekst, framstår fragmentertLiten eller ingen lenking til mer infoBrukerne søker rundt etter mer utdypende info, finner bare mer av det samme
  • Nettstedslogger viser at brukere beveger seg raskt rundt, og skanner myeHar gitt opphav til myten om brukerne som «gullfisk» med null konsentrasjonsevne…Men mye nyhetstekst er bakgrunnsstoff eller gjentakelse, og dette kunne vært bedre tilpasset web’ens premisser…Fig.:Jonathan Stray (AP) http://jonathanstray.com/short-doesnt-mean-shallow
  • HistoriefortellingPå web’ens premisserFig.:Jonathan Stray (AP) http://jonathanstray.com/short-doesnt-mean-shallow
  • Ikke grunt – «uendelig» dypt – med lenking til relevant info på andre nettstederFig.:Jonathan Stray (AP) http://jonathanstray.com/short-doesnt-mean-shallow
  • Hele systemet endrer segFra industrisamfunnets «push» til informasjonssamfunnets «pull» - og bruksmønstrene på web’en er et godt eksempelhttp://www.johnhagel.com/paper_pushpull.pdfhttp://www.edgeperspectives.com/pop.htmlOppsummert: http://www.edgeperspectives.typepad.com/edge_perspectives/2005/10/from_push_to_pu.html
  • Algoritmer som redaktører?http://jonathanstray.com/the-editorial-search-engine
  • Om redaktørens (og researcherens) rolle:Kan nyhetene suppleres med research-materiale ogkunnskapen i et nyhetsrom,som skaper helhet og sammenheng?(-&gt; Fokusere mindre på forside, layout?)Semantiske modeller er skapt for dette (men krever gode verktøy)!(figur: AP)
  • Digitaliseringen av informasjon har endret verden mye på kort tid-&gt; krever systemiske endringer som allerede er i gang
  • …Og min påstand er at semantisk teknologi er en del av nøkkelen…! 
  • Mer om Watson
  • "Maskiner som leser" (Nordic Research 2011)

    1. 1. <foaf:Person rdf:ID="me"><foaf:name>Stian Danenbarger</foaf:name><foaf:givenname>Stian</foaf:givenname><foaf:family_name>Danenbarger</foaf:family_name><foaf:mbox rdf:resource="mailto:stian@bouvet.no"/><foaf:homepage rdf:resource="http://twitter.com/stidan"/><foaf:workplaceHomepage rdf:resource="http://www.bouvet.no"/></foaf:Person>"MASKINER SOM LESER"
    2. 2. "semantisk"
    3. 3. RE - SEARCH ?
    4. 4. maskinell informasjonsekstrahering
    5. 5. Securities Ship Indiasecurities 94.96324 ship 109.41212 india 91.74842firm 88.74591 coast 93.70902 singh 50.34063drexel 78.33697 guard 82.11109 militants 49.21986investment 75.51504 sea 77.45868 gandhi 48.86809bonds 64.23486 boat 75.97172 sikh 47.12099sec 61.89292 fishing 65.41328 indian 44.29306bond 61.39895 vessel 64.25243 peru 43.00298junk 61.14784 tanker 62.55056 hindu 42.79652milken 58.72266 spill 60.21822 lima 41.87559firms 51.26381 exxon 58.35260 kashmir 40.01138investors 48.80564 boats 54.92072 tamilnadu 39.54702lynch 44.91865 waters 53.55938 killed 39.47202insider 44.88536 valdez 51.53405 indias 39.25983shearson 43.82692 alaska 48.63269 punjab 39.22486boesky 43.74837 ships 46.95736 delhi 38.70990lambert 40.77679 port 46.56804 temple 38.38197merrill 40.14225 hazelwood 44.81608 shining 37.62768brokerage 39.66526 vessels 43.80310 menem 35.42235corporate 37.94985 ferry 42.79100 hindus 34.88001burnham 36.86570 fishermen 41.65175 violence 33.87917 (Sample aspect lists from AP data, 100-Aspect Model)
    6. 6. technorati.com/tag/<tag>…:• ”hovefestivalen”: 113 bloggposter, 739 bilder• ”hovefestivalen08”: 27 bloggposter, 20 bilder• ”hove+’08”: 19 bloggposter, 280 bilder• ”hovefestival”: 14 bloggposter, 282 bilder• ”hove”: 68 norske bloggposter, ? bilder• ”haga”: 47 norske (og svenske) bloggposter, 2300 bilder• ”hagasaken”: 0 bloggposter, 0 bilder• ”Åslaug+Haga”: 26 norske bloggposter, 1 bilde• ”Aslaug+Haga”: 4 norske bloggposter, 0 bilder
    7. 7. "semantisk"
    8. 8. Identity
    9. 9. Reference
    10. 10. Expressivity RDF / Topic Maps Taxonomies, thesauri Flat list, tags No model Closed model Open model
    11. 11. Meningsfylte sammenstillinger forutsetter deltsemantikk…
    12. 12. ”Nye ”Jeg vet sammenhenger hva jeg mellom…” ser etter…” ”Alt nytt om…”(Gjen)finne Forstå Følge med ”Oversikten ”Sammenhengen over…” mellom…”
    13. 13. Atom/RSS (inkl. podcasts) SMS/MMS IM/XMPP ”Abonnere Epost Kalendersynk. på et søk!” … • Registrering • “Discovery” • Notifikasjon • “Trust metrics” • Indeksering • Filtrering • Aggregering • Abonnement • Dele • Finne Indeks • Sammenstille • TilgjengeliggjørePRODUSENT MEDIATOR KONSUMENT
    14. 14. ” In some sense when people come toGoogle, that’s exactly what they’re asking for — our editorial judgment. They’reexpressed via algorithms. When someone comes to Google, the only way to be neutral is either to randomize the links or to do it alphabetically – Matt Cutts, Google, til Wired 3. mars 2011
    15. 15. Tom Coates, Yahoo: ”The web as it was”…
    16. 16. Tom Coates, Yahoo: ”Web of the future?”
    17. 17. <foaf:Person rdf:ID="me"><foaf:name>Stian Danenbarger</foaf:name><foaf:givenname>Stian</foaf:givenname><foaf:family_name>Danenbarger</foaf:family_name><foaf:mbox rdf:resource="mailto:stian@bouvet.no"/><foaf:homepage rdf:resource="http://twitter.com/stidan"/><foaf:workplaceHomepage rdf:resource="http://www.bouvet.no"/></foaf:Person>

    ×