Ut og vaske poster – FRBRisering i Podeprosjektet     Anne­Lena Westrum, Deichmanske bibliotek, Digitalt bibliotek     Tro...
Tilgang til egne katalogdata                               Iguanasan ­ by­nc­nd
Bedre brukeropplevelse
Sette brukeren i sentrum og  alltid gi brukeren treff og          veier videre
Ingen metadata – Ingen tjenester!                              Iguanasan ­ by­nc­nd
MARC; snart 50 år og godt  over middagshøyden?
Fokus!
Metadata is King!                    Slices of Light ­ by­nc­nd
Trefflistene er et problem –           uansett
FRBR og verkspresentasjon     Knut Hamsun fra 587 til  38
FRBR og FRBRisering FRBR‐modellen   Modell av entiteter, relasjoner og attributter som er av    interesse for sluttbrukere...
FRBRisering eksperiment Deichmanske og IDI, NTNU Institutt for datateknikk og inf. vitenskap   Startet med eksperimentell ...
Hva vi var interessert i (til slutt) Hvilke entiteter og relasjoner kan vi systematisk  trekke ut av MARC dataene? Hva er ...
Litt om verktøyet for frbrisering XSLT‐basert konvertering av MARC‐poster   MARC‐poster i XML som input   Produserer FRBR‐...
FRBR­modellen i praksis                         Verk om                         HamsunVerk av HamsunForskjellige uttrykk  ...
Litt mer avanserte                            Samlede verker hvor enkeltbindene                            inneholder 1 el...
Første runde med FRBRisering Vi tok for oss 4 forskjellige test‐samlinger   Knut Hamsun, Per Petterson,    J.R.R. Tolkien,...
Resultat fra første rundeVerk av Petterson  Ut og stjæle hester  Til Sibir  I kjølvannet  Jeg forbanner tidens elv  Det er...
Hamsun (et lite utvalg)                      Generelt et dårlig resultat                                      Bedre utnytt...
For mange verk Verk identifiseres med forfatter + tittel  Hvis 240 ikke finnes i posten brukes 245 Generelle problemer   O...
For få verk(fra biinnførslene) Vanskelig å vite hvordan biinnførslene skal tolkes    Novellesamlinger med 700‐innf. for no...
Andre utfordringer Uttrykk   Språk og formkode for å identifisere uttrykk   Ingen egne titler for uttrykkene (vanskelig å ...
Runde 2 Mulighet for bedre resultat med bedre data! Valgte å jobbe videre med Hamsun og Petterson Redigering av postene   ...
Hva som ble rettet i posteneTall fra Hamsun­fila (842 poster) Endring av språkkoder i noen få poster (5) La til 240$a (85)...
Videre… Mer systematisk/konsekvent bruk av 700/740   740 der alle titler har samme forfatter (i 100)   Samme skriveform i ...
Litt statistikk for Hamsun
Litt statistikk for Petterson
Resultatet etter andre runde Færre ”feil” verk   Fordi det var mulig å ekskludere ikke‐verks titler   Fordi det fantes 240...
Konklusjon FRBR‐modellen stiller nye krav   Til MARC‐formatet, katalogiseringsreglene, data Paradokset er at informasjonen...
RDF I et RDF‐datasett uttrykkes all informasjon i  form av tripler En trippel er et utsagn som består av tre deler: – En i...
Alle instanser og egenskaper uttrykkes som   unike identifikatorer (URI)<http://.../Amund> <http://.../liker> <http://.../...
Vokabularer Core FRBR Dublin Core Metadata Terms Bibo ~ Bibliographic ontology FOAF ~ Friend of a friend SKOS ~ Simple Kno...
work:Hamsun_Knut_i_aeventyrland a       frbr:Work;   dct:title            """I Æventyrland""" ;   pode:subtitle        """...
SPARQL Spørrespråk for RDF‐data SELECT ?document WHERE {     ?document dct:creator person:Hamsun_Knut . } SELECT ?person W...
SELECT ?translator ?title WHERE {      ?document dct:language lexvo:nld ;             dct:title ?title ;             bibo:...
Hvilke oversettere har oversatt norske bøker til nederlandsk?Hvilke språk er Knut Hamsuns romaner utgitt på?Hvilke norske ...
http://bibpode.no/linkedauthors
Forarbeid og arbeid   – veien til FRBR     Hamsun og Petterson
*100 0$aHamsun, Knut$d1859-1952$jn.*24500$aLivsfragmenter$bni noveller$cKnut Hamsun ; samlet, redigert og kommentertav Lar...
Verksautoritetsregister?      – Nasjonalt!
Mer fokus på detaljer!
Flere må med!
Podes ønskeliste Åpen dokumentert tilgang til alle  katalogdata Et moderne metadataformat som er åpent  og fleksibelt Nasj...
www.bibpode.no/blogg
Ut og vaske poster - FRBRisering i Podeprosjektet
Upcoming SlideShare
Loading in …5
×

Ut og vaske poster - FRBRisering i Podeprosjektet

1,551 views

Published on

Presentasjon på KORG-dagene 2011, Høgskolen i Oslo.

http://www.hio.no/Enheter/Avdeling-for-journalistikk-bibliotek-og-informasjonsfag/Konferanser/Kunnskapsorganisasjonsdagene-2011

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
1,551
On SlideShare
0
From Embeds
0
Number of Embeds
534
Actions
Shares
0
Downloads
2
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Ut og vaske poster - FRBRisering i Podeprosjektet

  1. 1. Ut og vaske poster – FRBRisering i Podeprosjektet Anne­Lena Westrum, Deichmanske bibliotek, Digitalt bibliotek Trond Aalberg, NTNU Asgeir Rekkavik, Deichmanske bibliotek, Voksenavdelingen Anne Karine Sandberg, Deichmanske bibliotek, Katalogavdelingenhttp://www.bibpode.no // Twitter: @podeprosjekt
  2. 2. Tilgang til egne katalogdata Iguanasan ­ by­nc­nd
  3. 3. Bedre brukeropplevelse
  4. 4. Sette brukeren i sentrum og  alltid gi brukeren treff og  veier videre
  5. 5. Ingen metadata – Ingen tjenester! Iguanasan ­ by­nc­nd
  6. 6. MARC; snart 50 år og godt  over middagshøyden?
  7. 7. Fokus!
  8. 8. Metadata is King! Slices of Light ­ by­nc­nd
  9. 9. Trefflistene er et problem – uansett
  10. 10. FRBR og verkspresentasjon Knut Hamsun fra 587 til  38
  11. 11. FRBR og FRBRisering FRBR‐modellen Modell av entiteter, relasjoner og attributter som er av  interesse for sluttbrukere av bibl. informasjon Litt ny tankegang, litt opprydding i terminologi, men det  mest vesentlige er kanskje en ”formell” modell FRBRisering Populær term i prosjekter hvor vi prøver å tolke eller  konvertere eksisterende bibliografisk informasjon i  henhold til FRBR‐modellen
  12. 12. FRBRisering eksperiment Deichmanske og IDI, NTNU Institutt for datateknikk og inf. vitenskap Startet med eksperimentell konvertering av BIBSYS Og har jobbet med dette i andre prosjekter seinere Deichmanske Pode‐prosjektet generelt interessert i FRBR og muligheten  for FRBRisering av egne data Ble enige om å sammen prøve ut en FRBRisering av noen eksempler fra Deichmans katalog
  13. 13. Hva vi var interessert i (til slutt) Hvilke entiteter og relasjoner kan vi systematisk  trekke ut av MARC dataene? Hva er kvaliteten på resultatet? Hva er vesentlige årsaker til dårlig resultat? Hvilke begrensinger og/eller problemer gir  dagens bruk av MARC‐formatet og dagens  katalogiseringspraksisen?
  14. 14. Litt om verktøyet for frbrisering XSLT‐basert konvertering av MARC‐poster MARC‐poster i XML som input Produserer FRBR‐poster i XML som output En post for hver unike entitet (person, verk, uttrykk, ..) Med lenker for relasjonene Bruker en database med regler for hvilke entiteter og  relasjoner som skal opprettes under hvilke betingelser Automatisk generering av selv XSLT‐fila som konverterer Kan tilpasses et hvilket som helst MARC format – krever bare at du  lager reglene for å tolke formatet
  15. 15. FRBR­modellen i praksis Verk om HamsunVerk av HamsunForskjellige uttrykk Verk basert påOversettere, innlesere verk av Hamsun
  16. 16. Litt mer avanserte Samlede verker hvor enkeltbindene inneholder 1 eller flere romaner Bind 1: Sult Bind 4: Pan, Victoria Bind 6: Rosa, BenoniNovellesamlingerEn eller flere forfattere Essay‐samlinger som hver  har separate Hamsun‐verk  som emne
  17. 17. Første runde med FRBRisering Vi tok for oss 4 forskjellige test‐samlinger Knut Hamsun, Per Petterson,  J.R.R. Tolkien, William Shakespeare Laget en HTML‐basert presentasjon av resultatet  og hadde manuell evaluering Resultatet var egentlig som forventet, og inneholdt  ”mye rart”
  18. 18. Resultat fra første rundeVerk av Petterson Ut og stjæle hester Til Sibir I kjølvannet Jeg forbanner tidens elv Det er greit for meg Egentlig ikke så ille….. ‐ men det mangler mange noveller  Aske i munnen, sand i skoa ‐ og noen verk er feil Confesiunile unei femei visatoare Ekkoland Fuori a rubar cavalli Kielzog Månen over Porten Til Sibiru V Sibir!
  19. 19. Hamsun (et lite utvalg) Generelt et dårlig resultat Bedre utnyttelse av biinførsler Basaren siden vi kunne spesialbehandle  Benoni ”samlede verker) Benoni og Rosa Benoni. Rosa Men også mange feilkilder Bjørger Blant dyr Brev til Marie Børn av tiden Dagboksblad Damen fra tivoli Das Sausen und Waldes; [Gedichte] Den gaadefulde Den gåtefulle Den sidste glæde Den siste glede Den siste glæde Det vilde kor Det vilde kor og andre dikt Det vilde kor, og andre dikte
  20. 20. For mange verk Verk identifiseres med forfatter + tittel  Hvis 240 ikke finnes i posten brukes 245 Generelle problemer Oversettelser som mangler 240 Forskjellig skriveform (eller skrivefeil)  i 240 / 245 titler   Titler i 240 /245 som ikke er verk
  21. 21. For få verk(fra biinnførslene) Vanskelig å vite hvordan biinnførslene skal tolkes Novellesamlinger med 700‐innf. for novelle‐titlene Filmer med 700‐innf. for romanen filmen er basert på Er en 740‐tittel en alternativ skriveform eller et  eget uttrykk/verk? Hvis innholdet er beskrevet med 700/740  hvordan skal vi da tolke 240/245 titler og hvilke  relasjoner finnes? Kollektiv tittel som ikke er verk (Samlede verker) Eller eget verk  (Norske perler i prosa)
  22. 22. Andre utfordringer Uttrykk Språk og formkode for å identifisere uttrykk Ingen egne titler for uttrykkene (vanskelig å velge) Relasjoner Mange varianter av samme funksjonskode ”M:N” – problematikk Emner Titler i emneinnførsler er på norsk selv om org. tittel er på annet språk
  23. 23. Runde 2 Mulighet for bedre resultat med bedre data! Valgte å jobbe videre med Hamsun og Petterson Redigering av postene Retting av titler, legge til orginaltitler etc. Bruke indikatorer for titler som identifiserer verk Nye regler for konverteringen Ny kjøring og nytt resultat
  24. 24. Hva som ble rettet i posteneTall fra Hamsun­fila (842 poster) Endring av språkkoder i noen få poster (5) La til 240$a (85) og rettet skriveform (24) Rette skrivefeil eller ISBD‐syntaks i 245$a (6) Endre første indikator i 245 slik at denne viser om  245‐tittel er verk eller ikke Etter redigeringen er det 113 færre 245‐felt som skal  tolkes som verk
  25. 25. Videre… Mer systematisk/konsekvent bruk av 700/740 740 der alle titler har samme forfatter (i 100) Samme skriveform i 740 som man ville brukt i 240 Systematisk bruk av andre indikator i 700/740 for  å synliggjøre om dette er et eget verk Stor antall endringer (vanskelig å tallfeste)
  26. 26. Litt statistikk for Hamsun
  27. 27. Litt statistikk for Petterson
  28. 28. Resultatet etter andre runde Færre ”feil” verk Fordi det var mulig å ekskludere ikke‐verks titler Fordi det fantes 240‐titler der det var nødvendig Flere ”riktige” verk Fordi det var mulig å bruke titler i 700 og 740 riktig I tillegg var det mye enklere å lage regler Men fortsatt er det mye informasjon i postene som er  vanskelig å tolke automatisk
  29. 29. Konklusjon FRBR‐modellen stiller nye krav Til MARC‐formatet, katalogiseringsreglene, data Paradokset er at informasjonen finnes i postene,  men er vanskelig å tolke automatisk Enkelt å forstå en og en post  Men vanskelig å lage regler for å tolke alle Forsøket viser at MARC‐data kan bli bedre Noen utfordringer krever mer drastiske endringer
  30. 30. RDF I et RDF‐datasett uttrykkes all informasjon i  form av tripler En trippel er et utsagn som består av tre deler: – En instans (subjekt) – En egenskap (predikat) – En verdi (objekt) Amund liker sjokolade
  31. 31. Alle instanser og egenskaper uttrykkes som  unike identifikatorer (URI)<http://.../Amund> <http://.../liker> <http://.../sjokolade>person:Amund mat:liker mat:sjokoladework:sult dct:creator person:Hamsun_Knut
  32. 32. Vokabularer Core FRBR Dublin Core Metadata Terms Bibo ~ Bibliographic ontology FOAF ~ Friend of a friend SKOS ~ Simple Knowledge Organisation System
  33. 33. work:Hamsun_Knut_i_aeventyrland a frbr:Work; dct:title """I Æventyrland""" ; pode:subtitle """oplevet og drømt i Kaukasien""" ; dct:creator person:Hamsun_Knut ; pode:firstEdition "1903"^^xsd:int ; pode:classification pode:ddk_914_75 ; frbr:realization pode:26062446bee37b78d52bab7ae85c6526 ; frbr:realization pode:9bc949c17cdb23d53c7fe0f4c89521e1 ; frbr:realization pode:5933c37527c20cb56811c57e87027e95 ; frbr:realization pode:754e9a14038da8a2bb131b698c0c5a7e ; frbr:realization pode:c06e5d491d9085af9ab812154551ffa2 ; owl:sameAs dbpedia:In_Wonderland .
  34. 34. SPARQL Spørrespråk for RDF‐data SELECT ?document WHERE { ?document dct:creator person:Hamsun_Knut . } SELECT ?person WHERE { doc:tnr_0765432 dct:creator ?person . } SELECT ?property WHERE { doc:tnr_654321 ?property person:Bjerke_Andre . }
  35. 35. SELECT ?translator ?title WHERE { ?document dct:language lexvo:nld ; dct:title ?title ; bibo:translator ?translator dct:creator ?creator . ?creator dbprop:nationality dbpedia:Norway .}
  36. 36. Hvilke oversettere har oversatt norske bøker til nederlandsk?Hvilke språk er Knut Hamsuns romaner utgitt på?Hvilke norske forlag har gitt ut bøker om hinduismen?Hvilke emner omhandles i nynorske romaner på mindre enn 250 sider?Hvilke romaner, skrevet av kvinnelige forfattere fra land med muslimsk majoritet, er utgitt på norsk?
  37. 37. http://bibpode.no/linkedauthors
  38. 38. Forarbeid og arbeid  – veien til FRBR Hamsun og Petterson
  39. 39. *100 0$aHamsun, Knut$d1859-1952$jn.*24500$aLivsfragmenter$bni noveller$cKnut Hamsun ; samlet, redigert og kommentertav Lars Frode Larsen*260 $aOslo$bGyldendal$c1988*300 $a147 s.*500 $aNoveller publisert 1884-1906 i aviser og periodika*505 $aInnhold: Et livsfragment ; På tourné ; Synd ; Mod jul ; Småbyliv ; Natteranglere ;Mit reisefølge ; Onde dage ; På klinik.*599 $axAgnar0312*700 $aLarsen, Lars Frode$d1948-$jn.$eRed.$312753600*740 0$aOnde dager*740 0$aPå klinikk*740 0$aPå turné*740 2$aEt livsfragment*740 2$aMit reisefølge*740 2$aMod jul*740 2$aNatteranglere*740 2$aOnde dage*740 2$aPaa klinik*740 2$aPaa tourné*740 2$aSmaabyliv*740 2$aSynd
  40. 40. Verksautoritetsregister? – Nasjonalt!
  41. 41. Mer fokus på detaljer!
  42. 42. Flere må med!
  43. 43. Podes ønskeliste Åpen dokumentert tilgang til alle  katalogdata Et moderne metadataformat som er åpent  og fleksibelt Nasjonalt autoritetsregister og åpne,  nasjonale unike ID­er for verk og forfattere
  44. 44. www.bibpode.no/blogg

×