Metadatahøsting

519 views
485 views

Published on

En presentasjon for UBiT. Oversikt over metadatahøsting (metadata harvesting), med spesiell vekt på bruksområdet søkeportal. Spesiell omtale av OAI-PMH.

Published in: Education
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
519
On SlideShare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
3
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Metadatahøsting

  1. 1. Metadatahøsting Ole Husby april 2010
  2. 2. http://en.wikipedia.org/wiki/Harvest_(disambiguation) Harvest kan bety mye forskjellig! (Dette er bare noen av betydningene )
  3. 3. Høsting av nettsider betyr <ul><li>å gå gjennom sider på nettet etter en eller annen oppskrift </li></ul><ul><li>  </li></ul><ul><li>velge ut enkelte av sidene (evt alle) </li></ul><ul><li>  </li></ul><ul><li>laste ned en kopi av sida </li></ul><ul><li>  </li></ul><ul><li>utføre evt konvertering eller bearbeiding </li></ul><ul><li>  </li></ul><ul><li>og så lagre den lokalt </li></ul><ul><li>Hvorfor? </li></ul><ul><li>  </li></ul><ul><li>For eksempel bevaringsmotiver (nasjonalbibliotek) </li></ul>
  4. 4. Andre ord som (kan) brukes <ul><li>Innhøsting </li></ul><ul><li>Innsamling </li></ul><ul><li>Harvesting </li></ul><ul><li>Gathering </li></ul><ul><li>  </li></ul><ul><li>(Crawling) </li></ul><ul><li>(Archiving) </li></ul>
  5. 5. Høsting av metadata <ul><li>&quot;Harvesting is the process of gathering decentralized Metadata from partner collections into the central () Portal.  </li></ul><ul><li>  </li></ul><ul><li>In other words, harvesting simple means getting metadata records from partner collections and storing then in the () Portal so that these records can be searched/browsed from the () Portal.&quot;  </li></ul><ul><li>  </li></ul><ul><li>  </li></ul><ul><li>  </li></ul><ul><li>  </li></ul><ul><li>  </li></ul><ul><li>http://www.biosciednet.org/wiki/doku.php?id=harvesting </li></ul>
  6. 6. Et vanlig motiv for metadatahøsting <ul><li>  </li></ul><ul><li>Lage en egen søketjeneste for en eller flere samlinger </li></ul><ul><ul><li>fordi eksisterende tjenester er for dårlige, for trege eller ikke-eksisterende </li></ul></ul><ul><ul><li>eller fordi en ønsker å søke samtidig i flere samlinger </li></ul></ul><ul><ul><li>  </li></ul></ul><ul><li>En søketjeneste krever søkeindekser </li></ul><ul><ul><li>  </li></ul></ul><ul><li>For å lage en søkeindeks trenger en metadata </li></ul>
  7. 7. Distribuert søking
  8. 8. Søking vha høstede metadata
  9. 9. Fordeler / ulemper ved høsting <ul><li>Fordeler: </li></ul><ul><ul><li>Hastighet / Stabilitet </li></ul></ul><ul><ul><li>Massiv samsøking </li></ul></ul><ul><ul><li>Slipper støtte for søkeprotokoll </li></ul></ul><ul><ul><li>Enklere forretningslogikk i søkeportalen  </li></ul></ul><ul><li>  </li></ul><ul><li>Ulemper: </li></ul><ul><ul><li>Synkronisering / Dataintegritet </li></ul></ul><ul><ul><li>Redundans </li></ul></ul><ul><ul><li>Forutsetter støtte for innhøstingsprotokoll </li></ul></ul><ul><ul><li>Kompleks og arbeidskrevende høstingslogistikk </li></ul></ul>
  10. 10. OAI-PMH <ul><li>Open Archives Initiative - Protocol for Metadata Harvesting </li></ul><ul><li>Mange protokoller kan brukes til høsting av metadata, men OAI-PMH er spesiallaget for formålet </li></ul><ul><li>(En protokoll er en detaljert beskrivelse av meldingsutvekslingen over nettet: Tjenestetyper, meldingstyper, meldingsformater, rekkefølge, feilmeldinger o.l.) </li></ul><ul><li>OAI-PMH beskriver høsting av metadata fra en data provider (&quot;server&quot;) til en service provider (&quot;klient&quot;) </li></ul><ul><li>Data provider kalles også et repository </li></ul>
  11. 11. OAI-PMH entiteter
  12. 12. OAI-PMH meldingstyper (verb) <ul><li>Identify </li></ul><ul><li>Returns information about the repository. </li></ul><ul><li>ListMetadataFormats </li></ul><ul><li>Lists the metadata formats supported by the repository. </li></ul><ul><li>ListSets </li></ul><ul><li>Lists the sets provided by the repository </li></ul><ul><li>ListIdentifiers </li></ul><ul><li>Lists record identifiers, dates and any other headers for each deposited item. </li></ul><ul><li>ListRecords </li></ul><ul><li>Harvests metadata records from the repository. </li></ul><ul><li>GetRecord </li></ul><ul><li>Gets an individual metadata record from the repository. </li></ul>
  13. 13. OAI-PMH funksjoner <ul><li>Avgrensing av høsting (Selective harvesting) </li></ul><ul><ul><li>Datoavgrensing (DateStamp) </li></ul></ul><ul><ul><li>Spesifiserte deler av repository (Set) </li></ul></ul><ul><li>Oppdeling av en større nedlasting (resumptionToken) </li></ul><ul><li>  </li></ul><ul><li>Metadata : Mulig å velge mellom forskjellige formater </li></ul><ul><li>OAI-PMH Request : Kodes i en URL, f.eks: </li></ul><ul><li>  </li></ul><ul><li>http://cadair.aber.ac.uk/dspace-oai/request?verb=Identify </li></ul><ul><li>  </li></ul><ul><li>OAI-PMH Response : Kodes i XML, f.eks: </li></ul>
  14. 14. OAI-PMH respons (utdrag) <ul><li><responseDate>2010-04-12T21:39:00Z</responseDate> <request verb=&quot;Identify&quot;>http://cadair.aber.ac.uk/dspace-oai/request</request> <Identify> <repositoryName>CADAIR: Aberystwyth University repository</repositoryName> <baseURL>http://cadair.aber.ac.uk/dspace-oai/request</baseURL> <protocolVersion>2.0</protocolVersion> <adminEmail>cadair@aber.ac.uk</adminEmail> <earliestDatestamp>2001-01-01T00:00:00Z</earliestDatestamp> <deletedRecord>persistent</deletedRecord> <granularity>YYYY-MM-DDThh:mm:ssZ</granularity> <compression>gzip</compression> <description> <title>OCLC's OAICat Repository Framework</title> <author> <name>Jeffrey A. Young</name> <email>jyoung@oclc.org</email> <institution>OCLC</institution> </author> <version>1.5.48</version> </description> </Identify> </li></ul>
  15. 15. OAI = Open Archives Initiative <ul><li>men det er ikke noen forutsetning at repository er fritt tilgjengelig, dvs at alle kan høste </li></ul><ul><li>Adgangsbegrening kan f.eks. gjøre vha IP-filtrering </li></ul><ul><li>Eksempel på slik praksis: BIBSYS </li></ul>
  16. 16. Andre protokoller <ul><li>RSS </li></ul><ul><li>ATOM </li></ul><ul><li>SRU </li></ul><ul><li>Z39.50 </li></ul><ul><li>OpenURL </li></ul><ul><li>SQI </li></ul><ul><li>Ingen av disse er komplette protokoller for metadatahøsting på samme måte som OAI-PMH </li></ul>
  17. 17. To paradigmer <ul><li>Høsting </li></ul><ul><li>Offline </li></ul><ul><li>Just in case </li></ul><ul><li>Opp/nedlasting </li></ul><ul><li>Primo </li></ul><ul><li>Klientsentrisk </li></ul><ul><li>OAI-PMH </li></ul><ul><li>Distribuert søking </li></ul><ul><li>Online </li></ul><ul><li>Just in time </li></ul><ul><li>Aksess </li></ul><ul><li>Metalib </li></ul><ul><li>Serversentrisk </li></ul><ul><li>Z39.50 </li></ul>

×