Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Metadatahøsting

676 views

Published on

En presentasjon for UBiT. Oversikt over metadatahøsting (metadata harvesting), med spesiell vekt på bruksområdet søkeportal. Spesiell omtale av OAI-PMH.

Published in: Education
  • Be the first to comment

  • Be the first to like this

Metadatahøsting

  1. 1. Metadatahøsting Ole Husby april 2010
  2. 2. http://en.wikipedia.org/wiki/Harvest_(disambiguation) Harvest kan bety mye forskjellig! (Dette er bare noen av betydningene )
  3. 3. Høsting av nettsider betyr <ul><li>å gå gjennom sider på nettet etter en eller annen oppskrift </li></ul><ul><li>  </li></ul><ul><li>velge ut enkelte av sidene (evt alle) </li></ul><ul><li>  </li></ul><ul><li>laste ned en kopi av sida </li></ul><ul><li>  </li></ul><ul><li>utføre evt konvertering eller bearbeiding </li></ul><ul><li>  </li></ul><ul><li>og så lagre den lokalt </li></ul><ul><li>Hvorfor? </li></ul><ul><li>  </li></ul><ul><li>For eksempel bevaringsmotiver (nasjonalbibliotek) </li></ul>
  4. 4. Andre ord som (kan) brukes <ul><li>Innhøsting </li></ul><ul><li>Innsamling </li></ul><ul><li>Harvesting </li></ul><ul><li>Gathering </li></ul><ul><li>  </li></ul><ul><li>(Crawling) </li></ul><ul><li>(Archiving) </li></ul>
  5. 5. Høsting av metadata <ul><li>&quot;Harvesting is the process of gathering decentralized Metadata from partner collections into the central () Portal.  </li></ul><ul><li>  </li></ul><ul><li>In other words, harvesting simple means getting metadata records from partner collections and storing then in the () Portal so that these records can be searched/browsed from the () Portal.&quot;  </li></ul><ul><li>  </li></ul><ul><li>  </li></ul><ul><li>  </li></ul><ul><li>  </li></ul><ul><li>  </li></ul><ul><li>http://www.biosciednet.org/wiki/doku.php?id=harvesting </li></ul>
  6. 6. Et vanlig motiv for metadatahøsting <ul><li>  </li></ul><ul><li>Lage en egen søketjeneste for en eller flere samlinger </li></ul><ul><ul><li>fordi eksisterende tjenester er for dårlige, for trege eller ikke-eksisterende </li></ul></ul><ul><ul><li>eller fordi en ønsker å søke samtidig i flere samlinger </li></ul></ul><ul><ul><li>  </li></ul></ul><ul><li>En søketjeneste krever søkeindekser </li></ul><ul><ul><li>  </li></ul></ul><ul><li>For å lage en søkeindeks trenger en metadata </li></ul>
  7. 7. Distribuert søking
  8. 8. Søking vha høstede metadata
  9. 9. Fordeler / ulemper ved høsting <ul><li>Fordeler: </li></ul><ul><ul><li>Hastighet / Stabilitet </li></ul></ul><ul><ul><li>Massiv samsøking </li></ul></ul><ul><ul><li>Slipper støtte for søkeprotokoll </li></ul></ul><ul><ul><li>Enklere forretningslogikk i søkeportalen  </li></ul></ul><ul><li>  </li></ul><ul><li>Ulemper: </li></ul><ul><ul><li>Synkronisering / Dataintegritet </li></ul></ul><ul><ul><li>Redundans </li></ul></ul><ul><ul><li>Forutsetter støtte for innhøstingsprotokoll </li></ul></ul><ul><ul><li>Kompleks og arbeidskrevende høstingslogistikk </li></ul></ul>
  10. 10. OAI-PMH <ul><li>Open Archives Initiative - Protocol for Metadata Harvesting </li></ul><ul><li>Mange protokoller kan brukes til høsting av metadata, men OAI-PMH er spesiallaget for formålet </li></ul><ul><li>(En protokoll er en detaljert beskrivelse av meldingsutvekslingen over nettet: Tjenestetyper, meldingstyper, meldingsformater, rekkefølge, feilmeldinger o.l.) </li></ul><ul><li>OAI-PMH beskriver høsting av metadata fra en data provider (&quot;server&quot;) til en service provider (&quot;klient&quot;) </li></ul><ul><li>Data provider kalles også et repository </li></ul>
  11. 11. OAI-PMH entiteter
  12. 12. OAI-PMH meldingstyper (verb) <ul><li>Identify </li></ul><ul><li>Returns information about the repository. </li></ul><ul><li>ListMetadataFormats </li></ul><ul><li>Lists the metadata formats supported by the repository. </li></ul><ul><li>ListSets </li></ul><ul><li>Lists the sets provided by the repository </li></ul><ul><li>ListIdentifiers </li></ul><ul><li>Lists record identifiers, dates and any other headers for each deposited item. </li></ul><ul><li>ListRecords </li></ul><ul><li>Harvests metadata records from the repository. </li></ul><ul><li>GetRecord </li></ul><ul><li>Gets an individual metadata record from the repository. </li></ul>
  13. 13. OAI-PMH funksjoner <ul><li>Avgrensing av høsting (Selective harvesting) </li></ul><ul><ul><li>Datoavgrensing (DateStamp) </li></ul></ul><ul><ul><li>Spesifiserte deler av repository (Set) </li></ul></ul><ul><li>Oppdeling av en større nedlasting (resumptionToken) </li></ul><ul><li>  </li></ul><ul><li>Metadata : Mulig å velge mellom forskjellige formater </li></ul><ul><li>OAI-PMH Request : Kodes i en URL, f.eks: </li></ul><ul><li>  </li></ul><ul><li>http://cadair.aber.ac.uk/dspace-oai/request?verb=Identify </li></ul><ul><li>  </li></ul><ul><li>OAI-PMH Response : Kodes i XML, f.eks: </li></ul>
  14. 14. OAI-PMH respons (utdrag) <ul><li><responseDate>2010-04-12T21:39:00Z</responseDate> <request verb=&quot;Identify&quot;>http://cadair.aber.ac.uk/dspace-oai/request</request> <Identify> <repositoryName>CADAIR: Aberystwyth University repository</repositoryName> <baseURL>http://cadair.aber.ac.uk/dspace-oai/request</baseURL> <protocolVersion>2.0</protocolVersion> <adminEmail>cadair@aber.ac.uk</adminEmail> <earliestDatestamp>2001-01-01T00:00:00Z</earliestDatestamp> <deletedRecord>persistent</deletedRecord> <granularity>YYYY-MM-DDThh:mm:ssZ</granularity> <compression>gzip</compression> <description> <title>OCLC's OAICat Repository Framework</title> <author> <name>Jeffrey A. Young</name> <email>jyoung@oclc.org</email> <institution>OCLC</institution> </author> <version>1.5.48</version> </description> </Identify> </li></ul>
  15. 15. OAI = Open Archives Initiative <ul><li>men det er ikke noen forutsetning at repository er fritt tilgjengelig, dvs at alle kan høste </li></ul><ul><li>Adgangsbegrening kan f.eks. gjøre vha IP-filtrering </li></ul><ul><li>Eksempel på slik praksis: BIBSYS </li></ul>
  16. 16. Andre protokoller <ul><li>RSS </li></ul><ul><li>ATOM </li></ul><ul><li>SRU </li></ul><ul><li>Z39.50 </li></ul><ul><li>OpenURL </li></ul><ul><li>SQI </li></ul><ul><li>Ingen av disse er komplette protokoller for metadatahøsting på samme måte som OAI-PMH </li></ul>
  17. 17. To paradigmer <ul><li>Høsting </li></ul><ul><li>Offline </li></ul><ul><li>Just in case </li></ul><ul><li>Opp/nedlasting </li></ul><ul><li>Primo </li></ul><ul><li>Klientsentrisk </li></ul><ul><li>OAI-PMH </li></ul><ul><li>Distribuert søking </li></ul><ul><li>Online </li></ul><ul><li>Just in time </li></ul><ul><li>Aksess </li></ul><ul><li>Metalib </li></ul><ul><li>Serversentrisk </li></ul><ul><li>Z39.50 </li></ul>

×