A könyvtári és egyéb szabványok vérpezsdítő világa
Upcoming SlideShare
Loading in...5
×
 

A könyvtári és egyéb szabványok vérpezsdítő világa

on

  • 1,547 views

A Bárczi Ildikó emlékére rendezett konferencián (ELTE BtK, 2009. április 24. http://hipertext.hu/story/az-iim-konferenciat-rendez-barczi-ildiko-emlekere-meghivo) tartott előadásomban szerettem ...

A Bárczi Ildikó emlékére rendezett konferencián (ELTE BtK, 2009. április 24. http://hipertext.hu/story/az-iim-konferenciat-rendez-barczi-ildiko-emlekere-meghivo) tartott előadásomban szerettem volna röviden ismertetni a MARC utáni világot. Azt hiszem nem sikerült ;-) Az első négy slide arról szól, hogy az úgynevezett qqq-kódolással készült kritikai kiadást hogyan lehet automatikusan szabványos TEI XML-lé, és abból HTML-lé konvertálni. De nem hiszem, hogy ez 3 emberen kívül többnek mondana bármit is. Viszont nem tudom, hogy az RDA-ról született-e más prezentáció magyarul ezen kívül.

Statistics

Views

Total Views
1,547
Views on SlideShare
1,542
Embed Views
5

Actions

Likes
0
Downloads
8
Comments
1

2 Embeds 5

http://www.slideshare.net 3
http://www.linkedin.com 2

Accessibility

Categories

Upload Details

Uploaded via as Microsoft PowerPoint

Usage Rights

CC Attribution License

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel

11 of 1

  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
  • Ungváry Rudolf megkért, hogy tegyem fel az alábbi válaszát:

    „There are only two kinds of people who believe themselves able to read a MARC
    record without referring to a stack of manuals: a handful of our top catalogers and those
    on serious drugs.”

    Az idézet olcsó, populista szöveg! Ráadásul a MARC mező-almező szerkezete a maga klasszikus „rovatos” megjelenítési filozófiájával éppen a laikusok számára összehasonlíthatatlanul könnyebben olvasható, mint akár az xml-, akár az rdf-nyelvek leírásai. Ez utóbbiak valójában a laikus számára, aki nem speciálisan ezekkel a jelölőnyelvekkel foglalkozik, első látásra is teljesen értelmezhetetlen. Ezzel szemben egy MARC-mezőben legalább érti a meghatározást és az almezők jelentését. A besorolási adatokkal és az információkereső nyelvekkel foglalkozók köre 95 %-ban teljesen eltér a jelölőnyelvekhez értő, lényegében túlnyomórészt informatikus rdf-szakemberek köre.

    A jelölőnyelvekhez értő szakemberek, amikor elkezdenek a könyvtári, levéltári, múzeumi, tehát a gyűjteményi igényekkel foglalkozni, rá akarják kényszeríteni szakmájuk nyelvét az említett, és a jelölőnyelvek vonatkozásában valójában indifferens szakmai körre, amely csak használója az informatikai eredményeknek, és joggal várná el, hogy a jelölőnyelvi rendszerekben írott „ szövegek” mellé mindig társuljon egy, a természetes nyelvhasználatnak megfelelő, érthető „ szótár” . Ha készül is ilyen (lásd pl., a SKOS esetén), az nem elégséges (nincs szó ismételhetőségekről, mezőhosszakról, természetes nyelven megfogalmazott „ ha… akkor” összefüggésekről (ha pl. az egyik adatelemtípus használata kizárja a
    másikat), és még csak utalás sincsen megjelenítésekre.

    A MARC21 mindezekről legalább rendelkezik, és a laikus felhasználó ezeket az információkat viszonylag könnyen kibogarászhatja belőle.

    A jelölőnyelvekhez értő szakemberek tartják ma a technikai oldalról a bot hosszabbik végét, és szakmai sovinizmusokkal (mely valójában túlnyomórészt a könyvtári világ mély lenézéséből táplálkozik) afféle barbár kulturális erőszakszervezetként működnek. Ez valójában végtelenül méltánytalan, és aki a fenti idézettel operál, szintén osztozik a méltánytalanságnak az okozásában.

    'szerkezet (formátum, kódolás, karakterkódolás, 200 mező, 1800 almező (és mindig kiderül, hogy ez kevés: Farkas-Keveházi vita, vagy „hova tegyük a borítóképeket?”), nyelvváltozatok: MARC21, OCLC MARC, USMARC, HUNMARC stb.)'

    Csúsztatás: a 200 mező és 1800 almező azért szerepel, mert a valóságban, az igazi, virtigli valóságban a lehetőségek száma hatalmas. Ami ebből következik, az a jelölőnyelvi formátumokra ugyanúgy vonatkozik: ha ugyanis van egy n-ik mező m-ik almező a MARCban, akkor azt jelölőnyelven ugyancsak meg kell speciálisan fogalmazni, – csak éppen alig lesz, aki értené a nem jelölőnyelvekkel foglalkozókon kívül.

    A jelölőnyelvek világa semmivel sem kevésbé szétágazó, mint a „markok” világa, mely utóbbi azért észrevehetően egységesül. A „markok” világa valójában sokkal kevésbé változatos, mint a jelölőnyelveké.

    Ha az ember netán megnézi két, valójában azonos alkalmazás jelölőnyelvi megoldását, elképedve tapasztalja a megoldási változatok laikus számára értelmezhetetlen különbözőségű létét. Sokkal nagyobb a szórás a jelölőnyelvekkel megoldott megvalósítások esetében a szórás, mint a ma már legfeljebb fél tucatnyi jelentősebb „markos” típus esetében.

    Elég megnézni a SKOS-t. A nem triviális esetekre (mondjuk az ETO, a 034-es mező stb.) a megoldásoknak a „markokhoz” képest összehasonlíthatatlan kavalkádja lehetséges. Nyilván ezek is lassan közelíteni fognak egymáshoz – de akkor miféle jelölőnyelvi sovinizmus ennyire lenézően a „markokról” beszélni.

    'tartalom (kapcsolatok hiánya, „cédulás” ; megközelítés, 'pontozás‘ , inkompatibilis mezők)'

    Miféle felületes célzás az, hogy tartalom? A MARC a szemantikai relációtípusok dolgában valóban a kezdeteknél tart, de nézzük csak meg például a SKOS-t! A kiterjesztett változatot az elmúlt években éppen hogy annulálták, ma csak úgy átabotában lehet arról beszélni, hogy a SKOS keretén belül netán az ontológiák számára legfontosabb, a BT-nél speciálisabb BTG relációt (is_a) definiálják.

    A „cédulás megközelítés” hihetetlenül olcsó és hamis érv: minden a „cédulás” megoldásokból nőtt ki, amely az emberi érzékelés számára közvetlenül adott, ma is érvényes formája: a sorfolytonos leírás, mely például a szakcikkek végén vagy lábjegyzeteiben látható hivatkozások filozófiája is. A köznapi használatban a sorfolytonos („cédulás” gyökerű) megoldás elkerülhetetlen, helytakarékos és érzékileg rögtön felfogható. Ez még akkor is így van, ha ugrópontokat alkalmazunk. Ugyanis nem mindig lehet pusztán egy szövegszót felhasználva ugratni magára a dokumentumra. Sokszor kell, elég és jobb egy rövid, sorfolytonos leírásra utalni, hogy tovább lehessen érzéki, azaz természetes körülmények között olvasni.

    Pontozás! Talán „központozás”, nem? Hát hogy lehetne sorfolytonos hivatkozási szerkezeteket másképp tagolni. Micsoda szűkkeblűség azt vélni, hogy az ilyen sorfolytonos szövegű közlések „mára” szükségtelenek. A kommunisták gondoltak efféle hülyeségeket, amikor azt állították, hogy a család majd „feleslegessé” válik, mert mindenkit az egyenlő emberek szabad közössége fog nevelni.

    Miféle inkompatibilis mezők? Ezt azért konkretizálni illenék egy műszaki (tehát természettudományos, racionális) alapokon gondolkodó embernek. Például a MARC21 5XX $w almezőjének viszonylag új t értékét a szerencsétlen MARC21-fejlesztők definíciószerűen csak a testületi nevekre gondolják engedélyezni. Ez persze felesleges, mert maga a 110-es mező nagyon pontosan elkülöníti a testület-résztestület relációt a mondjuk 551-es mezőhívójelű földrajzi alkalmazástól, melyben igazgatási egység-részigazgatási egység partitivitásról van szó, és az 550-es mezőhívójelű partitív relációtól, ahol adott esetben mondjuk az alkatrész–berendezés összefüggésről van szó. Ez a szűklátókörűség azért lehetséges, mert a MARC21 fejlesztésében – és ez bizony így van a jelölőnyelvi fejlesztések esetén is, csak bele kell olvasni a SKOS levelezésébe – mindig csak a pálya széléről szólhatnak bele az információkereső nyelvekhez tényleg értő, nem feltétlenül „jelölőnyelves” , szakértők. A MARC21 esetében ráadásul még ma is az a helyzet, hogy a név típusú besorolási adatokhoz jobban értő bibliográfiai szakemberek dominanciája továbbra is fennáll, és ezért az 148-as és 15X-es mezők (azaz a szaktárgyszó-típusú besorolási adatok) világához tartozó információkereső-nyelvi szakemberek, pl. a tezauruszok készítői és használói csak másodhegedűsök lehetnek.

    És az a jellemző, hogy ez a „bibliográfusi” egyoldalúságot a ma olyan eszméletlenül magabiztos („ki nem, ha én” ) jelölőnyelves szakemberek óvatlanul ugyanúgy megették (azaz semmivel sem kevésbé esendőek, mint az általuk troglodita őshüllőknek tekintett könyvtárosok), és adott esetben álmélkodnak, hogy a szaktárgyszavak, akárcsak az osztályozási jelzetek (pl. az ETO-jelzetek) is besorolási adatoknak számítanak.

    Ungváry Rudolf
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    A könyvtári és egyéb szabványok vérpezsdítő világa A könyvtári és egyéb szabványok vérpezsdítő világa Presentation Transcript

    • Miként lehet régi online kiadványokat automatikusan frissíteni a könyvtárban? Helyett: A könyvtári és egyéb szabványok vérpezsdítő világa
    • automatikus frissítés
      • Módosítsd a dokumentumot a kedvenc szövegszerkesztődben
      • Ha nem friss szövegszerkesztőd van, akkor tölts le egy ingyenes OpenOffice.org-ot, nyisd meg a dokumentumodat és mentsd el ood-ként.
      • Futtasd le az XSLT programokat
      • Az eredményt töltsd fel.
    • magyarázat #1
      • Az OpenOffice.org, a Word 2003, Word 2007 (egymással nem kompatibilis) XML fájlokat állít elő, csak be vannak zip-elve és át vannak nevezve.
      • Két XSLT konverziós lépés:
      • .ood/.docx -> TEI
      • TEI -> navigálható XHTML (erre vannak kész stíluslapok)
    • magyarázat #2
      • XSLT : kiterjeszthető stíluslap, ami tranzformációs szabályokat tartalmazhat, pl.
      • <cím/> -> <title/>
      • <cím>Egri Csillagok</cím> -> <title>Kogallisc Irge</title>
      • XSLT 2.0 : több funkció (pl. szabványos kifejezések/regular expression), kiterjesztett modell, de alacsony támogatottság (Javára: Saxon)
    • nehézségek
      • qqq típusú jegyzetek (nincs explicit szöveghatároló, hanem mintaillesztéssel kell megtalálni a szöveg elejét)
      • debug (programfolyamat leállítása/állapotellenőrzés/újraindítás) hiánya
      • unit test (előre megírt automatikus tesztek) hiánya
      • Mindkettőre van workaround
    • szabványok
      • Mottók:
      • Content is king!*
      • MARC must die!** (Roy Tennant, ex-California Digital Library, OCLC [Library Journal, 2002 Oct. 15])
      • * Minden szabványnak az a célja, hogy a tartalomhoz hozzáférjenek az olvasók
      • ** és alkalmazkodniuk kell a kurrens elvárásokhoz
    • szabványok
      • metaadatok
      • MARC és a posztmodern
      • EAD, EAC, ISAG(G), ISAAR(CFP), ISDF ( International Standard for Describing Functions ), ISDIAH ( International Standard for Describing Institutions with Archival Holdings )
      • szolgáltatások
      • Web service
      • Z39.50 és a posztmodern (SRW/SRU)
      • OAI-PMH
      • OpenSearch
    • Mi a baj a MARC -kal?
      • „ There are only two kinds of people who believe themselves able to read a MARC record without referring to a stack of manuals: a handful of our top catalogers and those on serious drugs. ”
      • szerkezet (formátum, kódolás, karakterkódolás, 200 mező, 1800 almező (és mindig kiderül, hogy ez kevés: Farkas-Keveházi vita, vagy „hova tegyük a borítóképeket?”), nyelvváltozatok: MARC21, OCLC MARC, USMARC, HUNMARC stb.)
      • tartalom (kapcsolatok hiánya, &quot;cédulás&quot; megközelítés, 'pontozás‘, inkompatibilis mezők)
    • RDF
      • formális ajánlat: RDF (Resource Description Framework)
      • Matematikai modell: a és b dolog között fenn áll valamilyen definiált, rögzített kapcsolat , pl. „ a Toldi szerzője Arany János ”.
      • Lehetőleg mind a három rész azonosítaható legyen, hogy más állításokkal össze lehessen vetni. Az azonosítás formája az URI, ami mögött állhat (de nem kötelezően) tényleges erőforrás (pl. WordNet definíció), de például egy „lámpának is lehet URI-je”.
      • Az RDF-nek egy szintaxisa az XML
      • Az RDF kiterjesztései:
        • RDF séma (tulajdonságok definiálása)
        • Ontológia (OWL nyelv) – a kapcsolatok, entitások formális leírása (magyarul pl. Családszerkezti ontológia)
      • RDF alkalmazások:
        • Fényképezőgépek
        • RSS feed
        • SKOS (Simple Knowledge Organization System – tezauruszokra
        • Ontológiák, pl. MarcOnt
        • LoC rekordok RDF-ben
      • távlat: következtető struktúrák (ha A és B között fennáll x, és B és C között fennáll y, és x és y között fennáll k, akkor A és C között fennáll l, pl. A gép számára is érthetővé válhat „ menj fogat mosni ” – „ még nem vagyok álmos ” – „ de holnap ovi ” párbeszéd mögött húzódó gondolati szerkezet)
    • FRBR
      • elvi ajánlat: FRBR ( Functional Requirements for Bibliographic Records ) – avagy Káldos János régi elképzelése
      • A MARC nem számol azzal, hogy a könyvnek nem csak kiadása van, hanem vannak példányai (megkülönböztethető egyedi tulajdonságokkal, ld. A Gutenberg-bibliás viccet) és van a mű, amit kiadtak, aminek általános tulajdonságai vannak. Az FRBR ajánlata:
      • Work - a &quot;mű&quot;, pl. Egri csillagok
      • Expression - kifejezési formája (interpretációja), pl. film változat
      • Manifestation - tárgyiasulása (könyvkiadás) - a MARC szintje
      • Item - az egyedi példány (pl. az, amelyiket a gyerekek kiszínezték)
      • Az egyes szintek között relációk állnak fenn
    • FRBR #2
      • Egyéb entitások:
      • 2. csoport:
      • Person
      • Corporate body
      • Family
      • 3. csoport:
      • Concept
      • Object
      • Event
      • Place
      • Egyéb kapcsolatok:
      • isPartOf
      • isOwnedBy
      • isCreatedBy
      • isRealizedBy
      • isProducedBy
      • hasAsSubject
      • hasAGenre
      • isKnownBy
    • FRBR-izálás (förbörizálás)
      • &quot;FRBR-izálás&quot;: a MARC rekordokból FRBR struktúrákat kialakítani.
      • OCLC algoritmus.
      • Open Source változat: XC algoritmus
      • A z FRBR fogalmi keretrendszer. Konkrét megvalósítás a jelenleg vázlat-szintű RDA (Resource Description and Access).
      • Az RDA első impementációja: XC schema
    • RDA ( Resource Description and Access )
      • FRBR-alapú
      • nagyban épít az URI-kre (vagyis az FRBR és RDF szerelemgyermeke)
      • hangsúly a források közti kapcsolatokon és szerepeken
      • a szöveges azonosítóknak és könyvtárosi megjegyéseknek kis szerep jut
      • online termék (esetleges nyomtatott „derivatívákkal”)
      • cél: a weben legyenek jelen a katalógus-adatok
      • többféle kódolási sémával használható (MODS, MARC, DC stb.)
      • felhasználóra fókuszál (Find, Identify, Select, Obtain)
    • RDA #2
      • keretrendszerként használható, a DC, MARC stb. sémákat ki lehet egészíteni
      • új funkcionalitásokkal, pl. a rekordok közti kapcsolatokkal
      • könyvtárosok találták ki, de a levéltári, múzeumi alkalmazás épp ilyen kézenfekvő
      • formátum-, hordozó- és (számítógépes-) rendszerfüggetlen
      • források: FRBR , FRAD (Functional Requirements for Authority Data), AACR2 (Anglo-American Cataloguing Rules), Párizsi elvek (&quot;Statement of International Cataloguing Principles&quot; 2009), és a jó öreg ISBD (International Standard Bibliographic Description), DE
        • az RDA nem követi az ISBD sorrendjét
        • és (végre) agyő pont-pont-vesszőcske
    • Részlet az RDA entitás diagramjából
    • az RDA ellen
      • Az RDA túlságosan szélsőséges
      • Az RDA nem elég szélsőséges
    • az RDA túlzó
      • az ISBD mellőzése visszalépés
      • az FRBR csak elmélet, nem gyakorlat
      • érthetetlen a nyelvezete
      • az igért előnyök nem szavatolják a befektetést
      • más szakmák nem veszik hasznát
      • a szabályok egyszerűsítése minőségromlással jár
      • a sokféle közönségnek való megfelelési kényszer „összepiszkítja” a könyvtári szabványokat
      • átképzési költségek, zavarodottság
      • 3-ik utas megközelítés (1.) szabványok 2.) tagelők + Google fiúk)
    • az RDA túl óvatos
      • sok a szöveg (több URI-t a leírásba!)
      • túl hosszú és specifikus: csak könyvtárosok olvassák el, más nem fogja használni, születése pillanatában a „múlt szabványa”
      • a visszafelé kompatibilitás gátja az igazi változásoknak
      • az RDBR integrációja csak felszíni kísérlet
      • nem lehet analóg és digitális dolgokat egy szabvánnyal leírni, választani kell!
      • a felhasználók (és az implementátorok) nem veszik hasznát a túlstruktúráltságnak, kevesebb több
      • megmaradtak olyan agyrémek, mint az &quot;elsődleges&quot; &quot;másodlagos&quot; besorolás, vagy az &quot;egységesített cím&quot;
    • ISAD(G)
      • ISAD(G) (General International Standard Archival Description) – a levéltári iratok leírása, kb. mint a könyvtári leíró rekord: ki, mikor, hol hozta létre az iratot, mi a jelzete, státusza. Párhuzamos történet: EAD.
    • ISAAR(CFP)
      • ISAAR(CFP) ( International Standard Archival Authority Record for Corporate Bodies, Persons, and Families ) – a levéltári „azonosító leírás” (authority record).
      • Célja az, hogy a fontosabb személyek, családok, szerverezet/testületek egyetlen iratai elérési ponton keresztül hozzáférhetőek legyenek. (A könyvtárban csak a névalakot ellenőrzik)
    • ISDF
      • ISDF ( International Standard for Describing Functions ) – a levéltárban őrzött iratokban előforduló funkciók leírása, pl.
        • válóper,
        • telekkönyvezés,
        • birtokadomány,
        • végrendelkezés
        • A kutató számára értelmesek lesznek olyan terminusok, mint az „árvaszéki irat”, átlátja a hivatali ügymenetet
    • ISDIAH
      • ISDIAH ( International Standard for Describing Institutions with Archival Holdings ) – a levéltárként működő intézmények leírása (speciális magyar haszon a régi (városi, egyházi, testületi, testvérületi stb.) levéltárak és az utóintézmények kapcsolatainak azonosítása)
      • Ezek a szabványok nem foglalkoznak az implementációval, fogalmi készletet adnak. Legfontosabb implementáció az EAD és EAC.
    • levéltári szabványok: forma
      • EAD (Encoded Archival Description) – a levéltári leírás XML szabványa. Érdekesség a levéltári szintek kezelése (fond, állag stb.)
      • Párhuzamos és megfeleltethető az ISAD(G)-vel
      • EAC (Encoded Archival Context) – az azonosító leírás XML szabványa. Nem pusztán authority (vagyis azonosítás), hanem kontextus.
      • Párhuzamos és megfeleltethető az ISAAR(CFP)
      • Az EAC és az ISAAR(CFP) nem csak levéltárban alkalmazható, hanem nagyon jó eszköz névterek számára.
      • Vannak EAD-megfeleltetési táblázatok az ISAD(G)-hez, MARC-hoz, minősített Dublin Core-hoz, vagyis (bizonyos megszortásokkal) konvertálhatóak a rekordok ide-oda.
    • szolgáltatási szabványok:
      • webszolgáltatás
      • A webszolgáltatás olyan gépek közötti kommunikáció, amely bizonyos szabványokra épül. Általában XML-re épülnek, de lazább, alternatív formák is léteznek.
      • Erősödik a szemantikus web hatása ezen a területen is.
      • Technológiai (hogyan?) és tartalmi (mit?) szabványok
    • Z39.50, SRW/SRU
      • Z39.50:
      • HTTP protokollra épülő web 0.1-es szolgáltás bonyolult szintaxissal
      • Célja elsősorban a keresés
      • Kötött szintaxis
      • SRW/SRU (Zing)
      • : Z39.50 + web szolgáltatási szabványok + XML
    • OAI-PMH
      • Nagy tömegű rekord átadása másik félnek weben keresztül
      • Egyszerű-de-nagyszerű eszköz az adatok megosztására
      • A metadatat formátumát nem szabályozza, lehet bármilyen XML (MARCXML, EAD, DC)
      • Inkrementális betakarítás: csak t dátum utáni rekordokat kérem
      • Magyar* implementáció: NDA
      • * nem az örkényi értelemben
    • OpenSearch
      • Ipari szabvány a keresési találatok megosztására (tartalom-szindikálás, aggregálás)
      • Az Amazon találta ki, gyorsan átvette a Google, Sun, IBM, MS
      • OneBox típusú keresés, sok paraméter a találati listára
      • Nincs megkötve a keresőkérdés szintaxisa
      • Sem a válasz szintaxisa (csak annyira, mint az OAI esetében)
      • Felhasználás: elosztott keresés, előfizetés hírolvasóba, inkrementális találati lista, böngésző plugin