Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Formáty pro komunikaci a ukládání bibliografických záznamů
1. Formáty pro komunikaci a
ukládání bibliografických
záznamů
Zdeněk Kadlec, KISK FF MU
Přednáška k předmětu VIKBA10
„Knihovnické systémy a standardy“
2. Metadata
Strukturovaná data, která nesou informace o primárních datech. [TDKIV]
Terminologie RDF - Resource Description Framework
Popis zdrojů se provádí vytvářením tvrzení (statements) o zdrojích (resources) ve formě
výrazů v následujícím tvaru: [wikipedia]
subjekt predikát objekt
zdroj (resource) vlastnost (property) hodnota (value)
[kniha ISBN:1234] má autora quot;Karel Čapekquot;
[kniha ISBN:1234] má autora [osoba UČO:5678]
[kniha ISBN:1234] byla vydána v roce quot;2005quot;
[kniha ISBN:1234] je v jazyku quot;češtinaquot;
[kniha ISBN:1234] in language quot;czechquot;
[osoba UČO:5678] má jméno quot;Karelquot;
• Subjekt - popisovaný předmět (zdroj)
• Predikát - vyjadřuje vztah mezi subjektem a objektem, chápán jako vlastnost subjektu
• Objekt - jiný zdroj nebo zástupný textový řetězec (literál), pomocí kterého se popisuje
subjekt
3. Zdroje jsou jednoznačně identifikovány pomocí URI (Uniform Resource Identifier).
Popis (description) - skupina tvrzení o jednom zdroji.
[příklad z Wikipedie, článek o Tony Bennovi] - zápis pomocí RDF-XML syntaxe
<rdf:RDF
xmlns:rdf=quot;http://www.w3.org/1999/02/22-rdf-syntax-ns#quot;
xmlns:dc=quot;http://purl.org/dc/elements/1.1/quot;>
<rdf:Description rdf:about=quot;http://en.wikipedia.org/wiki/Tony_Bennquot;>
<dc:title>Tony Benn</dc:title>
<dc:publisher>Wikipedia</dc:publisher>
</rdf:Description>
</rdf:RDF>
Záznam (record) - skupina tvrzení o jednom nebo více souvisejících zdrojích.
Zdroje, které je možné popsat stejnou sadou tvrzení (mají stejné vlastnosti), patří do stejné
třídy (class).
4. Co je třeba řešit při popisu zdrojů
• Odkud vzít údaje pro popis,
• jaké vlastnosti zdrojů popisovat,
• jakých hodnot mohou nabývat,
• v jakém jazyku budou vyjádřeny,
• jakým skriptem (písmem) budou zapsány,
• jak formálně tvrzení zapsat, v jakém formátu (struktura, kódování).
5. Příklad formátování - datum:
Struktura: datum se skládá z prvků: den, měsíc, rok. Prvky je možné zapsat pomocí čísel nebo
názvů (Leden, Únor, ...), uspořádat je v určitém pořadí (např. den, měsíc, rok nebo rok, měsíc,
den), případně je oddělit pomocí oddělovačů.
Vybrané možné způsoby zápisu/kódování (stejného) data:
• 1.2.1995 • 1995 Feb 1
• 1/2/1995 • 1.únor 1995
• 01-02-1995 • 1995-02-01 (ISO 8601 standard,
• 01-02-95 IETF:RFC 3339 internet standard)
• 01021995 • February 1, 1995
• 1st February 1995 • Feb. 1, 1995
• 950201 • 02/01/1995
Např. 2005-02-30 je syntakticky správné datum podle ISO 8601, ale sémanticky je to nesmysl,
protože 30. únor neexistuje. Ještě jsou tedy potřeba další pravidla, která určují povolený obsah
kódovaných prvků - v tomto případě kalendář (gregoriánský, juliánský, hebrejský, ...).
Při použití jmen vyvstává problém s jazykem (Únor, February), případně i se zápisem v
různých abecedách.
6. Bibliografický záznam
Soubor bibliografických údajů vztahujících se k jedné bibliografické jednotce.
Skládá se z bibliografických údajů:
• popisných (informace z dokumentu nebo přidané katalogizátorem) a
• selekčních, které jsou tvořeny pomocí selekčních jazyků identifikačních
(jmenné/identifikační sel. údaje) a věcných (věcné sel. údaje).
Konkrétněji ho tvoří:
• bibliografický popis - popisné údaje rozdělené do 8 oblastí ISBD,
• selekční údaje jmenné (jmenná záhlaví) - personální, korporativní, názvová (unifikované
názvy), geografická jména, ...
• selekční údaje věcné - předmětové (na bázi přirozeného jazyka) a systematické (umělé
jazyky),
• obsahové charakteristiky dokumentu - anotace, referát=abstrakt,
• lokační, exemplářové a kódové údaje.
Identifikační/jmenný/popisný záznam - část bib. záznamu, tvořená bib. popisem a
jmennými selekčními údaji (záhlavími).
7. Příklady popisu knihy v různých formátech
Záznam MARC21 ve formě tabulky
Hlavní záhlaví Pick, Jiří Robert, 1925-1983
Název 7 kytic pro buvola / Jiří Robert Pick ; Il. Lubomír Štěpán
Vydání 1. vyd.
Nakl. údaje Praha : Mladá fronta, 1966
Popis (rozsah) 124, [2] s. ; příč. 8°
Poznámka Obálka a vazba: ilustrátor
Poznámka 5500 výt.
Poznámka Il. předsádky
Nová knížka oblíbeného satirika ponejvíce veršem, ale i krátkými prózami míří proti
Resumé nejrozmanitějším vadám, vlastnostem, jednání a chování jedinců i společnosti. Dovede rozesmát a
zároveň vyjádřit mnohé z toho, co pálí a zlobí dnešního člověka.
MDT 885-17-7
Systém. číslo 000443231
8. Formát katalogizačního lístku (ISBD) - popisné údaje
PICK, Jiří Robert, 1925-1983
7 kytic pro buvola / Jiří Robert Pick ; Il. Lubomír Štěpán. -- 1.
vyd.. -- Praha : Mladá fronta, 1966 (Mír 22). -- 124, [2] s. ; příč.
8°.
Obálka a vazba: ilustrátor -- 5500 výt. -- Il. předsádky.
Resumé: Nová knížka oblíbeného satirika ponejvíce veršem, ale
i krátkými prózami míří proti nejrozmanitějším vadám,
vlastnostem, jednání a chování jedinců i společnosti. Dovede
rozesmát a zároveň vyjádřit mnohé z toho, co pálí a zlobí
dnešního člověka.
9. Záznam ve formátu MARC21 - řádkové zobrazení
^^^^^nam^a22^^^^^1^^4500
001 bk196602754
003 CZ-PrNK
005 19970821000000.0
008 970821s1966^^^^cs^^^^^^^^^^^^^^^^^^cze^^
040 ## $aABA001$bcze$cHKA001$d ABA001
080 ## $a885-17-7$2undef
100 1# $aPick, Jiří Robert,$d1925-1983$7jk01092970$4aut
245 10 $a7 kytic pro buvola /$cJiří Robert Pick ; Il. Lubomír Štěpán
250 ## $a1. vyd.
260 ## $aPraha :$bMladá fronta,$c1966$f(Mír 22)
300 ## $a124, [2] s. ;$cpříč. 8°
500 ## $aObálka a vazba: ilustrátor
500 ## $a5500 výt.
500 ## $aIl. předsádky
520 ## $aNová knížka oblíbeného satirika ponejvíce veršem, ale i krátkými
prózami míří proti nejrozmanitějším vadám, vlastnostem, jednání
a chování jedinců i společnosti. Dovede rozesmát a zároveň vyjádřit
mnohé z toho, co pálí a zlobí dnešního člověka.
920 ## $abk196602754
10. Záznam ve formátu UNIMARC - řádkové zobrazení
^^^^^nam0^22^^^^^1i^450
001 bk196602754
005 19970821
020 ## $aCZ$bbk196602754
100 ## $a19970821d1966^^^^u^^y0czey0103^^^^ba
101 0# $acze
102 ## $aCS
200 1# $a7 kytic pro buvola$fJiří Robert Pick$gIl. Lubomír Štěpán
205 ## $a1. vyd.
210 ## $aPraha$cMladá fronta$d1966$gMír 22
215 ## $a124, [2] s.$dpříč. 8°
300 ## $a5500 výt.
300 ## $aIl. předsádky
300 ## $aObálka a vazba: ilustrátor
330 ## $aNová knížka oblíbeného satirika ponejvíce veršem, ale i krátkými
prózami míří proti nejrozmanitějším vadám, vlastnostem, jednání
a chování jedinců i společnosti. Dovede rozesmát a zároveň vyjádřit
mnohé z toho, co pálí a zlobí dnešního člověka.
675 ## $a885-17-7
700 #1 $aPick$bJiří Robert$f1925-1983$3jk01092970$4070
909 ## 001499964
920 ## $abk196602754
13. <datafield tag=22500quot; ind1=quot; quot; ind2=quot; quot;>
<subfield code=quot;aquot;>Il. předsádky</subfield>
</datafield>
<datafield tag=quot;520quot; ind1=quot; quot; ind2=quot; quot;>
<subfield code=quot;aquot;>Nová knížka oblíbeného satirika ponejvíce veršem, ale i
krátkými prózami míří proti nejrozmanitějším vadám, vlastnostem, jednání a
chování jedinců i společnosti. Dovede rozesmát a zároveň vyjádřit mnohé z
toho, co pálí a zlobí dnešního člověka.</subfield>
</datafield>
<datafield tag=quot;920quot; ind1=quot; quot; ind2=quot; quot;>
<subfield code=quot;aquot;>bk196602754</subfield>
</datafield>
</record>D
</collection>
15. <dateIssued>1966</dateIssued>
<edition>1. vyd.</edition>
<issuance>monographic</issuance>
</originInfo>
<language>
<languageTerm authority=quot;iso639-2bquot; type=quot;codequot;>cze</languageTerm>
</language>
<physicalDescription>
<form authority=quot;marcformquot;>print</form>
<extent>124, [2] s. ; příč. 8°</extent>
</physicalDescription>
<abstract>Nová knížka oblíbeného satirika ponejvíce veršem, ale i krátkými prózami
míří proti
nejrozmanitějším vadám, vlastnostem, jednání a chování jedinců i společnosti. Dovede
rozesmát
a zároveň vyjádřit mnohé z toho, co pálí a zlobí dnešního člověka.</abstract>
<note type=quot;statement of responsibilityquot;>Jiří Robert Pick ; Il. Lubomír Štěpán</note>
<note>Obálka a vazba: ilustrátor</note>
<note>5500 výt.</note>
<note>Il. předsádky</note>
<classification authority=quot;udcquot;>885-17-7</classification>
<recordInfo>
<recordContentSource authority=quot;marcorgquot;>ABA001</recordContentSource>
<recordCreationDate encoding=quot;marcquot;>970821</recordCreationDate>
<recordChangeDate encoding=quot;iso8601quot;>19970821000000.0</recordChangeDate>
<recordIdentifier source=quot;CZ PrNKquot;>bk196602754</recordIdentifier>
<languageOfCataloging>
<languageTerm authority=quot;iso639-2bquot; type=quot;codequot;>cze</languageTerm>
</languageOfCataloging>
</recordInfo>
</mods>
</modsCollection>
16. Záznam ve formátu Dublin Core kódovaný pomocí RDF
<?xml version=quot;1.0quot; encoding=quot;UTF-8quot;?>
<rdf:Description xmlns:dc=quot;http://purl.org/dc/elements/1.1/quot;
xmlns:rdf=quot;http://www.w3.org/1999/02/22-rdf-syntax-ns#quot;>
<dc:title>7 kytic pro buvola</dc:title>
<dc:creator>Pick, Jiří Robert, 1925-1983</dc:creator>
<dc:type>text</dc:type>
<dc:publisher>Praha : Mladá fronta</dc:publisher>
<dc:date>1966</dc:date>
<dc:language>cze</dc:language>
<dc:description>Nová knížka oblíbeného satirika ponejvíce veršem, ale i krátkými prózami
míří
proti nejrozmanitějším vadám, vlastnostem, jednání a chování jedinců i společnosti.
Dovede
rozesmát a zároveň vyjádřit mnohé z toho, co pálí a zlobí dnešního
člověka.</dc:description>
<dc:description>Obálka a vazba: ilustrátor</dc:description>
<dc:description>5500 výt.</dc:description>
<dc:description>Il. předsádky</dc:description>
</rdf:Description>
17. MARC
MARC = MAchine Readable Cataloguing
Podrobněji viz The MARC21 Formats: Background and Principles.
Formát MARC je standard pro reprezentaci a komunikaci (výměnu) bibliografických a
souvisejících informací ve strojem čitelné podobě.
Záznam se dělí na tři úrovně:
• Struktura záznamu je dána standardy ANSI Z39.2 - Information Interchange Format a
ISO 2709 - Format for Information Exchange.
• Označení obsahu, tzn. kódy a konvence, které identifikují a dále charakterizují obsah
záznamu (např. kódy polí a podpolí) jsou definovány formátem MARC.
• Obsah většiny datových elementů je určen standardy mimo MARC, jako jsou AACR,
LCSH, UDT ...
18. Princip:
Data se člení do polí a dále do podpolí, označených pomocí tagů. Poli mohou předcházet dva
indikátory, zpřesňující význam jeho obsahu. Pole mohou mít pevnou nebo proměnnou délku.
Pole s pevnou délkou obsahují kódované údaje. Používá se znaková sada Extended ASCII.
Pro zobrazení v člověkem čitelné podobě se používá tzv. řádkový MARC.
Příklad:
245 10 $a7 kytic pro buvola /$cJiří Robert Pick ; Il. Lubomír Štěpán
Hodnoty tagů a význam jednotlivých polí, podpolí a indikátorů určuje konkrétní
implementace (verze) formátu MARC, většinou národní (USMARC, CANMARC,
UKMARC, mezinárodní UNIMARC, MARC21).
19. Příklad záznamu ve formátu MARC21 Příklad záznamu ve formátu UNIMARC
řádkové zobrazení řádkové zobrazení
^^^^^nam^a22^^^^^1^^4500 ^^^^^nam0^22^^^^^1i^450
001 bk196602754 001 bk196602754
003 CZ-PrNK 005 19970821
005 19970821000000.0 020 ## $aCZ$bbk196602754
008 100 ##
970821s1966^^^^cs^^^^^^^^^^^^^^^^^^cze^^ $a19970821d1966^^^^u^^y0czey0103^^^^ba
040 ## $aABA001$bcze$cHKA001$d ABA001 101 0# $acze
080 ## $a885-17-7$2undef 102 ## $aCS
100 1# $aPick, Jiří Robert,$d1925- 200 1# $a7 kytic pro buvola$fJiří Robert
1983$7jk01092970$4aut Pick$gIl. Lubomír Štěpán
245 10 $a7 kytic pro buvola /$cJiří Robert 205 ## $a1. vyd.
Pick ; Il. Lubomír Štěpán 210 ## $aPraha$cMladá fronta$d1966$gMír 22
250 ## $a1. vyd. 215 ## $a124, [2] s.$dpříč. 8°
260 ## $aPraha :$bMladá 300 ## $a5500 výt.
fronta,$c1966$f(Mír 22) 300 ## $aIl. předsádky
300 ## $a124, [2] s. ;$cpříč. 8° 300 ## $aObálka a vazba: ilustrátor
500 ## $aObálka a vazba: ilustrátor 675 ## $a885-17-7
500 ## $a5500 výt. 700 #1 $aPick$bJiří Robert$f1925-
500 ## $aIl. předsádky 1983$3jk01092970$4070
920 ## $abk196602754 909 ## 001499964
920 ## $abk196602754
Zásadní rozdíly mezi MARC21 a UNIMARC:
• V MARC21 je interpunkce součástí dat, v UNIMARC se generuje až při zobrazení (srov. pole 245 resp. 200),
• UNIMARC má tzv. vyšší granularitu údajů - je podrobněji strukturovaný (srov. pole 100 resp. 700).
20. MARC21 formáty jsou definovány pro pět typů dat:
• MARC21 Format for Bibliographic Data
• MARC21 Format for Holdings Data
• MARC21 Format for Authority Data
• MARC21 Format for Classification Data
• MARC21 Format for Community Information
Není problém zakódovat data ve formátu MARC pomocí XML místo pomocí ISO 2709. Viz
MARCXML Schema.
21. XML
Extensible Markup Language
http://www.xml.com
Slouží k zápisu strukturovaného textu. Označuje význam jeho jednotlivých částí pomocí
značek - tagů. Vznikl z jazyka SGML (ISO 8879) jako jeho aplikace, za účelem uchovávání a
zpracování dokumentů. Vytvořila ho v 90. letech XML Working Group pod W3C.
Princip:
Dokument se skládá z elementů, které jsou vyznačeny počátečním tagem <TAG> a koncovým
tagem </TAG>. Tagy mohou obsahovat atributy, které mají název a hodnotu: <TAG
atribut=quot;hodnotaquot;>. Pro zápis vyhrazených a zvláštních znaků slouží entity: &entita;
Dokument má definovanou strukturu pomocí DTD - Document Type Definition nebo nověji
pomocí XML Schema.
Používá se znaková sada ISO 10646 (UNICODE).
Dokument popisuje strukturu textu odděleně od jeho prezentace (vzhledu). Pro prezentaci
(zobrazení) dokumentu se používají jazyky XSL - XML Style Sheet Language nebo častěji
CSS - Cascading Style Sheets.
22. Výhody: Příklad XML textu popisujícího knihu:
<?xml version=quot;1.0quot;?>
• Textový formát, nezávislý na prostředí, <library>
• odděluje popis struktury od prezentace, <book id=quot;b0836217462quot; available=quot;truequot;>
<isbn>
• DTD je možné sdílet v rámci skupin 0836217462
uživatelů, </isbn>
<title lang=quot;enquot;>
• standard je otevřený - bez licencí Being a Dog Is a Full-Time Job
• a je podporovaný komerčními i volnými </title>
aplikacemi. <author id=quot;CMSquot;>
<name>
Charles M Schulz
</name>
<born>
1922-11-26
</born>
<dead>
2000-02-12
</dead>
</author>
</book>
</library>
Příklad MARC záznamu kódovaného pomocí XML
23. Bibliografické formáty založené na XML
Po rozšíření WWW je snaha použít staré osvědčené formáty (MARC) v rámci nových
technologií nebo je (částečně) opustit a vytvořit nové (MODS, DC). Ty však i nadále
využívají osvědčené metody a postupy. Čistou snahou začít quot;na zelené loucequot; je formát
XOBIS - The XML organic bibliographic information schema, který je zatím ve fázi
experimentu.
MARCXML
Nejjednodušší způsob, jak pracovat s daty ve formátu MARC je pouze je vyjádřit pomocí
XML. Vše ostatní zůstává stejné. Hlavními výhodami práce s XML je velké množství SW
aplikací a možnost použití XSLT stylesheets pro transformace do jiných formátů.
Library of Congress používá pro MARC21 tzv. MARC21 XML Schema.
Na jeho základě vznikl obecnější formát MarcXchange, který se brzy stane mezinárodním
standardem ISO 25577 Information and documentation – MarcXchange. Marc21XML
bude jeho součástí a navíc v něm bude možné kódovat všechny národní formáty rodiny
MARC včetně mezinárodního UNIMARCu.
Viz také MarcXchange - introduction.
24. Dublin Core Metadata Initiative
quot;Dublin Core je soubor metadatových prvků, jehož záměrem je usnadnit vyhledávání
elektronických zdrojů. Původně byl vytvořen jako popis zdrojů na WWW sestavený přímo
autorem, postupně ale zaujal instituce zabývající se formálním zpracováním zdrojů, jako jsou
muzea, knihovny, vládní agentury a komerční organizace.quot;
-- Dublin Core Czech
Domovské stránky Dublin Core Metadata Initiative http://dublincore.org/
Soubor metadatových prvků Dublin Core, verze 1.1 [česky]
http://www.ics.muni.cz/dublin_core/elems.html
MODS - Metadata Object Description Schema
Domovská stránka http://www.loc.gov/standards/mods/
Jde o formát, vytvořený Library of Congeress, především pro použití v knihovnických
aplikacích. Obsahuje vybrané prvky z MARC21, jsou však jinak strukturované a uspořádané.
Záměrem je jednodušší formát než MARC21, ale stále dostatečně strukturovaný (více než
DC).
25. Z39.50
quot;Information Retrieval: Application Service Definition and Protocol Specificationquot;
• ANSI/NISO Z39.50
• ISO 23950
Správce: Library of Congress
quot;Standard definuje protokol, založený na architektuře klient/server, určený pro vyhledávání a
získávání informací ze vzdálených databází.quot;
V současné době už verze 3.
Standard vytváří abstraktní datový model vzájemné komunikace dvou informačních systémů,
z nichž jeden slouží jako server - target (poskytovatel informace) a druhý jako klient - origin
(ten, kdo informaci požaduje). Dále definuje komunikační jazyk (Z-jazyk) a způsob kódování
přenášených údajů. Protokol je nezávislý na konkrétním systému ani platformě. Je určený pro
heterogenní prostředí pro komunikaci různých systémů. Přesto se standard používá
především v knihovnictví.
26. Protokol umožňuje:
• vyhledávání (search, index browse)
• úpravy (update)
• předávání/přebírání (upload/download)
Při komunikaci nastávají problémy s různými verzemi a různými profily (soubory funkcí, které jsou
implementovány).
Implementace protokolu - konkrétní realizace pro konkrétní systém (databázi) a platformu, která může
zahrnovat jen určitou podmnožinu funkcí (např. jen vyhledávání, ne update). Pro použití v různých
aplikacích existují různé profily, které definují které funkce musí být jak na straně klienta tak na straně
serveru implementované, aby byl protokol použitelný pro danou skupinu aplikací.
Pro seznam profilů viz Library of Congress - Z39.50 Profiles.
Důležité profily:
• The Bath Profile: An International Z39.50 Specification for Library Applications and Resource
Discovery, Release 1.1 (mezinárodní)
• Z39.50 profil JIB: profil pro vyhledávání a stahování záznamů, Verze 1.0 (pro Jednotnou
informační bránu ČR)
Viz též:
ZIG - Z39.50 Implementators Group
27. SRU - Search/Retrieve via URL
Domovská stránka: http://www.loc.gov/standards/sru/
Jedná se o protokol pro on-line vyhledávání pomocí jazyka CQL (Common Query Language).
Zadání dotazu na server se děje prostřednictvím URL. Výsledek vyhledávání je vrácen ve formě
XML.
Vznikl z iniciativy ZiNG - Z39.50 International: Next Generation - několik iniciativ
implementátorů Z39.50, snažících se o větší rozšíření a zjednodušení implementace Z39.50.
Příklady vyhledávání v katalogu Voyager Library of Congress: SRU is Simple!
Příklad vyhledávání v souborném katalogu MU - testovací server:
http://knihomol.phil.muni.cz/adssru?version=1.1&operation=searchRetrieve&query=dinosaur&ma
ximumRecords=10
SRW - Search/Retrieve Web Service
Domovská stránka: http://www.loc.gov/standards/sru/srw/index.html
Obdoba SRU, pouze kódování dotazu a odpovědi je obojí v XML podle doporučení SOAP.
Používá se jako tzv. web service (webová služba).
Implementace SRU/SRW protokolů je výrazně jednodušší (tedy i rychlejší, levnější) než
implementace Z39.50.