2. ZAGADNIENIA:
• Najczęściej spotykane formaty, w których udostępnia się publikacje tekstowe
• Format DjVu
• Formaty plików stosowane w FBC
• dLibra
• Formaty stosowane w polskich księgarniach i w Amazonie
• Podsumowanie możliwości wyszukiwania pełnotekstowego w zasobach
polskich bibliotek cyfrowych
3. NAJCZĘŚCIEJ SPOTYKANE FORMATY, W KTÓRYCH
UDOSTĘPNIA SIĘ PUBLIKACJE TEKSTOWE:
• Plik tekstowy (niesformatowany tekst)
• RTF (ang. Rich Text Format)
• HTML (ang. HyperText Markup Language)
• TIFF
• DjVu
• PDF (ang. Portable Document Format)
W repozytoriach multimedialnych mogą znajdować się także pliki graficzne (np. w formatach
PNG, TIFF, DjVu, JPEG), pliki dźwiękowe (np. MP3, Ogg Vorbis, WAV, MIDI) oraz pliki wideo
(np. MPEG, WMV, AVI, Ogg).
4. FORMAT DJVU
• odpowiedni dla skanowanych dokumentów z uwagi na rozdzielenie warstwy tła od
warstwy treści,
• warstwa treści jest wyodrębniana ze skanów z wykorzystaniem wbudowanego modułu
OCR (zestaw technik lub oprogramowanie służące do rozpoznawania znaków, zadaniem
OCR jest zwykle rozpoznanie tekstu w zeskanowanym dokumencie),
• dzięki temu możliwe jest wyszukiwanie pełnotekstowe,
największe dwie zalety:
- niewielkie rozmiary,
- szybkość dostępu do poszczególnych stron dokumentów opublikowanych online,
największe dwie wady:
- słaby OCR,
- nieindeksowanie przez Google i inne wyszukiwarki
5. FORMATY PLIKÓW STOSOWANE W FBC:
• Text/HTML 18,99%
• PDF 7,13%
• Pozostałe 1,75%
• DjVu/Image 72,13%
6. DLIBRA
dLibra to dedykowany system do budowy bibliotek
cyfrowych, który ukierunkowany jest na udostępnianie dokumentów
pochodzących z bibliotek (akademickich i publicznych), instytucji
pozarządowych, fundacji, jednostek publicznych, firm
komercyjnych, a także zbiorów prywatnych.
Ma możliwość przechowywania obiektów cyfrowych w
dowolnym formacie, np. PDF, DjVu, MP3, FLV, JPG.
7. FORMATY STOSOWANE W POLSKICH
KSIĘGARNIACH I W AMAZONIE
• ePUB
• MOBI
• AZW – odmiana formatu MOBI
• PDF
8. PODSUMOWANIE MOŻLIWOŚCI WYSZUKIWANIA
PEŁNOTEKSTOWEGO W ZASOBACH POLSKICH BIBLIOTEK
CYFROWYCH
Google oraz inne wyszukiwarki nie są w stanie bezpośrednio indeksować plików djvu; z
innymi formatami (1/4) radzą sobie bardzo dobrze,
• około 3/4 zasobów polskich bibliotek cyfrowych należy do tzw. niewidocznego
Internetu,
• nawet gdyby Google zaczął indeksować pliki djvu, kompletność wyników byłaby
daleka od oczekiwanej,
• sposób prezentacji wyników wyszukiwań w znacznym stopniu utrudnia dotarcie do
fragmentu tekstu zawierającego poszukiwaną frazę
Warto by było wprowadzić oprócz dotychczasowego DjVu, także PDF i TXT. Google
zaindeksuje zarówno PDFy jak i TXT.