A/10.
A szemantikus technológiák: a szemantikus web lépcsős modellje, az RDF logika, a
tématérképek adatmodellje
A szemant...
szemantikus szabályokra hivatkozzon. Ezáltal egy önleíró, érvényesíthető
dokumentumformátum jön létre.
3. Az RDF és RDFS r...
• Az RDF: háromszavas mondatokból, ún. tripletekből áll. A tripletekkel modellezhetők
a világ dolgai. Az elképzelés szerin...
A RDF gráfok megrajzolásakor az URI-val azonosított csomópontokat ellipszissel ábrázoljuk,
literálokat szögletes dobozzal ...
célokra készült, későbbi alkalmazások is. Alkalmazások határain átnyúló
tudásreprezentáció.
Tárgyak azonosítása:
– Azonosí...
Tématérkép ontológia:
Az ontológia definíciója tématérképes környezetben: "Az ontológia egy adott tématérképben
használt t...
– hogy meghatározza a Tématérképek csereszabványos szintakszisának
értelmezését
– és hogy alapul szolgáljon a kanonizálást...
– Az új hierarchikus keresőrendszer megjelenítésére választották a tématérkép
szabványon alapuló szoftvert.
– A fejlesztők...
Upcoming SlideShare
Loading in...5
×

A.10 a szemantikus technológiak brigi

92

Published on

Published in: Science
0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
92
On Slideshare
0
From Embeds
0
Number of Embeds
1
Actions
Shares
0
Downloads
3
Comments
0
Likes
1
Embeds 0
No embeds

No notes for slide

A.10 a szemantikus technológiak brigi

  1. 1. A/10. A szemantikus technológiák: a szemantikus web lépcsős modellje, az RDF logika, a tématérképek adatmodellje A szemantikus világháló (Semantic Web) fő célja, hogy a világhálón elérhető temérdek információt számítógépes feldolgozásra alkalmasabbá tegye. Az irányzat jelszava, hogy a világhálón található információt a számítógépek ne csak olvasni, hanem értelmezni is tudják. Ehhez szükséges, hogy a hálón levő adatokhoz ún. metainformációt társítsunk, például egy képhez adjuk meg, hogy ki készítette, mi a címe, mit ábrázol stb. Ezen túlmenően a számítógépeket képessé kell tennünk következtetések elvégzésére, például ha egy képről ismert, hogy egy folyót ábrázol, akkor ebből gépi úton ki lehessen következtetni azt is, hogy víz látható rajta. A szemantikus világháló irányzatához szorosan kapcsolódik az ontológiák, azaz hierarchikus fogalmi rendszerek kutatása és fejlesztése. Az ontológiákon való következtetések alapját pedig az ún. leíró logikai (Description Logic) formalizmusok képezik. A World Wide Web konzorciumnak (W3C) a szemantikus világhálóhoz kötődő legújabb szabványa, az OWL nyelv, már leíró logikai alapokon nyugszik. Az ontológiai rendszerek és a metainformációk egyre nagyobb szerepet kapnak a világhálón kívüli információforrások, például a vállalati adat- és tudásbázisok kezelésében is. Az elérhető információ mennyisége ütemben nő, emiatt egyre nagyobb szükség van az adatforrások rendszerezésére, összekapcsolására. Lépcsős modellje: A szemantikus web felépítése - A lépcsős modell A szemantikus web a következtetéseket is lehetővé tevő metaadat-infrastruktúra a weben. Ennek legfőbb építőköveit a World Wide Web dolgozza ki és szabványosítja. Az ide vonatkozó legfontosabb ajánlások a Resource Description Framework (RDF), az RDF Schema (RDFS) és Web Ontology Language (OWL). A szemantikus web összképét az egymásra épülő célok lépcsős modelljével lehet szemléltetni. Ennek rétegei a következők: Consortium (W3C) 1. Az első szinten a Unicode és URI ajánlások biztosítják az egységes nemzetközi karakterformátumot és az egységes címezhetőséget. A szemantikus weben belül az URI-k használata jóval túlmutat a megszokott weblapcímeken. Egy személyt is azonosíthat mondjuk az e-mail címét tartalmazó URI, vagy egy intézetet a weblapjának a címe. Tulajdonságokat, állításfajtákat is URI-k azonosítanak. 2. Az XML réteg biztosítja, hogy a szemantikus web definíciókat egyéb XML alapú szabványokkal integrálhassuk. Az XML a névtér- és sémadefiníciókkal együtt lehetővé teszi, hogy egy XML dokumentum a létrehozásakor alkalmazott szintaktikai és 1
  2. 2. szemantikus szabályokra hivatkozzon. Ezáltal egy önleíró, érvényesíthető dokumentumformátum jön létre. 3. Az RDF és RDFS réteg biztosítja, hogy állításokat tehessünk az objektumokról URI-k segítségével, és olyan szótárakat készítsünk, amelyekre ezen URI-k hivatkozhatnak. Az RDF hordozza a szemantikus tartalmat. 4. Az ontológiaréteg lehetőséget ad bonyolultabb szótárak felépítésére. Itt már a különböző fogalmak közötti összefüggések is megadhatók, hasonlóan egy tezauruszhoz. Le írják a szabályokat, amelyek alapján következtetések vonhatók le. 5. A digitális aláírás réteg a dokumentumok hitelességét igazolja. • Az egyes szintek egymásra épülnek. • Minden szint eggyel komplexebb, mint az alatta elhelyezkedő. • Mégis az egyes szintek önállóan fejleszthetők. A szemantikus web három különböző rétegből áll: • metaadatok: az erőforrások és tulajdonságok leírása (URI, XML, RDF); • sémák: a fogalmak hierarchikus leírása (RDFS, OWL, SKOS); • logikák: leíró logikák (OWL, RIF). A szemantikus web megvalósulásának előfeltétele, hogy a tartalmak létrehozói általánosan elfogadott szabványokhoz tartsák magukat a fejlesztések során. Az ontológiák: Az ontológiák lényegében speciális taxonómiák, amelyek amellett, hogy megmutatják a fogalmak egymáshoz képesti fogalmi hierarchiáját, a formális logikai szabályok megjelenítésével még többre képesek az emberi gondolkodás reprezentálásában. (Berners- Lee, 2001) Ontológia szintaxisok: – RDF/RDFS – OWL – SKOS – RIF – OWL: Web Ontology Language; • Ontológiák leírására szolgáló szintakszis; • Megkönnyíti a webes tartalmak értelmezését a gépek számára • Célja, hogy formális logikákon alapuló bonyolult szemantikai relációkat is lehessen a számítógép számára reprezentálni • Lehetővé teszi, hogy explicit módon ábrázoljuk egy meghatározott szókészlet kifejezéseinek jelentését, valamint ezek összefüggéseit I. RDF logika: • Az RDF (Recource Description Framework – Erőforrás-Leíró Keretrendszer) adatmodell alkalmas arra, hogy tetszőleges erőforrásokhoz metaadatokat kapcsoljon. Az RDF úgy definiálja az erőforrás fogalmát, hogy az bármi lehet, ami azonosítható URI-val. 2
  3. 3. • Az RDF: háromszavas mondatokból, ún. tripletekből áll. A tripletekkel modellezhetők a világ dolgai. Az elképzelés szerint több alkalmazás együttesen leírja a világ valamennyi létezőjét. • Egyrészt egy adatmodell, amelynek elemei: • Erőforrások • Tulajdonságok • Literálok • Kijelentések • Másrészt egy XML alapú szintakszis • amellyel bináris relációk írhatók le, • amellyel a valóság írható le formálisan. • Az RDF adatmodell szerkezeti építőeleme a hármas (triplet) • Szubjektum vagy alany (subject) • Predikátum vagy állítmány (predicate) • Objektum vagy tárgy (object) E három együtt adja az állítást • Az RDF-fel kifejezhetők tématérképek. (DE adatvesztéssel) • Az Omnigator képes konvertálni a tématérképeket RDF-be. • Az RDF-et nem csak szemantikus web alkalmazásokhoz használják. • Az adatmodellből hiányzik a – scope, – a dolgok különböző neveken való kezelése, – az előfordulások témákhoz rendelése. RDF séma: Az RDF séma az objektumok leírásához osztályokat és osztálytulajdonságokat vezet be. Ezáltal a sémákon alapuló RDF leírások strukturáltabbá válnak, bár bonyolultabb összefüggések leírására csak a következő, ontológiai szinten lehetséges a szintén RDF-en alapuló OWL nyelv segítségével. Egy RDF séma megadja azt is, hogy egy osztály mely más osztályok kiterjesztése, valamint hogy milyen kapcsolatban állhatnak ezen osztályok példányai. Az osztályokhoz hasonlóan a kapcsolataikat is egy öröklésszerű hierarchiába szervezhetjük, valamint megadhatjuk az értékkészletüket és értelmezési tartományukat. • A sémák és az ontológiák a következtetésekhez szükséges háttértudást tartalmazzák. • Pl.: – osztály-alosztály (gerinces – emlős) – a tulajdonságok közt fennálló hierarchikus viszonyok (ismerőse – barátja), • A terminológia definiálásában is kitüntetett szerepük van az RDF sémáknak. • Az RDF sémák nem kínálnak ellenőrzött szótárt, csak megteremti annak a lehetőségét, hogy egy-egy alkalmazáson belül általánosan érvényes kijelentéseket tegyünk. • az RDF-hez kínál egy szabványos tipologizáló metódust. Az RDF gráfmodellje Az RDF az állításokat egy gráf csomópontjaival és éleivel modellezi, amelynek csomópontjainak halmazát a gráf triplettjeinek alanyai és tárgyai alkotják, és az élek halmazát az állítmányok. Az él iránya szignifikáns, és ennek mindig a tárgyra kell mutatnia. 3
  4. 4. A RDF gráfok megrajzolásakor az URI-val azonosított csomópontokat ellipszissel ábrázoljuk, literálokat szögletes dobozzal reprezentáljuk. Fontos, hogy egy RDF-gráfban csak abszolút URI-k szerepelhetnek. RDF vs. Adatbázisok: Egyszerűbb adatbázisokban leírni a tartalmakat, DE! az RDF a következőkben jobb: – interoperabilitás; – adatok számítógépek közötti cseréje; – a strukturálatlan információk kezelésére az adatbázisok kevésbé alkalmasak; – új információt akarunk beilleszteni, aminek nincs oszlopa • ELLENBEN: – az adatbázisokban tárolt információk teljes mértékben leírhatók RDF-ben is Az RDF-et úgy tervezték, hogy bármiről lehessen vele állításokat tenni, ami azonosítható a weben. Az RDF olyan egységes keretet biztosít az információtartalom leírására, amelyben azok átvihetők egyik alkalmazásból a másikba. Nem csak azok az alkalmazások használhatják az információt, amelyek számára azt eredetileg ábrázolták, hanem a más 4
  5. 5. célokra készült, későbbi alkalmazások is. Alkalmazások határain átnyúló tudásreprezentáció. Tárgyak azonosítása: – Azonosítás: Hogyan biztosítható, hogy a számítógépek és az emberek is ugyanazt értsék a dolgokon?  URI (Universal Resource Identifier) Pl. URL – személy: mailto:thmate@oszk.hu – cég: http://www.ki.oszk.hu – sport: http://hu.wikipedia.org/wiki/Tenisz – város: http://www.budapest.hu – Állításokat is csak URI-k között lehet tenni. – Az URI-kat elsősorban a számítógépek értik. A szemantikus web technológiákat ugyanis gépi visszakeresésre optimalizálták. – Az RDF webes erőforrásokat ír le. – Erőforrás minden, aminek van URI-ja. Aminek van URI-ja az „fent van a weben”. – Az URI-k literálok (karaktersorozatok), amelyek webes erőforrásokat azonosítanak. – Ha két metaadat-leírás ugyanazt az URI-t használja, akkor ugyanazt a dolgot azonosítja. – RDF már az 1990-es évek végén létezett. A szemantikus web elképzelést azonban csak 2001-hez kötik. Az RDF a szemantikus webnek csak az egyik rétege! A szemantikus web technológiák könyvtári alkalmazása az XML és az RDF implementálásával indult. Alkalmazhatóságuk pl.: – a tudáskezelés, tudásmenedzsment és metaadatok kezelése – az elektronikus dokumentumok kezelése – RDF-en alapuló folyóirat-kezelő rendszer – elektronikus disszertáció és szakdolgozat-kezelő alkalmazás Egy 2004-es kutatás kiindulási pontja, hogy a katalógusok el fognak mozdulni az irodalom feltárásától a weben található tartalmak értékelésének irányába – Ez merőben új szemléletet hoz majd az elektronikus szolgáltatások területén. – A rekordok részét képeznék egy globális metaadat-infrastrukturának. – Ez a szemantikus kapcsolatok, közvetve a rekordokból elérhető információtartalom bővülésével járna.  Az RDF azóta sem vált a világhálón található tartalmak fő metanyelvévé. Ez lenne az egyik előfeltétele egy ilyen katalógusnak. 5
  6. 6. Tématérkép ontológia: Az ontológia definíciója tématérképes környezetben: "Az ontológia egy adott tématérképben használt téma-, név-, előfordulás-, asszociáció- és szereptípusok összessége.” (Garshol, 2007) Minden tématérkép alkalmazás hátterében egy ontológia fut. Egy egyszerű tématérkép kidolgozása során nem biztos, hogy tudatosul. A tématérkép technológia: „A Tématérkép technológia arra szolgál, hogy tudást kódoljunk vele és ezt a kódolt tudást releváns információs forrásokkal kapcsoljuk össze. A tématérképek diskurzusok tárgyát megjelenítő témák, a tárgyak közti kapcsolatokat megjelentő asszociációk és a tárgyakat megfelelő információs forrásokkal összekapcsoló előfordulások köré rendeződnek.” (ISO/IEC 13250-2 Data Model) Szemantikus technológia (rokon a szemantikus webbel). Multidiszciplináris fejlesztési terület. A könyvtárosok, informatikusok mellett a legtöbben bölcsészek a fejlesztők közül! A tématérképek TAO-ja! • TOPICS • ASSOCIATIONS • OCCURENCES Tématérkép alapfogalmai: • Témák és tématípusok - dolgok megnevezése, szavakkal való reprezentációja; • Asszociációk és asszociációtípusok - dolgok közötti kapcsolatok definiálása; • Előfordulások és előfordulástípusok - dolgokról fellelhető információk helyei az információs térben (feljegyzések, belső előfordulások, külső előfordulások); • Nevek és névtípusok - azonos dolgok különböző nevei; • Szerepek és szereptípusok - a dolgok által felvehető szerepek (Kovács Pál! „Te is lehetsz állampolgár, adóalany, vagy kedves hallgató, mélyen tisztelt egybegyűlt, vagy peres fél, vagy nyájas olvasó.” Kft.) A tématérkép adatmodell: • A tématérképek sokféleképpen megjeleníthetőek: – tématérkép szintakszisokat használva fájlokban, – adatbázisokban, – futó programok belső adatszerkezeteiként, – és mentálisan az emberi gondolkodásban is. • Ezek a formátumok ugyanannak az absztrakt szerkezetnek a megjelenítésére szolgálnak. • Az ISO/IEC 13250-2 ezt a szerkezetet határozza meg egy adatmodell formájában. Az adatmodell meghatározza – a Tématérképek absztrakt szerkezetét, az információs készlet formalizálásával és szöveges formában bizonyos mértékig az értelmezésüket is. – a Tématérképek összeolvasztásának szabályait, – néhány alapvető tárgyazonosítót. Az adatmodell célja, 6
  7. 7. – hogy meghatározza a Tématérképek csereszabványos szintakszisának értelmezését – és hogy alapul szolgáljon a kanonizálást, lekérdezést, korlátozásokat stb. meghatározó további szabványokhoz. • Az adatmodell szabad teret enged a dolgok reprezentálásának. Két speciális relációtípust definiál: – Típus-eset kapcsolat – Szupertípus-altípus kapcsolat A típus-eset kapcsolat. (homo sapiens – Kanada miniszterelnöke) • A tématípus olyan tárgy, amely egy tárgykészlet tagjaiban lévő azonosságokat tömörít. – Bármely tárgy, amely egy adott tématípus kiterjesztéséhez tartozik, annak a tématípusnak az esete. – Egy tématípus lehet egy másik tématípus esete. – Nincs korlátozás, hogy egy tárgy hány tématípusnak lehet az esete. • A típus-eset kapcsolat nem tranzitív. Azaz, ha B az A típus esete, és C a B típus esete, ebből nem következik, hogy C esete A-nak. (A – emlős; B – homo sapiens; C – Kanada miniszterelnöke) A szupertípus-altípus kapcsolat – Egy általánosabb típus (a szupertípus) és ennek a specifikusabb változata (az altípus) közötti kapcsolat. – Ha B altípusa A-nak, ebből az következik, hogy B minden esete A-nak is esete. – Ennek fordítottja nem feltétlenül igaz. – Egy típusnak akármennyi altípusa és szupertípusa lehet. • A szupertípus-altípus kapcsolat tranzitív, ami azt jelenti, hogy ha B altípusa A-nak, és C altípusa B-nek, akkor C altípusa A-nak is. (pl. A – élőlény; B – állat; C – kutya) – Generikus hierarchialánc Könyvtári tématérkép alkalmazások: (egy-két hazai példa) • Beteljesületlen lehetőségek sora • A kisszámú alkalmazás sokfélesége egyszerre reprezentálja a könyvtári munka sokszínűségét és a tématérkép technológiákban rejlő lehetőségeket. • Könyvtári példák vannak – a katalógusok tématérképek segítségével való továbbfejlesztéséről, – a metadatok hatékonyabb együttműködésének biztosításáról, – teljes digitális könyvtári rendszerekről, – a tájékoztató munkát segítő szakterületi útmutatókról és – e-learning eszközökről – A tématérkép alkalmazások előzményei jóval megelőzik a szemantikus web koncepció megjelenését. A Neumann Ház 1998 óta fejleszti a magyar internetkatalógust, a WebKat-ot – A WebKat-hoz 2000 nyarára készült el a tezaurusz, amely a dokumentumok tartalmi feltárását tette lehetővé. – 2002-ben indult egy új keresőrendszer fejlesztése, amelynek fő motivációját az interneten történő változások jelentették. 7
  8. 8. – Az új hierarchikus keresőrendszer megjelenítésére választották a tématérkép szabványon alapuló szoftvert. – A fejlesztők szerint az internethasználók igényei sokkal inkább a vizuális élmények irányába halad. – Ezért érezték szükségét annak, hogy a tezauruszban rögzített hierarchikus relációkat vizuálisan is megjelenítsék. – a szolgáltatás a tématérképeknek elsősorban a vizualizáció terén meglévő előnyeit használja és viszonylag – Kis hangsúlyt kap a fogalmak közti relációk redefiniálása. Az OSZK Magyar Elektronikus Könyvtára is kísérletezett tématérkép alkalmazásokkal. • Az OSZK tezauruszát is elkészítették tématérképben. – Nem fejleszti tovább a tezauruszokban található relációkat, – nem definiál újabb szemantikus kapcsolatokat a témák között, • A fejlesztés érdemben nem javítja a tartalom használhatóságát. MARCXTM formátum – Katalógusrekordok tématérképesítését szolgálta • koreai kutatók által fejlesztett, • a MARC21 rekordok XTM-ben való leírását célozta. • Végül nem jutott el a gyakorlati alkalmazások szintjéig. • A bibliográfiai adatrekordok kezelésében több siker kísérte a MARC rekordok FRBR modellel való megfeleltetését tématérképek segítségével. • Az FRBR és a MARC21 elemei egy az egyben megfeleltethetők és kifejezhetők a tématérkép adatmodell segítségével. • Az eljárás során a MARC rekordokat egy FRBR fogalmakat tartalmazó ontológiában formalizálják. • A téma- és az asszociációtípusok az FRBR entitások voltak. • A Koreai Nemzeti Könyvtár a gyakorlatban is kihasználta ezt a lehetőséget és a katalógusát kísérleti jelleggel elkészítette ebben a formában. A szemantikus web jövője: • Következtetéseket lehetővé tevő metaadat-infrastruktúra a weben; • Második generációs web, mely kiterjesztése a jelenlegi, első generációs webnek. • A világháló lehetőségei megsokszorozódnának. • A szemantikus web ereje a metaadatokban van. Probléma: • Egy globális hálózati metaadat infrastruktúra akadályai: – Nem sikerült levinni az emberek szintjére a szemantikus webet – Nem tudnak tömegek szemantikus-web kompatibilis metaadatokat (ontológiákat) generálni – Nincs megoldva a fogalmak egyértelmű azonosításának ügye (PSI tárak, újrahasznosított URI-k) 8

×