Zastosowanie technologii semantycznych w porządkowaniu wiedzy / Jolanta Szulc

ZASTOSOWANIE TECHNOLOGII
SEMANTYCZNYCH W
PORZĄDKOWANIU WIEDZY.
PRZEGLĄD ROZWIĄZAŃ
Jolanta Szulc
Konferencja nt. "Nauka o informacji (informacja naukowa)
w okresie zmian„
Warszawa 2013

CEL PREZENTACJI
Celem badania jest przedstawienie wybranych technologii
semantycznych, które znajdują wielorakie zastosowania
praktyczne w porządkowaniu wiedzy.

PLAN PREZENTACJI
 Wstęp
 Technologie semantyczne
• grafy i wykresy semantyczne
• sieci semantyczne wykorzystywane do przetwarzania języka
naturalnego
• sieci semantyczne łączone z metatezaurusami
• ramy semantyczne
• semantyczne klasyfikacje
• systemy hybrydowe
 Podsumowanie i wnioski

OKREŚLENIA I DEFINICJE
Na potrzeby badań przyjęto następującą definicję sieci
semantycznej:
Sieć semantyczna jest rozszerzeniem dzisiejszej sieci Web,
w której informacja ma dobrze zdefiniowane znaczenie,
przez co umożliwi lepszą współpracę komputerów i ludzi
(T. Berners-Lee, J. Hendler, O. Lassila, 2001).
Technologie semantyczne są to zaawansowane narzędzia
informatyczne pozwalające na efektywne zarządzanie
danymi, których kluczową cechą jest możliwość
uwzględniania kontekstu i różnorodnych relacji. Cecha ta
pozwala na zarządzanie danymi, informacjami oraz wiedzą.

GRAFY I WYKRESY SEMANTYCZNE (1)
Koncepcja grafów semantycznych nawiązuje do idei grafów
egzystencjalnych (ang. existential graphs) opracowaną
przez Charlesa Sandersa Peirce’a (1839-1914).
W latach 60. dwudziestego wieku reprezentacje semantyczne
z wykorzystaniem grafów znalazły zastosowanie zarówno w
językoznawstwie teoretycznym, jak i komputerowym.
Margaret Masterman przedstawiła graficzną notację, nazwaną
siecią semantyczną, która zawierała siatkę różnych typów
konceptów (M. Masterman, 1961).
Analizowano także inne zagadnienia, takie jak: siatki (sieci)
korelacyjne, wykorzystujące różne relacje (typu część-
całość, relacje przypadkowe, relacje pokrewieństwa) i
związane z nimi instancje i atrybuty (Silvio Ceccato ).
David Hays przedstawił grafy zależności (ang. dependency
graphs), których sformalizowana notacja była przedmiotem
badań językoznawców (m.in. Lucien Tesnière).

Pod koniec lat 70. John F. Sowa opracował wersję grafów
konceptualnych (ang. conceptual graphs, CGs), rozumianych
jako język mapowania pytań i twierdzeń zapisanych w
języku naturalnym do relacyjnych baz danych (Sowa [32]).

Graf semantyczny -
jest identyfikowany jako graf, dla którego dodatkowo definiuje
się typy wierzchołków (np. osoba, zdarzenie, obiekt, itd.).
- zakłada się także, że liczba zdefiniowanych typów
wierzchołków jest dużo mniejsza niż liczba wierzchołków
występujących w danym grafie semantycznym.
- połączenia między wierzchołkami w grafie należą do
określonych typów.
- ten sam typ łuku między różnymi typami wierzchołków może
reprezentować odrębny związek (ma odrębne znaczenie
semantyczne).
Wykres semantyczny -
(ang. relational data graph, attributed relational graph)
zawiera zakodowane relacje (powiązania) między parą
wpisywanych węzłów. Ponadto, każdy węzeł ma zestaw
atrybutów z nim związanych (np. wiek może być atrybutem
węzła typu osoby).

Zdanie: Gabriela jedzie do Milton autobusem.
Graf:
Formuła:
(∃x)(∃y)(Jedzie(x) ∧ Osoba(Gabriela) ∧ Miasto(Milton) ∧
Autobus(y) ∧ Narzędzie(x, Gabriela) ∧ Cel(x, Milton) ∧
Narzędzie(x, y))

Grafy konceptualne -
są wykorzystywane w tzw. wspólnej logice (ang. Common
Logic (CL).
Ogólny model teorii CL został określony przez Hayesa i
Menzela, a następnie zastosowany przez Hayesa i McBride’a
w celu określenia semantyki dla języków RDF(S) i OWL.
Ze względu na fakt, że różne języki zostały zaprojektowane i
zaimplementowane w różnym czasie i miejscu, uogólniony
model CL uwzględnia:
 języki sieci semantycznych,
 język modelowania UML (ang. Unified Modeling Language),
języki programowania logicznego (ang. Logic-Programming
Languages),
 język baz danych SQL (ang. Structured Query Language).

Definicje i określenie CL, a także struktura logiki pierwszego
rzędu przeznaczonej do wymiany i transmisji danych są
przedmiotem normy:
ISO/IEC 24707:2007 Information Technology, Common
Logic (CL). A Framework for a family of Logic-Based
Languages.
Norma określa trzy dialekty, zgodne ze standardami CL. Są to:
 Common Interchange Format Logic (CLIF),
 Conceptual Interchange Format Graph (CGIF) ,
 XML dla wspólnej logiki (XCL).

SIECI SEMANTYCZNE DO PRZETWARZANIA
JĘZYKA NATURALNEGO (1)
Sieci semantyczne wykorzystywane są również w
przetwarzaniu języka naturalnego (NLP, ang. Natural
Language Processing), a także języka medycznego (MLP,
ang. Medical Language Processing).
Przetwarzanie języka naturalnego
- obejmuje wszelkie prace zmierzające do automatycznego
tworzenia lub przetwarzania wypowiedzeń, związane ze
znaczeniem lub strukturą lingwistyczną tych wypowiedzeń
(A. Przepiórkowski, 2008).
Prace te mogą być prowadzone na kilku poziomach, które
zasadniczo odpowiadają podziałowi językoznawstwa na
pragmatykę, semantykę, składnię, morfologię, fonologię i
fonetykę.

W procesie przetwarzania języka naturalnego można wyróżnić
następujące cykle:
1) transformacja zdań na ich reprezentację w pamięci
komputera,
2) integracja reprezentacji zdań w bazie wiedzy,
3) transformacja pytań użytkowników na taką postać, jaka jest
reprezentowana w bazie wiedzy,
4) realizacja procesu wnioskowania na reprezentacji zdań
znajdujących się w bazie wiedzy,
5) transformacja ciągów symboli będących wynikiem
wnioskowania na zdania języka naturalnego.
 cykle 2, 4 i 5 nie zależą od przyjętego języka naturalnego,
 cykle 1 i 3 – zależą od przyjętego języka naturalnego, tzn.
transformacja zdań wprowadzanych do komputera będzie
inna dla języka angielskiego, a inna dla języka polskiego.

Konieczność opracowania transformacji języka polskiego na
reprezentację symboliczną w bazie wiedzy podkreślali polscy
badacze (m.in. R. Tadeusiewicz, J. Kazimierczak i in.).
Do nielicznych prób implementacji gramatyk języka polskiego
należą prace Zygmunta Vetulaniego nad opracowaniem w
języku programowania Prolog praktycznego parsera, w
którym znaczenia wypowiedzeń i ich części składowych
reprezentowane są za pomocą logiki predykatów (Z.
Vetulani, 2004).

Podstawowe metody reprezentacji wiedzy wyrażonej w języku
naturalnym obejmują metody :
 z wykorzystaniem logiki predykatów,
 różnych logik nieklasycznych,
 wyrażeń symbolicznych,
 sieci semantycznych,
 zależności pojęciowych (CD, ang. Conceptual Dependences),
 ram (ang. frames),
 scenariuszy (ang. scripts).
Cztery ostatnie metody określane są mianem strukturalnej
organizacji wiedzy, ponieważ uwzględniają relacje między
elementami wiedzy (J. Kazimierczak, 2005).

Na semantycznym poziomie przetwarzania języka dokonuje się
podziału semantyki na
- leksykalną (ang. lexical semantics)
- kompozycyjną (ang. compositional semantics).
Semantyka leksykalna zajmuje się znaczeniami
pojedynczych jednostek leksykalnych, a semantyka
kompozycyjna określa budowę znaczeń większych
konstrukcji składniowych na podstawie znaczeń ich
składników.

W przetwarzaniu języka naturalnego prace związane z
semantyką leksykalną obejmują:
 tworzenie słowników semantycznych, takich jak WordNet,
FrameNet,
 metody automatycznego ujednoznaczniania sensu słów w
tekstach (WSD, ang. Sense Disambiguation).
Prace związane z semantyką kompozycyjną dotyczą
stosowania różnych języków reprezentacji znaczenia, takich
jak:
 język logiki pierwszego rzędu (bez kwantyfikatorów),
 logika intensjonalna Richarda Montague,
 język Teorii Reprezentacji Dyskursu (ang. Discourse
Representation Theory),
 inne języki pozwalające na skrótową reprezentację
wieloznaczności semantycznych .

Podstawowe metody reprezentacji wiedzy wyrażonej w języku
naturalnym obejmują metody :
 z wykorzystaniem logiki predykatów,
 różnych logik nieklasycznych,
 wyrażeń symbolicznych,
 sieci semantycznych,
 zależności pojęciowych (CD, ang. Conceptual Dependences),
 ram (ang. frames),
 scenariuszy (ang. scripts).
Cztery ostatnie metody określane są mianem strukturalnej
organizacji wiedzy, ponieważ uwzględniają relacje między
elementami wiedzy (J. Kazimierczak, 2005).

SYSTEMY HYBRYDOWE
Przykładem systemu hybrydowego jest system
zaprojektowany przez pracowników Pacific Northwest
National Laboratory, Sandia National Laboratories i Cracy
Inc. w Stanach Zjednoczonych.
System ten posiada zdolność obliczeniową do przetwarzania
bazy semantycznych wykresów i wykorzystuje architekturę
platformy Cray XMT, tradycyjne klastry oraz duże bazy
danych (C.A. Joslyn, et al., 2011).

PODSUMOWANIE I WNIOSKI (1)
Zastosowanie:
 Sieci semantyczne mogą być wykorzystywane do
porządkowania różnych obszarów wiedzy, np. podczas epidemii
SARS, w pierwszej dekadzie XXI wieku, wykorzystano
technologie sieci semantycznych na potrzeby reagowania
kryzysowego (J.E. Powell, L.M. Collins, M.L.B. Martinez, 2009).
 Rozwój technologii semantycznych umożliwia automatyczne
przetwarzanie nie tylko danych liczbowych, lecz także informacji
tekstowych i ich znaczenia.
 Technologie semantyczne wykorzystują różne metody
reprezentacji wiedzy, takie jak: reguły, ramy, struktury
gramatyczne, reprezentacje logiczne, systemy obiektowe, czy
sieci neuronowe.
 W praktyce pojawiają się coraz nowsze zastosowania sieci
semantycznych łączonych z takimi formami organizacji wiedzy,
jak ontologie, RDF (ang. Resource Description Framework),
SPARQL (ang. SPARQL Protocol and RDF Query Language),
reguły oparte na systemach danych powiązanych z Semantic
Web.

Problemy badawcze:
 Niektórzy badacze określają obszary badań sieci
semantycznej obejmujące cztery zakresy: sieć (ang. web),
zawartość (ang. content), usługi (ang. services) i poznanie
(ang. cognition) (D. Mills, 2005).
 Należy sądzić, że dalsze prace badawcze będą dotyczyć
podnoszenia funkcjonalności technologii semantycznych,
przy użyciu których muszą być brane pod uwagę potrzeby i
zachowania użytkowników.
 Inne: jak/czy struktura sieci semantycznych wpływa na
organizację wiedzy.

Informacja semantyczna (ang. semantic information) –
ukształtowane, sensowane, prawdziwe dane (L. Floridi,
2002, 2003, 2011)
Yehoshua Bar-Hillel i Rudolf Carnap opracowali teorię
informacji semantycznej (Y. Bar-Hillel, R. Carnap, 1953)
Semantyczna informacja a dane:
- interpretacja danych;
- neutralność taksonomiczna, typologiczna, ontologiczna,
genetyczna;
- dlaczego informacja jest fałszywa (jest pseudoinformacją):
występuje nadmiar informacji, informacja jest sprzeczna,
niespójna, zawiera tautologie;
- właściwą (prawdziwą) informacją jest informacja
semantyczna.
(L. Floridi: The Philophy of Information. Oxford: University Press,
2011, p. 204)

BIBLIOGRAFIA
Chmielewski M.: Ukryte zależności w sieciach semantycznych.
„Biuletyn Instytutu Systemów Informatycznych” T. 1 (2008), s. 9-
16).
Masterman M.: Semantic message detection for machine translation,
using an interlingua. In: Proc. 1961 International Conf. on Machine
Translation, p. 438–475, 1961).
Przetwarzanie języka naturalnego. Praca ziorowa pod red. J
Kazimierczak. Warszawa: Wydawnictwa Komunikacji i Łączności,
2005.
Przepiórkowski A.: Powierzchniowe przetwarzanie języka polskiego.
Warszawa: Akademicka Oficyna Wydawnicza EXIT, 2008.
Vetulani Z.: Komunikacja człowieka z maszyną. Komputerowe
modelowanie komp[etencji językowej. Warszawa: Akademicka
Oficyna Wydawnicza EXIT.

Zastosowanie technologii semantycznych w porządkowaniu wiedzy / Jolanta Szulc

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (6)

Similar to Zastosowanie technologii semantycznych w porządkowaniu wiedzy / Jolanta Szulc

Similar to Zastosowanie technologii semantycznych w porządkowaniu wiedzy / Jolanta Szulc (12)

More from Zakład Systemów Informacyjnych, Instytut Informacji Naukowej i Studiów Bibliologicznych (UW)

More from Zakład Systemów Informacyjnych, Instytut Informacji Naukowej i Studiów Bibliologicznych (UW) (20)

Zastosowanie technologii semantycznych w porządkowaniu wiedzy / Jolanta Szulc