2. 국가적 차원 공공 Data 공개
Linked Open Data 가 무엇인지?
Linked Data의 기본원칙
RDF GRAPH MODEL
국외의 경우
LOD CLOUD현황
CONTENTS
InterLinking 에 앞서01
InterLinking 예시
InterLinking 이란02
Data 중복 구축 방지
Data 중복 구축 방지 활용 예
잠재적 지식 발견 및 지식의 확장
InterLinking 의 필요성03
인터링킹 방법
인터링킹 시스템
인터링킹 목표
InterLinking 의 자동화04
3. 국가 DB open 투명성 확보
데이터의 창조적 활용
InterLinking 에 앞서 -
국가적 차원 공공 Data 공개
5. InterLinking 에 앞서 -
개방
공공정보를 적극적으로 개방
누구나 자유롭게 활용 하도록
Linked Open Data 로 제공
융합
융·복합 연계 체계 구축
원천데이터를 Linked Open
Data(LOD) 기반으로 통합
재활용
정보제공 환경 마련
Linked Open Data 개방·연계·
활용 플랫폼 제공
창조
새로운 콘텐츠 창출
개방된 공공정보를 민간에서
타 분야 지식정보와 Cross-Over
하여 신규 서비스 개발
정부
국가적 차원 공공 Data 공개
6. InterLinking 에 앞서 - HTML
Linked Open Data 가 무엇인지?
Resource
Resource
Resource
Resource
Resource
Resource
Resource
링크
링크 링크
링크
링크링크
링크
문서 중심의 Web(Web of Documents) – HTML (Hyperlink)
10. 1) Use URIs as names for things
2) Use HTTP URIs so that people can look up those names.
3) When someone looks up a URI, provide useful information, using the
standards (RDF, SPARQL)
4) Include links to other URIs. so that they can discover more things.
InterLinking 에 앞서 -
Linked Open Data 가 무엇인지?
Linked Data의 기본원칙 4가지 – 팀 버너스 리
11. 주어
(Subject)
목적어
(Object)
술어(Predicate)
주어(Subject) 술어(Predicate) 목적어(Object)
예종의 아버지는 숙종이다
<RDF:Description RDF:about="http://www.history.go.kr/ontology/인명_예종">
<nikh:realName RDF:datatype="http://www.w3.org/2001/XMLSchema#string">왕우</nikh:realName>
<nikh:birthDate RDF:datatype="http://www.w3.org/2001/XMLSchema#string">10790100</nikh:birthDate>
<nikh:deathDate RDF:datatype="http://www.w3.org/2001/XMLSchema#string">11220400</nikh:deathDate>
<nikh:tombPlace RDF:datatype="http://www.w3.org/2001/XMLSchema#string">유릉(裕陵)</nikh:tombPlace>
<nikh:hasFather RDF:datatype="http://www.w3.org/2001/XMLSchema#string">숙종(肅宗)</nikh:hasFather>
<nikh:hasGrandFather RDF:datatype="http://www.w3.org/2001/XMLSchema#string">문종(文宗)</nikh:hasGrandFather>
</RDF:Description>
Subject
Predicate Object
InterLinking 에 앞서 - RDF GRAPH MODEL
Linked Open Data 가 무엇인지?
20. Relational databases: primary keys
Books
Title
Author
Year
ID
Authors
Name
Year
ID
Primary key Primary key
Foreign key
Authors record
Dan Brown
1964
456ID
Name
Year
The Da Vinci Code
Books record
456
2003
1289
Title
ID
Author
Year
Data 중복 구축 방지
LOD 구축에 있어서 인터링킹의 필요성
21. Relational databases and applications
Select title, year from books
Select name, year from authors where books.author=authors.id
Title: The Da Vinci Code
Author: Dan Brown, 1964
Year: 2003
Database
Application
User interface
Authors record
Dan Brown
1964
456ID
Name
Year
The Da Vinci Code
Books record
456
2003
1289
Title
ID
Author
Year
SQL
Data 중복 구축 방지
LOD 구축에 있어서 인터링킹의 필요성
22. OpenLibrary
Title
Author
Year
URI
VIAF
Name
Year
URI
Primary key Primary key
Foreign key
Authors record
Dan Brown
1964
http://viaf.org/viaf/102403515URI
Name
Year
The Da Vinci Code
Books record
http://viaf.org/viaf/102403515
2003
http://openlibrary.org/works/OL76837W
Title
URI
Author
Year
Data 중복 구축 방지
LOD 구축에 있어서 인터링킹의 필요성
Triple Repository: URIs(primary keys)
23. Linked data and applications
Select ?title ?year …
Select ?name ?year WHERE …..
Title: The Da Vinci Code
Author: Dan Brown, 1964
Year: 2003
Database
Application
User interface
SPARQL
Authors record
Dan Brown
1964
http://viaf.org/viaf/102403515URI
Name
Year
The Da Vinci Code
Books record
http://viaf.org/viaf/102403515
2003
http://openlibrary.org/works/OL76837W
Title
URI
Author
Year
Data 중복 구축 방지
LOD 구축에 있어서 인터링킹의 필요성
24. Data 중복 구축 방지 활용 예 – BBC Music Site
Artist Profile
Artist Biography
LOD 구축에 있어서 인터링킹의 필요성
25. 잠재적 지식 발견 및 지식의 확장
LOD 구축에 있어서 인터링킹의 필요성
<RDF:Description RDF:about="http://www.history.go.kr/ontology/사건_ 거란, 만주족 전쟁 ">
<nikh:isCausedBy RDF:datatype="http://www.w3.org/2001/XMLSchema#string">매(海東靑)</nikh:title>
<nikh:hasStartAge RDF:datatype="http://www.w3.org/2001/XMLSchema#string">xxx</nikh:hasStartAge>
<nikh:beginDate RDF:datatype="http://www.w3.org/2001/XMLSchema#string">xxx</nikh:beginDate>
<nikh:hasEventPlace RDF:datatype="http://www.w3.org/2001/XMLSchema#string">xxx</nikh:hasEventPlace>
<RDF:type RDF:resource="http://www.history.go.kr/ontology/event"/>
</RDF:Description>
지식의 확장: 매사냥으로 인한 거란, 만주족 간의 전쟁 유발
<RDF:Description RDF:about="http://www.biology.go.kr/ontology/조류">
<nikh:hasName RDF:datatype="http://www.w3.org/2001/XMLSchema#string">매(海東靑)</nikh:title>
<nikh:isCategory RDF:datatype="http://www.w3.org/2001/XMLSchema#string">척삭동물</nikh:hasStartAge>
<nikh:isSpecies RDF:datatype="http://www.w3.org/2001/XMLSchema#string">매과</nikh:beginDate>
<nikh:isLivedIn RDF:datatype="http://www.w3.org/2001/XMLSchema#string">xxx</nikh:hasEventPlace>
<RDF:type RDF:resource="http://www. biology.go.kr/ontology/event"/>
</RDF:Description>
owl:sameAs
27. 엄청난 양의 LOD Cloud01
비효율적인 LOD Link02
InterLinking 자동화란
효율적인 Linking 추천03
자동으로 Source DataSet 에서 의미 있는 인
스턴스를 추출하고 Target DataSet 로 부터
최대로 유사한 인스턴스를 찾아 추천해 주
는 시스템 필요
28. InterLinking 자동화란
인터링킹 방법
Schema Dependent
RDF Predicate의 의미에 관한 지식이 필요
Ex) Source DataSet의 Predicate #PreLable와 Target DataSet의 Predicate
#Name과 같다는 것을 알아야 한다
Publisher 마다 다른 Schema 구조로 데이터를 저장 발행
Schema Independent
스키마에 대한 인간의 지식을 필요하지 않음
Ontology Matching
Graph Matching
Instance Matching
Data Matching
인터링킹
방법
29. 인터링킹 시스템 - SERIMI
시스템 비교 KEY 차별성 알고리즘 절차 예시
SERIMI Predicate String Matching
(RWSA) Algorithm
1) Source DataSet의 Class를 선택
2) Class의 인스턴스를 선택
3) 그 인스턴스의 Predicate를 선
택
4) High Entropy 들만 선택
5) Property List를 생성
6) Target DataSet도 동일 수행
7) Predicate으로 같거나 비슷한
Predicate를 탐색
8) 탐색된 Property의 값을 본 후
Interlinking 할지 말지 결정
9) 결정되면 sameAs
4,5,6,7,9) 다음페이지 참고
InterLinking 자동화란
Schema Independent
<RDF:Description RDF:about="http://www.history.go.kr/ontology/인명_예종">
<nikh:realName RDF:datatype="http://www.w3.org/2001/XMLSchema#string">왕우</nikh:realName>
<nikh:birthDate RDF:datatype="http://www.w3.org/2001/XMLSchema#string">10790100</nikh:birthDate>
<nikh:deathDate RDF:datatype="http://www.w3.org/2001/XMLSchema#string">11220400</nikh:deathDate>
<nikh:tombPlace RDF:datatype="http://www.w3.org/2001/XMLSchema#string">유릉(裕陵)</nikh:tombPlace>
<nikh:hasFather RDF:datatype="http://www.w3.org/2001/XMLSchema#string">숙종(肅宗)</nikh:hasFather>
<nikh:hasGrandFather RDF:datatype="http://www.w3.org/2001/XMLSchema#string">문종(文宗)</nikh:hasGrandFather>
</RDF:Description>
Subject
Predicate Object
30. Property List 생성
realName
birthDate
deathDate
High Entropy
Predicate 선택
realName (High Entropy)
birthDate (High Entropy)
deathDate (High Entropy)
tombPlace (Low Entropy)
Target DataSet
에서도 동일 수행
name
bDate
dDate
InterLinking
<http://source.dataset.org/resource/왕우>
owl:sameAs <http://target.dataset.org/왕우>;
같거나 비슷한
Predicate 탐색
realName = name
birthDate = bDate
deathDate = dDate
1Step 2Step 3Step 4Step 5Step
<RDF:Description RDF:about="http://www.history.go.kr/ontology/인명_예종">
<nikh:realName RDF:datatype="http://www.w3.org/2001/XMLSchema#string">왕우</nikh:realName>
<nikh:birthDate RDF:datatype="http://www.w3.org/2001/XMLSchema#string">10790100</nikh:birthDate>
<nikh:deathDate RDF:datatype="http://www.w3.org/2001/XMLSchema#string">11220400</nikh:deathDate>
<nikh:tombPlace RDF:datatype="http://www.w3.org/2001/XMLSchema#string">유릉(裕陵)</nikh:tombPlace>
<nikh:hasFather RDF:datatype="http://www.w3.org/2001/XMLSchema#string">숙종(肅宗)</nikh:hasFather>
<nikh:hasGrandFather RDF:datatype="http://www.w3.org/2001/XMLSchema#string">문종(文宗)</nikh:hasGrandFather>
</RDF:Description>
Subject
Predicate Object
인터링킹 시스템 - SERIMI
InterLinking 자동화란
31. 시스템 비교 KEY 차별성 알고리즘 절차 예시
SLINT Predicate Blocking
Step
Coverage
Discriminability
Dice Coefficient
TF-IDF
Inverted-Indexing
(Weighted
Co-occurrence)
1) 중요한 Predicate를 선택 -
Coverage & Discriminability
2) Source DataSet과 Target
DataSet에서 선택된 Predicate
들은 같은 Type 끼리 결합해서
Predicate Alignment를 생성
3) Predicate Alignment의 신뢰도
평가 – Dice Coefficent
4) 각각의 Source, Target DataSet
으로 부터 Object의 값을 추출
해서 Inverted-Indexing
5) URI, String – TF-IDF
6) Decimal, Integer, Date – 0/1
7) 적정 Threshold 이상 sameAs
3) 유사한 Predicate는 유사
한 정보를 의미한다
Ex) title <-> titleKor
인터링킹 시스템 - SLINT
InterLinking 자동화란
Schema Independent
<RDF:Description RDF:about="http://www.history.go.kr/ontology/인명_예종">
<nikh:realName RDF:datatype="http://www.w3.org/2001/XMLSchema#string">왕우</nikh:realName>
<nikh:birthDate RDF:datatype="http://www.w3.org/2001/XMLSchema#string">10790100</nikh:birthDate>
<nikh:deathDate RDF:datatype="http://www.w3.org/2001/XMLSchema#string">11220400</nikh:deathDate>
<nikh:tombPlace RDF:datatype="http://www.w3.org/2001/XMLSchema#string">유릉(裕陵)</nikh:tombPlace>
<nikh:hasFather RDF:datatype="http://www.w3.org/2001/XMLSchema#string">숙종(肅宗)</nikh:hasFather>
<nikh:hasGrandFather RDF:datatype="http://www.w3.org/2001/XMLSchema#string">문종(文宗)</nikh:hasGrandFather>
</RDF:Description>
Subject
Predicate Object