국내외 정보서비스 기관의LOD 구축 동
향
2013. 12. 5. 박진호(jino.kor@gmail.com)
2.
이 자료는 네이버에서제공한 나눔글꼴이 적용되어 있습니다
http://hangeul.naver.com/font
This work is licensed under the Creative Commons 저작자표시-비영리-변경금지 2.0
대한민국 License. To view a copy of this license, visit
http://creativecommons.org/licenses/by-nc-nd/2.0/kr/ or send a letter to Creative
Commons, 444 Castro Street, Suite 900, Mountain View, California, 94041, USA.
3.
주요 발표내용
링크드 데이터에대한 접근점
1. 데이터 중심의 새로운 웹 생태계 구성
2. 링크드 데이터도 데이터
3. 구조화된 데이터 발행으로 접근점 향상
4.
1. 시맨틱 웹,링크드 데이터
• 현재의 문서 중심의 웹(Web of Document)에 데이터가
중심이 되는 새로운 계층(Web of Data)을 만드는 것
• 링크드 데이터(Linked Data)는 시맨틱 웹을 구현하기 위
한 방법으로 역참조할 수 있는 URI(dereferenceable
URIs)를 활용해서 웹 상에 데이터를 공개, 공유, 연결하
는 방법
2013. 12. 5|KISTI 서울분원 제 1회의실
3
5.
• 궁극적으로 우리가원하는 것은 모든 것(all things)들이 웹에서 공유되는 것
• 보다 직접적으로 데이터(전통적인 데이터베이스 콘텐츠와 같은)를 웹에 확장
• 분명한 실체를 갖고 있는 것과 추상적인 것들의 연결 관계를 만들어야 함
2013. 12. 5|KISTI 서울분원 제 1회의실
4
6.
2. 도서관 링크드데이터
• 기존 도서관 데이터를 링크드 데이터 원칙에 맞추어 발
행
- 전통적으로 서지목록 작성, 표준화와 관련된 역할을 담당하는
국립도서관 등과 같은 서지, 통제어휘 관리기관과 국제적인 서
지목록 공유 프레임워크인 OCLC 등이 대표적
• 근본적으로 도서관 서지 데이터를 다른 관점에서 바라
보고 변화시키려는 시도
- 미국 의회도서관을 중심으로 연구가 진행 중인 Bibliographic
Framework가 대표적
2013. 12. 5|KISTI 서울분원 제 1회의실
5
7.
2. 도서관 링크드데이터
전통적인 도서관 데이터의 문제점
문제
웹 자원과 통합이
어려움
도서관계에서만
활용되는 표준
현황
· 도서관 데이터는 웹 인터페이스에서 접근 가능하지만, 날짜,
지리정보, 사람, 조직 등 수많은 데이터 접점들과 연결에는
어려움이 있음
· MARC, Z39.50 등은 도서관계에서만 통용되며 주로 이러한
표준들은 국제도서관협회 등과 같이 도서관 분야에 초점을
둔 기관에 의해서 추진
· 도서관 데이터는 보여주기 위한 텍스트 형태로 표현
도서관데이터는
· MARC 레코드에 코드화된 값을 사용되기도 하고 ISBN과
자연어(natural-
같은 식별자는 연결을 위해 사용가능하나 텍스트 값을 정규
language) 텍스트로
표현됨
화하는 별도의 과정이 필요함
· 통제어휘를 활용하고 있으나 이는 부분적이며, 웹에 연결될
수 있는 URI 표현이 부족함
2013. 12. 5|KISTI 서울분원 제 1회의실
6
8.
2. 도서관 링크드데이터
전통적인 도서관 데이터의 문제점(계속)
문제
도서관계와 시맨틱
웹 커뮤니티 간
상이한 용어표현
소수기술 공급자에
의한 수동적 발전
현황
· 서로 상이한 용어의 사용이 통합의 과정을 어렵게 할 수 있
음
· 도서관에서는 “statements", 시맨틱 웹에서는 ”headings",
"authority control" 등의 용어를 이해하기 힘듦
· 도서관 자동화, 이용자 서비스 등의 시스템과 소프트웨어는
소수의 공급자 중심이며, LD 도입의 경우 도서관의 자체 계
획보다 업체의 기술개발 계획에 의존해야 하는 경우가 생김
2013. 12. 5|KISTI 서울분원 제 1회의실
7
9.
2. 도서관 링크드데이터
링크드 데이터의 혜택
문제
현황
․ 도서관과 외부 기관과의 정보자원 연결로 보다 풍부한 탐색
활동이 가능하게 함
․ 이용자와 애플리케이션이 지속적인 탐색활동이 가능하여
정보 접근자
(연구자, 학생,
이용자)
도서관의 콜렉션을 웹 상의 보다 큰 정보 세계로 연결해 줄
수 있음
․ 웹에 구조화된 데이터가 추가되는 것으로 검색엔진 최적화
(SEO)를 통해 향상된 결과 제공이 가능함
․ 다양한 분야의 지식베이스에 연결이 가능하여 학제 간 연구
에 도움을 줄 수 있음
2013. 12. 5|KISTI 서울분원 제 1회의실
8
10.
2. 도서관 링크드데이터
링크드 데이터의 혜택(계속)
문제
현황
․ 상향식 데이터 발행으로 자관의 정보자산을 기술하는 일의
가치를 높일 수 있음
․ 예산 문제로 상세한 수준의 데이터 기술이 부족한 문제를
극복할 수 있음
․ 도서관이 관리시스템 등 주류 솔루션을 벗어나 데이터 연결
정보관리 조직
(도서관 등)
이 가능한 다수의 시스템 선택이 가능하고, 표준 연결데이
터 활용으로 보다 다양한 개발자 그룹과 소통이 가능함
․ 클라우드 기반의 데이터 활용 접근을 위한 출발점이 될 수
있으며, 독립형 시스템에 비해 비용대비 효과가 큼
․ 작은 기관, 개인들이 적은 비용으로 가시적인 데이터 연결
효과를 볼 수 있음, 즉 공개된 데이터로 누군가 가치 있는 성
과를 낼 수 있는 기회를 제공해 줄 수 있음.
2013. 12. 5|KISTI 서울분원 제 1회의실
9
11.
2. 도서관 링크드데이터
링크드 데이터의 혜택(계속)
문제
현황
․ 글로벌 공유 데이터를 통해 편목에서의 중복 노력을 줄이고,
정보활동 주체
(사서, 기록담당자
등)
자원 기술의 효율성, 재활용성을 증가시킴
․ 타 지식분야의 잘 정리된 기술내용을 활용할 수 있어 사서
등 본인의 전문분야에 대한 기술노력에 집중할 수 있음
․ 구문, 형식이 아니라 데이터의 의미를 기술하는 것으로 향
후 지속가능한 체계로 데이터관리가 가능함
․ 도서관에 특화된 데이터에 집중할 필요가 없이, HTTP와 같
은 웹 프로토콜을 활용함으로써 일관된 방식의 데이터 검색
관련 개발자(사)
과 결합이 가능함
․ LD 방식으로 도서관계를 벗어나 새로운 시장에 활용할 수
있으며, RDF, HTTP를 활용함으로써 특정 소프트웨어 활용
의 부담에서 벗어날 수 있음
2013. 12. 5|KISTI 서울분원 제 1회의실
10
12.
3. 도서관 링크드데이터 사례
소장 정보에 대한 링크드 데이터화
• 소장 정보(서지, 주제명, 저자명 등)에 대한 링크드 데이터
화와 데이터 서비스 사례로 주요 특징, 시사점만 언급.
• 상세내용은 보고서 참조.
2013. 12. 5|KISTI 서울분원 제 1회의실
11
13.
3. 도서관 링크드데이터 사례
소장 정보에 대한 링크드 데이터화
• 영국 국립도서관의 특징과 시사점
- 링크드 데이터 서비스는 기존에 도서관에서 수행하지 않았던
새로운 서비스가 아님
- 현재 별도의 데이터 서비스 사이트가 존재하나 링크드 데이터
서비스는 메타데이터 서비스 중 데이터 서비스에 속하며 그 중
에서 자유롭게 활용 가능한 데이터 서비스에 포함되는 프로젝
트이자 서비스 (메뉴 네비게이션 참조 : Home > Metadata
Services > Data Services > Free data)
- 단행본, 연속간행물 등 전통적인 도서관의 관리대상 객체를 하
나의 도메인으로 보고 모델링화 수행
2013. 12. 5|KISTI 서울분원 제 1회의실
12
14.
3. 도서관 링크드데이터 사례
소장 정보에 대한 링크드 데이터화
• 독일 국립도서관의 특징과 시사점
- 독일어권 문화 국가의 다양한 기억기관에서 활용 가능하도록
하여 다양한 독일어 정보자원에 접근성을 향상
- 링크드 데이터 서비스는 기존에 도서관에서 수행하지 않았던
새로운 서비스가 아님. 링크드 데이터 서비스는 디지털서비스
의 하나
- 현재 링크드 데이터 변환 서비스 외에 미국 의회도서관 중심의
BIBFRAME 프로젝트에 참여, 향후 새로운 데이터 모델링과 새
로운 어휘집을 활용한 링크드 데이터 서비스를 기대할 수 있음
2013. 12. 5|KISTI 서울분원 제 1회의실
13
15.
3. 도서관 링크드데이터 사례
소장 정보에 대한 링크드 데이터화
• 프랑스 국립도서관의 특징과 시사점
- 데이터 모델링 시 FRBR 개념을 반영하고 있어 보다 서비스 지
향적인 접근 방식을 취하고 있음
- 향후 BIBFRAME 접근에 타 도서관보다 유연하게 대처 가능한
구조를 가지고 있음
2013. 12. 5|KISTI 서울분원 제 1회의실
14
3. 도서관 링크드데이터 사례
값 어휘집 제공 및 웹에서의 접근성 향상
• OCLC 링크드 데이터
대상
특징
Virtual International
·URL:http://viaf.org
Authority File(VIAF)
·제공형태:HTML,RDF/XML
Dewey Deciaml
Classification
·URL:http://dewey.info
·제공형태:HTML/RDFa,RDF/XML,Turtle,JSON-SPARQL
FAST : Facet Application ·URL:id.worldcat.org/fast
of Subject
·제공형태:HTML,RDF/XML-Download
2013. 12. 5|KISTI 서울분원 제 1회의실
16
18.
3. 도서관 링크드데이터 사례
값 어휘집 제공 및 웹에서의 접근성 향상
• OCLC WorldCat.org
- Schema.org의 용어집을 활용하여 서지 정보에 대한 구조화된
데이터를 제공
- 웹 검색엔진(서비스)에서 WorldCat 서지 정보에 대한 접근성을
강화하는 효과를 갖는데, 이는 서지 정보 기술을 위한 OCLC의
1세대 링크드 데이터 모델
2013. 12. 5|KISTI 서울분원 제 1회의실
17
3. 도서관 링크드데이터 사례
값 어휘집 제공 및 웹에서의 접근성 향상
• OCLC WorldCat.org
- 사서의 관점에서 shema.org의 단점을 해결하기 위해 “도서
관”, “소장”이라는 객체를 설명하기 위한 어휘를 확장하고, 콘텐
츠와 캐리어(carrier)를 분리 시도
- 근본적으로 OCLC의 데이터셋은 FRBR 개념에 기초하고 있으
며, 이는 미국 의회도서관의 BIBFRAME 프로젝트와 유사한 개
념적 접근점을 갖고 있음
2013. 12. 5|KISTI 서울분원 제 1회의실
19
3. 도서관 링크드데이터 사례
값 어휘집 제공 및 웹에서의 접근성 향상
• OCLC 의 시사점
- 값 어휘집(Value Vocabularies)에 속하는 VIAF, DDC, FAST 데이
터를 제공하고 있음. 이는 다양한 데이터셋들이 상호 연결될 수 있
는 연결점 역할을 수행할 수 있으며, 기존의 도서관 데이터셋(저
자, 주제 등)들의 활용성을 극대화 시킬 수 있음
- Schema.org 어휘집을 활용하여 웹에서 OCLC 데이터에 대한 검
색 최적화를 도모하고 있음. 여타의 도서관 데이터 발행이 자관 데
이터를 RDF 파일로 출판하고 공유하는 형식인 점에 비해 차별성
이 존재함
- 단순히, 링크드 데이터로 변환하여 소장 정보를 발행하는 것 외에
분명한 목적을 갖고 이를 달성할 수 있는 용어집과 방법(RDFa) 선
택 등은 주지해야 함
2013. 12. 5|KISTI 서울분원 제 1회의실
21
23.
3. 도서관 링크드데이터 사례
데이터 웹에 대한 개념적 접근
• 미국 의회도서관의 BIBFRAME
- BIBFRAME을 연구 활동, 기술개발 등의 관점으로 보는 것도 중
요하지만, BIBFRAME은 기존의 서지데이터가 갖는 역사적 맥
락과 이점을 모두 수용하고 새로운 환경(웹)에서의 정보/데이터
생태계를 받아들이기 위한 중재, 균형유지의 노력
- 미래 목록, 새로운 이용자 시나리오와 다양한 정보출처 등에 대
응하기 위한 유연성 확보
- 분산된 정보들을 연결하고 표현하기 위한 아키텍처 모델로서
웹 고려
- 도서관 외부의 사회적, 기술적 변화에 대한 도입 고려
- 도서관 커뮤니티 내부의 사회적, 기술적 확장 고려
2013. 12. 5|KISTI 서울분원 제 1회의실
22
24.
3. 도서관 링크드데이터 사례
데이터 웹에 대한 개념적 접근
• 미국 의회도서관의 BIBFRAME
- 링크드 데이터로 서지 자료를 표현하기 위한 이전의 노력들에
대한 고려
- 기계적인 작업을 위한 기술도입과 주제전문가로써 사서의 역
량 수용
- 도서관, 출판계, 기록관, 박물관 커뮤니티에서의 서지 정보를
모델링하기 위한 이전의 노력에 대한 고려
- 서지 정보 전달을 위한 전통적이고 일반적인 방법의 강력하고
유익한 측면 고려
- MARC이 가지고 있던 전통적인 중요한 기능 고려
- 저작물의 지적 본질과 관련된 데이터의 생성, 관리, 공유, 보존.
- 저작물의 실제 인스턴스와 관련된 데이터의 생성, 관리, 공
유, 보존
- 제어번호, 레코드 제어코드와 같은 레코드 메타데이터의 생
성, 관리, 공유, 보존
2013. 12. 5|KISTI 서울분원 제 1회의실
23
3. 도서관 링크드데이터 사례
도서관 링크드 데이터의 특징과 새로운 접근점
• 전통적으로 도서관이 관리하고 있는 데이터의 변환
- 서지 데이터(bibliographci data) : 서명, 저자, 날짜 등
- 전거 데이터(authority data) : 분류, 주제명, 저자명, 시소러스,
텍소노미 등
• Voß(2012) : 도서관이 갖고 있는 데이터에 대해 보다 넓
은 시각적 확대가 필요
- 비서지형 데이터 중 열람시간, 접근정보 등의 부가적인 정보도
중요
- 특히 고객정보(Patron Information)와 관련된 데이터는 좀 더 주
의 깊게 살펴볼 필요가 있음
- 도서관 이용자는 특정 저작물(FRBR의 Work)이나 개별자료
(FRBR의 Item)에 관심이 있을 것이라는 전제하에 고객정보와
문헌정보를 연결시키는 것은 또 다른 부가적인 서비스를 창출
할 수 있음
2013. 12. 5|KISTI 서울분원 제 1회의실
25
4. 데이터를 중심으로하는 새로운 웹 생태계
구성
• 링크드 데이터 원칙에 맞추어 현재 관리하고 있는 데이
터를 웹에 공개
- 자관이 소유, 관리하고 있는 데이터 형태(구조적, 비구조적)와
특징(저작권 유무 등) 파악 필요
- 링크드 데이터 형태로 발행했을 때 가장 효과적인 데이터 파악
필요
• 동일 도메인 혹은 타 도메인과의 인터링킹으로 자관의
데이터에 보다 풍부한 접근점을 줄 수 있다는 필요성 외
에 새로운 데이터 웹 구축에 기여한다는 측면에서의 시
도에 중점
2013. 12. 5|KISTI 서울분원 제 1회의실
27
29.
5. 하나의 데이터로써“링크드 데이터”와 실용적 활용 기반
구축
• 링크드 데이터 자체도 관리가 필요한 하나의 데이터
- 객체와 객체(개념과 개념)를 이어주고 관계를 보다 상세히 기술
할 수 있도록 해주는 용어집의 선택 문제(자관의 데이터를 가장
잘 표현해 줄 수 있는 적절한 용어집(메타데이터)은 무엇인가?)
• Linked Open Vocabury
2013. 12. 5|KISTI 서울분원 제 1회의실
28
5. 하나의 데이터로써“링크드 데이터”와 실용적 활용 기반
구축
• Blumauer(2013)
- 링크드 오픈 데이터가 학문적인 영역은 물론이고 일반적인 활
용을 위한 접근점으로써 역할을 수행하기 위해서는 지금과 같
은 형태의 일반적인 지식이 아니라 보다 세부적인 도메인 지식
을 전달할 수 있는 신뢰할 수 있는 링크드 데이터 클라우드가
필요
2013. 12. 5|KISTI 서울분원 제 1회의실
33
5. 하나의 데이터로써“링크드 데이터”와 실용적 활용 기반
구축
• 초기 링크드 데이터 클라우드는 다시 한 번 재점검이 필
요하며, 첫 단계로 개방형 데이터인 것과 아닌 것을 보다
명확히 표시하고, 두 번째로 클라우드내 데이터셋의 품
질과 신뢰성에 책임을 지고 있는 자(기관)를 보다 명확
히 할 필요가 있음
• 또한 링크드 데이터 클라우드에서는 데이터가 전부가
아니며, 그 뒤에 존재하는 사람과 조직이 중요함.
Trusted Clean Enery Lod Cloud의 경우 연결된 데이터
셋을 관리하는 조직들은 공통의 데이터 인프라 기반 위
에서 효율적인 협업 작업을 수행하고 있음.
2013. 12. 5|KISTI 서울분원 제 1회의실
35
37.
6. 구조화된 데이터의발행과 접근점 향상 관점
• 링크드 데이터는 웹이라는 플랫폼에서 소통하기 위한
방식 중의 하나
- 도서관의 경우 MARC, OAI, OpenAPI, Z프로토콜 등 다양한 방
식으로 데이터를 개방하고 도서관 간 혹은 타 기관과 소통해 왔
음
- 그러나 이러한 소통 방식은 직접적으로 웹을 플랫폼으로 활용
하지는 않으며, 데이터 간의 소통을 위한 표현(속성) 역시
MARC, MODS 등 도서관 도메인에서만 가능한 가짐
- 링크드 데이터 원칙을 준수하여 웹에 구조화된 데이터를 발행
하고 공유하고 재사용할 수 있는 기회를 제공하는 것은 가장 근
본적인 데이터 웹을 만드는 방식이지만
- 기존의 소통방식(OAI 등) 역시 유지해야 하며, 구조화된 데이
터의 개방과 활용이라는 관점에서 OData(Open Data Protocol)
와 같은 방식도 고려한 데이터 플랫폼 구축에 중점을 둘 필요가
있음
2013. 12. 5|KISTI 서울분원 제 1회의실
36
6. 구조화된 데이터의발행과 접근점 향상 관점
• 링크드 데이터는 발행해야 하는 방식 중의 하나인 동시
에 활용해야 하는 살아있는 데이터 셋임
- BBC Music, BBC Programes와 같이 직접적인 링크드 데이터
의 활용과 서비스 개시 참조
- 또한 BBC는 2012년부터 BBC News를 위한 시맨틱 프로토타
이핑 플랫폼 BBC News Juicer 시작
The News Juicer
1
2
3
4
5
6
Grab
BBC News
& Sport Art
icles
Extract Co
ncepts
Match to D
Bpedia
Annotate A
rticle
Push to Tri
plestore
Expose
via
API
2013. 12. 5|KISTI 서울분원 제 1회의실
38
참고자료
• 참고문헌
-
박진호 (2013a,7월). 도서관은 웹에 존재하는가? : 링크드데이터, 글로벌 데이터베이스. 국가전자도서관 세미나.
경기도 : 국가기록원
박진호. (2013b). 도서관 데이터의 링크드 데이터(Linked Data) 변환과 인터링킹(interlinking)을 통한 정보연계
확장성에 관한 연구 : 국립중앙도서관 서지, 주제명, 저자명 데이터를 중심으로. 석사학위논문, 성균관대학교, 서울.
Berners-Lee, T., Hendler, J., & Lassila, O. (2001). The semantic web. Scientific american, 284(5), 28-37.
Berners-Lee, T. (1998). Semantic web road map, September 1998. W3C Draft http://www. w3.
org/DesignIssues/Semantic. html.
Berners-Lee, T. (2007). Giant global graph. online posting, Networks,” Proceedings of the National Academy of
Sciences of the United States of America, 98, 404-9.
Berners-Lee, T. (2011). Design issues: Linked data (2006). URL http://www. w3. org/DesignIssues/LinkedData.
html.
Blumauer, Andreas. (2013, June 7). The LOD cloud is dead, long live the trusted LOD cloud. Retrieved from
http://blog.semantic-web.at/2013/06/07/the-lod-cloud-is-dead-long-live-the-trusted-lod-cloud/
Fons, Ted. Penka, Jeff. Wallis, Richard. (2012). Linked data vocabulary management: infrastructure support, data
integration, and interoperability. Information Standards Quarterly, 24(2/3), 4-13.. Information Standards
Quarterly, 24(2/3), 4-13.
Godby, J. Carol. (2013, June). The Relationship between BIBFRAME and OCLC’s Linked-Data Model of
Bibliographic Description: A Working Paper. OCLC Working Paper. Retrieved from
http://oclc.org/content/dam/research/publications/library/2013/2013-05.pdf
Library of Congress. (2012). Bibliographic Framework as a Web of Data: Linked Data Model and Supporting
Services. Retrieved from http://www.loc.gov/bibframe/pdf/marcld-report-11-21-2012.pdf
Voß, Jakob. (2012, November). Encoding Patron Information in RDF. Paper presented at the Semantic Web in
Libraries(SWIB12) Conference, Cologne, Germany.
W3C. (n.d.). W3C SEMANTIC WEB ACTIVITY. Retrieved from http://www.w3.org/2001/sw/
• 이미지 출처
-
http://www.flickr.com/photos/pictoquotes/9013537500
http://www.flickr.com/photos/photonquantique/3272712288/
http://www.flickr.com/photos/deadair/515384657/
2013. 12. 5|KISTI 서울분원 제 1회의실
43