2010 0603 이상호_과학데이터 아카이빙-이상호

1,379 views

Published on

Published in: Education
0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
1,379
On SlideShare
0
From Embeds
0
Number of Embeds
2
Actions
Shares
0
Downloads
30
Comments
0
Likes
1
Embeds 0
No embeds

No notes for slide

2010 0603 이상호_과학데이터 아카이빙-이상호

  1. 1. 과학데이터의 아카이빙 및 관련 자료 <br />2010. 06. 03.<br />한국과학기술정보연구원(KISTI)<br />지식기반실 이상호<br />shlee@kisti.re.kr, Tel : 042-869-1765<br />
  2. 2. 과학데이터의 정의<br />과학 데이터(Scientic Data, Research Data)란?<br />과학기술 연구활동(관찰, 모니터링, 조사, 실험, 연구 분석 등)의 산출물(수치, 공간, 도표, 문서등)<br />관찰(자연세계의 직접 관찰과 실험 결과의 관찰)<br />데이터의 내용 규정은 사용자에 의함<br />지진학자 <br />지진파에 관심을 가지며 지진계에서 나온 데이터가 자신의 데이터<br />토목공학자<br />빌딩에 미치는 지진의 위험에 관심을 가지며 지진 목록이 자신의 데이터 <br />
  3. 3. 관찰 데이터와 실험 데이터<br />아카이빙 관점에서 관찰 데이터와 실험 데이터의 차이<br />관찰 데이터 <br />특정 시간과 특정 장소에서 위성 또는 관측기구에 의해 현장에서 수집됨<br />관찰 데이터는 재현될 수가 없으므로 저장할 필요가 있음<br />실험(컴퓨터 실험 포함) 데이터<br />실험실의 실험 데이터는 재생산 가능하고 어떤 데이터들은 저장할 필요가 없음<br />대규모 실험 데이터 : 실험 규모가 크고 비용이 많이 들며 많은 연구자와 여러 프로젝트가 참여하는 실험의 결과 데이터는 당연히 저장되고 접근 가능해야 함 <br />물리적 과학 데이터와 인간 관련 데이터<br />아이스 코어 샘플(기후 연구 관련), 조직 샘플(생물학), 비디오로 찍은 인간의 상호 작용, 질문 및 대답 등 <br />
  4. 4. 과학 데이터의 수집 및 이용 과정<br />Capture<br />주로 과학자에 의해 연구 현장에서 획득됨<br />많은 데이터가 관리되지 못하여 시간 경과에 따라 유실되고 있으며 연구자간 데이터 공유도 제한적임<br />현재의 과학 데이터 논의는 여기에 주로 초점이 맞추어져 있으며 많은 국가과학기술정보기관이 참여하고 있음 <br />Curation<br />디지털 과학 데이터의 생명 주기를 통해 데이터의 유지, 보존, 가치 부가 등의 활동을 말함<br />연구 데이터의 가치를 보존하고 데이터의 중복 생성을 방지하며 레포지토리에 저장하여 연구자 커뮤니티에서 재사용 되도록 함<br />이 분야도 향후 국가과학기술정보기관이 참여해야 할 영역임 <br />Analysis<br />과학 데이터의 분석은 과학자의 영역이며 공공기관 영역이 아님 <br />Visualization<br />과학 데이터의 가시화 등도 과학자의 영역이며 공공기관의 영역이 아님<br />
  5. 5. 과학 데이터의 생명 주기<br />Data Production<br />연구 설계의 선정, 데이터 획득을 위한 관측 기구 설치, 데이터 획득/생성, 데이터 편집/검증, 데이터 해석, 데이터 버전 백업 및 메타데이터 작성 <br />Data Dissemination<br />데이터의 확산 절차와 방법의 확립, 보안/프라이버시 및 지적재산권 등을 고려한 접근 방법 조정, 데이터 포맷 및 메타데이터 <br />Long-Term Data Management<br />데이터의 평가 및 선정, 리파지토리에의 저장, 신뢰성 검증, 데이터와 메타데이터의 수집 및 관리, 디지털 미디어 갱신 및 새로운 디지털 미디어에 데이터의 마이그레이션<br />Data Discovery and Repurposing<br />표준 메타데이터를 활용한 검색도구 개발 및 지원, 데이터의 코딩 조정, 데이터의 결합과 새로운 데이터 수집 방법 검토<br />
  6. 6. 디지털 큐레이션의 생명 주기 1/3<br />데이터 획득 계획 수립(Conceptualise)<br />데이터 획득 방법 및 저장 옵션을 포함한 디지털 데이터(객체)의 생성에 대한 계획 수립 <br />데이터 생성(Create)<br />디지털 데이터의 생성과 저장용 메타데이터(관리, 기술, 구조, 보존적 측면)의 작성 <br />데이터 접근 및 사용(Access and Use)<br />이용자는 상시 디지털 데이터에 쉽게 접근할 수 있어야 하며 데이터에 따라 일반 공개 및 패스워드에 의한 제한 공개가 가능<br />검증 및 선정(Appraise and Select)<br />디지털 데이터의 검증을 통해 장기 큐레이션 및 보존이 필요한 데이터의 선정<br />문서화 된 지침서와 데이터 정책, 법적 요건 등이 첨부 <br />
  7. 7. 디지털 큐레이션의 생명 주기 2/3<br />폐기(Dispose)<br />장기 큐레이션 및 보존용으로 선정되지 않은 디지털 데이터의 폐기<br />안전한 폐기를 위해 문서화 된 지침서, 데이터 폐기 정책, 법적 요건등이 첨부 <br />전송(Ingest)<br />아카이브, 안전한 디지털 리파지토리, 데이터센터 및 이와 유사한 곳에 디지털 데이터를 전송<br />문서화 된 지침서, 데이터 보관 정책, 법적 요건 등이 첨부 <br />장기 보존(Preservation Action)<br />디지털 데이터 및 그 특성의 장기 보존<br />재평가(Reappraise)<br />평가 및 선정을 위한 검증 단계를 통과하지 못한 디지털 데이터의 재평가<br />
  8. 8. 디지털 큐레이션의 생명 주기 3/3<br />보관(Store)<br />관련 표준에 의해 안전한 방법으로 데이터 보관 <br />(접근 및 재사용)Access and Reuse<br />이용자에 의한 데이터에의 접근 및 재사용이 가능한지 확인<br />데이터에 따라 일반 공개 및 패스워드에 의한 제한 공개가 가능 <br />전환(Transform)<br />다른 형태로 데이터를 마이그레이션 함으로써 기존 데이터를 새로운 디지털 데이터로 다시 전환(생성)<br />
  9. 9. 현재의 연구개발 과정<br />… is lost!<br />Data<br />are<br />analysed<br />synthesised<br />interpreted<br />become<br />Information<br />… is traceable <br />is<br />published<br />becomes<br />Knowledge<br />… is accessible<br />Publication<br />
  10. 10. 문제점과 해결책<br />문제점<br />시간이 경과됨에 따라 데이터의 유실이 발생함<br />관련 데이터의 부족으로 연구자간 연구결과의 검증이 어려움<br />불필요한 중복실험, 중복연구가 이루어짐<br />해마다 많은 연구예산이 투입되어 데이터는 생산되었으나 이것이 발굴되지 않아 어딘가에 미이용 상태로 남아 있음<br />해결책<br />생성되는 데이터의 현황 조사 (종류, 용량, 관리상태, 보유자, 품질, 표준 등)<br />과학 데이터센터의 설립<br />데이터 셋에 대한 접근을 위한 메타데이터 작성 및 유통<br />식별자(DOI 혹은 KOI) 부여를 통한 영구적인 데이터 관리<br />과학 데이터센터의 효과<br />원시 데이터의 인용이 가능<br />데이터의 활용성(가독성) 향상<br />데이터 셋의 재활용 및 연구자간 데이터 검증이 가능<br />원시 데이터의 수집 및 메타데이터 작성으로 새로운 서비스 영역 탄생<br />데이터의 중복 실험 방지<br />새로운 연구를 유발<br />
  11. 11. 새로운 연구개발 과정<br />
  12. 12. 과학 데이터는 어디에?<br />출판된 연구성과물(논문 등)과 연구에 사용된 과학데이터 사이에는 큰 괴리가 존재<br /><ul><li>연구성과물(학술논문, 보고서, 학위논문 등)은 도서관이 보유
  13. 13. 여기에 사용된 데이터 셋은 데이터센터가 보유
  14. 14. 학술논문과 데이터 셋을 연결해 줄 수단이 없음
  15. 15. 데이터 셋을 확인할 수 있는 보편적인 방법이 없음
  16. 16. 데이터 셋을 인용할 수 있는 보편적인 방법이 없음</li></ul>결과적으로 데이터 셋은<br /><ul><li>발견하기 어렵고
  17. 17. 접근하기 어렵고
  18. 18. 학술논문에서는 부차적인 요소로 간주되고 있음</li></li></ul><li>데이터 셋은 아직까지 부차적인 요소<br />Source : UKRDS Study<br />
  19. 19. DOI를 사용한 데이터 셋의 인용<br />DOI 시스템 <br />학술논문과 해당 논문에 사용된 데이터를 연결하는 가장 손쉬운 방법<br />데이터 셋에 DOI를 부여하고 있는 기관<br />IUCR, ICPSR, OECD는 CrossRef을 통해<br />Pangaea, Mare 및 기타 몇 개의 기관들은 TIB(독일 국립과학기술도서관)를 통해<br />데이터 셋<br />G. Yancheva, N. R. Nowaczyk et at (2007), Rock magnetism and X-ray flourescence spectrometry analyses on sediment cores of the Lake HuguangMaar, Southeast China, PANGAEA<br />Doi : 10.1594/PANGAEA.587840<br />학술논문<br />G. Yancheva, N. R. Nowaczyk et at (2007), Influence of the intertropical convergence zone on the East Asian monsoon, Nature, 445, 74-77<br />Doi : 10.1038/nature05431<br />인용<br />
  20. 20. DataCite : 국제적 데이터 인용 기구<br />과학자를 지원함<br />DataCite의 장기 비젼은 과학자들에게 연구 데이터 셋의 소재와 확인, 그리고 연구 데이터 셋을 인용하는 방법을 제공함으로써 과학자를 돕는 것임<br />경과<br />2005년 하노버에서 TIB가 데이터 셋에 대해 DOI를부여하기 시작함<br />2009년 3월파리 ICSTI 회의에서 정관에 사인<br />2009년 12월 런던에서 DataCite Association이 설립됨<br />DataCite : 데이터센터 CrossRef : 출판사<br />
  21. 21. DataCite회원 현황<br />국제적 파트너쉽<br />독일 : TechnischeInformationsbibliothek (TIB)<br />영국 : The British Library (BL)<br />프랑스 : L’Institut de I’InformationScientifique et Technique (INIST)<br />스위스 : Library of the ETH Zurich<br />덴마크 : Library of TU Delft<br />네덜란드 : Technical Information Center<br />캐나다 : Canadian institute for Scientific and Technical Information (CISTI)<br />호주 : National Data Service (ANDS)<br />미국 : California Digital Library<br />미국 : Purdue University<br />
  22. 22. DataCite등록기관과 출판기관의 임무<br />DataCite Registration Agency<br />레졸루션 인프라 스트럭쳐의 유지, 관리<br />검색 가능한 메타데이터의 데이터베이스를 유지, 관리<br />장기간에 걸친 식별자 관리<br />최적 사례의 발굴, 공유 및 국제 협력 촉진<br />Publishing Agents (각국의 데이터센터, 연구소, 출판사 등)<br />품질 보증<br />콘텐트 저장과 접근<br />식별자 작성<br />메타데이터의 작성과 갱신<br />
  23. 23. DataCite구조<br />국제 DOI 기구<br />회원<br />관리 기관<br />(TIB)<br />DataCite<br />전달<br />Associate<br />Stakeholder<br />회원 기관<br />회원 기관<br />(KISTI)<br />협력<br />회원 기관<br />회원 기관<br />회원 기관<br />회원 기관<br />데이터센터, <br />연구소 등<br />데이터센터, <br />연구소 등<br />
  24. 24. 경청해 주셔서 감사합니다 ^ ^<br />질문하실 분?<br />

×