- 4세대 연구 패러다임 변화
- 연구환경 변화
- 연구자가 원하는 콘텐트
- Open Science
- Data 정의 및 구분
- Dataset & Meta data
- Research records
- 연구 데이터 정의 및 사례
- 과학 데이터 정의 및 특징
- Data Publication
- Data Journal
- Data Paper
- Data Management Plan
- Data Repository
- Data Scientists
- 과학의 신뢰와 DMP-ProRR
KISTI 계산과학공학센터에서 2017년 4월에 발표한 자료입니다. 오픈사이언스와 연구데이터, 빅데이터, 과학데이터, 데이터과학자에 대한 내용을 담고 있습니다.
공학, 의료영상, 자연과학 및 산업분야에서 제기되는 문제를
수리모델링-시뮬레이션-시각화과정을 통하여 예측/분석, 사용자에게 효율적인 프로그램 개발, 산업화에 이르기까지
다단계 연구를 종합적으로 수행하는 센터에서 인사이트를 가져사겼길 바랍니다.
KISTI 계산과학공학센터에서 2017년 4월에 발표한 자료입니다. 오픈사이언스와 연구데이터, 빅데이터, 과학데이터, 데이터과학자에 대한 내용을 담고 있습니다.
공학, 의료영상, 자연과학 및 산업분야에서 제기되는 문제를
수리모델링-시뮬레이션-시각화과정을 통하여 예측/분석, 사용자에게 효율적인 프로그램 개발, 산업화에 이르기까지
다단계 연구를 종합적으로 수행하는 센터에서 인사이트를 가져사겼길 바랍니다.
2017 한국정보관리학회 하계학술대회 튜토리얼 발표자료 part04 입니다. 데이터 관리 계획서(Data Management Plan)에 대해 전반적인 이야기를 합니다. DMP 특징과 여러가지 DMP 템플릿을 비교한 결과가 담겨있습니다. NSF에서 요구하는 DMP의 요건에 대해 살펴봅니다.
BIC STAR Library 세미나 발표자료입니다.
기하급수
과학 특성 & RDM 배경
설문으로 바라본 RDM, DMP, RDS
데이터
연구 데이터
데이터 관리 계획
RDM, RDS 사례 및 동향
Data Scientists & Data Librarian
RDS Services : BIC Star Library
마이크로소프트의 회장인 빌게이츠는 4세대 연구패러다임을 주장한 짐 그레 이(Jim Gray) 생각에 대해 다음과 같이 주장했다. “데이터와 소프트웨어가 과학 을 한다고 재정의 함으로써, 과학에 대해 우리가 새로운 방법으로 사고하도록 했 다”. 이것은 연구 데이터의 중요성을 역설한 것으로 볼 수 있다. 해외 주요 선진국에서는 이러한 연구 데이터의 수집 및 저장, 관리, 보존, 출 판, 서비스를 위한 다양한 활동을 하고 있으며, 이와 관련된 전문 인력을 채용하 고 있다. 국내에서도 체계적인 연구 데이터 관리와 재사용을 보장하기 위해, 연 구데이터 통합 관리 체계를 구축 중에 있다. 본고에서는 연구 데이터와 관련된 국 내외 주요 동향을 살펴보고 도서관 현장에서 무엇을 준비해야 하는지 알아본다.
2019-1차 통합포털도서관 시스템 구축 추진협의회 워크숍 발표자료 입니다. 연구 데이터와 DMP 대응을 주제로 CoreTrustSeal에 대한 내용을 발표하였습니다.
연구자들이 신뢰할 수 있는 데이터 리포지터리가 되는 방법은 여러가지가 있을 수 있습니다. 그중 하나는 데이터 리포지터리 품질을 인증해주는 기관으로 부터 인증을 받는 것일 수 있습니다.
Research Data Alliance 워킹그룹을 통해 선언된 CoreTrustSeal 단체에서 ICSU World Data System (ICSU-WDS) 인증과 Data Seal of Approval (DSA) 인증을 대체하는 데이터 리포지터리 인증기준(요구사항)을 발표하였습니다.
본 발표 자료에는 해당 인증기준(요구사항)을 분석한 내용이 담겨져 있습니다.
The document discusses the effectiveness of using iPads for individuals with autism. It presents information on 6 apps that address communication, behavior, articulation, and other areas. Each app summary includes price, category, key features, and demonstration links. The iPads offer advantages over other augmentative devices as they are cheaper, faster, more versatile and portable. However, their social appropriateness compared to larger devices is debated.
This document provides an overview and lessons for a Microsoft Excel 2003 training course on creating a workbook. The course covers creating a new workbook, entering text and numbers, editing cells, and inserting and deleting columns and rows. Lesson 1 defines workbooks, worksheets, columns, rows and cells. It explains how the active cell is outlined and its address shown in the name box. Lesson 2 discusses entering titles, names, dates, times, and other data into cells by typing or using the tab and enter keys.
The document discusses the protest music of the 1960s. It examines the influences on protest music during this era, such as the Vietnam War, Civil Rights movement, counterculture groups like hippies, and the New Left movement. It then analyzes the King Crimson song "21st Century Schizoid Man" to show how it reflects the protest sentiments of the 1960s through its lyrics describing a corrupt future society and world order dominated by machines over humanity.
The document discusses the protest music of the 1960s. It examines the influences on protest music during this era, such as the Vietnam War, Civil Rights movement, counterculture groups like hippies, and the New Left movement. It then analyzes the King Crimson song "21st Century Schizoid Man" to show how it reflects the protest sentiments of 1960s music through its lyrical themes and musical style.
This presentation discusses 6 apps for the iPad that can help individuals with autism: Proloquo2Go, First Words, First Then Visual Schedule, GraceApp, ArtikPix, and iCommunicate. Each app is described in terms of price, category addressed, and key features. While not designed for autism specifically, experts say the iPad is more affordable, versatile and engaging than other communication devices. It allows customization of apps to meet individual needs and can encourage social interaction.
KERIS 학술정보 글로벌 동향 2019년 Vol.2
대학도서관은 학술 연구자라는 중요한 목표 이용자와 결과물에 대한 서비스 지원을 위해 노력해 옴. 오픈 사이언스는 새로운 열린 학술 연구 생태계를 대표하는 용어이며, 관련 도구는 학술 출판 생애주기 전체를 지원함. 데이터 중심의 개방 지향적 정보화 환경에서 도서관은 이전보다 적극적으로 학술 커뮤니케이션 전반에 대한 이해와 지원을 위한 서비스 시대에 대응해야함
2017 한국정보관리학회 하계학술대회 튜토리얼 발표자료 part04 입니다. 데이터 관리 계획서(Data Management Plan)에 대해 전반적인 이야기를 합니다. DMP 특징과 여러가지 DMP 템플릿을 비교한 결과가 담겨있습니다. NSF에서 요구하는 DMP의 요건에 대해 살펴봅니다.
BIC STAR Library 세미나 발표자료입니다.
기하급수
과학 특성 & RDM 배경
설문으로 바라본 RDM, DMP, RDS
데이터
연구 데이터
데이터 관리 계획
RDM, RDS 사례 및 동향
Data Scientists & Data Librarian
RDS Services : BIC Star Library
마이크로소프트의 회장인 빌게이츠는 4세대 연구패러다임을 주장한 짐 그레 이(Jim Gray) 생각에 대해 다음과 같이 주장했다. “데이터와 소프트웨어가 과학 을 한다고 재정의 함으로써, 과학에 대해 우리가 새로운 방법으로 사고하도록 했 다”. 이것은 연구 데이터의 중요성을 역설한 것으로 볼 수 있다. 해외 주요 선진국에서는 이러한 연구 데이터의 수집 및 저장, 관리, 보존, 출 판, 서비스를 위한 다양한 활동을 하고 있으며, 이와 관련된 전문 인력을 채용하 고 있다. 국내에서도 체계적인 연구 데이터 관리와 재사용을 보장하기 위해, 연 구데이터 통합 관리 체계를 구축 중에 있다. 본고에서는 연구 데이터와 관련된 국 내외 주요 동향을 살펴보고 도서관 현장에서 무엇을 준비해야 하는지 알아본다.
2019-1차 통합포털도서관 시스템 구축 추진협의회 워크숍 발표자료 입니다. 연구 데이터와 DMP 대응을 주제로 CoreTrustSeal에 대한 내용을 발표하였습니다.
연구자들이 신뢰할 수 있는 데이터 리포지터리가 되는 방법은 여러가지가 있을 수 있습니다. 그중 하나는 데이터 리포지터리 품질을 인증해주는 기관으로 부터 인증을 받는 것일 수 있습니다.
Research Data Alliance 워킹그룹을 통해 선언된 CoreTrustSeal 단체에서 ICSU World Data System (ICSU-WDS) 인증과 Data Seal of Approval (DSA) 인증을 대체하는 데이터 리포지터리 인증기준(요구사항)을 발표하였습니다.
본 발표 자료에는 해당 인증기준(요구사항)을 분석한 내용이 담겨져 있습니다.
The document discusses the effectiveness of using iPads for individuals with autism. It presents information on 6 apps that address communication, behavior, articulation, and other areas. Each app summary includes price, category, key features, and demonstration links. The iPads offer advantages over other augmentative devices as they are cheaper, faster, more versatile and portable. However, their social appropriateness compared to larger devices is debated.
This document provides an overview and lessons for a Microsoft Excel 2003 training course on creating a workbook. The course covers creating a new workbook, entering text and numbers, editing cells, and inserting and deleting columns and rows. Lesson 1 defines workbooks, worksheets, columns, rows and cells. It explains how the active cell is outlined and its address shown in the name box. Lesson 2 discusses entering titles, names, dates, times, and other data into cells by typing or using the tab and enter keys.
The document discusses the protest music of the 1960s. It examines the influences on protest music during this era, such as the Vietnam War, Civil Rights movement, counterculture groups like hippies, and the New Left movement. It then analyzes the King Crimson song "21st Century Schizoid Man" to show how it reflects the protest sentiments of the 1960s through its lyrics describing a corrupt future society and world order dominated by machines over humanity.
The document discusses the protest music of the 1960s. It examines the influences on protest music during this era, such as the Vietnam War, Civil Rights movement, counterculture groups like hippies, and the New Left movement. It then analyzes the King Crimson song "21st Century Schizoid Man" to show how it reflects the protest sentiments of 1960s music through its lyrical themes and musical style.
This presentation discusses 6 apps for the iPad that can help individuals with autism: Proloquo2Go, First Words, First Then Visual Schedule, GraceApp, ArtikPix, and iCommunicate. Each app is described in terms of price, category addressed, and key features. While not designed for autism specifically, experts say the iPad is more affordable, versatile and engaging than other communication devices. It allows customization of apps to meet individual needs and can encourage social interaction.
KERIS 학술정보 글로벌 동향 2019년 Vol.2
대학도서관은 학술 연구자라는 중요한 목표 이용자와 결과물에 대한 서비스 지원을 위해 노력해 옴. 오픈 사이언스는 새로운 열린 학술 연구 생태계를 대표하는 용어이며, 관련 도구는 학술 출판 생애주기 전체를 지원함. 데이터 중심의 개방 지향적 정보화 환경에서 도서관은 이전보다 적극적으로 학술 커뮤니케이션 전반에 대한 이해와 지원을 위한 서비스 시대에 대응해야함
2013년 10월 30일(수)~11월 1일(금)까지 진행 된 다음세대재단
제11회 인터넷 리더십 프로그램의 강연 자료입니다.
- 사이트: http://itcanus.net/leadership
- 트위터: https://twitter.com/daumfoundation
- 페이스북: https://www.facebook.com/daumfoundation
[KERIS 이슈리포트] 요약 세미나 (Webinar) 자료
* 원문 링크: http://bit.ly/196LHBs
국내외 빅데이터 및 학습 분석 관련 기고서들과 동향 분석자료를 요약한 이슈리포트. UNESCO Policy Brief와 IMS Global의 백서를 중심으로 학습 분석 기술의 활용가능성과 쟁정들을 분석한 자료.
<주요>
1. 빅데이터 기술 및 산업 동향
2. 학습 분석 기술에 대한 이해
3. 학습 분석 기술 표준화 동향
4. 시사점
2013년 10월 29일 대한민국 국립중앙도서관에서 열린 '오픈액세스 코리아 포럼' 강연자료.
2013년 10월 21-27에 전세계에서 동시다발적으로 개최된 오픈 액세스 주간(Open Access Week)에 대한 소개와, 글로벌 환경에서 새로이 변화하는 학술 및 연구 공동체의 수요와 책무성을 반영한 오픈액세스 운동을 소개한다.
- 4세대 연구 패러다임 변화
- 연구환경 변화
- 연구자가 원하는 콘텐트
- Open Science
- Data 정의 및 구분
- Dataset & Meta data
- Research records
- 연구 데이터 정의 및 사례
- 과학 데이터 정의 및 특징
- Data Publication
- Data Journal
- Data Paper
- Data Management Plan
- Data Repository
- Data Scientists
- 과학의 신뢰와 DMP-ProRR
본 문서는 연구 데이터를 위한 메타데이터 워킹 그룹(WG4RDMD) 에서 논의 중에 있는 메타데이터 요소와 통제어를 기술한 문서 입니다. 워킹 그룹의 공식적인 문서가 아님을 알려드립니다.
WG4RDMD는 연구데이터를 관리 및 서비스 하기 위해 필요한 다음과 같은 리소스를 기술하기 위한 메타데이터를 연구합니다.
- 리포지터리
- 컬렉션
- 데이터세트
- 파일
This document provides an overview of the P-CUBE system. It outlines the contents that will be covered, which include the user interface, admin interfaces, workflow, target systems, actors, data model, modules, and a demonstration scenario. The document then proceeds to describe each of these sections in further detail over several pages.
2. 목차
2
Data Scientists
Open Science
Data Publication
Data Repository
Data Paper
연구 데이터 정의 및 사례
4세대 연구 패러다임 변화
연구환경 변화
연구자가 원하는 콘텐트
Data 정의 및 구분
Dataset & Meta data
Research records
과학 데이터 정의 및 특징
Data Management Plan
Data Journal
과학의 신뢰와
DMP-ProRR
제 17회 연구소재은행 교육프로그램 / 곤지암리조트
3. 4세대 연구 패러다임 변화 (1/2)
• Microsoft Research announced the availability of the book – The Fourth Paradigm:
Data-Intensive Scientific Discovery. The book focuses on the change of all sciences
moving
from observational, to
theoretical, to computational
and now to the 4th Paradigm –
Data-Intensive Scientific
Discovery.
This is based on Jim Gray’s insights captured via his final public talk to the National
Research Council on Jan 11, 2007. This is truly a legacy of his work.
Source: The Fourth Paradigm: Data-Intensive Scientific Discovery – Book Released
https://blogs.msdn.microsoft.com/escience/2009/10/16/the-fourth-paradigm-data-intensive-scientific-discovery-book-released/
3제 17회 연구소재은행 교육프로그램 / 곤지암리조트
4. 4세대 연구 패러다임 변화 (2/2)
• Scientific breakthroughs will be powered by advanced
computing capabilities that help researchers manipulate
and explore massive datasets. 컴퓨팅 파워
• The speed at which any given scientific discipline advances
will depend on how well its researchers collaborate with
one another, and with technologists, in areas of eScience
such as databases, workflow management, visualization,
and cloud computing technologies. 연구자들간 협력,
연구자와 엔지니어들과의 협력 필요
Source: The Fourth Paradigm: Data-Intensive Scientific Discovery – Book Released
https://blogs.msdn.microsoft.com/escience/2009/10/16/the-fourth-paradigm-data-intensive-scientific-discovery-book-released/
4제 17회 연구소재은행 교육프로그램 / 곤지암리조트
6. 연구자가 원하는 콘텐트 (1/2)
제 17회 연구소재은행 교육프로그램 / 곤지암리조트 6
7. 연구자가 원하는 콘텐트 (2/2)
연구 소재의 위치는 어디쯤 될까요?
제 17회 연구소재은행 교육프로그램 / 곤지암리조트 7
8. 목차
8
Data Scientists
Open Science
Data Publication
Data Repository
Data Paper
연구 데이터 정의 및 사례
4세대 연구 패러다임 변화
연구환경 변화
연구자가 원하는 콘텐트
Data 정의 및 구분
Dataset & Meta data
Research records
과학 데이터 정의 및 특징
Data Management Plan
Data Journal
과학의 신뢰와
DMP-ProRR
제 17회 연구소재은행 교육프로그램 / 곤지암리조트
9. Open Science
• Open Science 텍사노미
• Open Science 핵심 요소
• OS 요소들의 원칙과 동향
• 오픈 사이언스 효과와 사례
9제 17회 연구소재은행 교육프로그램 / 곤지암리조트
11. Open Data
Open Science Tools Open Repositories
Research Data
Scientific Data
Data Journal/Paper
DMP
오픈 사이언스 텍사노미 (2/2)
11제 17회 연구소재은행 교육프로그램 / 곤지암리조트
12. OS 핵심 요소 (1/5)
Open access
• refers to online, peer-reviewed scholarly outputs, which are free to read, with limited or no copyright and licensing restrictions.
• 동료평가된 연구결과물을 저작권이나 라이선스 제한 없이 자유롭게 이용
하는 Open Access
• The first official recognition of open access dates back to 2002, when the
Budapest Open Access Initiative defined open access not only as a term, but also as a strategy that could induce an
increase in the amount of free of cost, accessible and reusable research outputs.
• 학술지 구독료 절감. 재사용 가능한 연구결과물에 대한 접근 허용
• Since then, the open scholarly communications agenda has grown and
currently more terms are embedded in it such as
open data, open source and open reproducible research.
Nancy Pontika; Petr Knoth; Matteo Cancellieri; Samuel Pearce
(2015). "Fostering Open Science to Research using a Taxonomy and an
eLearning Portal". Retrieved 12 August 2015.
12제 17회 연구소재은행 교육프로그램 / 곤지암리조트
13. OS 핵심 요소 (2/5)
Open data
• deals with the online publication of the research data
gathered during a research project and made available
for access and re-use.
Murray-Rust, P. (2008). Open Data in Science. Serials Review,
vol.34, no.1, pp.52-64. doi:10.1016/j.serrev.2008.01.001
13제 17회 연구소재은행 교육프로그램 / 곤지암리조트
14. OS 핵심 요소 (3/5)
Open source means software that
• can be accessed online for free,
– with a source code license
• that allows its use,
• creation of derivatives and
• distribution.
Altenhören, R. Open Source Software - definition, licensing
models and organizational consequences (introduction). In
Proceedings of the 71 IFLA General Conference and Council
“Libraries – A voyage of discovery” (Oslo, 2005) URL
http://archive.ifla.org/IV/ifla71/papers/121e-Altenhoener.pdf
14제 17회 연구소재은행 교육프로그램 / 곤지암리조트
15. OS 핵심 요소 (4/5)
• Open reproducible research is the act of practicing OS to
enable the independent reproducibility of the research
results. Stodden, V. (2009). Enabling Reproducible Research: Open Licensing for Scientific Innovation. International Journal of
Communications Law and Policy, vol.13, pp.1-25
연구결과 재현을 위해, 꼭 필요한 것은 무엇입니까?
15제 17회 연구소재은행 교육프로그램 / 곤지암리조트
16. OS 핵심 요소(5/5)
Among the four open movements,
• open source and open access are the ones that have
existed longer, have gained plenty of supporters,
progressed and grown.
– With regards to open source, currently, there are open platforms for open software, such
as GitHub , Bitbucket or SourceForge .
– the Directory of Open Access Journals
9,313 Journals / 6,484 searchable at Article level /
128 Countries / 2,340,270 Articles 2016.11.23 기준
– OpenDOAR에3,236개 리포지터리 등록 2016.10.24 기준
Nancy Pontika; Petr Knoth; Matteo Cancellieri; Samuel Pearce (2015). "Fostering Open Science
to Research using a Taxonomy and an eLearning Portal". Retrieved 12 August 2015.
16제 17회 연구소재은행 교육프로그램 / 곤지암리조트
17. OS 요소들의 원칙과 동향
OS shares the same underlying principles:
• transparency,
• universal accessibility and
• reusability of the scientific information disseminated via online tools
Gezelter, D. (2009). What, exactly, is Open Science? URL
http://www.openscience.org/blog/?p=269
연구 소재로의 접근을 어떻게 제공할 것인가?
The fact that OS is inclusive of these four terms demonstrates
a universal trend that
• calls for a shift in the researchers’behaviour towards open content and for
the adoption of a wide range of open practices and strategies that relate
to the whole research life cycle. Nancy Pontika; Petr Knoth; Matteo Cancellieri; Samuel Pearce (2015). "Fostering Open Science
to Research using a Taxonomy and an eLearning Portal". Retrieved 12 August 2015.
연구 수명 주기에서 ‘연구 소재’의 위치는 어디인가?
17제 17회 연구소재은행 교육프로그램 / 곤지암리조트
18. 오픈 사이언스 효과
• the reproduction of the research findings,
• enables transparency in the research methodology,
• increases the researcher's societal impact and
• saves money and time both for researchers and research
institutions.
• OS is a relatively new and complex concept and
• its adoption will require a shift in the researchers' behaviour regarding the conduction of research and information sharing and
will demand the adoption of new practices.
• Many researchers are today not aware of all the components that comprise OS and have not been trained to practise OS.
Nancy Pontika; Petr Knoth; Matteo Cancellieri; Samuel Pearce (2015). "Fostering Open Science to
Research using a Taxonomy and an eLearning Portal". Retrieved 12 August 2015.
18제 17회 연구소재은행 교육프로그램 / 곤지암리조트
연구 수행과 정보공유에 있어 SHIFT / 새로운 실천 필요
무엇을 훈련시킬 것인가? 누가 훈련 시킬 것인가?
19. 오픈 사이언스 사례 (1/2)
• 운영주체 : Center for Open Science (COS) 개발, 유지
• 예산지원 : federal agencies, private foundations, and commercial entities
• 저장공간 : 개인 연구자별 5GB 제공
• Project >> components >> files
• 컴포넌트 = sub-project
• 컴포넌트 자체의 privacy and sharing settings
• 컴포넌트 인용을 위한 식별자
• 컴포넌트 위키 및 add-ons
• 프로젝트 등록 없이 컴포넌트 등록 가능
19제 17회 연구소재은행 교육프로그램 / 곤지암리조트
21. 목차
21
Data Scientists
Open Science
Data Publication
Data Repository
Data Paper
연구 데이터 정의 및 사례
4세대 연구 패러다임 변화
연구환경 변화
연구자가 원하는 콘텐트
Data 정의 및 구분
Dataset & Meta data
Research records
과학 데이터 정의 및 특징
Data Management Plan
Data Journal
과학의 신뢰와
DMP-ProRR
제 17회 연구소재은행 교육프로그램 / 곤지암리조트
22. • 데이터 정의
• 데이터 구분
• 데이터 세트
• 메타 데이터
• 연구 기록
22제 17회 연구소재은행 교육프로그램 / 곤지암리조트
23. 데이터 정의
• Generally and in science, data is a gathered body of facts.
Soruce : http://searchdatamanagement.techtarget.com/definition/data
• A reinterpretable representation of information in a formalized
manner suitable for communication, interpretation, or processing.
A sequence of bits, a table of numbers, the characters on a
page, the recording of sounds made by a person speaking,
or a moon rock specimen. Source : http://public.ccsds.org/publications/archive/650x0m2.pdf
데이터란 facts(사실, 실상, 실제)의 집합
데이터란 재해석 가능한 정보의 표현
해양과학 분야에서는 데이터 대신 ‘자료’ 라는 표현을 사용 하는데…
연구 소재에서 ‘소재’는 무엇일까? 소재도 데이터일까?
연구소재 = 데이터 + 정보
23제 17회 연구소재은행 교육프로그램 / 곤지암리조트
24. 데이터 구분
Source : https://en.wikipedia.org/wiki/Data
Observational data captured in real-
time, usually irreplaceable. For example, sensor data,
survey data, sample data, neurological images.
Experimental data from lab equipment,
often reproducible, but can be expensive. For example,
gene sequences, chromatograms, toroid magnetic field
data.
Simulation data generated from test
models where model and metadata are more important
than output data. For example, climate models,
economic models.
Derived or compiled data is
reproducible but expensive. For example, text and data
mining, compiled database, 3D models.
Reference or canonical a
(static or organic) conglomeration or collection of
smaller (peer-reviewed) datasets, most probably
published and curated. For example, gene sequence
databanks, chemical structures, or spatial data portals.
Source : http://www.bu.edu/datamanagement/background/whatisdata/
Raw Data
(Unprocessed Data)
Processed Data
Result Data
Scientific Data ⊂ Research Data
Qualitative Data
Quantitative Data
First Engilish use -
1640s
"transmittable and
storable computer
information“ – 1946
"data processing“ - 1954
데이터 처리 단계, 데이터 도메인, 데이터 생산 방식에 의한 데이터 구분
24제 17회 연구소재은행 교육프로그램 / 곤지암리조트
25. 데이터 세트
• A data set is a collection of related data and
information-generally numeric, word oriented, sound, and/or image-organized to permit
search and retrieval or processing and reorganizing.
• Many data sets are resources from which specific data points, facts, or textual information is
extracted for use in building a derivative data set or data product. A derivative data set,
also called a value-added or transformative data set, is built from one or more
preexisting data set(s) and frequently includes extractions from multiple data sets as well as original
data (Committee for a Study on Promoting Access to Scientific and Technical Data for the Public Interest, 1999, p. 15).
Data set = Data + Information = Research Resources
Data sets = Data set + Data set
Derivative data set = Value-added data set
= Transformative data set
25제 17회 연구소재은행 교육프로그램 / 곤지암리조트
26. 메타 데이터
• Metadata is structured data about dataSource : http://www.bu.edu/datamanagement/background/whatisdata/
• Metadata addresses data attributes that describe, provide
context, indicate the quality, or document other object (or
data) characteristics.” source : Greenberg (2005, p. 20 Metadata: A Cataloger's Primer)
• Metadata are often classified by their purpose
descriptive metadata, administrative metadata,
and structural metadata as the most common
subclassifications.
• Rights management (terms and conditions), provenance, and preservation metadata are most often
subcategorized under administrative metadata; however,
some taxonomies promote these to first-class categories (Greenberg, 2005; National Information Standards
Organization [NISO], 2004).
data and information
26제 17회 연구소재은행 교육프로그램 / 곤지암리조트
27. 연구 기록, Research records
• Records are documents containing data or information of
any kind and in any form (including both paper-based and
electronic format) created or received by an organisation or person for use in the course
of their work and subsequently kept by that organisation or individual as evidence of
that work, or because of the informational value of the data that such documents contain.
Records associated with the research process include correspondence (including electronic mail as
well as paper-based correspondence); project files; grant applications; ethics applications;
authorship agreements; technical reports; research reports; laboratory notebooks or research
journals; master lists; signed consent forms; and information sheets for research participants.
Source : https://policy.unimelb.edu.au/MPF1242
27
연구 소재 = 데이터와 정보
연구 기록 = 데이터와 정보를 포함한 인쇄 및 디지털 문서
제 17회 연구소재은행 교육프로그램 / 곤지암리조트
28. 목차
28
Data Scientists
Open Science
Data Publication
Data Repository
Data Paper
연구 데이터 정의 및 사례
4세대 연구 패러다임 변화
연구환경 변화
연구자가 원하는 콘텐트
Data 정의 및 구분
Dataset & Meta data
Research records
과학 데이터 정의 및 특징
Data Management Plan
Data Journal
과학의 신뢰와
DMP-ProRR
제 17회 연구소재은행 교육프로그램 / 곤지암리조트
29. • 연구 데이터 정의
• 연구 데이터 사례
• 연구 데이터, 공공 데이터, 과학 데이터
• 과학 데이터 정의 및 사례
• 과학 데이터 유형
• 과학 데이터 특징
29제 17회 연구소재은행 교육프로그램 / 곤지암리조트
30. 연구 데이터 정의 (1/2)
Datacite.org
• Research Content = Research Objects, Research Data ⊂ Research Objects
• Research Objects ∃ Workflows, Research Data ∄ Workflows
• Research Objects ∃ Standards, Research Data ∄ Standards
• Research Data ∃ Dataset
Queensland univ
• { facts, observations, images, computer program results, recordings, measurements, experiences } ⊂ Research Data from Queensland univ.
Melbourne univ
• { facts, observations or experiences, laboratory notebooks; field notebooks; primary research data (including research data in hardcopy or in
computer readable form); questionnaires; audiotapes; videotapes; models; photographs; films; test responses } ⊂ Research data from
Melbourne univ.
• { slides; artefacts; specimens; samples } ⊂ Research collections from Melbourne univ.
• {electronic mail as well as paper-based correspondence); project files; grant applications; ethics applications; authorship agreements;
technical reports; research reports; laboratory notebooks or research journals; master lists; signed consent forms; and information sheets for
research participants } ⊂ Research records from Melbourne univ.
Griffith Univ.
• 설문조사, 녹음 자료는 연구 데이터 인가?
• primary materials’ vs ‘research data’
30제 17회 연구소재은행 교육프로그램 / 곤지암리조트
31. ! Research Data
연구 데이터 정의 (2/2)
• administrative data Administrative data consists of records of payrolls, student enrolments, research
assessment, and so on. Some administrative data relates to research projects and may need to be treated as
research data. However, for the most part it is treated independently within the institution in terms of
data management policies, procedures and strategies.
• teaching data Teaching data comprises courseware and other resources which are part of the teaching
function of a university. Again, this may be of interest to a research project, but it is usually managed independently.
• research publications Research publications can be regarded as data, but for the most part these are well
taken care of outside the institution, by publishers and the like. Even when held within the institution, either on open
access or for research reporting purposes, these tend to be managed separately from other research data. Source :
http://www.bu.edu/datamanagement/background/whatisdata/
31제 17회 연구소재은행 교육프로그램 / 곤지암리조트
연구 기록 = 데이터와 정보를 포함한 인쇄 및 디지털 문서
= research publications
When (!Reserch Data) are used for research, it could be
called as Research Data. Am I right?
32. 연구 데이터 사례
• Text or Word documents, spreadsheets
• Laboratory notebooks, field notebooks, diaries
• Questionnaires, transcripts, codebooks
• Audiotapes, videotapes
• Photographs, films
• Test responses
• Slides, artifacts, specimens, samples
• Collection of digital objects acquired and generated during the process of research
• Data files
• Database contents including video, audio, text, images
• Models, algorithms, scripts
• Contents of an application such as input, output, log files for analysis software,
simulation software, schemas
• Methodologies and workflows
• Standard operating procedures and protocols
Primary Data
Secondary Data
Processed Data
Research Records
Source :
http://www.bu.edu/datamanage
ment/background/whatisdata/
Correspondence including electronic mail and paper-based correspondence /
Project files / Grant applications / Ethics applications / Technical reports / Research reports /
Master lists Signed consent forms
32제 17회 연구소재은행 교육프로그램 / 곤지암리조트
33. 연구 데이터, 공공 데이터, 과학 데이터
• Factual records, which may take the form of numbers, symbols, text, images or sounds, used as primary
sources for research, and that are commonly accepted in the research community as necessary to validate research
findings. Source : http://www.ands.org.au/guides/what-is-research-data
• Another way of approaching a definition of research data is to ask the
question 'what needs to be kept to validate the results of research?' This
may provide a different response, and allows the researcher, rather than the institution, to focus what needs to be
kept in case research findings are questioned.
Source : http://www.bu.edu/datamanagement/background/whatisdata/
연구 데이터
• Factual records used for validating research findings
• 연구 과정에서 수집, 생산된 데이터
• 연구 내용 검증에 사용될 수 있는 데이터 (Validating research findings)
• 연구 내용 재현에 꼭 필요한 데이터 (Reproducible science)
공공 데이터
• 공공재원을 사용하여 수행된 연구 및 조사 활동을 통해 수집, 생산된 데이터
과학 데이터
• 과학 활동을 통해 수집, 생산 된 데이터로서 공공재원으로 진행된 연구를 통해 생산된 데이터는 공공 데
이터로 분류할 수 있음
33제 17회 연구소재은행 교육프로그램 / 곤지암리조트
34. 과학 데이터 정의
• Cheng(2006)은 과학데이터는 과학기술 활동의 결과로서
관측(Observation), 감시(Monitoring), 조사(Investigation), 실
험(Experiment), 연구 분석(Research Analysis), 계산
(Computation) 등의 활동을 통해 생성된 데이터
• OECD(2006)의 경우, 데이터는 과학 연구수행을 위한 주요
한 원천으로 사용하는 사실적인 기록(숫 자, 문자정보, 이
미지 및 소리)으로 정의
• CCSDS(2002)는 과학데이터는 전달, 해석 및 가공에 적합
하 도록 형식을 갖춘, 재해석이 가능한 정보의 표현
Consultative committee on Space Data Systems
Source : Cheng, Jinpei. 2006. Strategies for Preservation of and Open Access to Scientific Data in China: Summary of a Workshop
34제 17회 연구소재은행 교육프로그램 / 곤지암리조트
35. 과학 데이터 정의 및 사례
과학 데이터 정의
• 연구자의 연구 활동 과정 중 생성되는 다양한 유형 의 사
실적 기록을 의미한다. 즉, 연구활동을 통하여 생산 된 연
구활동의 기록물로서 관측, 감시, 조사, 실험, 분석, 계산
등의 과정을 통하여 생산된 문자, 이미지, 오디오, 동영상
등의 아날로그 및 디지털 형식을 포괄하는 데이터
과학 데이터 사례
• 실험데이터, 통계데이터, 단백질 구조이미지, 생물의 표
본 자료, 천문학의 분광관측(spectral survey) 자료 등
Source: 김선태(2011), 「과학데이터 보존 및 활용모델에 관한 연구」
http://scholar.ndsl.kr/schArticleDetail.do?cn=JAKO201013351026193
35제 17회 연구소재은행 교육프로그램 / 곤지암리조트
36. 과학 데이터 유형
• 연구분야 및 연구방법, 관측장비, 실험장비, 분석방법 등에
따라 다양
• 주로 수치정보, 공간정보, 도표정보, 문서 등의 형태
• 지구관측 및 환경 분야의 데이터는 주 로 관측데이터로
서 공간 및 수치정보와 이미지 정보
• 사회과학 분야의 데이터는 주로 설문조사를 통한 통계데
이터 형태
• 컴퓨터과학 분야 의 데이터는 주로 도표 또는 수치정보
• 소량의 통계데이터 부터 가속기를 통해 매년 16
Petabytes씩 생산되는 대용량 미립자 충돌 데이터까지
규모와 형태 적인 측면에서 매우 다양한 특징
36제 17회 연구소재은행 교육프로그램 / 곤지암리조트
37. 과학 데이터 특징
• 데이터의 형식에 있어서 매우 다양하 다는 것이다. 위에서 언급되었듯이 과학데이터는 문서형 식
을 취하는 아날로그 정보형식에서 부터 컴퓨터 파일, 이미지 등의 다양한 디지털 정보 형식을 포
괄하여 모든 유형의 형식으로 존재
• 과학데이터는 특정한 현상을 설명하기 위하여 재가공이 가능하다는 것이다. 일반적으로 과학데이
터는 최종의 결과물을 추출하기 위 한 기초데이터(Raw
Data)로서 기능 수행. 따라서 연구자들은 연구행 위 및 활동에 대한 최종 결과물을 생산
하기 위하여 연구 과정에서 생산된 다양한 기초데이터를 활용
• 과학데이터는 자연과학, 공학 등의 분야뿐만이 아니라 사회과학 등에서 생산되는 다양한 통계데
이터 까지를 포괄
• 데이터 형식의 다양성으로 인하여 관리의 어려움이 존재한다는 것이다. 즉, 아날로 그 및 디지털 형식으로 존재함
으로 해서 단순히 데이터 베이스에 저장하는 것이 아닌 체계화된 관리방법이 요구됨
Source: 김선태(2011), 「과학데이터 보존 및 활용모델에 관한 연구」
37제 17회 연구소재은행 교육프로그램 / 곤지암리조트
38. 목차
38
Data Scientists
Open Science
Data Publication
Data Repository
Data Paper
연구 데이터 정의 및 사례
4세대 연구 패러다임 변화
연구환경 변화
연구자가 원하는 콘텐트
Data 정의 및 구분
Dataset & Meta data
Research records
과학 데이터 정의 및 특징
Data Management Plan
Data Journal
과학의 신뢰와
DMP-ProRR
제 17회 연구소재은행 교육프로그램 / 곤지암리조트
39. • Data Publication for Open data
• From Publications To Products
• 데이터 출판 사례
• Data Journal
• Data Paper
39제 17회 연구소재은행 교육프로그램 / 곤지암리조트
40. Data Publication for Open data
Open data is the idea that some data should be freely
available to everyone to use and republish as they
wish, without restrictions from
copyright, patents or other
mechanisms of control.The goals of the open data movement
are similar to those of other "open" movements such as open source, open hardware, open
content and open access. ..... (중략) ... The term "open data" itself is recent, gaining popularity with the
launch of open-data government initiatives such as Data.gov and Data.gov.uk.
Source : https://en.wikipedia.org/wiki/Open_data
연구 소재와 관련된 출판 대상자원으로는 무엇이 있는가?
40제 17회 연구소재은행 교육프로그램 / 곤지암리조트
41. From Publications To Products
2013 년 1월부터는 미국 과학 재단(National Science
Foundation)의 보조금 신청 지침이 변경되어 연구 산출물의
명칭이 “출판물(Publications)”에서“생산물(Products)”로
바뀌었으며, 그에 따라 논문과 함께 연구데이터가 제출되어
야 ... (National Science Foundation 2012
source : http://scholar.ndsl.kr/schDetail.do?cn=JAKO201610254117580#)
41
연구 소재는 연구 데이터 출판과 어떤 관계가 있을 수 있는가?
제 17회 연구소재은행 교육프로그램 / 곤지암리조트
42. Zenodo 사례 (1/2)
• Collection of data, research papers, reports, white papers,
presentations etc created, authored and published by
CODATA https://zenodo.org
42제 17회 연구소재은행 교육프로그램 / 곤지암리조트
43. Zenodo 사례 (2/2)
• Research. Shared. — all research outputs from across all fields
of research are welcome! Sciences and Humanities, really!
• Citeable. Discoverable. — uploads gets a Digital Object
Identifier (DOI) to make them easily and uniquely citeable.
• Communities — create and curate your own community for a
workshop, project, department, journal, into which you can
accept or reject uploads. Your own complete digital repository!
• Funding — identify grants, integrated in reporting lines for
research funded by the European Commission via OpenAIRE.
• Flexible licensing — because not everything is under Creative
Commons.
• Safe — your research output is stored safely for the future in
the same cloud infrastructure as CERN's own LHC research data.
43제 17회 연구소재은행 교육프로그램 / 곤지암리조트
44. OpenAIRE (1/2)
• OpenAIRE is an EC funded project (FP7 246686 and 283595)
• OpenAIRE is a network of Open Access repositories, archives and
journals that support Open Access policies.
• It goes beyond the traditional publications aggregator by
interconnecting entities related to scholarly communication (publications,
research data, funding, people, organizations, data sources) allowing users to
navigate alongside a rich information space graph and provides a wide range of services, from deposition to
statistics.
• OpenAIRE has access to 17,252,818 publications and 28,258 datasets
from 5,717 data sources. These involve 653,009 projects and
30,573 organizations. (2016년 11월10일 현재)
Source: https://www.openaire.eu
44제 17회 연구소재은행 교육프로그램 / 곤지암리조트
46. ATCC 사례
46
Source :
https://www.atcc.o
rg/en/Products/All
/10895.aspx
ATCC is the premier global
biological materials
resource and standards
organization whose mission
focuses on the acquisition,
authentication, production,
preservation, development, and
distribution of standard reference
microorganisms, cell lines, and
other materials. While maintaining
traditional collection materials, ATCC
develops high quality products,
standards, and services to support
scientific research and
breakthroughs that improve the
health of global populations.
제 17회 연구소재은행 교육프로그램 / 곤지암리조트
47. InCHIANTI 사례
47
Source : http://inchiantistudy.net/wp/
BioBank 키워드 검색결과 Re3data.org에 3건 등록되어 있음. InCHIANTI는 그중 하나
제 17회 연구소재은행 교육프로그램 / 곤지암리조트
48. ATCC 사례
• repositoryName : American Type Culture Collection
• https://www.atcc.org/?geo_country=kr
• While focused on supporting the scientific community, ATCC activities range widely, from repository-related operations to
providing specialized services, conducting in-house R&D and intellectual property management. ATCC serves U.S.
and international researchers by characterizing cell lines,
bacteria, viruses, fungi and protozoa, as well as developing and
evaluating assays and techniques for validating research
resources and preserving and distributing biological materials to
the public and private sector research communities. Our management
philosophy emphasizes customer satisfaction, value addition, cost-effective operations and competitive benchmarking
for all areas of our enterprise.
• Re3data.org에 등록된 데이터 리포지터리 중
Material 키워드를 포함한 레코드 건수 : 103개 (2016.10.24 기준)
48
연구 소재 리포지터리 사례는 존재한다.
제 17회 연구소재은행 교육프로그램 / 곤지암리조트
49. WDCM 사례 (1/3)
World Data Centre for Microorganisms (WDCM)
• 50 년전 설립된 World Federation for Culture Collections (WFCC)의 데
이터 센터—Microbial Resource Center (MIRCEN).
• Re3data.org 등록되어 있음 http://www.wdcm.org/
• 빅데이터 기술을 이용하여 전 세계 미생물 자원센터들과 미생물학자
들에게 통합정보서비스(integrated information services) 제공을 목적
으로 함
– Culture Collections Information) Worldwide (CCINFO) : 메타데이터 정보 제공
708 culture collections from 72 countries and regions.
– Global Catalogue of Microorganism (GCM) gathers strain catalogue information and provides a
data retrieval, analysis, and visualization system of microbial resources. Currently, GCM includes >368 000 strains from 103 culture collections in 43
countries and regions.
– Analyzer of Bioresource Citation (ABC) is a data mining tool extracting strain related publications,
patents, nucleotide sequences and genome information from public data sources to form a knowledge base.
– Reference Strain Catalogue (RSC) maintains a database of strains listed in International Standards
Organization (ISO) and other international or regional standards. RSC allocates a unique identifier to strains recommended for use in diagnosis and
quality control, and hence serves as a valuable cross-platform reference.
– WDCM provides free access to all these services at www.wdcm.org.
49
연구 소재 리포지터리 사례는 존재한다.
제 17회 연구소재은행 교육프로그램 / 곤지암리조트
52. Data Journal (1/2)
Data journals exist in some domains, such as
• the Earth Systems Science Data Journal
• Geoscience Data Journal,
• to publish data papers and provide services, such as peer review of the paper and
the underlying data set.
A data paper is not a traditional journal paper as it allows the publication of the data
set without the requirement for novelty or significant analysis or conclusions to be drawn.
It is a way to provide discoverability and quality assurance mechanisms for data that
may be of use or interest to others while at the same time providing credit for the
researchers involved in creating the data set.
52제 17회 연구소재은행 교육프로그램 / 곤지암리조트
53. Data Journal (2/2)
Is the Journal listed by
Thomson Reuters’ (formerly ISI)
Web of Science?
Geoscience Data Journal was
accepted for inclusion within
the Web of Science beginning
with Volume 1 (2014) and will
gain it's first Impact Factor for
the 2016 Impact Factor window.
There are also discussions with
Thomson Reuters regarding
their recent announcement of a
Data Citation Index.
53제 17회 연구소재은행 교육프로그램 / 곤지암리조트
54. Data paper
A data paper describes a dataset, giving details of its
collection, processing, software, file formats etc, without the
requirement of novel analyses or ground breaking
conclusions. It allows the reader to understand the when,
how and why data was collected and what the data-product
is.
Source:
http://onlinelibrary.wiley.com/journal/10.
1002/(ISSN)2049-6060
54제 17회 연구소재은행 교육프로그램 / 곤지암리조트
55. 목차
55
Data Scientists
Open Science
Data Publication
Data Repository
Data Paper
연구 데이터 정의 및 사례
4세대 연구 패러다임 변화
연구환경 변화
연구자가 원하는 콘텐트
Data 정의 및 구분
Dataset & Meta data
Research records
과학 데이터 정의 및 특징
Data Management Plan
Data Journal
과학의 신뢰와
DMP-ProRR
제 17회 연구소재은행 교육프로그램 / 곤지암리조트
56. • DMP
• Guidelines for Effective Data Management Plans
• Data Repository
• Guidelines for Repositories
56제 17회 연구소재은행 교육프로그램 / 곤지암리조트
57. DMP (1/3)
A data management plan
• is an integral part of the research plan.
• can be reviewed and expanded
during research
• but main principles and
procedures should be determined
before the research starts, at the latest before data collection begins.
• A data management plan (DMP) will help you manage your data,
meet funder requirements, and help others use your data if shared.
Source: http://www.fsd.uta.fi/aineistonhallinta/en/data-management-planning.html
57제 17회 연구소재은행 교육프로그램 / 곤지암리조트
58. • Data Description
• Existing data
• Format
• Metadata
• Sotrage and backup
• Security permissions, restrictions, and embargoes
• Responsibility names of the individuals
reponsible for data management
• Intellectual property rights
• Access and sharing
• Audience The potential secondary users of data
• Selection and retention
periods selected for archiving
• Archiving and preservation
• Ethics and privacy
• Budget request for funding may be included
• Data Organization version control,
naming conventions etc.
• Quality Assurance
• Legal Requirements all relevant federal
or funder requirements for data management and data sharing
DMP (2/3)
58제 17회 연구소재은행 교육프로그램 / 곤지암리조트
59. DMP (3/3)
• Questions to answer:
– What types of data will the project collect or use?
– What file format will be used?
– What metadata standard will be used?
– How will ethical issues concerning data management
be taken into account?
– How will copyright and IPR issues be managed?
– How will the data be made available for subsequent
use by other researchers?
– With which collaborators will the data be managed and
made openly available? source: http://www.fsd.uta.fi/aineistonhallinta/en/documents/FSD-
DMPTuuli-guidelines.html
59제 17회 연구소재은행 교육프로그램 / 곤지암리조트
60. Guidelines for Effective Data
Management Plans
v Resources for Development
• Australian National Data Service - Data management planning
• Digital Curation Centre - Data Management Plans
• Geoscience Australia - Guide to Preparation of Data Management Plans
• New South Wales Natural Resources Information Management Strategy - Data
Management Planning Guidelines
• University of Oxford - Data Management Planning Checklist
• University of Oxford - Data Management Planning
v Templates & Tools
v Guidance on Funder Requirements
v University Data Management Web Sites
v Good Practice Guidance
v Federal Agency Policies on Data Management and Sharing
v Other Data Management Plan Examples from Natural Sciences
Source: http://www.icpsr.umich.edu/files/datamanagement/DataManagementPlans-All.pdf
여러 DMP 참고하여
DMP 가이드라인 제시
연구 소재 은행에서
연구자에게 DMP 요구?
DMP 내용?
연구소재은행 거버넌스 체계?
60제 17회 연구소재은행 교육프로그램 / 곤지암리조트
62. Guidelines for Repositories
for Geoscience Data Journal
Before a dataset can be submitted for publication the dataset must be deposited in a registered repository, along with the associated metadata for
the dataset.
Repositories can be registered on a case by case basis through contact with the Geoscience Data Journal editor. At a minimum, repositories should
have the ability to:
• Assign DOIs to the dataset and offer sufficiently long data preservations that match the amount of time the
public will find this data scientifically beneficial.
• Store the data files in an easily
readable format across different computing platforms.
Allow reviewers easy (and anonymous to the dataset authors) access to the data and supporting metadata.
• Following successful review and publication the repository must provide open access to the
broad/public user community.
Datasets submitted for publication should be complete and not liable to change. Metadata should be included to allow a full understanding of the
data. Source: http://onlinelibrary.wiley.com/journal/10.1002/(ISSN)2049-6060/homepage/guidelines_for_repositories.htm
62제 17회 연구소재은행 교육프로그램 / 곤지암리조트
63. 목차
63
Data Scientists
Open Science
Data Publication
Data Repository
Data Paper
연구 데이터 정의 및 사례
4세대 연구 패러다임 변화
연구환경 변화
연구자가 원하는 콘텐트
Data 정의 및 구분
Dataset & Meta data
Research records
과학 데이터 정의 및 특징
Data Management Plan
Data Journal
과학의 신뢰와
DMP-ProRR
제 17회 연구소재은행 교육프로그램 / 곤지암리조트
65. Data Scientists (1/3)
Data Scientists (NSF 2005, p27)
The information and computer
scientists, database and
software engineers and
programmers, disciplinary
experts, curators and expert
annotators, librarians,
archivists, and others, who are
crucial to the successful
management of a digital data
collection
데이터 과학자
데이터 과학과 관련된 분야를 전공하고 데이터
분석과 관련된 업무에 종사하는 사람을 말한다.
즉 데이터 과학자는 현장에 존재하는 대량의 데
이터를 모으고, 분석에 적합한 형태로 가공하고,
데이터가 의미하는 바를 이야기(story)에 담아 다
른 사람에게 효과적으로 전달하는 역할을 한
다.(O’Reilly Media, 2012)
데이터 과학자
Business analyst VS. Data analyst
Research Scientist
Data Scientist
Experiences like my own suggest that the best way to become a data scientist
isn’t to be trained as a data scientist, but to do serious, data-intensive work in
some other discipline.
65제 17회 연구소재은행 교육프로그램 / 곤지암리조트
66. Data Scientists (2/3)
• September 2005 The National Science
Board publishes “Long-lived Digital Data
Collections: Enabling Research and Education in
the 21st Century.”
• The report defines data scientists as “the
information and computer scientists, database and
software engineers and programmers, disciplinary
experts, curators and expert annotators, librarians,
archivists, and others, who are crucial to the
successful management of a digital data
collection.”
66제 17회 연구소재은행 교육프로그램 / 곤지암리조트
67. Data Scientists (3/3)
• Research Data Management
• Research Data Service by Data Scientists Team.
67제 17회 연구소재은행 교육프로그램 / 곤지암리조트
68. 목차
68
Data Scientists
Open Science
Data Publication
Data Repository
Data Paper
연구 데이터 정의 및 사례
4세대 연구 패러다임 변화
연구환경 변화
연구자가 원하는 콘텐트
Data 정의 및 구분
Dataset & Meta data
Research records
과학 데이터 정의 및 특징
Data Management Plan
Data Journal
과학의 신뢰와
DMP-ProRR
제 17회 연구소재은행 교육프로그램 / 곤지암리조트
69. • 과학의 신뢰
• DMP-ProRR : Data Management Plan for Products based
on Research Resources
69제 17회 연구소재은행 교육프로그램 / 곤지암리조트
70. 과학의 신뢰 (1/3)
Source :
https://www.theguardian.com/science/blog/2013/jun/05/trust-in-
science-study-pre-registration
In an ideal world, scientific discoveries would be
independent of what scientists wanted to discover. A
good researcher would
begin with an idea,
devise a method to test the idea,
run the study as planned, and then
decide based on the evidence
whether the idea had been supported. Following this
approach would lead us step-by-step toward a better
understanding of nature.
Publish or perish
Trust in Science
Study pre-registration??
70제 17회 연구소재은행 교육프로그램 / 곤지암리조트
71. 과학의 신뢰 (2/3)
Reproducible science is stronger science.
약한 과학이란 무엇일까요?
연구 윤리
Center for Open Science
https://cos.io/stats_consulting/
http://www.indiana.edu/~ensiweb/is.ev.wk.pdf
71
Reproducible science needs Research Resources.
연구 재현을 위해서는 연구 소재 공급이 필요할 수 있다.
일관된 연구 소재 확보는 연구윤리 측면에서 반드시 필요하다.
제 17회 연구소재은행 교육프로그램 / 곤지암리조트
72. 과학의 신뢰 (3/3)
“If they do a press release on an observational study, they should
state the limitations prominently – generally that causality can’t
be inferred, that findings from observational research often are
not reproduced in clinical trials,”
Source : https://www.timeshighereducation.com/news/journals-give-more-publicity-
weak-science
Scientists often bemoan journalists’
shoddy reporting of research findings.
A Study without data makes weak science.
Reproducible science is stronger science.
Reproducible science needs Research Data
Research Resources are Research Data.
Research Resources are good trigger for Open Science.
72제 17회 연구소재은행 교육프로그램 / 곤지암리조트
73. 소재 보존 관리
• 고유의 특성 변질 및 오염
• 법정 보존 기한 초과
• 천재지변
• 소재 품질의 유지 >>
동일 수준의 소재 제공 >>
연구 재현, Open Science 구현
• 소재의 보존위치 파악
= 연구素材의 所在 정보
= location Info.
73
소재보존의 표준화
소재 중복 보존
제 17회 연구소재은행 교육프로그램 / 곤지암리조트
74. DMP-ProRR
• Data Management Plan
for Products based on Research Resources
74
DMP-ProRR
Data Citation
Metadata Schema
Archiving & Preservation Guideline
Metadata Acquition
Data & article
Inter-linking service
Data Publishing
Data
RepositoriesColleciton
Services
제 17회 연구소재은행 교육프로그램 / 곤지암리조트
76. 소재 기탁 관리
• Data Provenance
• 소재 관리번호 체계와 식별자
76
소재고유번호
제 17회 연구소재은행 교육프로그램 / 곤지암리조트
77. 못다한 이야기: 빅데이터 유래
• 이미 우리는 약 70년 전부터 “정보 폭발 (a term first used in 1941, according to the Oxford English Dictionary)” 이란 용어 사용
• October 1997 Michael Cox and David Ellsworth publish “Application-controlled demand paging for
out-of-core visualization” in the Proceedings of the IEEE 8th conference on Visualization. They start the article with
“Visualization provides an interesting challenge for computer systems: data sets are generally quite large, taxing the capacities
of main memory, local disk, and even remote disk. We call this the problem of big data. It is the first article in the ACM digital
library to use the term “big data.”
• November 2000 Francis X. Diebold presents to the Eighth World Congress of the Econometric Society a paper titled
• “Big Data Dynamic Factor Models for Macroeconomic Measurement
and Forecasting” in which he states “Recently, much good science, whether physical, biological, or social, has
been forced to confront—and has often benefited from—the “Big Data” phenomenon. They also that in 1986, 99.2% of all
storage capacity was analog, but in 2007, 94% of storage capacity was digital, a complete reversal of roles (in 2002, digital
information storage surpassed non-digital for the first time).
• February 2010 Kenneth Cukier “Data, data everywhere.”
“…the world contains an unimaginably vast amount of digital information which is getting ever vaster more rapidly… The effect
is being felt everywhere, from business to science, from governments to the arts. Scientists and computer
engineers have coined a new term for the phenomenon: ‘big
data.’”
제 17회 연구소재은행 교육프로그램 / 곤지암리조트 77
78. 못다한 이야기:
Big Data vs. Difficult Data
제 17회 연구소재은행 교육프로그램 / 곤지암리조트 78