SlideShare a Scribd company logo
연구 소재
2016. 12. 7
Dr. Suntae Kim
Data Scientists
Open Science
Data Publication
Data Repository
Data Paper
연구 데이터 정의 및 사례
4세대 연구 패러다임 변화
연구환경 변화
연구자가 원하는 콘텐트
Data 정의 및 구분
Dataset & Meta data
Research records
과학 데이터 정의 및 특징
Data Management Plan
Data Journal
과학의 신뢰와
제 17회 연구소재은행 교육프로그램 / 곤지암리조트
4세대 연구 패러다임 변화 (1/2)
• Microsoft Research announced the availability of the book – The Fourth Paradigm:
Data-Intensive Scientific Discovery. The book focuses on the change of all sciences
from observational, to
theoretical, to computational
and now to the 4th Paradigm –
Data-Intensive Scientific
This is based on Jim Gray’s insights captured via his final public talk to the National
Research Council on Jan 11, 2007. This is truly a legacy of his work.
Source: The Fourth Paradigm: Data-Intensive Scientific Discovery – Book Released
3제 17회 연구소재은행 교육프로그램 / 곤지암리조트
4세대 연구 패러다임 변화 (2/2)
• Scientific breakthroughs will be powered by advanced
computing capabilities that help researchers manipulate
and explore massive datasets. 컴퓨팅 파워
• The speed at which any given scientific discipline advances
will depend on how well its researchers collaborate with
one another, and with technologists, in areas of eScience
such as databases, workflow management, visualization,
and cloud computing technologies. 연구자들간 협력,
연구자와 엔지니어들과의 협력 필요
Source: The Fourth Paradigm: Data-Intensive Scientific Discovery – Book Released
4제 17회 연구소재은행 교육프로그램 / 곤지암리조트
연구환경 변화
5제 17회 연구소재은행 교육프로그램 / 곤지암리조트
연구자가 원하는 콘텐트 (1/2)
제 17회 연구소재은행 교육프로그램 / 곤지암리조트 6
연구자가 원하는 콘텐트 (2/2)
연구 소재의 위치는 어디쯤 될까요?
제 17회 연구소재은행 교육프로그램 / 곤지암리조트 7
Data Scientists
Open Science
Data Publication
Data Repository
Data Paper
연구 데이터 정의 및 사례
4세대 연구 패러다임 변화
연구환경 변화
연구자가 원하는 콘텐트
Data 정의 및 구분
Dataset & Meta data
Research records
과학 데이터 정의 및 특징
Data Management Plan
Data Journal
과학의 신뢰와
제 17회 연구소재은행 교육프로그램 / 곤지암리조트
Open Science
• Open Science 텍사노미
• Open Science 핵심 요소
• OS 요소들의 원칙과 동향
• 오픈 사이언스 효과와 사례
9제 17회 연구소재은행 교육프로그램 / 곤지암리조트
오픈 사이언스 텍사노미 (1/2)
10제 17회 연구소재은행 교육프로그램 / 곤지암리조트
Open Data
Open Science Tools Open Repositories
Research Data
Scientific Data
Data Journal/Paper
오픈 사이언스 텍사노미 (2/2)
11제 17회 연구소재은행 교육프로그램 / 곤지암리조트
OS 핵심 요소 (1/5)
Open access
• refers to online, peer-reviewed scholarly outputs, which are free to read, with limited or no copyright and licensing restrictions.
• 동료평가된 연구결과물을 저작권이나 라이선스 제한 없이 자유롭게 이용
하는 Open Access
• The first official recognition of open access dates back to 2002, when the
Budapest Open Access Initiative defined open access not only as a term, but also as a strategy that could induce an
increase in the amount of free of cost, accessible and reusable research outputs.
• 학술지 구독료 절감. 재사용 가능한 연구결과물에 대한 접근 허용
• Since then, the open scholarly communications agenda has grown and
currently more terms are embedded in it such as
open data, open source and open reproducible research.
Nancy Pontika; Petr Knoth; Matteo Cancellieri; Samuel Pearce
(2015). "Fostering Open Science to Research using a Taxonomy and an
eLearning Portal". Retrieved 12 August 2015.
12제 17회 연구소재은행 교육프로그램 / 곤지암리조트
OS 핵심 요소 (2/5)
Open data
• deals with the online publication of the research data
gathered during a research project and made available
for access and re-use.
Murray-Rust, P. (2008). Open Data in Science. Serials Review,
vol.34, no.1, pp.52-64. doi:10.1016/j.serrev.2008.01.001
13제 17회 연구소재은행 교육프로그램 / 곤지암리조트
OS 핵심 요소 (3/5)
Open source means software that
• can be accessed online for free,
– with a source code license
• that allows its use,
• creation of derivatives and
• distribution.
Altenhören, R. Open Source Software - definition, licensing
models and organizational consequences (introduction). In
Proceedings of the 71 IFLA General Conference and Council
“Libraries – A voyage of discovery” (Oslo, 2005) URL
14제 17회 연구소재은행 교육프로그램 / 곤지암리조트
OS 핵심 요소 (4/5)
• Open reproducible research is the act of practicing OS to
enable the independent reproducibility of the research
results. Stodden, V. (2009). Enabling Reproducible Research: Open Licensing for Scientific Innovation. International Journal of
Communications Law and Policy, vol.13, pp.1-25
연구결과 재현을 위해, 꼭 필요한 것은 무엇입니까?
15제 17회 연구소재은행 교육프로그램 / 곤지암리조트
OS 핵심 요소(5/5)
Among the four open movements,
• open source and open access are the ones that have
existed longer, have gained plenty of supporters,
progressed and grown.
– With regards to open source, currently, there are open platforms for open software, such
as GitHub , Bitbucket or SourceForge .
– the Directory of Open Access Journals
9,313 Journals / 6,484 searchable at Article level /
128 Countries / 2,340,270 Articles 2016.11.23 기준
– OpenDOAR에3,236개 리포지터리 등록 2016.10.24 기준
Nancy Pontika; Petr Knoth; Matteo Cancellieri; Samuel Pearce (2015). "Fostering Open Science
to Research using a Taxonomy and an eLearning Portal". Retrieved 12 August 2015.
16제 17회 연구소재은행 교육프로그램 / 곤지암리조트
OS 요소들의 원칙과 동향
OS shares the same underlying principles:
• transparency,
• universal accessibility and
• reusability of the scientific information disseminated via online tools
Gezelter, D. (2009). What, exactly, is Open Science? URL
연구 소재로의 접근을 어떻게 제공할 것인가?
The fact that OS is inclusive of these four terms demonstrates
a universal trend that
• calls for a shift in the researchers’behaviour towards open content and for
the adoption of a wide range of open practices and strategies that relate
to the whole research life cycle. Nancy Pontika; Petr Knoth; Matteo Cancellieri; Samuel Pearce (2015). "Fostering Open Science
to Research using a Taxonomy and an eLearning Portal". Retrieved 12 August 2015.
연구 수명 주기에서 ‘연구 소재’의 위치는 어디인가?
17제 17회 연구소재은행 교육프로그램 / 곤지암리조트
오픈 사이언스 효과
• the reproduction of the research findings,
• enables transparency in the research methodology,
• increases the researcher's societal impact and
• saves money and time both for researchers and research
• OS is a relatively new and complex concept and
• its adoption will require a shift in the researchers' behaviour regarding the conduction of research and information sharing and
will demand the adoption of new practices.
• Many researchers are today not aware of all the components that comprise OS and have not been trained to practise OS.
Nancy Pontika; Petr Knoth; Matteo Cancellieri; Samuel Pearce (2015). "Fostering Open Science to
Research using a Taxonomy and an eLearning Portal". Retrieved 12 August 2015.
18제 17회 연구소재은행 교육프로그램 / 곤지암리조트
연구 수행과 정보공유에 있어 SHIFT / 새로운 실천 필요
무엇을 훈련시킬 것인가? 누가 훈련 시킬 것인가?
오픈 사이언스 사례 (1/2)
• 운영주체 : Center for Open Science (COS) 개발, 유지
• 예산지원 : federal agencies, private foundations, and commercial entities
• 저장공간 : 개인 연구자별 5GB 제공
• Project >> components >> files
• 컴포넌트 = sub-project
• 컴포넌트 자체의 privacy and sharing settings
• 컴포넌트 인용을 위한 식별자
• 컴포넌트 위키 및 add-ons
• 프로젝트 등록 없이 컴포넌트 등록 가능
19제 17회 연구소재은행 교육프로그램 / 곤지암리조트
오픈 사이언스 사례 (2/2)
Identifiers: DOI 10.17605/OSF.IO/RKFQ4 |
ARK c7605/
20제 17회 연구소재은행 교육프로그램 / 곤지암리조트
iRODS / B2Share / Dataverse / ANDS
Data Scientists
Open Science
Data Publication
Data Repository
Data Paper
연구 데이터 정의 및 사례
4세대 연구 패러다임 변화
연구환경 변화
연구자가 원하는 콘텐트
Data 정의 및 구분
Dataset & Meta data
Research records
과학 데이터 정의 및 특징
Data Management Plan
Data Journal
과학의 신뢰와
제 17회 연구소재은행 교육프로그램 / 곤지암리조트
• 데이터 정의
• 데이터 구분
• 데이터 세트
• 메타 데이터
• 연구 기록
22제 17회 연구소재은행 교육프로그램 / 곤지암리조트
데이터 정의
• Generally and in science, data is a gathered body of facts.
Soruce :
• A reinterpretable representation of information in a formalized
manner suitable for communication, interpretation, or processing.
A sequence of bits, a table of numbers, the characters on a
page, the recording of sounds made by a person speaking,
or a moon rock specimen. Source :
데이터란 facts(사실, 실상, 실제)의 집합
데이터란 재해석 가능한 정보의 표현
해양과학 분야에서는 데이터 대신 ‘자료’ 라는 표현을 사용 하는데…
연구 소재에서 ‘소재’는 무엇일까? 소재도 데이터일까?
연구소재 = 데이터 + 정보
23제 17회 연구소재은행 교육프로그램 / 곤지암리조트
데이터 구분
Source :
Observational data captured in real-
time, usually irreplaceable. For example, sensor data,
survey data, sample data, neurological images.
Experimental data from lab equipment,
often reproducible, but can be expensive. For example,
gene sequences, chromatograms, toroid magnetic field
Simulation data generated from test
models where model and metadata are more important
than output data. For example, climate models,
economic models.
Derived or compiled data is
reproducible but expensive. For example, text and data
mining, compiled database, 3D models.
Reference or canonical a
(static or organic) conglomeration or collection of
smaller (peer-reviewed) datasets, most probably
published and curated. For example, gene sequence
databanks, chemical structures, or spatial data portals.
Source :
Raw Data
(Unprocessed Data)
Processed Data
Result Data
Scientific Data ⊂ Research Data
Qualitative Data
Quantitative Data
First Engilish use -
"transmittable and
storable computer
information“ – 1946
"data processing“ - 1954
데이터 처리 단계, 데이터 도메인, 데이터 생산 방식에 의한 데이터 구분
24제 17회 연구소재은행 교육프로그램 / 곤지암리조트
데이터 세트
• A data set is a collection of related data and
information-generally numeric, word oriented, sound, and/or image-organized to permit
search and retrieval or processing and reorganizing.
• Many data sets are resources from which specific data points, facts, or textual information is
extracted for use in building a derivative data set or data product. A derivative data set,
also called a value-added or transformative data set, is built from one or more
preexisting data set(s) and frequently includes extractions from multiple data sets as well as original
data (Committee for a Study on Promoting Access to Scientific and Technical Data for the Public Interest, 1999, p. 15).
Data set = Data + Information = Research Resources
Data sets = Data set + Data set
Derivative data set = Value-added data set
= Transformative data set
25제 17회 연구소재은행 교육프로그램 / 곤지암리조트
메타 데이터
• Metadata is structured data about dataSource :
• Metadata addresses data attributes that describe, provide
context, indicate the quality, or document other object (or
data) characteristics.” source : Greenberg (2005, p. 20 Metadata: A Cataloger's Primer)
• Metadata are often classified by their purpose
descriptive metadata, administrative metadata,
and structural metadata as the most common
• Rights management (terms and conditions), provenance, and preservation metadata are most often
subcategorized under administrative metadata; however,
some taxonomies promote these to first-class categories (Greenberg, 2005; National Information Standards
Organization [NISO], 2004).
data and information
26제 17회 연구소재은행 교육프로그램 / 곤지암리조트
연구 기록, Research records
• Records are documents containing data or information of
any kind and in any form (including both paper-based and
electronic format) created or received by an organisation or person for use in the course
of their work and subsequently kept by that organisation or individual as evidence of
that work, or because of the informational value of the data that such documents contain.
Records associated with the research process include correspondence (including electronic mail as
well as paper-based correspondence); project files; grant applications; ethics applications;
authorship agreements; technical reports; research reports; laboratory notebooks or research
journals; master lists; signed consent forms; and information sheets for research participants.
Source :
연구 소재 = 데이터와 정보
연구 기록 = 데이터와 정보를 포함한 인쇄 및 디지털 문서
제 17회 연구소재은행 교육프로그램 / 곤지암리조트
Data Scientists
Open Science
Data Publication
Data Repository
Data Paper
연구 데이터 정의 및 사례
4세대 연구 패러다임 변화
연구환경 변화
연구자가 원하는 콘텐트
Data 정의 및 구분
Dataset & Meta data
Research records
과학 데이터 정의 및 특징
Data Management Plan
Data Journal
과학의 신뢰와
제 17회 연구소재은행 교육프로그램 / 곤지암리조트
• 연구 데이터 정의
• 연구 데이터 사례
• 연구 데이터, 공공 데이터, 과학 데이터
• 과학 데이터 정의 및 사례
• 과학 데이터 유형
• 과학 데이터 특징
29제 17회 연구소재은행 교육프로그램 / 곤지암리조트
연구 데이터 정의 (1/2)
• Research Content = Research Objects, Research Data ⊂ Research Objects
• Research Objects ∃ Workflows, Research Data ∄	Workflows
• Research Objects ∃	Standards, Research Data ∄	Standards
• Research Data ∃	Dataset
Queensland univ
• { facts, observations, images, computer program results, recordings, measurements, experiences } ⊂ Research Data from Queensland univ.
Melbourne univ
• { facts, observations or experiences, laboratory notebooks; field notebooks; primary research data (including research data in hardcopy or in
computer readable form); questionnaires; audiotapes; videotapes; models; photographs; films; test responses } ⊂ Research data from
Melbourne univ.
• { slides; artefacts; specimens; samples } ⊂ Research collections from Melbourne univ.
• {electronic mail as well as paper-based correspondence); project files; grant applications; ethics applications; authorship agreements;
technical reports; research reports; laboratory notebooks or research journals; master lists; signed consent forms; and information sheets for
research participants } ⊂ Research records from Melbourne univ.
Griffith Univ.
• 설문조사, 녹음 자료는 연구 데이터 인가?
• primary materials’ vs ‘research data’
30제 17회 연구소재은행 교육프로그램 / 곤지암리조트
! Research Data
연구 데이터 정의 (2/2)
• administrative data Administrative data consists of records of payrolls, student enrolments, research
assessment, and so on. Some administrative data relates to research projects and may need to be treated as
research data. However, for the most part it is treated independently within the institution in terms of
data management policies, procedures and strategies.
• teaching data Teaching data comprises courseware and other resources which are part of the teaching
function of a university. Again, this may be of interest to a research project, but it is usually managed independently.
• research publications Research publications can be regarded as data, but for the most part these are well
taken care of outside the institution, by publishers and the like. Even when held within the institution, either on open
access or for research reporting purposes, these tend to be managed separately from other research data. Source :
31제 17회 연구소재은행 교육프로그램 / 곤지암리조트
연구 기록 = 데이터와 정보를 포함한 인쇄 및 디지털 문서
= research publications
When (!Reserch Data) are used for research, it could be
called as Research Data. Am I right?
연구 데이터 사례
• Text or Word documents, spreadsheets
• Laboratory notebooks, field notebooks, diaries
• Questionnaires, transcripts, codebooks
• Audiotapes, videotapes
• Photographs, films
• Test responses
• Slides, artifacts, specimens, samples
• Collection of digital objects acquired and generated during the process of research
• Data files
• Database contents including video, audio, text, images
• Models, algorithms, scripts
• Contents of an application such as input, output, log files for analysis software,
simulation software, schemas
• Methodologies and workflows
• Standard operating procedures and protocols
Primary Data
Secondary Data
Processed Data
Research Records
Source :
Correspondence including electronic mail and paper-based correspondence /
Project files / Grant applications / Ethics applications / Technical reports / Research reports /
Master lists Signed consent forms
32제 17회 연구소재은행 교육프로그램 / 곤지암리조트
연구 데이터, 공공 데이터, 과학 데이터
• Factual records, which may take the form of numbers, symbols, text, images or sounds, used as primary
sources for research, and that are commonly accepted in the research community as necessary to validate research
findings. Source :
• Another way of approaching a definition of research data is to ask the
question 'what needs to be kept to validate the results of research?' This
may provide a different response, and allows the researcher, rather than the institution, to focus what needs to be
kept in case research findings are questioned.
Source :
연구 데이터
• Factual records used for validating research findings
• 연구 과정에서 수집, 생산된 데이터
• 연구 내용 검증에 사용될 수 있는 데이터 (Validating research findings)
• 연구 내용 재현에 꼭 필요한 데이터 (Reproducible science)
공공 데이터
• 공공재원을 사용하여 수행된 연구 및 조사 활동을 통해 수집, 생산된 데이터
과학 데이터
• 과학 활동을 통해 수집, 생산 된 데이터로서 공공재원으로 진행된 연구를 통해 생산된 데이터는 공공 데
이터로 분류할 수 있음
33제 17회 연구소재은행 교육프로그램 / 곤지암리조트
과학 데이터 정의
• Cheng(2006)은 과학데이터는 과학기술 활동의 결과로서
관측(Observation), 감시(Monitoring), 조사(Investigation), 실
험(Experiment), 연구 분석(Research Analysis), 계산
(Computation) 등의 활동을 통해 생성된 데이터
• OECD(2006)의 경우, 데이터는 과학 연구수행을 위한 주요
한 원천으로 사용하는 사실적인 기록(숫 자, 문자정보, 이
미지 및 소리)으로 정의
• CCSDS(2002)는 과학데이터는 전달, 해석 및 가공에 적합
하 도록 형식을 갖춘, 재해석이 가능한 정보의 표현
Consultative committee on Space Data Systems
Source : Cheng, Jinpei. 2006. Strategies for Preservation of and Open Access to Scientific Data in China: Summary of a Workshop
34제 17회 연구소재은행 교육프로그램 / 곤지암리조트
과학 데이터 정의 및 사례
과학 데이터 정의
• 연구자의 연구 활동 과정 중 생성되는 다양한 유형 의 사
실적 기록을 의미한다. 즉, 연구활동을 통하여 생산 된 연
구활동의 기록물로서 관측, 감시, 조사, 실험, 분석, 계산
등의 과정을 통하여 생산된 문자, 이미지, 오디오, 동영상
등의 아날로그 및 디지털 형식을 포괄하는 데이터
과학 데이터 사례
• 실험데이터, 통계데이터, 단백질 구조이미지, 생물의 표
본 자료, 천문학의 분광관측(spectral survey) 자료 등
Source: 김선태(2011), 「과학데이터 보존 및 활용모델에 관한 연구」
35제 17회 연구소재은행 교육프로그램 / 곤지암리조트
과학 데이터 유형
• 연구분야 및 연구방법, 관측장비, 실험장비, 분석방법 등에
따라 다양
• 주로 수치정보, 공간정보, 도표정보, 문서 등의 형태
• 지구관측 및 환경 분야의 데이터는 주 로 관측데이터로
서 공간 및 수치정보와 이미지 정보
• 사회과학 분야의 데이터는 주로 설문조사를 통한 통계데
이터 형태
• 컴퓨터과학 분야 의 데이터는 주로 도표 또는 수치정보
• 소량의 통계데이터 부터 가속기를 통해 매년 16
Petabytes씩 생산되는 대용량 미립자 충돌 데이터까지
규모와 형태 적인 측면에서 매우 다양한 특징
36제 17회 연구소재은행 교육프로그램 / 곤지암리조트
과학 데이터 특징
• 데이터의 형식에 있어서 매우 다양하 다는 것이다. 위에서 언급되었듯이 과학데이터는 문서형 식
을 취하는 아날로그 정보형식에서 부터 컴퓨터 파일, 이미지 등의 다양한 디지털 정보 형식을 포
괄하여 모든 유형의 형식으로 존재
• 과학데이터는 특정한 현상을 설명하기 위하여 재가공이 가능하다는 것이다. 일반적으로 과학데이
터는 최종의 결과물을 추출하기 위 한 기초데이터(Raw
Data)로서 기능 수행. 따라서 연구자들은 연구행 위 및 활동에 대한 최종 결과물을 생산
하기 위하여 연구 과정에서 생산된 다양한 기초데이터를 활용
• 과학데이터는 자연과학, 공학 등의 분야뿐만이 아니라 사회과학 등에서 생산되는 다양한 통계데
이터 까지를 포괄
• 데이터 형식의 다양성으로 인하여 관리의 어려움이 존재한다는 것이다. 즉, 아날로 그 및 디지털 형식으로 존재함
으로 해서 단순히 데이터 베이스에 저장하는 것이 아닌 체계화된 관리방법이 요구됨
Source: 김선태(2011), 「과학데이터 보존 및 활용모델에 관한 연구」
37제 17회 연구소재은행 교육프로그램 / 곤지암리조트
Data Scientists
Open Science
Data Publication
Data Repository
Data Paper
연구 데이터 정의 및 사례
4세대 연구 패러다임 변화
연구환경 변화
연구자가 원하는 콘텐트
Data 정의 및 구분
Dataset & Meta data
Research records
과학 데이터 정의 및 특징
Data Management Plan
Data Journal
과학의 신뢰와
제 17회 연구소재은행 교육프로그램 / 곤지암리조트
• Data Publication for Open data
• From Publications To Products
• 데이터 출판 사례
• Data Journal
• Data Paper
39제 17회 연구소재은행 교육프로그램 / 곤지암리조트
Data Publication for Open data
Open data is the idea that some data should be freely
available to everyone to use and republish as they
wish, without restrictions from
copyright, patents or other
mechanisms of control.The goals of the open data movement
are similar to those of other "open" movements such as open source, open hardware, open
content and open access. ..... (중략) ... The term "open data" itself is recent, gaining popularity with the
launch of open-data government initiatives such as and
Source :
연구 소재와 관련된 출판 대상자원으로는 무엇이 있는가?
40제 17회 연구소재은행 교육프로그램 / 곤지암리조트
From Publications To Products
2013 년 1월부터는 미국 과학 재단(National Science
Foundation)의 보조금 신청 지침이 변경되어 연구 산출물의
명칭이 “출판물(Publications)”에서“생산물(Products)”로
바뀌었으며, 그에 따라 논문과 함께 연구데이터가 제출되어
야 ... (National Science Foundation 2012
source :
연구 소재는 연구 데이터 출판과 어떤 관계가 있을 수 있는가?
제 17회 연구소재은행 교육프로그램 / 곤지암리조트
Zenodo 사례 (1/2)
• Collection of data, research papers, reports, white papers,
presentations etc created, authored and published by
42제 17회 연구소재은행 교육프로그램 / 곤지암리조트
Zenodo 사례 (2/2)
• Research. Shared. — all research outputs from across all fields
of research are welcome! Sciences and Humanities, really!
• Citeable. Discoverable. — uploads gets a Digital Object
Identifier (DOI) to make them easily and uniquely citeable.
• Communities — create and curate your own community for a
workshop, project, department, journal, into which you can
accept or reject uploads. Your own complete digital repository!
• Funding — identify grants, integrated in reporting lines for
research funded by the European Commission via OpenAIRE.
• Flexible licensing — because not everything is under Creative
• Safe — your research output is stored safely for the future in
the same cloud infrastructure as CERN's own LHC research data.
43제 17회 연구소재은행 교육프로그램 / 곤지암리조트
OpenAIRE (1/2)
• OpenAIRE is an EC funded project (FP7 246686 and 283595)
• OpenAIRE is a network of Open Access repositories, archives and
journals that support Open Access policies.
• It goes beyond the traditional publications aggregator by
interconnecting entities related to scholarly communication (publications,
research data, funding, people, organizations, data sources) allowing users to
navigate alongside a rich information space graph and provides a wide range of services, from deposition to
• OpenAIRE has access to 17,252,818 publications and 28,258 datasets
from 5,717 data sources. These involve 653,009 projects and
30,573 organizations. (2016년 11월10일 현재)
44제 17회 연구소재은행 교육프로그램 / 곤지암리조트
OpenAIRE (2/2)
45제 17회 연구소재은행 교육프로그램 / 곤지암리조트
Source :
ATCC is the premier global
biological materials
resource and standards
organization whose mission
focuses on the acquisition,
authentication, production,
preservation, development, and
distribution of standard reference
microorganisms, cell lines, and
other materials. While maintaining
traditional collection materials, ATCC
develops high quality products,
standards, and services to support
scientific research and
breakthroughs that improve the
health of global populations.
제 17회 연구소재은행 교육프로그램 / 곤지암리조트
Source :
BioBank 키워드 검색결과 Re3data.org에 3건 등록되어 있음. InCHIANTI는 그중 하나
제 17회 연구소재은행 교육프로그램 / 곤지암리조트
• repositoryName : American Type Culture Collection
• While focused on supporting the scientific community, ATCC activities range widely, from repository-related operations to
providing specialized services, conducting in-house R&D and intellectual property management. ATCC serves U.S.
and international researchers by characterizing cell lines,
bacteria, viruses, fungi and protozoa, as well as developing and
evaluating assays and techniques for validating research
resources and preserving and distributing biological materials to
the public and private sector research communities. Our management
philosophy emphasizes customer satisfaction, value addition, cost-effective operations and competitive benchmarking
for all areas of our enterprise.
• Re3data.org에 등록된 데이터 리포지터리 중
Material 키워드를 포함한 레코드 건수 : 103개 (2016.10.24 기준)
연구 소재 리포지터리 사례는 존재한다.
제 17회 연구소재은행 교육프로그램 / 곤지암리조트
WDCM 사례 (1/3)
World Data Centre for Microorganisms (WDCM)
• 50 년전 설립된 World Federation for Culture Collections (WFCC)의 데
이터 센터—Microbial Resource Center (MIRCEN).
• 등록되어 있음
• 빅데이터 기술을 이용하여 전 세계 미생물 자원센터들과 미생물학자
들에게 통합정보서비스(integrated information services) 제공을 목적
으로 함
– Culture Collections Information) Worldwide (CCINFO) : 메타데이터 정보 제공
708 culture collections from 72 countries and regions.
– Global Catalogue of Microorganism (GCM) gathers strain catalogue information and provides a
data retrieval, analysis, and visualization system of microbial resources. Currently, GCM includes >368 000 strains from 103 culture collections in 43
countries and regions.
– Analyzer of Bioresource Citation (ABC) is a data mining tool extracting strain related publications,
patents, nucleotide sequences and genome information from public data sources to form a knowledge base.
– Reference Strain Catalogue (RSC) maintains a database of strains listed in International Standards
Organization (ISO) and other international or regional standards. RSC allocates a unique identifier to strains recommended for use in diagnosis and
quality control, and hence serves as a valuable cross-platform reference.
– WDCM provides free access to all these services at
연구 소재 리포지터리 사례는 존재한다.
제 17회 연구소재은행 교육프로그램 / 곤지암리조트
WDCM 사례 (2/3)
Linhuan Wu et al. Nucl. Acids Res. 2016;nar.gkw903
© The Author(s) 2016. Published by Oxford University Press on behalf of Nucleic Acids Research.
• A system-level overview of the WDCM databases
제 17회 연구소재은행 교육프로그램 / 곤지암리조트
WDCM 사례 (3/3)
Linhuan Wu et al. Nucl.
Acids Res.
© The Author(s) 2016. Published by
Oxford University Press on behalf
of Nucleic Acids Research.
• ABC data mining working flow
제 17회 연구소재은행 교육프로그램 / 곤지암리조트
Data Journal (1/2)
Data journals exist in some domains, such as
• the Earth Systems Science Data Journal
• Geoscience Data Journal,
• to publish data papers and provide services, such as peer review of the paper and
the underlying data set.
A data paper is not a traditional journal paper as it allows the publication of the data
set without the requirement for novelty or significant analysis or conclusions to be drawn.
It is a way to provide discoverability and quality assurance mechanisms for data that
may be of use or interest to others while at the same time providing credit for the
researchers involved in creating the data set.
52제 17회 연구소재은행 교육프로그램 / 곤지암리조트
Data Journal (2/2)
Is the Journal listed by
Thomson Reuters’ (formerly ISI)
Web of Science?
Geoscience Data Journal was
accepted for inclusion within
the Web of Science beginning
with Volume 1 (2014) and will
gain it's first Impact Factor for
the 2016 Impact Factor window.
There are also discussions with
Thomson Reuters regarding
their recent announcement of a
Data Citation Index.
53제 17회 연구소재은행 교육프로그램 / 곤지암리조트
Data paper
A data paper describes a dataset, giving details of its
collection, processing, software, file formats etc, without the
requirement of novel analyses or ground breaking
conclusions. It allows the reader to understand the when,
how and why data was collected and what the data-product
54제 17회 연구소재은행 교육프로그램 / 곤지암리조트
Data Scientists
Open Science
Data Publication
Data Repository
Data Paper
연구 데이터 정의 및 사례
4세대 연구 패러다임 변화
연구환경 변화
연구자가 원하는 콘텐트
Data 정의 및 구분
Dataset & Meta data
Research records
과학 데이터 정의 및 특징
Data Management Plan
Data Journal
과학의 신뢰와
제 17회 연구소재은행 교육프로그램 / 곤지암리조트
• Guidelines for Effective Data Management Plans
• Data Repository
• Guidelines for Repositories
56제 17회 연구소재은행 교육프로그램 / 곤지암리조트
DMP (1/3)
A data management plan
• is an integral part of the research plan.
• can be reviewed and expanded
during research
• but main principles and
procedures should be determined
before the research starts, at the latest before data collection begins.
• A data management plan (DMP) will help you manage your data,
meet funder requirements, and help others use your data if shared.
57제 17회 연구소재은행 교육프로그램 / 곤지암리조트
• Data Description
• Existing data
• Format
• Metadata
• Sotrage and backup
• Security permissions, restrictions, and embargoes
• Responsibility names of the individuals
reponsible for data management
• Intellectual property rights
• Access and sharing
• Audience The potential secondary users of data
• Selection and retention
periods selected for archiving
• Archiving and preservation
• Ethics and privacy
• Budget request for funding may be included
• Data Organization version control,
naming conventions etc.
• Quality Assurance
• Legal Requirements all relevant federal
or funder requirements for data management and data sharing
DMP (2/3)
58제 17회 연구소재은행 교육프로그램 / 곤지암리조트
DMP (3/3)
• Questions to answer:
– What types of data will the project collect or use?
– What file format will be used?
– What metadata standard will be used?
– How will ethical issues concerning data management
be taken into account?
– How will copyright and IPR issues be managed?
– How will the data be made available for subsequent
use by other researchers?
– With which collaborators will the data be managed and
made openly available? source:
59제 17회 연구소재은행 교육프로그램 / 곤지암리조트
Guidelines for Effective Data
Management Plans
v Resources for Development
• Australian National Data Service - Data management planning
• Digital Curation Centre - Data Management Plans
• Geoscience Australia - Guide to Preparation of Data Management Plans
• New South Wales Natural Resources Information Management Strategy - Data
Management Planning Guidelines
• University of Oxford - Data Management Planning Checklist
• University of Oxford - Data Management Planning
v Templates & Tools
v Guidance on Funder Requirements
v University Data Management Web Sites
v Good Practice Guidance
v Federal Agency Policies on Data Management and Sharing
v Other Data Management Plan Examples from Natural Sciences
여러 DMP 참고하여
DMP 가이드라인 제시
연구 소재 은행에서
연구자에게 DMP 요구?
DMP 내용?
연구소재은행 거버넌스 체계?
60제 17회 연구소재은행 교육프로그램 / 곤지암리조트
Data Repository
Data repositories
61제 17회 연구소재은행 교육프로그램 / 곤지암리조트
Guidelines for Repositories
for Geoscience Data Journal
Before a dataset can be submitted for publication the dataset must be deposited in a registered repository, along with the associated metadata for
the dataset.
Repositories can be registered on a case by case basis through contact with the Geoscience Data Journal editor. At a minimum, repositories should
have the ability to:
• Assign DOIs to the dataset and offer sufficiently long data preservations that match the amount of time the
public will find this data scientifically beneficial.
• Store the data files in an easily
readable format across different computing platforms.
Allow reviewers easy (and anonymous to the dataset authors) access to the data and supporting metadata.
• Following successful review and publication the repository must provide open access to the
broad/public user community.
Datasets submitted for publication should be complete and not liable to change. Metadata should be included to allow a full understanding of the
data. Source:
62제 17회 연구소재은행 교육프로그램 / 곤지암리조트
Data Scientists
Open Science
Data Publication
Data Repository
Data Paper
연구 데이터 정의 및 사례
4세대 연구 패러다임 변화
연구환경 변화
연구자가 원하는 콘텐트
Data 정의 및 구분
Dataset & Meta data
Research records
과학 데이터 정의 및 특징
Data Management Plan
Data Journal
과학의 신뢰와
제 17회 연구소재은행 교육프로그램 / 곤지암리조트
• Data Scientists
64제 17회 연구소재은행 교육프로그램 / 곤지암리조트
Data Scientists (1/3)
Data Scientists (NSF 2005, p27)
The information and computer
scientists, database and
software engineers and
programmers, disciplinary
experts, curators and expert
annotators, librarians,
archivists, and others, who are
crucial to the successful
management of a digital data
데이터 과학자
데이터 과학과 관련된 분야를 전공하고 데이터
분석과 관련된 업무에 종사하는 사람을 말한다.
즉 데이터 과학자는 현장에 존재하는 대량의 데
이터를 모으고, 분석에 적합한 형태로 가공하고,
데이터가 의미하는 바를 이야기(story)에 담아 다
른 사람에게 효과적으로 전달하는 역할을 한
다.(O’Reilly Media, 2012)
데이터 과학자
Business analyst VS. Data analyst
Research Scientist
Data Scientist
Experiences like my own suggest that the best way to become a data scientist
isn’t to be trained as a data scientist, but to do serious, data-intensive work in
some other discipline.
65제 17회 연구소재은행 교육프로그램 / 곤지암리조트
Data Scientists (2/3)
• September 2005 The National Science
Board publishes “Long-lived Digital Data
Collections: Enabling Research and Education in
the 21st Century.”
• The report defines data scientists as “the
information and computer scientists, database and
software engineers and programmers, disciplinary
experts, curators and expert annotators, librarians,
archivists, and others, who are crucial to the
successful management of a digital data
66제 17회 연구소재은행 교육프로그램 / 곤지암리조트
Data Scientists (3/3)
• Research Data Management
• Research Data Service by Data Scientists Team.
67제 17회 연구소재은행 교육프로그램 / 곤지암리조트
Data Scientists
Open Science
Data Publication
Data Repository
Data Paper
연구 데이터 정의 및 사례
4세대 연구 패러다임 변화
연구환경 변화
연구자가 원하는 콘텐트
Data 정의 및 구분
Dataset & Meta data
Research records
과학 데이터 정의 및 특징
Data Management Plan
Data Journal
과학의 신뢰와
제 17회 연구소재은행 교육프로그램 / 곤지암리조트
• 과학의 신뢰
• DMP-ProRR : Data Management Plan for Products based
on Research Resources
69제 17회 연구소재은행 교육프로그램 / 곤지암리조트
과학의 신뢰 (1/3)
Source :
In an ideal world, scientific discoveries would be
independent of what scientists wanted to discover. A
good researcher would
begin with an idea,
devise a method to test the idea,
run the study as planned, and then
decide based on the evidence
whether the idea had been supported. Following this
approach would lead us step-by-step toward a better
understanding of nature.
Publish or perish
Trust in Science
Study pre-registration??
70제 17회 연구소재은행 교육프로그램 / 곤지암리조트
과학의 신뢰 (2/3)
Reproducible science is stronger science.
약한 과학이란 무엇일까요?
연구 윤리
Center for Open Science
Reproducible science needs Research Resources.
연구 재현을 위해서는 연구 소재 공급이 필요할 수 있다.
일관된 연구 소재 확보는 연구윤리 측면에서 반드시 필요하다.
제 17회 연구소재은행 교육프로그램 / 곤지암리조트
과학의 신뢰 (3/3)
“If they do a press release on an observational study, they should
state the limitations prominently – generally that causality can’t
be inferred, that findings from observational research often are
not reproduced in clinical trials,”
Source :
Scientists often bemoan journalists’
shoddy reporting of research findings.
A Study without data makes weak science.
Reproducible science is stronger science.
Reproducible science needs Research Data
Research Resources are Research Data.
Research Resources are good trigger for Open Science.
72제 17회 연구소재은행 교육프로그램 / 곤지암리조트
소재 보존 관리
• 고유의 특성 변질 및 오염
• 법정 보존 기한 초과
• 천재지변
• 소재 품질의 유지 >>
동일 수준의 소재 제공 >>
연구 재현, Open Science 구현
• 소재의 보존위치 파악
= 연구素材의 所在 정보
= location Info.
소재보존의 표준화
소재 중복 보존
제 17회 연구소재은행 교육프로그램 / 곤지암리조트
• Data Management Plan
for Products based on Research Resources
Data Citation
Metadata Schema
Archiving & Preservation Guideline
Metadata Acquition
Data & article
Inter-linking service
Data Publishing
제 17회 연구소재은행 교육프로그램 / 곤지암리조트
경청해 주셔서 고맙습니다.
Q & A
75제 17회 연구소재은행 교육프로그램 / 곤지암리조트
소재 기탁 관리
• Data Provenance
• 소재 관리번호 체계와 식별자
제 17회 연구소재은행 교육프로그램 / 곤지암리조트
못다한 이야기: 빅데이터 유래
• 이미 우리는 약 70년 전부터 “정보 폭발 (a term first used in 1941, according to the Oxford English Dictionary)” 이란 용어 사용
• October 1997 Michael Cox and David Ellsworth publish “Application-controlled demand paging for
out-of-core visualization” in the Proceedings of the IEEE 8th conference on Visualization. They start the article with
“Visualization provides an interesting challenge for computer systems: data sets are generally quite large, taxing the capacities
of main memory, local disk, and even remote disk. We call this the problem of big data. It is the first article in the ACM digital
library to use the term “big data.”
• November 2000 Francis X. Diebold presents to the Eighth World Congress of the Econometric Society a paper titled
• “Big Data Dynamic Factor Models for Macroeconomic Measurement
and Forecasting” in which he states “Recently, much good science, whether physical, biological, or social, has
been forced to confront—and has often benefited from—the “Big Data” phenomenon. They also that in 1986, 99.2% of all
storage capacity was analog, but in 2007, 94% of storage capacity was digital, a complete reversal of roles (in 2002, digital
information storage surpassed non-digital for the first time).
• February 2010 Kenneth Cukier “Data, data everywhere.”
“…the world contains an unimaginably vast amount of digital information which is getting ever vaster more rapidly… The effect
is being felt everywhere, from business to science, from governments to the arts. Scientists and computer
engineers have coined a new term for the phenomenon: ‘big
제 17회 연구소재은행 교육프로그램 / 곤지암리조트 77
못다한 이야기:
Big Data vs. Difficult Data
제 17회 연구소재은행 교육프로그램 / 곤지암리조트 78
• German bacteriologist Julius Richard Petri
연구소재란 과학기술
의 기반이 되는 자원

More Related Content

What's hot

연구데이터! 기승전도서관
연구데이터! 기승전도서관연구데이터! 기승전도서관
연구데이터! 기승전도서관
Suntae Kim
연구데이터 관리와 데이터 관리 계획서 (DMP) - part04
연구데이터 관리와 데이터 관리 계획서 (DMP) - part04연구데이터 관리와 데이터 관리 계획서 (DMP) - part04
연구데이터 관리와 데이터 관리 계획서 (DMP) - part04
Suntae Kim
연구 데이터와 도서관
연구 데이터와 도서관연구 데이터와 도서관
연구 데이터와 도서관
Suntae Kim
연구데이터와 전문도서관
연구데이터와 전문도서관연구데이터와 전문도서관
연구데이터와 전문도서관
Suntae Kim
D bguide 데이터 기반 연구 패러다임(최종회)_데이터 관리 계획서와 rdms
D bguide 데이터 기반 연구 패러다임(최종회)_데이터 관리 계획서와 rdmsD bguide 데이터 기반 연구 패러다임(최종회)_데이터 관리 계획서와 rdms
D bguide 데이터 기반 연구 패러다임(최종회)_데이터 관리 계획서와 rdms
Suntae Kim
학술데이터 공유 플랫폼 - 김선태
학술데이터 공유 플랫폼 - 김선태학술데이터 공유 플랫폼 - 김선태
학술데이터 공유 플랫폼 - 김선태
Creative Commons Korea
연구 데이터와 DMP 대응 - CoreTrustSeal 분석-
연구 데이터와 DMP 대응 - CoreTrustSeal 분석-연구 데이터와 DMP 대응 - CoreTrustSeal 분석-
연구 데이터와 DMP 대응 - CoreTrustSeal 분석-
Suntae Kim
2010 0603 이상호_과학데이터 아카이빙-이상호
2010 0603 이상호_과학데이터 아카이빙-이상호2010 0603 이상호_과학데이터 아카이빙-이상호
2010 0603 이상호_과학데이터 아카이빙-이상호glorykim
D bguide 데이터 기반 연구 패러다임(1회)_연구 패러다임 변화와 데이터 집중 과학
D bguide 데이터 기반 연구 패러다임(1회)_연구 패러다임 변화와 데이터 집중 과학D bguide 데이터 기반 연구 패러다임(1회)_연구 패러다임 변화와 데이터 집중 과학
D bguide 데이터 기반 연구 패러다임(1회)_연구 패러다임 변화와 데이터 집중 과학
Suntae Kim
D bguide 데이터 기반 연구 패러다임(2회)_데이터 과학과 오픈 사이언스 운동
D bguide 데이터 기반 연구 패러다임(2회)_데이터 과학과 오픈 사이언스 운동D bguide 데이터 기반 연구 패러다임(2회)_데이터 과학과 오픈 사이언스 운동
D bguide 데이터 기반 연구 패러다임(2회)_데이터 과학과 오픈 사이언스 운동
Suntae Kim

What's hot (11)

연구데이터! 기승전도서관
연구데이터! 기승전도서관연구데이터! 기승전도서관
연구데이터! 기승전도서관
연구데이터 관리와 데이터 관리 계획서 (DMP) - part04
연구데이터 관리와 데이터 관리 계획서 (DMP) - part04연구데이터 관리와 데이터 관리 계획서 (DMP) - part04
연구데이터 관리와 데이터 관리 계획서 (DMP) - part04
연구 데이터와 도서관
연구 데이터와 도서관연구 데이터와 도서관
연구 데이터와 도서관
연구데이터와 전문도서관
연구데이터와 전문도서관연구데이터와 전문도서관
연구데이터와 전문도서관
D bguide 데이터 기반 연구 패러다임(최종회)_데이터 관리 계획서와 rdms
D bguide 데이터 기반 연구 패러다임(최종회)_데이터 관리 계획서와 rdmsD bguide 데이터 기반 연구 패러다임(최종회)_데이터 관리 계획서와 rdms
D bguide 데이터 기반 연구 패러다임(최종회)_데이터 관리 계획서와 rdms
학술데이터 공유 플랫폼 - 김선태
학술데이터 공유 플랫폼 - 김선태학술데이터 공유 플랫폼 - 김선태
학술데이터 공유 플랫폼 - 김선태
연구 데이터와 DMP 대응 - CoreTrustSeal 분석-
연구 데이터와 DMP 대응 - CoreTrustSeal 분석-연구 데이터와 DMP 대응 - CoreTrustSeal 분석-
연구 데이터와 DMP 대응 - CoreTrustSeal 분석-
2010 0603 이상호_과학데이터 아카이빙-이상호
2010 0603 이상호_과학데이터 아카이빙-이상호2010 0603 이상호_과학데이터 아카이빙-이상호
2010 0603 이상호_과학데이터 아카이빙-이상호
D bguide 데이터 기반 연구 패러다임(1회)_연구 패러다임 변화와 데이터 집중 과학
D bguide 데이터 기반 연구 패러다임(1회)_연구 패러다임 변화와 데이터 집중 과학D bguide 데이터 기반 연구 패러다임(1회)_연구 패러다임 변화와 데이터 집중 과학
D bguide 데이터 기반 연구 패러다임(1회)_연구 패러다임 변화와 데이터 집중 과학
D bguide 데이터 기반 연구 패러다임(2회)_데이터 과학과 오픈 사이언스 운동
D bguide 데이터 기반 연구 패러다임(2회)_데이터 과학과 오픈 사이언스 운동D bguide 데이터 기반 연구 패러다임(2회)_데이터 과학과 오픈 사이언스 운동
D bguide 데이터 기반 연구 패러다임(2회)_데이터 과학과 오픈 사이언스 운동
국가연구개발사업의 연구시설·장비 현황 및 개선방향
국가연구개발사업의 연구시설·장비 현황 및 개선방향국가연구개발사업의 연구시설·장비 현황 및 개선방향
국가연구개발사업의 연구시설·장비 현황 및 개선방향

Viewers also liked

κλεοπατρα αλφαβητο
κλεοπατρα   αλφαβητοκλεοπατρα   αλφαβητο
κλεοπατρα αλφαβητοelivasile
Ipad presentation
Ipad presentationIpad presentation
Ipad presentation
English project final
English project finalEnglish project final
English project final
ιστορια ΠΟΛΙΧΝΗΣ
ιστορια ΠΟΛΙΧΝΗΣιστορια ΠΟΛΙΧΝΗΣ
ιστορια ΠΟΛΙΧΝΗΣ
English project final
English project finalEnglish project final
English project final
όμορφη θεσσαλονίκη ΣΠΥΡΟΣ
όμορφη θεσσαλονίκη ΣΠΥΡΟΣόμορφη θεσσαλονίκη ΣΠΥΡΟΣ
όμορφη θεσσαλονίκη ΣΠΥΡΟΣelivasile
Sosiaalinen media
Sosiaalinen mediaSosiaalinen media
Sosiaalinen mediaDatamoni

Viewers also liked (9)

κλεοπατρα αλφαβητο
κλεοπατρα   αλφαβητοκλεοπατρα   αλφαβητο
κλεοπατρα αλφαβητο
Ipad presentation
Ipad presentationIpad presentation
Ipad presentation
English project final
English project finalEnglish project final
English project final
ιστορια ΠΟΛΙΧΝΗΣ
ιστορια ΠΟΛΙΧΝΗΣιστορια ΠΟΛΙΧΝΗΣ
ιστορια ΠΟΛΙΧΝΗΣ
English project final
English project finalEnglish project final
English project final
όμορφη θεσσαλονίκη ΣΠΥΡΟΣ
όμορφη θεσσαλονίκη ΣΠΥΡΟΣόμορφη θεσσαλονίκη ΣΠΥΡΟΣ
όμορφη θεσσαλονίκη ΣΠΥΡΟΣ
Sosiaalinen media
Sosiaalinen mediaSosiaalinen media
Sosiaalinen media

Similar to 과학데이터와연구소재

Open Science - 열린 학술 저작, 공유 생태계
Open Science - 열린 학술 저작, 공유 생태계Open Science - 열린 학술 저작, 공유 생태계
Open Science - 열린 학술 저작, 공유 생태계
Hansung University
계량정보분석 해외사례 조사분석.
계량정보분석 해외사례 조사분석.계량정보분석 해외사례 조사분석.
계량정보분석 해외사례 조사분석.
Han Woo PARK
20171026_일본에서의 오픈 사이언스 개요
20171026_일본에서의  오픈 사이언스 개요20171026_일본에서의  오픈 사이언스 개요
20171026_일본에서의 오픈 사이언스 개요
Yasuyuki Minamiyama
융합사회의 정보분석의 매커니즘과 사례(11aug2010)sm
융합사회의 정보분석의 매커니즘과 사례(11aug2010)sm융합사회의 정보분석의 매커니즘과 사례(11aug2010)sm
융합사회의 정보분석의 매커니즘과 사례(11aug2010)smHan Woo PARK
연구업적 데이터베이스를 활용한 빅데이터 분석시스템 (16 sep2014)
연구업적 데이터베이스를 활용한 빅데이터 분석시스템 (16 sep2014)연구업적 데이터베이스를 활용한 빅데이터 분석시스템 (16 sep2014)
연구업적 데이터베이스를 활용한 빅데이터 분석시스템 (16 sep2014)
Han Woo PARK
Disc 2015 보도자료 (휴대폰번호 삭제-수정)
Disc 2015 보도자료 (휴대폰번호 삭제-수정)Disc 2015 보도자료 (휴대폰번호 삭제-수정)
Disc 2015 보도자료 (휴대폰번호 삭제-수정)
Han Woo PARK
정보활성화를 위한 데이타베이스 발전
정보활성화를 위한 데이타베이스 발전정보활성화를 위한 데이타베이스 발전
정보활성화를 위한 데이타베이스 발전
Hanbat National Univerisity
4세대 r&d 패러다임과 도서관 서비스
4세대 r&d 패러다임과 도서관 서비스4세대 r&d 패러다임과 도서관 서비스
4세대 r&d 패러다임과 도서관 서비스
Suntae Kim
빅데이터 기술을 활용한 뉴스 큐레이션 서비스 - 온병원
빅데이터 기술을 활용한 뉴스 큐레이션 서비스 - 온병원빅데이터 기술을 활용한 뉴스 큐레이션 서비스 - 온병원
빅데이터 기술을 활용한 뉴스 큐레이션 서비스 - 온병원
[제11회 인터넷리더십 프로그램] 디지털 시대 지식의 공유 - 서정욱
[제11회 인터넷리더십 프로그램] 디지털 시대 지식의 공유 - 서정욱[제11회 인터넷리더십 프로그램] 디지털 시대 지식의 공유 - 서정욱
[제11회 인터넷리더십 프로그램] 디지털 시대 지식의 공유 - 서정욱
InCites 20180918
InCites 20180918InCites 20180918
InCites 20180918
과학리더십 공간과 연구 자율성
과학리더십 공간과 연구 자율성과학리더십 공간과 연구 자율성
과학리더십 공간과 연구 자율성
Hanbat National Univerisity
Triple helix 연구소개와-아시아_트리플헬릭스_학회설립_추진현황_자료
Triple helix 연구소개와-아시아_트리플헬릭스_학회설립_추진현황_자료Triple helix 연구소개와-아시아_트리플헬릭스_학회설립_추진현황_자료
Triple helix 연구소개와-아시아_트리플헬릭스_학회설립_추진현황_자료Han Woo PARK
10.e 사이언스시대의인문사회학연구하기(박한우)
10.e 사이언스시대의인문사회학연구하기(박한우)10.e 사이언스시대의인문사회학연구하기(박한우)
10.e 사이언스시대의인문사회학연구하기(박한우)Han Woo PARK
E-사이언스시대의 인문사회학 연구하기(박한우)
E-사이언스시대의 인문사회학 연구하기(박한우)E-사이언스시대의 인문사회학 연구하기(박한우)
E-사이언스시대의 인문사회학 연구하기(박한우)
Han Woo PARK
국가서지정보 Open Public Data Platform 구축
국가서지정보 Open Public Data Platform 구축국가서지정보 Open Public Data Platform 구축
국가서지정보 Open Public Data Platform 구축
Hansung University
Src10대 과제 - 1. 총괄파트
Src10대 과제 - 1. 총괄파트Src10대 과제 - 1. 총괄파트
Src10대 과제 - 1. 총괄파트
학습분석(Learning Analytics) 활용 가능성 및 전망
학습분석(Learning Analytics) 활용 가능성 및 전망학습분석(Learning Analytics) 활용 가능성 및 전망
학습분석(Learning Analytics) 활용 가능성 및 전망
Open Cyber University of Korea
세계 오픈액세스 주간 & 글로벌 OA 동향
세계 오픈액세스 주간 & 글로벌 OA 동향세계 오픈액세스 주간 & 글로벌 OA 동향
세계 오픈액세스 주간 & 글로벌 OA 동향
Stella Hayoung Shin

Similar to 과학데이터와연구소재 (20)

Open Science - 열린 학술 저작, 공유 생태계
Open Science - 열린 학술 저작, 공유 생태계Open Science - 열린 학술 저작, 공유 생태계
Open Science - 열린 학술 저작, 공유 생태계
계량정보분석 해외사례 조사분석.
계량정보분석 해외사례 조사분석.계량정보분석 해외사례 조사분석.
계량정보분석 해외사례 조사분석.
20171026_일본에서의 오픈 사이언스 개요
20171026_일본에서의  오픈 사이언스 개요20171026_일본에서의  오픈 사이언스 개요
20171026_일본에서의 오픈 사이언스 개요
융합사회의 정보분석의 매커니즘과 사례(11aug2010)sm
융합사회의 정보분석의 매커니즘과 사례(11aug2010)sm융합사회의 정보분석의 매커니즘과 사례(11aug2010)sm
융합사회의 정보분석의 매커니즘과 사례(11aug2010)sm
연구업적 데이터베이스를 활용한 빅데이터 분석시스템 (16 sep2014)
연구업적 데이터베이스를 활용한 빅데이터 분석시스템 (16 sep2014)연구업적 데이터베이스를 활용한 빅데이터 분석시스템 (16 sep2014)
연구업적 데이터베이스를 활용한 빅데이터 분석시스템 (16 sep2014)
Disc 2015 보도자료 (휴대폰번호 삭제-수정)
Disc 2015 보도자료 (휴대폰번호 삭제-수정)Disc 2015 보도자료 (휴대폰번호 삭제-수정)
Disc 2015 보도자료 (휴대폰번호 삭제-수정)
정보활성화를 위한 데이타베이스 발전
정보활성화를 위한 데이타베이스 발전정보활성화를 위한 데이타베이스 발전
정보활성화를 위한 데이타베이스 발전
4세대 r&d 패러다임과 도서관 서비스
4세대 r&d 패러다임과 도서관 서비스4세대 r&d 패러다임과 도서관 서비스
4세대 r&d 패러다임과 도서관 서비스
빅데이터 기술을 활용한 뉴스 큐레이션 서비스 - 온병원
빅데이터 기술을 활용한 뉴스 큐레이션 서비스 - 온병원빅데이터 기술을 활용한 뉴스 큐레이션 서비스 - 온병원
빅데이터 기술을 활용한 뉴스 큐레이션 서비스 - 온병원
[제11회 인터넷리더십 프로그램] 디지털 시대 지식의 공유 - 서정욱
[제11회 인터넷리더십 프로그램] 디지털 시대 지식의 공유 - 서정욱[제11회 인터넷리더십 프로그램] 디지털 시대 지식의 공유 - 서정욱
[제11회 인터넷리더십 프로그램] 디지털 시대 지식의 공유 - 서정욱
InCites 20180918
InCites 20180918InCites 20180918
InCites 20180918
과학리더십 공간과 연구 자율성
과학리더십 공간과 연구 자율성과학리더십 공간과 연구 자율성
과학리더십 공간과 연구 자율성
Triple helix 연구소개와-아시아_트리플헬릭스_학회설립_추진현황_자료
Triple helix 연구소개와-아시아_트리플헬릭스_학회설립_추진현황_자료Triple helix 연구소개와-아시아_트리플헬릭스_학회설립_추진현황_자료
Triple helix 연구소개와-아시아_트리플헬릭스_학회설립_추진현황_자료
10.e 사이언스시대의인문사회학연구하기(박한우)
10.e 사이언스시대의인문사회학연구하기(박한우)10.e 사이언스시대의인문사회학연구하기(박한우)
10.e 사이언스시대의인문사회학연구하기(박한우)
E-사이언스시대의 인문사회학 연구하기(박한우)
E-사이언스시대의 인문사회학 연구하기(박한우)E-사이언스시대의 인문사회학 연구하기(박한우)
E-사이언스시대의 인문사회학 연구하기(박한우)
국가서지정보 Open Public Data Platform 구축
국가서지정보 Open Public Data Platform 구축국가서지정보 Open Public Data Platform 구축
국가서지정보 Open Public Data Platform 구축
Src10대 과제 - 1. 총괄파트
Src10대 과제 - 1. 총괄파트Src10대 과제 - 1. 총괄파트
Src10대 과제 - 1. 총괄파트
학습분석(Learning Analytics) 활용 가능성 및 전망
학습분석(Learning Analytics) 활용 가능성 및 전망학습분석(Learning Analytics) 활용 가능성 및 전망
학습분석(Learning Analytics) 활용 가능성 및 전망
세계 오픈액세스 주간 & 글로벌 OA 동향
세계 오픈액세스 주간 & 글로벌 OA 동향세계 오픈액세스 주간 & 글로벌 OA 동향
세계 오픈액세스 주간 & 글로벌 OA 동향

More from Suntae Kim

Information retrieval by_suntae_kim
Information retrieval by_suntae_kimInformation retrieval by_suntae_kim
Information retrieval by_suntae_kim
Suntae Kim
Suntae Kim
연구 데이터 관리를 위한 메타데이터
연구 데이터 관리를 위한 메타데이터연구 데이터 관리를 위한 메타데이터
연구 데이터 관리를 위한 메타데이터
Suntae Kim
과학과 비과학 이야기: 너 그거 아니?
과학과 비과학 이야기: 너 그거 아니? 과학과 비과학 이야기: 너 그거 아니?
과학과 비과학 이야기: 너 그거 아니?
Suntae Kim
빅데이터의 다른 이야기 : Another Story about Big Data
빅데이터의 다른 이야기 : Another Story about Big Data빅데이터의 다른 이야기 : Another Story about Big Data
빅데이터의 다른 이야기 : Another Story about Big Data
Suntae Kim
What's the real big data in ksla domain
What's the real big data in ksla domainWhat's the real big data in ksla domain
What's the real big data in ksla domain
Suntae Kim
Inside p cube
Inside p cubeInside p cube
Inside p cube
Suntae Kim
의과학지식의 공유플랫폼 P cube
의과학지식의 공유플랫폼 P cube의과학지식의 공유플랫폼 P cube
의과학지식의 공유플랫폼 P cube
Suntae Kim
기획 Kisti tdr(20100315,03,김선태)
기획 Kisti tdr(20100315,03,김선태)기획 Kisti tdr(20100315,03,김선태)
기획 Kisti tdr(20100315,03,김선태)
Suntae Kim

More from Suntae Kim (9)

Information retrieval by_suntae_kim
Information retrieval by_suntae_kimInformation retrieval by_suntae_kim
Information retrieval by_suntae_kim
연구 데이터 관리를 위한 메타데이터
연구 데이터 관리를 위한 메타데이터연구 데이터 관리를 위한 메타데이터
연구 데이터 관리를 위한 메타데이터
과학과 비과학 이야기: 너 그거 아니?
과학과 비과학 이야기: 너 그거 아니? 과학과 비과학 이야기: 너 그거 아니?
과학과 비과학 이야기: 너 그거 아니?
빅데이터의 다른 이야기 : Another Story about Big Data
빅데이터의 다른 이야기 : Another Story about Big Data빅데이터의 다른 이야기 : Another Story about Big Data
빅데이터의 다른 이야기 : Another Story about Big Data
What's the real big data in ksla domain
What's the real big data in ksla domainWhat's the real big data in ksla domain
What's the real big data in ksla domain
Inside p cube
Inside p cubeInside p cube
Inside p cube
의과학지식의 공유플랫폼 P cube
의과학지식의 공유플랫폼 P cube의과학지식의 공유플랫폼 P cube
의과학지식의 공유플랫폼 P cube
기획 Kisti tdr(20100315,03,김선태)
기획 Kisti tdr(20100315,03,김선태)기획 Kisti tdr(20100315,03,김선태)
기획 Kisti tdr(20100315,03,김선태)


  • 2. 목차 2 Data Scientists Open Science Data Publication Data Repository Data Paper 연구 데이터 정의 및 사례 4세대 연구 패러다임 변화 연구환경 변화 연구자가 원하는 콘텐트 Data 정의 및 구분 Dataset & Meta data Research records 과학 데이터 정의 및 특징 Data Management Plan Data Journal 과학의 신뢰와 DMP-ProRR 제 17회 연구소재은행 교육프로그램 / 곤지암리조트
  • 3. 4세대 연구 패러다임 변화 (1/2) • Microsoft Research announced the availability of the book – The Fourth Paradigm: Data-Intensive Scientific Discovery. The book focuses on the change of all sciences moving from observational, to theoretical, to computational and now to the 4th Paradigm – Data-Intensive Scientific Discovery. This is based on Jim Gray’s insights captured via his final public talk to the National Research Council on Jan 11, 2007. This is truly a legacy of his work. Source: The Fourth Paradigm: Data-Intensive Scientific Discovery – Book Released 3제 17회 연구소재은행 교육프로그램 / 곤지암리조트
  • 4. 4세대 연구 패러다임 변화 (2/2) • Scientific breakthroughs will be powered by advanced computing capabilities that help researchers manipulate and explore massive datasets. 컴퓨팅 파워 • The speed at which any given scientific discipline advances will depend on how well its researchers collaborate with one another, and with technologists, in areas of eScience such as databases, workflow management, visualization, and cloud computing technologies. 연구자들간 협력, 연구자와 엔지니어들과의 협력 필요 Source: The Fourth Paradigm: Data-Intensive Scientific Discovery – Book Released 4제 17회 연구소재은행 교육프로그램 / 곤지암리조트
  • 5. 연구환경 변화 5제 17회 연구소재은행 교육프로그램 / 곤지암리조트
  • 6. 연구자가 원하는 콘텐트 (1/2) 제 17회 연구소재은행 교육프로그램 / 곤지암리조트 6
  • 7. 연구자가 원하는 콘텐트 (2/2) 연구 소재의 위치는 어디쯤 될까요? 제 17회 연구소재은행 교육프로그램 / 곤지암리조트 7
  • 8. 목차 8 Data Scientists Open Science Data Publication Data Repository Data Paper 연구 데이터 정의 및 사례 4세대 연구 패러다임 변화 연구환경 변화 연구자가 원하는 콘텐트 Data 정의 및 구분 Dataset & Meta data Research records 과학 데이터 정의 및 특징 Data Management Plan Data Journal 과학의 신뢰와 DMP-ProRR 제 17회 연구소재은행 교육프로그램 / 곤지암리조트
  • 9. Open Science • Open Science 텍사노미 • Open Science 핵심 요소 • OS 요소들의 원칙과 동향 • 오픈 사이언스 효과와 사례 9제 17회 연구소재은행 교육프로그램 / 곤지암리조트
  • 10. 오픈 사이언스 텍사노미 (1/2) 10제 17회 연구소재은행 교육프로그램 / 곤지암리조트
  • 11. Open Data Open Science Tools Open Repositories Research Data Scientific Data Data Journal/Paper DMP 오픈 사이언스 텍사노미 (2/2) 11제 17회 연구소재은행 교육프로그램 / 곤지암리조트
  • 12. OS 핵심 요소 (1/5) Open access • refers to online, peer-reviewed scholarly outputs, which are free to read, with limited or no copyright and licensing restrictions. • 동료평가된 연구결과물을 저작권이나 라이선스 제한 없이 자유롭게 이용 하는 Open Access • The first official recognition of open access dates back to 2002, when the Budapest Open Access Initiative defined open access not only as a term, but also as a strategy that could induce an increase in the amount of free of cost, accessible and reusable research outputs. • 학술지 구독료 절감. 재사용 가능한 연구결과물에 대한 접근 허용 • Since then, the open scholarly communications agenda has grown and currently more terms are embedded in it such as open data, open source and open reproducible research. Nancy Pontika; Petr Knoth; Matteo Cancellieri; Samuel Pearce (2015). "Fostering Open Science to Research using a Taxonomy and an eLearning Portal". Retrieved 12 August 2015. 12제 17회 연구소재은행 교육프로그램 / 곤지암리조트
  • 13. OS 핵심 요소 (2/5) Open data • deals with the online publication of the research data gathered during a research project and made available for access and re-use. Murray-Rust, P. (2008). Open Data in Science. Serials Review, vol.34, no.1, pp.52-64. doi:10.1016/j.serrev.2008.01.001 13제 17회 연구소재은행 교육프로그램 / 곤지암리조트
  • 14. OS 핵심 요소 (3/5) Open source means software that • can be accessed online for free, – with a source code license • that allows its use, • creation of derivatives and • distribution. Altenhören, R. Open Source Software - definition, licensing models and organizational consequences (introduction). In Proceedings of the 71 IFLA General Conference and Council “Libraries – A voyage of discovery” (Oslo, 2005) URL 14제 17회 연구소재은행 교육프로그램 / 곤지암리조트
  • 15. OS 핵심 요소 (4/5) • Open reproducible research is the act of practicing OS to enable the independent reproducibility of the research results. Stodden, V. (2009). Enabling Reproducible Research: Open Licensing for Scientific Innovation. International Journal of Communications Law and Policy, vol.13, pp.1-25 연구결과 재현을 위해, 꼭 필요한 것은 무엇입니까? 15제 17회 연구소재은행 교육프로그램 / 곤지암리조트
  • 16. OS 핵심 요소(5/5) Among the four open movements, • open source and open access are the ones that have existed longer, have gained plenty of supporters, progressed and grown. – With regards to open source, currently, there are open platforms for open software, such as GitHub , Bitbucket or SourceForge . – the Directory of Open Access Journals 9,313 Journals / 6,484 searchable at Article level / 128 Countries / 2,340,270 Articles 2016.11.23 기준 – OpenDOAR에3,236개 리포지터리 등록 2016.10.24 기준 Nancy Pontika; Petr Knoth; Matteo Cancellieri; Samuel Pearce (2015). "Fostering Open Science to Research using a Taxonomy and an eLearning Portal". Retrieved 12 August 2015. 16제 17회 연구소재은행 교육프로그램 / 곤지암리조트
  • 17. OS 요소들의 원칙과 동향 OS shares the same underlying principles: • transparency, • universal accessibility and • reusability of the scientific information disseminated via online tools Gezelter, D. (2009). What, exactly, is Open Science? URL 연구 소재로의 접근을 어떻게 제공할 것인가? The fact that OS is inclusive of these four terms demonstrates a universal trend that • calls for a shift in the researchers’behaviour towards open content and for the adoption of a wide range of open practices and strategies that relate to the whole research life cycle. Nancy Pontika; Petr Knoth; Matteo Cancellieri; Samuel Pearce (2015). "Fostering Open Science to Research using a Taxonomy and an eLearning Portal". Retrieved 12 August 2015. 연구 수명 주기에서 ‘연구 소재’의 위치는 어디인가? 17제 17회 연구소재은행 교육프로그램 / 곤지암리조트
  • 18. 오픈 사이언스 효과 • the reproduction of the research findings, • enables transparency in the research methodology, • increases the researcher's societal impact and • saves money and time both for researchers and research institutions. • OS is a relatively new and complex concept and • its adoption will require a shift in the researchers' behaviour regarding the conduction of research and information sharing and will demand the adoption of new practices. • Many researchers are today not aware of all the components that comprise OS and have not been trained to practise OS. Nancy Pontika; Petr Knoth; Matteo Cancellieri; Samuel Pearce (2015). "Fostering Open Science to Research using a Taxonomy and an eLearning Portal". Retrieved 12 August 2015. 18제 17회 연구소재은행 교육프로그램 / 곤지암리조트 연구 수행과 정보공유에 있어 SHIFT / 새로운 실천 필요 무엇을 훈련시킬 것인가? 누가 훈련 시킬 것인가?
  • 19. 오픈 사이언스 사례 (1/2) • 운영주체 : Center for Open Science (COS) 개발, 유지 • 예산지원 : federal agencies, private foundations, and commercial entities • 저장공간 : 개인 연구자별 5GB 제공 • Project >> components >> files • 컴포넌트 = sub-project • 컴포넌트 자체의 privacy and sharing settings • 컴포넌트 인용을 위한 식별자 • 컴포넌트 위키 및 add-ons • 프로젝트 등록 없이 컴포넌트 등록 가능 19제 17회 연구소재은행 교육프로그램 / 곤지암리조트
  • 20. 오픈 사이언스 사례 (2/2) Identifiers: DOI 10.17605/OSF.IO/RKFQ4 | ARK c7605/ Source: 20제 17회 연구소재은행 교육프로그램 / 곤지암리조트 iRODS / B2Share / Dataverse / ANDS
  • 21. 목차 21 Data Scientists Open Science Data Publication Data Repository Data Paper 연구 데이터 정의 및 사례 4세대 연구 패러다임 변화 연구환경 변화 연구자가 원하는 콘텐트 Data 정의 및 구분 Dataset & Meta data Research records 과학 데이터 정의 및 특징 Data Management Plan Data Journal 과학의 신뢰와 DMP-ProRR 제 17회 연구소재은행 교육프로그램 / 곤지암리조트
  • 22. • 데이터 정의 • 데이터 구분 • 데이터 세트 • 메타 데이터 • 연구 기록 22제 17회 연구소재은행 교육프로그램 / 곤지암리조트
  • 23. 데이터 정의 • Generally and in science, data is a gathered body of facts. Soruce : • A reinterpretable representation of information in a formalized manner suitable for communication, interpretation, or processing. A sequence of bits, a table of numbers, the characters on a page, the recording of sounds made by a person speaking, or a moon rock specimen. Source : 데이터란 facts(사실, 실상, 실제)의 집합 데이터란 재해석 가능한 정보의 표현 해양과학 분야에서는 데이터 대신 ‘자료’ 라는 표현을 사용 하는데… 연구 소재에서 ‘소재’는 무엇일까? 소재도 데이터일까? 연구소재 = 데이터 + 정보 23제 17회 연구소재은행 교육프로그램 / 곤지암리조트
  • 24. 데이터 구분 Source : Observational data captured in real- time, usually irreplaceable. For example, sensor data, survey data, sample data, neurological images. Experimental data from lab equipment, often reproducible, but can be expensive. For example, gene sequences, chromatograms, toroid magnetic field data. Simulation data generated from test models where model and metadata are more important than output data. For example, climate models, economic models. Derived or compiled data is reproducible but expensive. For example, text and data mining, compiled database, 3D models. Reference or canonical a (static or organic) conglomeration or collection of smaller (peer-reviewed) datasets, most probably published and curated. For example, gene sequence databanks, chemical structures, or spatial data portals. Source : Raw Data (Unprocessed Data) Processed Data Result Data Scientific Data ⊂ Research Data Qualitative Data Quantitative Data First Engilish use - 1640s "transmittable and storable computer information“ – 1946 "data processing“ - 1954 데이터 처리 단계, 데이터 도메인, 데이터 생산 방식에 의한 데이터 구분 24제 17회 연구소재은행 교육프로그램 / 곤지암리조트
  • 25. 데이터 세트 • A data set is a collection of related data and information-generally numeric, word oriented, sound, and/or image-organized to permit search and retrieval or processing and reorganizing. • Many data sets are resources from which specific data points, facts, or textual information is extracted for use in building a derivative data set or data product. A derivative data set, also called a value-added or transformative data set, is built from one or more preexisting data set(s) and frequently includes extractions from multiple data sets as well as original data (Committee for a Study on Promoting Access to Scientific and Technical Data for the Public Interest, 1999, p. 15). Data set = Data + Information = Research Resources Data sets = Data set + Data set Derivative data set = Value-added data set = Transformative data set 25제 17회 연구소재은행 교육프로그램 / 곤지암리조트
  • 26. 메타 데이터 • Metadata is structured data about dataSource : • Metadata addresses data attributes that describe, provide context, indicate the quality, or document other object (or data) characteristics.” source : Greenberg (2005, p. 20 Metadata: A Cataloger's Primer) • Metadata are often classified by their purpose descriptive metadata, administrative metadata, and structural metadata as the most common subclassifications. • Rights management (terms and conditions), provenance, and preservation metadata are most often subcategorized under administrative metadata; however, some taxonomies promote these to first-class categories (Greenberg, 2005; National Information Standards Organization [NISO], 2004). data and information 26제 17회 연구소재은행 교육프로그램 / 곤지암리조트
  • 27. 연구 기록, Research records • Records are documents containing data or information of any kind and in any form (including both paper-based and electronic format) created or received by an organisation or person for use in the course of their work and subsequently kept by that organisation or individual as evidence of that work, or because of the informational value of the data that such documents contain. Records associated with the research process include correspondence (including electronic mail as well as paper-based correspondence); project files; grant applications; ethics applications; authorship agreements; technical reports; research reports; laboratory notebooks or research journals; master lists; signed consent forms; and information sheets for research participants. Source : 27 연구 소재 = 데이터와 정보 연구 기록 = 데이터와 정보를 포함한 인쇄 및 디지털 문서 제 17회 연구소재은행 교육프로그램 / 곤지암리조트
  • 28. 목차 28 Data Scientists Open Science Data Publication Data Repository Data Paper 연구 데이터 정의 및 사례 4세대 연구 패러다임 변화 연구환경 변화 연구자가 원하는 콘텐트 Data 정의 및 구분 Dataset & Meta data Research records 과학 데이터 정의 및 특징 Data Management Plan Data Journal 과학의 신뢰와 DMP-ProRR 제 17회 연구소재은행 교육프로그램 / 곤지암리조트
  • 29. • 연구 데이터 정의 • 연구 데이터 사례 • 연구 데이터, 공공 데이터, 과학 데이터 • 과학 데이터 정의 및 사례 • 과학 데이터 유형 • 과학 데이터 특징 29제 17회 연구소재은행 교육프로그램 / 곤지암리조트
  • 30. 연구 데이터 정의 (1/2) • Research Content = Research Objects, Research Data ⊂ Research Objects • Research Objects ∃ Workflows, Research Data ∄ Workflows • Research Objects ∃ Standards, Research Data ∄ Standards • Research Data ∃ Dataset Queensland univ • { facts, observations, images, computer program results, recordings, measurements, experiences } ⊂ Research Data from Queensland univ. Melbourne univ • { facts, observations or experiences, laboratory notebooks; field notebooks; primary research data (including research data in hardcopy or in computer readable form); questionnaires; audiotapes; videotapes; models; photographs; films; test responses } ⊂ Research data from Melbourne univ. • { slides; artefacts; specimens; samples } ⊂ Research collections from Melbourne univ. • {electronic mail as well as paper-based correspondence); project files; grant applications; ethics applications; authorship agreements; technical reports; research reports; laboratory notebooks or research journals; master lists; signed consent forms; and information sheets for research participants } ⊂ Research records from Melbourne univ. Griffith Univ. • 설문조사, 녹음 자료는 연구 데이터 인가? • primary materials’ vs ‘research data’ 30제 17회 연구소재은행 교육프로그램 / 곤지암리조트
  • 31. ! Research Data 연구 데이터 정의 (2/2) • administrative data Administrative data consists of records of payrolls, student enrolments, research assessment, and so on. Some administrative data relates to research projects and may need to be treated as research data. However, for the most part it is treated independently within the institution in terms of data management policies, procedures and strategies. • teaching data Teaching data comprises courseware and other resources which are part of the teaching function of a university. Again, this may be of interest to a research project, but it is usually managed independently. • research publications Research publications can be regarded as data, but for the most part these are well taken care of outside the institution, by publishers and the like. Even when held within the institution, either on open access or for research reporting purposes, these tend to be managed separately from other research data. Source : 31제 17회 연구소재은행 교육프로그램 / 곤지암리조트 연구 기록 = 데이터와 정보를 포함한 인쇄 및 디지털 문서 = research publications When (!Reserch Data) are used for research, it could be called as Research Data. Am I right?
  • 32. 연구 데이터 사례 • Text or Word documents, spreadsheets • Laboratory notebooks, field notebooks, diaries • Questionnaires, transcripts, codebooks • Audiotapes, videotapes • Photographs, films • Test responses • Slides, artifacts, specimens, samples • Collection of digital objects acquired and generated during the process of research • Data files • Database contents including video, audio, text, images • Models, algorithms, scripts • Contents of an application such as input, output, log files for analysis software, simulation software, schemas • Methodologies and workflows • Standard operating procedures and protocols Primary Data Secondary Data Processed Data Research Records Source : ment/background/whatisdata/ Correspondence including electronic mail and paper-based correspondence / Project files / Grant applications / Ethics applications / Technical reports / Research reports / Master lists Signed consent forms 32제 17회 연구소재은행 교육프로그램 / 곤지암리조트
  • 33. 연구 데이터, 공공 데이터, 과학 데이터 • Factual records, which may take the form of numbers, symbols, text, images or sounds, used as primary sources for research, and that are commonly accepted in the research community as necessary to validate research findings. Source : • Another way of approaching a definition of research data is to ask the question 'what needs to be kept to validate the results of research?' This may provide a different response, and allows the researcher, rather than the institution, to focus what needs to be kept in case research findings are questioned. Source : 연구 데이터 • Factual records used for validating research findings • 연구 과정에서 수집, 생산된 데이터 • 연구 내용 검증에 사용될 수 있는 데이터 (Validating research findings) • 연구 내용 재현에 꼭 필요한 데이터 (Reproducible science) 공공 데이터 • 공공재원을 사용하여 수행된 연구 및 조사 활동을 통해 수집, 생산된 데이터 과학 데이터 • 과학 활동을 통해 수집, 생산 된 데이터로서 공공재원으로 진행된 연구를 통해 생산된 데이터는 공공 데 이터로 분류할 수 있음 33제 17회 연구소재은행 교육프로그램 / 곤지암리조트
  • 34. 과학 데이터 정의 • Cheng(2006)은 과학데이터는 과학기술 활동의 결과로서 관측(Observation), 감시(Monitoring), 조사(Investigation), 실 험(Experiment), 연구 분석(Research Analysis), 계산 (Computation) 등의 활동을 통해 생성된 데이터 • OECD(2006)의 경우, 데이터는 과학 연구수행을 위한 주요 한 원천으로 사용하는 사실적인 기록(숫 자, 문자정보, 이 미지 및 소리)으로 정의 • CCSDS(2002)는 과학데이터는 전달, 해석 및 가공에 적합 하 도록 형식을 갖춘, 재해석이 가능한 정보의 표현 Consultative committee on Space Data Systems Source : Cheng, Jinpei. 2006. Strategies for Preservation of and Open Access to Scientific Data in China: Summary of a Workshop 34제 17회 연구소재은행 교육프로그램 / 곤지암리조트
  • 35. 과학 데이터 정의 및 사례 과학 데이터 정의 • 연구자의 연구 활동 과정 중 생성되는 다양한 유형 의 사 실적 기록을 의미한다. 즉, 연구활동을 통하여 생산 된 연 구활동의 기록물로서 관측, 감시, 조사, 실험, 분석, 계산 등의 과정을 통하여 생산된 문자, 이미지, 오디오, 동영상 등의 아날로그 및 디지털 형식을 포괄하는 데이터 과학 데이터 사례 • 실험데이터, 통계데이터, 단백질 구조이미지, 생물의 표 본 자료, 천문학의 분광관측(spectral survey) 자료 등 Source: 김선태(2011), 「과학데이터 보존 및 활용모델에 관한 연구」 35제 17회 연구소재은행 교육프로그램 / 곤지암리조트
  • 36. 과학 데이터 유형 • 연구분야 및 연구방법, 관측장비, 실험장비, 분석방법 등에 따라 다양 • 주로 수치정보, 공간정보, 도표정보, 문서 등의 형태 • 지구관측 및 환경 분야의 데이터는 주 로 관측데이터로 서 공간 및 수치정보와 이미지 정보 • 사회과학 분야의 데이터는 주로 설문조사를 통한 통계데 이터 형태 • 컴퓨터과학 분야 의 데이터는 주로 도표 또는 수치정보 • 소량의 통계데이터 부터 가속기를 통해 매년 16 Petabytes씩 생산되는 대용량 미립자 충돌 데이터까지 규모와 형태 적인 측면에서 매우 다양한 특징 36제 17회 연구소재은행 교육프로그램 / 곤지암리조트
  • 37. 과학 데이터 특징 • 데이터의 형식에 있어서 매우 다양하 다는 것이다. 위에서 언급되었듯이 과학데이터는 문서형 식 을 취하는 아날로그 정보형식에서 부터 컴퓨터 파일, 이미지 등의 다양한 디지털 정보 형식을 포 괄하여 모든 유형의 형식으로 존재 • 과학데이터는 특정한 현상을 설명하기 위하여 재가공이 가능하다는 것이다. 일반적으로 과학데이 터는 최종의 결과물을 추출하기 위 한 기초데이터(Raw Data)로서 기능 수행. 따라서 연구자들은 연구행 위 및 활동에 대한 최종 결과물을 생산 하기 위하여 연구 과정에서 생산된 다양한 기초데이터를 활용 • 과학데이터는 자연과학, 공학 등의 분야뿐만이 아니라 사회과학 등에서 생산되는 다양한 통계데 이터 까지를 포괄 • 데이터 형식의 다양성으로 인하여 관리의 어려움이 존재한다는 것이다. 즉, 아날로 그 및 디지털 형식으로 존재함 으로 해서 단순히 데이터 베이스에 저장하는 것이 아닌 체계화된 관리방법이 요구됨 Source: 김선태(2011), 「과학데이터 보존 및 활용모델에 관한 연구」 37제 17회 연구소재은행 교육프로그램 / 곤지암리조트
  • 38. 목차 38 Data Scientists Open Science Data Publication Data Repository Data Paper 연구 데이터 정의 및 사례 4세대 연구 패러다임 변화 연구환경 변화 연구자가 원하는 콘텐트 Data 정의 및 구분 Dataset & Meta data Research records 과학 데이터 정의 및 특징 Data Management Plan Data Journal 과학의 신뢰와 DMP-ProRR 제 17회 연구소재은행 교육프로그램 / 곤지암리조트
  • 39. • Data Publication for Open data • From Publications To Products • 데이터 출판 사례 • Data Journal • Data Paper 39제 17회 연구소재은행 교육프로그램 / 곤지암리조트
  • 40. Data Publication for Open data Open data is the idea that some data should be freely available to everyone to use and republish as they wish, without restrictions from copyright, patents or other mechanisms of control.The goals of the open data movement are similar to those of other "open" movements such as open source, open hardware, open content and open access. ..... (중략) ... The term "open data" itself is recent, gaining popularity with the launch of open-data government initiatives such as and Source : 연구 소재와 관련된 출판 대상자원으로는 무엇이 있는가? 40제 17회 연구소재은행 교육프로그램 / 곤지암리조트
  • 41. From Publications To Products 2013 년 1월부터는 미국 과학 재단(National Science Foundation)의 보조금 신청 지침이 변경되어 연구 산출물의 명칭이 “출판물(Publications)”에서“생산물(Products)”로 바뀌었으며, 그에 따라 논문과 함께 연구데이터가 제출되어 야 ... (National Science Foundation 2012 source : 41 연구 소재는 연구 데이터 출판과 어떤 관계가 있을 수 있는가? 제 17회 연구소재은행 교육프로그램 / 곤지암리조트
  • 42. Zenodo 사례 (1/2) • Collection of data, research papers, reports, white papers, presentations etc created, authored and published by CODATA 42제 17회 연구소재은행 교육프로그램 / 곤지암리조트
  • 43. Zenodo 사례 (2/2) • Research. Shared. — all research outputs from across all fields of research are welcome! Sciences and Humanities, really! • Citeable. Discoverable. — uploads gets a Digital Object Identifier (DOI) to make them easily and uniquely citeable. • Communities — create and curate your own community for a workshop, project, department, journal, into which you can accept or reject uploads. Your own complete digital repository! • Funding — identify grants, integrated in reporting lines for research funded by the European Commission via OpenAIRE. • Flexible licensing — because not everything is under Creative Commons. • Safe — your research output is stored safely for the future in the same cloud infrastructure as CERN's own LHC research data. 43제 17회 연구소재은행 교육프로그램 / 곤지암리조트
  • 44. OpenAIRE (1/2) • OpenAIRE is an EC funded project (FP7 246686 and 283595) • OpenAIRE is a network of Open Access repositories, archives and journals that support Open Access policies. • It goes beyond the traditional publications aggregator by interconnecting entities related to scholarly communication (publications, research data, funding, people, organizations, data sources) allowing users to navigate alongside a rich information space graph and provides a wide range of services, from deposition to statistics. • OpenAIRE has access to 17,252,818 publications and 28,258 datasets from 5,717 data sources. These involve 653,009 projects and 30,573 organizations. (2016년 11월10일 현재) Source: 44제 17회 연구소재은행 교육프로그램 / 곤지암리조트
  • 45. OpenAIRE (2/2) 45제 17회 연구소재은행 교육프로그램 / 곤지암리조트
  • 46. ATCC 사례 46 Source : https://www.atcc.o rg/en/Products/All /10895.aspx ATCC is the premier global biological materials resource and standards organization whose mission focuses on the acquisition, authentication, production, preservation, development, and distribution of standard reference microorganisms, cell lines, and other materials. While maintaining traditional collection materials, ATCC develops high quality products, standards, and services to support scientific research and breakthroughs that improve the health of global populations. 제 17회 연구소재은행 교육프로그램 / 곤지암리조트
  • 47. InCHIANTI 사례 47 Source : BioBank 키워드 검색결과 Re3data.org에 3건 등록되어 있음. InCHIANTI는 그중 하나 제 17회 연구소재은행 교육프로그램 / 곤지암리조트
  • 48. ATCC 사례 • repositoryName : American Type Culture Collection • • While focused on supporting the scientific community, ATCC activities range widely, from repository-related operations to providing specialized services, conducting in-house R&D and intellectual property management. ATCC serves U.S. and international researchers by characterizing cell lines, bacteria, viruses, fungi and protozoa, as well as developing and evaluating assays and techniques for validating research resources and preserving and distributing biological materials to the public and private sector research communities. Our management philosophy emphasizes customer satisfaction, value addition, cost-effective operations and competitive benchmarking for all areas of our enterprise. • Re3data.org에 등록된 데이터 리포지터리 중 Material 키워드를 포함한 레코드 건수 : 103개 (2016.10.24 기준) 48 연구 소재 리포지터리 사례는 존재한다. 제 17회 연구소재은행 교육프로그램 / 곤지암리조트
  • 49. WDCM 사례 (1/3) World Data Centre for Microorganisms (WDCM) • 50 년전 설립된 World Federation for Culture Collections (WFCC)의 데 이터 센터—Microbial Resource Center (MIRCEN). • 등록되어 있음 • 빅데이터 기술을 이용하여 전 세계 미생물 자원센터들과 미생물학자 들에게 통합정보서비스(integrated information services) 제공을 목적 으로 함 – Culture Collections Information) Worldwide (CCINFO) : 메타데이터 정보 제공 708 culture collections from 72 countries and regions. – Global Catalogue of Microorganism (GCM) gathers strain catalogue information and provides a data retrieval, analysis, and visualization system of microbial resources. Currently, GCM includes >368 000 strains from 103 culture collections in 43 countries and regions. – Analyzer of Bioresource Citation (ABC) is a data mining tool extracting strain related publications, patents, nucleotide sequences and genome information from public data sources to form a knowledge base. – Reference Strain Catalogue (RSC) maintains a database of strains listed in International Standards Organization (ISO) and other international or regional standards. RSC allocates a unique identifier to strains recommended for use in diagnosis and quality control, and hence serves as a valuable cross-platform reference. – WDCM provides free access to all these services at 49 연구 소재 리포지터리 사례는 존재한다. 제 17회 연구소재은행 교육프로그램 / 곤지암리조트
  • 50. WDCM 사례 (2/3) Linhuan Wu et al. Nucl. Acids Res. 2016;nar.gkw903 © The Author(s) 2016. Published by Oxford University Press on behalf of Nucleic Acids Research. 50 • A system-level overview of the WDCM databases 제 17회 연구소재은행 교육프로그램 / 곤지암리조트
  • 51. WDCM 사례 (3/3) Linhuan Wu et al. Nucl. Acids Res. 2016;nar.gkw903 © The Author(s) 2016. Published by Oxford University Press on behalf of Nucleic Acids Research. 51 • ABC data mining working flow 제 17회 연구소재은행 교육프로그램 / 곤지암리조트
  • 52. Data Journal (1/2) Data journals exist in some domains, such as • the Earth Systems Science Data Journal • Geoscience Data Journal, • to publish data papers and provide services, such as peer review of the paper and the underlying data set. A data paper is not a traditional journal paper as it allows the publication of the data set without the requirement for novelty or significant analysis or conclusions to be drawn. It is a way to provide discoverability and quality assurance mechanisms for data that may be of use or interest to others while at the same time providing credit for the researchers involved in creating the data set. 52제 17회 연구소재은행 교육프로그램 / 곤지암리조트
  • 53. Data Journal (2/2) Is the Journal listed by Thomson Reuters’ (formerly ISI) Web of Science? Geoscience Data Journal was accepted for inclusion within the Web of Science beginning with Volume 1 (2014) and will gain it's first Impact Factor for the 2016 Impact Factor window. There are also discussions with Thomson Reuters regarding their recent announcement of a Data Citation Index. 53제 17회 연구소재은행 교육프로그램 / 곤지암리조트
  • 54. Data paper A data paper describes a dataset, giving details of its collection, processing, software, file formats etc, without the requirement of novel analyses or ground breaking conclusions. It allows the reader to understand the when, how and why data was collected and what the data-product is. Source: 1002/(ISSN)2049-6060 54제 17회 연구소재은행 교육프로그램 / 곤지암리조트
  • 55. 목차 55 Data Scientists Open Science Data Publication Data Repository Data Paper 연구 데이터 정의 및 사례 4세대 연구 패러다임 변화 연구환경 변화 연구자가 원하는 콘텐트 Data 정의 및 구분 Dataset & Meta data Research records 과학 데이터 정의 및 특징 Data Management Plan Data Journal 과학의 신뢰와 DMP-ProRR 제 17회 연구소재은행 교육프로그램 / 곤지암리조트
  • 56. • DMP • Guidelines for Effective Data Management Plans • Data Repository • Guidelines for Repositories 56제 17회 연구소재은행 교육프로그램 / 곤지암리조트
  • 57. DMP (1/3) A data management plan • is an integral part of the research plan. • can be reviewed and expanded during research • but main principles and procedures should be determined before the research starts, at the latest before data collection begins. • A data management plan (DMP) will help you manage your data, meet funder requirements, and help others use your data if shared. Source: 57제 17회 연구소재은행 교육프로그램 / 곤지암리조트
  • 58. • Data Description • Existing data • Format • Metadata • Sotrage and backup • Security permissions, restrictions, and embargoes • Responsibility names of the individuals reponsible for data management • Intellectual property rights • Access and sharing • Audience The potential secondary users of data • Selection and retention periods selected for archiving • Archiving and preservation • Ethics and privacy • Budget request for funding may be included • Data Organization version control, naming conventions etc. • Quality Assurance • Legal Requirements all relevant federal or funder requirements for data management and data sharing DMP (2/3) 58제 17회 연구소재은행 교육프로그램 / 곤지암리조트
  • 59. DMP (3/3) • Questions to answer: – What types of data will the project collect or use? – What file format will be used? – What metadata standard will be used? – How will ethical issues concerning data management be taken into account? – How will copyright and IPR issues be managed? – How will the data be made available for subsequent use by other researchers? – With which collaborators will the data be managed and made openly available? source: DMPTuuli-guidelines.html 59제 17회 연구소재은행 교육프로그램 / 곤지암리조트
  • 60. Guidelines for Effective Data Management Plans v Resources for Development • Australian National Data Service - Data management planning • Digital Curation Centre - Data Management Plans • Geoscience Australia - Guide to Preparation of Data Management Plans • New South Wales Natural Resources Information Management Strategy - Data Management Planning Guidelines • University of Oxford - Data Management Planning Checklist • University of Oxford - Data Management Planning v Templates & Tools v Guidance on Funder Requirements v University Data Management Web Sites v Good Practice Guidance v Federal Agency Policies on Data Management and Sharing v Other Data Management Plan Examples from Natural Sciences Source: 여러 DMP 참고하여 DMP 가이드라인 제시 연구 소재 은행에서 연구자에게 DMP 요구? DMP 내용? 연구소재은행 거버넌스 체계? 60제 17회 연구소재은행 교육프로그램 / 곤지암리조트
  • 61. Data Repository Data repositories 61제 17회 연구소재은행 교육프로그램 / 곤지암리조트
  • 62. Guidelines for Repositories for Geoscience Data Journal Before a dataset can be submitted for publication the dataset must be deposited in a registered repository, along with the associated metadata for the dataset. Repositories can be registered on a case by case basis through contact with the Geoscience Data Journal editor. At a minimum, repositories should have the ability to: • Assign DOIs to the dataset and offer sufficiently long data preservations that match the amount of time the public will find this data scientifically beneficial. • Store the data files in an easily readable format across different computing platforms. Allow reviewers easy (and anonymous to the dataset authors) access to the data and supporting metadata. • Following successful review and publication the repository must provide open access to the broad/public user community. Datasets submitted for publication should be complete and not liable to change. Metadata should be included to allow a full understanding of the data. Source: 62제 17회 연구소재은행 교육프로그램 / 곤지암리조트
  • 63. 목차 63 Data Scientists Open Science Data Publication Data Repository Data Paper 연구 데이터 정의 및 사례 4세대 연구 패러다임 변화 연구환경 변화 연구자가 원하는 콘텐트 Data 정의 및 구분 Dataset & Meta data Research records 과학 데이터 정의 및 특징 Data Management Plan Data Journal 과학의 신뢰와 DMP-ProRR 제 17회 연구소재은행 교육프로그램 / 곤지암리조트
  • 64. • Data Scientists 64제 17회 연구소재은행 교육프로그램 / 곤지암리조트
  • 65. Data Scientists (1/3) Data Scientists (NSF 2005, p27) The information and computer scientists, database and software engineers and programmers, disciplinary experts, curators and expert annotators, librarians, archivists, and others, who are crucial to the successful management of a digital data collection 데이터 과학자 데이터 과학과 관련된 분야를 전공하고 데이터 분석과 관련된 업무에 종사하는 사람을 말한다. 즉 데이터 과학자는 현장에 존재하는 대량의 데 이터를 모으고, 분석에 적합한 형태로 가공하고, 데이터가 의미하는 바를 이야기(story)에 담아 다 른 사람에게 효과적으로 전달하는 역할을 한 다.(O’Reilly Media, 2012) 데이터 과학자 Business analyst VS. Data analyst Research Scientist Data Scientist Experiences like my own suggest that the best way to become a data scientist isn’t to be trained as a data scientist, but to do serious, data-intensive work in some other discipline. 65제 17회 연구소재은행 교육프로그램 / 곤지암리조트
  • 66. Data Scientists (2/3) • September 2005 The National Science Board publishes “Long-lived Digital Data Collections: Enabling Research and Education in the 21st Century.” • The report defines data scientists as “the information and computer scientists, database and software engineers and programmers, disciplinary experts, curators and expert annotators, librarians, archivists, and others, who are crucial to the successful management of a digital data collection.” 66제 17회 연구소재은행 교육프로그램 / 곤지암리조트
  • 67. Data Scientists (3/3) • Research Data Management • Research Data Service by Data Scientists Team. 67제 17회 연구소재은행 교육프로그램 / 곤지암리조트
  • 68. 목차 68 Data Scientists Open Science Data Publication Data Repository Data Paper 연구 데이터 정의 및 사례 4세대 연구 패러다임 변화 연구환경 변화 연구자가 원하는 콘텐트 Data 정의 및 구분 Dataset & Meta data Research records 과학 데이터 정의 및 특징 Data Management Plan Data Journal 과학의 신뢰와 DMP-ProRR 제 17회 연구소재은행 교육프로그램 / 곤지암리조트
  • 69. • 과학의 신뢰 • DMP-ProRR : Data Management Plan for Products based on Research Resources 69제 17회 연구소재은행 교육프로그램 / 곤지암리조트
  • 70. 과학의 신뢰 (1/3) Source : science-study-pre-registration In an ideal world, scientific discoveries would be independent of what scientists wanted to discover. A good researcher would begin with an idea, devise a method to test the idea, run the study as planned, and then decide based on the evidence whether the idea had been supported. Following this approach would lead us step-by-step toward a better understanding of nature. Publish or perish Trust in Science Study pre-registration?? 70제 17회 연구소재은행 교육프로그램 / 곤지암리조트
  • 71. 과학의 신뢰 (2/3) Reproducible science is stronger science. 약한 과학이란 무엇일까요? 연구 윤리 Center for Open Science 71 Reproducible science needs Research Resources. 연구 재현을 위해서는 연구 소재 공급이 필요할 수 있다. 일관된 연구 소재 확보는 연구윤리 측면에서 반드시 필요하다. 제 17회 연구소재은행 교육프로그램 / 곤지암리조트
  • 72. 과학의 신뢰 (3/3) “If they do a press release on an observational study, they should state the limitations prominently – generally that causality can’t be inferred, that findings from observational research often are not reproduced in clinical trials,” Source : weak-science Scientists often bemoan journalists’ shoddy reporting of research findings. A Study without data makes weak science. Reproducible science is stronger science. Reproducible science needs Research Data Research Resources are Research Data. Research Resources are good trigger for Open Science. 72제 17회 연구소재은행 교육프로그램 / 곤지암리조트
  • 73. 소재 보존 관리 • 고유의 특성 변질 및 오염 • 법정 보존 기한 초과 • 천재지변 • 소재 품질의 유지 >> 동일 수준의 소재 제공 >> 연구 재현, Open Science 구현 • 소재의 보존위치 파악 = 연구素材의 所在 정보 = location Info. 73 소재보존의 표준화 소재 중복 보존 제 17회 연구소재은행 교육프로그램 / 곤지암리조트
  • 74. DMP-ProRR • Data Management Plan for Products based on Research Resources 74 DMP-ProRR Data Citation Metadata Schema Archiving & Preservation Guideline Metadata Acquition Data & article Inter-linking service Data Publishing Data RepositoriesColleciton Services 제 17회 연구소재은행 교육프로그램 / 곤지암리조트
  • 75. 경청해 주셔서 고맙습니다. Q & A 75제 17회 연구소재은행 교육프로그램 / 곤지암리조트
  • 76. 소재 기탁 관리 • Data Provenance • 소재 관리번호 체계와 식별자 76 소재고유번호 제 17회 연구소재은행 교육프로그램 / 곤지암리조트
  • 77. 못다한 이야기: 빅데이터 유래 • 이미 우리는 약 70년 전부터 “정보 폭발 (a term first used in 1941, according to the Oxford English Dictionary)” 이란 용어 사용 • October 1997 Michael Cox and David Ellsworth publish “Application-controlled demand paging for out-of-core visualization” in the Proceedings of the IEEE 8th conference on Visualization. They start the article with “Visualization provides an interesting challenge for computer systems: data sets are generally quite large, taxing the capacities of main memory, local disk, and even remote disk. We call this the problem of big data. It is the first article in the ACM digital library to use the term “big data.” • November 2000 Francis X. Diebold presents to the Eighth World Congress of the Econometric Society a paper titled • “Big Data Dynamic Factor Models for Macroeconomic Measurement and Forecasting” in which he states “Recently, much good science, whether physical, biological, or social, has been forced to confront—and has often benefited from—the “Big Data” phenomenon. They also that in 1986, 99.2% of all storage capacity was analog, but in 2007, 94% of storage capacity was digital, a complete reversal of roles (in 2002, digital information storage surpassed non-digital for the first time). • February 2010 Kenneth Cukier “Data, data everywhere.” “…the world contains an unimaginably vast amount of digital information which is getting ever vaster more rapidly… The effect is being felt everywhere, from business to science, from governments to the arts. Scientists and computer engineers have coined a new term for the phenomenon: ‘big data.’” 제 17회 연구소재은행 교육프로그램 / 곤지암리조트 77
  • 78. 못다한 이야기: Big Data vs. Difficult Data 제 17회 연구소재은행 교육프로그램 / 곤지암리조트 78
  • 79. 고맙습니다. • German bacteriologist Julius Richard Petri 79 연구소재란 과학기술 의 기반이 되는 자원