SlideShare a Scribd company logo
1 of 83
Download to read offline
오픈 사이언스와 연구데이터
2017. 4. 13
과학데이터전략연구실
김선태
오픈 사이언스와 빅데이터 2
목 차
• 과학
• 오픈 사이언스
• 빅데이터
• 연구 데이터
• 과학 데이터
• 데이터 과학
• 데이터 과학자
오픈 사이언스와 빅데이터 3
4오픈 사이언스와 빅데이터
Data 구분
Source : https://en.wikipedia.org/wiki/Data
Observational data captured in real-
time, usually irreplaceable. For example, sensor data,
survey data, sample data, neurological images.
Experimental data from lab equipment,
often reproducible, but can be expensive. For example,
gene sequences, chromatograms, toroid magnetic field
data.
Simulation data generated from test
models where model and metadata are more important
than output data. For example, climate models,
economic models.
Derived or compiled data is
reproducible but expensive. For example, text and data
mining, compiled database, 3D models.
Reference or canonical a
(static or organic) conglomeration or collection of
smaller (peer-reviewed) datasets, most probably
published and curated. For example, gene sequence
databanks, chemical structures, or spatial data portals.
Source : http://www.bu.edu/datamanagement/background/whatisdata/
Raw Data
(Unprocessed Data)
Processed Data
Result Data
Scientific Data ⊂ Research Data
Qualitative Data
Quantitative Data
First Engilish use -
1640s
"transmittable and
storable computer
information“ – 1946
"data processing“ - 1954
데이터 처리 단계, 데이터 도메인, 데이터 생산 방식에 의한 데이터 구분
5오픈 사이언스와 빅데이터
출처: http://bit.ly/2o7pDzM
오픈 사이언스와 빅데이터 6
출처: http://bit.ly/2p8dy0W
오픈 사이언스와 빅데이터 7
출처: http://bit.ly/2opPVOR
출처: http://bit.ly/2o7rG6N
• 그 수를 헤아릴 수 없고
• 번식력이 빠르고
• 그 형태가 다양하고
오픈 사이언스와 빅데이터 8
Data science (출처: https://en.wikipedia.org/wiki/Data_science)
9오픈 사이언스와 빅데이터
오픈 사이언스와 빅데이터 10
출처: http://bit.ly/2o7HXc6
출처: http://bit.ly/2nGp83v
SCIENCE
출처: http://bit.ly/2oZp7YL
오픈 사이언스와 빅데이터 12
과학(科學, Science)
• 禾 + 斗 = 科
• 보편적 진리나 법칙의 발견을 목적으로 그
원리를 연구하여 하나의 체계를 세우는 학
문
• 대상 영역에 따라: 자연과학(좁은의미), 사회
과학, 인문과학, 형식 과학(수학,논리학 포
함), 인문과학(철학포함)
• 순수과학, 응용과학
오픈 사이언스와 빅데이터 13
과학의 분류
• 자연과학: 인간에 의해 나타나지 않은 모든 자연 현상 연구
• 사회과학: 인간들의 행동과 그들이 이루는 사회를 과학적인 방
법으로 연구
• 인문과학: 인간과 인간의 문화에 관심을 갖거나 인간의 가치와
인간만이 지닌 자기 표현 능력을 바르게 이해하기 위한 과학
적인 연구
• 순수과학: 자연을 탐구하여 그것의 작동 원리를 체계화시키는
연구
• 응용과학: 순수과학 연구의 결과를 통해 인류의 필요를 충족시
키려는 연구 [1]
오픈 사이언스와 빅데이터 14
과학의 3가지 분류
출처: http://bit.ly/2oxchju
1. 새로운 사실을 이끌어 낼 수 있는 방법론과 그때의 사고 흐름
2. 관찰을 바탕으로 특정 규칙을 끄집어내는 것
3. 그 규칙을 바탕으로 새로운 기술을 발명하는 것 [2]
규칙이란 끊임없는 의심과 반박을
당하고 다시 설명되어야 할 사실에
불과 (과학의 불확실성)
좋은 규칙과 더 좋은 규칙
명확하고 정밀한 규칙일수록 반박당
하기 쉬움 (지구,태양 109배)
오픈 사이언스와 빅데이터 15
과학의 특징
출처: http://bit.ly/2p3YC4d
규칙의 예외 발견
>> 반박 [2]
예외 발생 시
규칙은 더욱 간단해짐
ex. 케플러가 행성이 타원으로 돈다고 주장
sw개발
오픈 사이언스와 빅데이터 16
OPEN
오픈 사이언스와 빅데이터 18
Why Open (1/2)
• 정보격차의 해소
• 순수한 지식의 공유 (교육분야)
• 에코시스템 (기업입장)
• 경영의 패러다임이 바뀔 정도로 기업의 생존과도
연결이 되는 이슈(업계)
• 오픈을 하면 좋고 하지 않으면 나쁘다, 즉 개방자
체가 윤리적판단의 기준이 되고 있기 때문에, 기
업의 입장에서는 open is power ! 오픈이 기업이 할
수 있는 선택의 결과로서 판단이 되는 것은 곤란
• open이 또 하나의 이데올로기가 될 수 있다는 새로
운 시각 [3]
오픈 사이언스와 빅데이터 19
Why Open (2/2)
• '세바시'의 구범준PD : '별자리'. 눈에 띄지 않는 별들도 우리에게
밝은 빛을 송출하고 있으며 이들을 보이게 하려면 별자리를 만들면
되고 그러기 위한 필요충분조건은 open이라고 생각했던 것이다. CBS
는 보이지 않는 별, 이므로.
(1) 사원들을 이것을 교육해라 (2) 지식복지에 대한 스폰서 요청
• KT : 아이디어팝/ IT CEO포럼/ 특허양도/ 등 open을 하고 있는 사례
들이 있고, 이와 비슷한 것들을 이미 대기업이 하고는 있지만, 넘어
야할 장애물이 있다고 한다.그것은 바로 NIH신드롬(Not Invented Here:
외부의 아이디어나 지식 ,기술을 거부)과 NST(Not Sold There: 내부 아
이디어를 사외에서 사업화하는 것을 거부) [3]
• 언즉행, 언즉필, 언즉손[4]
오픈 사이언스와 빅데이터 20
OPEN SCIENCE
출처: http://bit.ly/2pazrtF오픈 사이언스와 빅데이터 22
Open Science Taxonomy
오픈 사이언스와 빅데이터 23
Open Science principles
24
(그림출처: https://en.wikipedia.org/wiki/Open_science)
오픈 사이언스와 빅데이터
OS 핵심 컴포넌트
• Open Access
• Open Source
• Open Data
• Open Reproducible Research
오픈 사이언스와 빅데이터 25
OS 핵심 요소 (1/4)
Open access
• refers to online, peer-reviewed scholarly outputs, which are free to read, with limited or
no copyright and licensing restrictions.
• 동료평가된 연구결과물을 저작권이나 라이선스 제한 없이 자유롭게 이용
하는 Open Access
• The first official recognition of open access dates back to 2002, when the Budapest
Open Access Initiative defined open access not only as a term, but also as a strategy
that could induce an increase in the amount of free of cost, accessible and reusable
research outputs.
• 학술지 구독료 절감. 재사용 가능한 연구결과물에 대한 접근 허용
• Since then, the open scholarly communications agenda has grown and
currently more terms are embedded in it such as open data, open source
and open reproducible research. [6]
26오픈 사이언스와 빅데이터
OS 핵심 요소 (2/4)
Open data
• deals with the online publication of the
research data gathered during a research
project and made available for access
and re-use. [9]
27
주요 선진국은
공공자금이 투입된 연구 결과물의 체계적인 관리와 재사용을 보장하기 위해서
연구 데이터(research data) 관리
이러한 저변 노력이 오픈 데이터와 오픈 사이언스 운동을 활성화 시킬 것
오픈 사이언스와 빅데이터
OS 핵심 요소 (3/4)
Open source means software that
• can be accessed online for free,
– with a source code license
• that allows its use,
• creation of derivatives and
• distribution. [10]
28오픈 사이언스와 빅데이터
OS 핵심 요소 (4/4)
• Open reproducible research is the act of
practicing OS to enable the independent
reproducibility of the research results. [8]
계산과학공학을 위해, 꼭 필요한 것은 무엇입니까?
공학, 의료영상, 자연과학 및 산업분야에서 제기되는 문제를
수리모델링-시뮬레이션-시각화과정을 통하여
예측/분석, 사용자에게 효율적인 프로그램 개발, 산업화에 이르기까지
다단계 연구를 종합적으로 수행 [5]
29오픈 사이언스와 빅데이터
OS 요소들의 원칙과 동향
OS shares the same underlying principles:
• transparency,
• universal accessibility and
• reusability of the scientific information disseminated via online tools [7]
계산과학공학 관련 데이터로의 접근을 어떻게 제공할 것인가?
The fact that OS is inclusive of these four terms demonstrates
a universal trend that
• calls for a shift in the researchers’behaviour towards open content and for
the adoption of a wide range of open practices and strategies that relate
to the whole research life cycle. [6]
30오픈 사이언스와 빅데이터
OS 효과
OS allows
• the reproduction of the research findings,
• enables transparency in the research methodology,
• increases the researcher's societal impact and
• saves money and time both for researchers and
research institutions. [6]
31오픈 사이언스와 빅데이터
OS 사례 (1/3)
• 운영주체 : Center for Open Science (COS) 개발, 유지
• 예산지원 : federal agencies, private foundations, and commercial entities
• 저장공간 : 개인 연구자별 5GB 제공
• Project >> components >> files
• 컴포넌트 = sub-project
• 컴포넌트 자체의 privacy and sharing settings
• 컴포넌트 인용을 위한 식별자
• 컴포넌트 위키 및 add-ons
• 프로젝트 등록 없이 컴포넌트 등록 가능
32오픈 사이언스와 빅데이터
OS 사례 (2/3)
Identifiers: DOI 10.17605/OSF.IO/RKFQ4 |
ARK c7605/osf.io/rkfq4
Source: https://osf.io/rkfq4/
33오픈 사이언스와 빅데이터
OS 사례
(3/3)
출처: https://cos.io/our-products/open-
science-framework/
오픈 사이언스와 빅데이터 34
계산과학공학과 OS
OS is a relatively new and complex concept and
its adoption will require a shift in the researchers' behaviour regarding the conduction of
research and information sharing and will demand the adoption of new practices.
• 연구 수행과 정보공유에 있어 SHIFT
• 새로운 실천 필요
Many researchers are today not aware of all the components that comprise OS
and have not been trained to practise OS. [6]
무엇을 훈련시킬 것인가? 누가 훈련 시킬 것인가?
35오픈 사이언스와 빅데이터
Big Data
출처: http://bit.ly/2p7ZWmF
오픈 사이언스와 빅데이터 37
오픈 사이언스와 빅데이터 38
오픈 사이언스와 빅데이터 39
측우기 기록과 빅데이터
오픈 사이언스와 빅데이터 40
February 2001 Doug Laney, an analyst with the Meta Group, publishes a research note titled
“3D Data Management: Controlling Data Volume, Velocity, and Variety.” A decade later, the “3Vs”
have become the generally-accepted three defining dimensions of big data, although the term
itself does not appear in Laney’s note. (출처: Gil Press. 2013. A Very Short History Of Big Data)
오픈 사이언스와 빅데이터 41
42오픈 사이언스와 빅데이터
빅데이터는 어떻게 만들어 지는가? (1/5)
오픈 사이언스와 빅데이터 43
빅데이터는 어떻게 만들어 지는가? (2/5)
오픈 사이언스와 빅데이터 44
빅데이터는 어떻게 만들어 지는가? (3/5)
오픈 사이언스와 빅데이터 45
빅데이터는 어떻게 만들어 지는가? (4/5)
오픈 사이언스와 빅데이터 46
거대강입자가속기(LHC) 제임스 웹 망원경
미국 중력파 검출장치 ‘LIGO’
빅데이터는 어떻게 만들어 지는가? (5/5)
오픈 사이언스와 빅데이터 47
빅데이터 유래
• 이미 우리는 약 70년 전부터 “정보 폭발 (a term first used in 1941, according to the Oxford English
Dictionary)” 이란 용어 사용
• October 1997 Michael Cox and David Ellsworth publish “Application-controlled demand paging
for out-of-core visualization” in the Proceedings of the IEEE 8th conference on Visualization. They start the
article with “Visualization provides an interesting challenge for computer systems: data sets are generally
quite large, taxing the capacities of main memory, local disk, and even remote disk. We call this the
problem of big data. It is the first article in the ACM digital library to use the term “big data.”
• November 2000 Francis X. Diebold presents to the Eighth World Congress of the Econometric Society
a paper titled
• “Big Data Dynamic Factor Models for Macroeconomic Measurement and
Forecasting” in which he states “Recently, much good science, whether physical, biological, or social,
has been forced to confront—and has often benefited from—the “Big Data” phenomenon. They also that
in 1986, 99.2% of all storage capacity was analog, but in 2007, 94% of storage capacity was digital, a
complete reversal of roles (in 2002, digital information storage surpassed non-digital for the first time).
• February 2010 Kenneth Cukier “Data, data everywhere.”
“…the world contains an unimaginably vast amount of digital information which is getting ever vaster
more rapidly… The effect is being felt everywhere, from business to science, from governments to the arts.
Scientists and computer engineers have coined a new term for the
phenomenon: ‘big data.’”
오픈 사이언스와 빅데이터 48
Big Data vs. Difficult Data
오픈 사이언스와 빅데이터 49
Big Data, Research Data
50
연구가 시작되어
연구가 끝날 때 까지
생산되는 모든 데이터
오픈 사이언스와 빅데이터
Research Data
Scientific Data
오픈 사이언스와 빅데이터 52
연구데이터의 종류
53오픈 사이언스와 빅데이터
연구 데이터 정의 (1/2)
Datacite.org
• Research Content = Research Objects, Research Data ⊂ Research Objects
• Research Objects ∃ Workflows, Research Data ∄	Workflows
• Research Objects ∃	Standards, Research Data ∄	Standards
• Research Data ∃	Dataset
Queensland univ
• { facts, observations, images, computer program results, recordings, measurements, experiences } ⊂ Research Data
from Queensland univ.
Melbourne univ
• { facts, observations or experiences, laboratory notebooks; field notebooks; primary research data (including research
data in hardcopy or in computer readable form); questionnaires; audiotapes; videotapes; models; photographs; films;
test responses } ⊂ Research data from Melbourne univ.
• { slides; artefacts; specimens; samples } ⊂ Research collections from Melbourne univ.
• {electronic mail as well as paper-based correspondence); project files; grant applications; ethics applications;
authorship agreements; technical reports; research reports; laboratory notebooks or research journals; master lists;
signed consent forms; and information sheets for research participants } ⊂ Research records from Melbourne univ.
Griffith Univ.
• 설문조사, 녹음 자료는 연구 데이터 인가?
• primary materials’ vs ‘research data’
Observational
Experimental
Simulation
Derived or compiled
Reference or canonical
Source :
http://www.bu.edu/datamanage
ment/background/whatisdata/
54오픈 사이언스와 빅데이터
연구 데이터 정의 (2/2)
• administrative data Administrative data consists of records of payrolls, student
enrolments, research assessment, and so on. Some administrative data
relates to research projects and may need to be treated as research data.
However, for the most part it is treated independently within the institution in
terms of data management policies, procedures and strategies.
• teaching data Teaching data comprises courseware and other resources which
are part of the teaching function of a university. Again, this may be of interest
to a research project, but it is usually managed independently.
• research publications Research publications can be regarded as data, but for
the most part these are well taken care of outside the institution, by publishers
and the like. Even when held within the institution, either on open access or
for research reporting purposes, these tend to be managed separately from
other research data. Source : http://www.bu.edu/datamanagement/background/whatisdata/
55오픈 사이언스와 빅데이터
연구 데이터 사례
• Text or Word documents, spreadsheets
• Laboratory notebooks, field notebooks, diaries
• Questionnaires, transcripts, codebooks
• Audiotapes, videotapes
• Photographs, films
• Test responses
• Slides, artifacts, specimens, samples
• Collection of digital objects acquired and generated during the process of research
• Data files
• Database contents including video, audio, text, images
• Models, algorithms, scripts
• Contents of an application such as input, output, log files for analysis software, simulation
software, schemas
• Methodologies and workflows
• Standard operating procedures and protocols [12]
Primary Data
Secondary Data
Processed Data
Research Records
Source :
http://www.bu.edu/datamanage
ment/background/whatisdata/
Research Records : Correspondence including electronic mail and paper-based correspondence /
Project files / Grant applications / Ethics applications / Technical reports / Research reports /
Master lists Signed consent forms
56오픈 사이언스와 빅데이터
연구 데이터, 공공 데이터, 과학 데이터
• Factual records, which may take the form of numbers, symbols, text, images or sounds, used as primary
sources for research, and that are commonly accepted in the research community as necessary to validate research
findings. Source : http://www.ands.org.au/guides/what-is-research-data
• Another way of approaching a definition of research data is to ask the
question 'what needs to be kept to validate the results of research?' This
may provide a different response, and allows the researcher, rather than the institution, to focus what needs to be
kept in case research findings are questioned.
Source : http://www.bu.edu/datamanagement/background/whatisdata/
연구 데이터
• Factual records used for validating research findings
• 연구 과정에서 수집, 생산된 데이터
• 연구 내용 검증에 사용될 수 있는 데이터 (Validating research findings)
• 연구 내용 재현에 꼭 필요한 데이터 (Reproducible science)
공공 데이터
• 공공재원을 사용하여 수행된 연구 및 조사 활동을 통해 수집, 생산된 데이터
과학 데이터
• 과학 활동을 통해 수집, 생산 된 데이터로서 공공재원으로 진행된 연구를 통해 생산된 데이터는 공공 데
이터로 분류할 수 있음
57오픈 사이언스와 빅데이터
과학 데이터 정의
• Cheng(2006)은 과학데이터는 과학기술 활동의 결과로서
관측(Observation), 감시(Monitoring), 조사(Investigation), 실
험(Experiment), 연구 분석(Research Analysis), 계산
(Computation) 등의 활동을 통해 생성된 데이터
• OECD(2006)의 경우, 데이터는 과학 연구수행을 위한 주요
한 원천으로 사용하는 사실적인 기록(숫 자, 문자정보, 이
미지 및 소리)으로 정의
• CCSDS(2002)는 과학데이터는 전달, 해석 및 가공에 적합
하 도록 형식을 갖춘, 재해석이 가능한 정보의 표현
Consultative committee on Space Data Systems
Source : Cheng, Jinpei. 2006. Strategies for Preservation of and Open Access to Scientific Data in China: Summary of a Workshop
58오픈 사이언스와 빅데이터
과학 데이터 정의 및 사례
과학 데이터 정의
• 연구자의 연구 활동 과정 중 생성되는 다양한 유형의 사
실적 기록을 의미한다. 즉, 연구활동을 통하여 생산 된 연
구활동의 기록물로서 관측, 감시, 조사, 실험, 분석, 계산
등의 과정을 통하여 생산된 문자, 이미지, 오디오, 동영상
등의 아날로그 및 디지털 형식을 포괄하는 데이터
과학 데이터 사례
• 실험데이터, 통계데이터, 단백질 구조이미지, 생물의 표
본 자료, 천문학의 분광관측(spectral survey) 자료 등
Source: 김선태(2011), 「과학데이터 보존 및 활용모델에 관한 연구」
http://scholar.ndsl.kr/schArticleDetail.do?cn=JAKO201013351026193
59오픈 사이언스와 빅데이터
과학 데이터 유형
• 연구분야 및 연구방법, 관측장비, 실험장비, 분석방법 등
에 따라 다양
• 주로 수치정보, 공간정보, 도표정보, 문서 등의 형태
• 지구관측 및 환경 분야의 데이터는 주 로 관측데이터
로서 공간 및 수치정보와 이미지 정보
• 사회과학 분야의 데이터는 주로 설문조사를 통한 통계
데이터 형태
• 컴퓨터과학 분야 의 데이터는 주로 도표 또는 수치정
보
• 소량의 통계데이터 부터 가속기를 통해 매년 16
Petabytes씩 생산되는 대용량 미립자 충돌 데이터까지
규모와 형태 적인 측면에서 매우 다양한 특징
60오픈 사이언스와 빅데이터
과학 데이터 특징
• 데이터의 형식에 있어서 매우 다양하 다는 것이다. 위에서 언급되었듯이 과학데이터는 문서형 식을 취하
는 아날로그 정보형식에서 부터 컴퓨터 파일, 이미지 등의 다양한 디지털 정보 형식을 포괄하여 모
든 유형의 형식으로 존재
• 과학데이터는 특정한 현상을 설명하기 위하여 재가공이 가능하다는 것이다. 일반적으로 과학데이
터는 최종의 결과물을 추출하기 위 한 기초데
이터(Raw Data)로서 기능 수행. 따라서 연구자들은 연구행 위 및 활
동에 대한 최종 결과물을 생산하기 위하여 연구 과정에서 생산된 다양한 기초데이터를 활용
• 과학데이터는 자연과학, 공학 등의 분야뿐만이 아니라 사회과학 등에서 생산되는 다양한 통계데
이터 까지를 포괄
• 데이터 형식의 다양성으로 인하여 관리의 어려움이 존재한다는 것이다. 즉, 아날로 그 및 디지털 형식으로 존재함으로 해서
단순히 데이터 베이스에 저장하는 것이 아닌 체계화된 관리방법이 요구됨
Source: 김선태(2011), 「과학데이터 보존 및 활용모델에 관한 연구」
61오픈 사이언스와 빅데이터
Data Science
오픈 사이언스와 빅데이터 63
• 1960년 Peter Naur è ‘computer science’의 대체 용
어로 처음 사용. ‘datalogy’ 개념으로 사용
• 2015년 10월 현재 è 구조적 혹은 비구조적인 다양한 형
식의 방대한 데이터로부터 지식과 통찰력(insights)를 추
출하는 분야와 이의 행위를 돕는 시스템과 관련된 다양
한 분야
• 데이터 과학은 규모가 큰 빅 데이터에만 특화된 것이
아님. 빅 데이터를 처리하기 위한 방법론들은 데이터
과학의 특화된 분야 중 하나일 뿐
• 데이터 과학은 비즈니스 환경에서 폭발적으로 사용되
고 있지만 많은 학자와 저널리스트들은 ‘데이터 과학’
과 ‘통계학’의 차이점이 명확하지 않기 때문에 데이
터 과학이 부각되는 것을 비판Data science (출처: https://en.wikipedia.org/wiki/Data_science)
Data Science
64오픈 사이언스와 빅데이터
수학, 통계학
계량분석화학
정보 과학, 컴퓨터 과학
신호처리
가능성 모델
기계학습, 통계학습
데이터 마이닝
데이터베이스
데이터 엔지니어링
패턴 인식과 학습
가시화
미래분석
불확실성 모델링
데이터 웨어하우징
데이터 압축
컴퓨터 프로그래밍
인공 지능
고성능 컴퓨팅 …
농업
의료
마케팅 최적화
이상행위 감지
위기관리
마케팅 분석
공공 정책 …
기후 변화나 황사, 해
양 오염 등 범 지구적
문제 해결 노력
다양한 분야에서
문제점을 조사하고
의사결정을 지원하는데 사용
Data Science 활용
65오픈 사이언스와 빅데이터
Data Science 활용사례
• 기후 데이터의 경우, 과거에는 기후 분야를 연구하는 과학
자들이 주 사용
• 오늘날에는 물과 공공용지(public land), 건강, 해양 분야
등의 자원 관리자들이 그들의 의사결정과 연구를 위해 기
후 데이터 접근 요청
• 정책 수립 분야에서도 기후 변화 대응 전략을 수립하기 위
하여 데이터 접근 필요
• 기하급수적으로 발생하는 기후 데이터에 대한 물리적인
보존과 공유에 대한 이슈가 활발
출처: Overpeck, J. T., Meehl, G. A., Bony, S., and Easterling, D. R., “Climate Data Challenges in the 21st Century”, Science, Vol. 331, 2011.
66오픈 사이언스와 빅데이터
Data Scientists
Data Scientists
Data Scientists (NSF 2005, p27)
The information and computer
scientists, database and software
engineers and programmers,
disciplinary experts, curators and
expert annotators, librarians,
archivists, and others, who are
crucial to the successful
management of a digital data
collection
데이터 과학자
데이터 과학과 관련된 분야를 전공하고 데이터
분석과 관련된 업무에 종사하는 사람을 말한다.
즉 데이터 과학자는 현장에 존재하는 대량의 데
이터를 모으고, 분석에 적합한 형태로 가공하고,
데이터가 의미하는 바를 이야기(story)에 담아 다
른 사람에게 효과적으로 전달하는 역할을 한
다.(O’Reilly Media, 2012)
데이터 과학자
Business analyst VS. Data analyst
Research Scientist
Data Scientist
(Jeff Hammerbacher & DJ Patil / 2008년)
Experiences like my own suggest that the best way to become a data scientist
isn’t to be trained as a data scientist, but to do serious, data-intensive work in
some other discipline.
오픈 사이언스와 빅데이터 68
Data Scientists (2/3)
• September 2005 The National Science
Board publishes “Long-lived Digital Data
Collections: Enabling Research and Education
in the 21st Century.”
• The report defines data scientists as “the
information and computer scientists,
database and software engineers and
programmers, disciplinary experts, curators
and expert annotators, librarians, archivists,
and others, who are crucial to the successful
management of a digital data collection.”
69오픈 사이언스와 빅데이터
Data Scientists (3/3)
• Research Data Management
• Research Data Service by Data Scientists Team.
70오픈 사이언스와 빅데이터
EPILOGUE
출처: http://bit.ly/2oAMCGq
오픈 사이언스와 빅데이터 72
연구자가 원하는 콘텐트
계산과학공학센터 연구사업과 관련된 데이터는 어디?
오픈 사이언스와 빅데이터 73
What is
Datanest ?
Research Data
Repository
오픈 사이언스와 빅데이터 74
진정한 과학자
• 논문에 반드시 포함되어야 하는것 중 하나 : 선행연구
• 선행연구는 기존 연구방법 조사, 연구의 한계점 등을
기술하는 섹션
• 과학이라는 것은 기존 연구에서 제시한 규칙을 반박하
고 새로운 규칙을 제시하는 것
• 기존 규칙을 반박하기 위해서는 기존 연구와 동일한
환경에서 기존 연구결과의 검증이 필수
• 이상이 가능하기 위해서는 기존 연구에서 사용한 데이
터와 데이터를 둘러싼 컨텍스트 정보가 반드시 필요
• 진정 과학자라면 자신이 주장하는 규칙을 증명 혹은
반박할 수 있도록 데이터를 제공해야 함
• 이는 연구윤리 측면에서 솔찬히 중요함
오픈 사이언스와 빅데이터 75
출처: http://cfile27.uf.tistory.com/image/0254BA3751B9B27E1AF104
오픈 사이언스와 빅데이터 76
출처: http://bit.ly/2opTrc2
오픈 사이언스와 빅데이터 77
출처: http://bit.ly/2nGj2QR
오픈 사이언스와 빅데이터 78
출처: http://cfile8.uf.tistory.com/original/1139BB375111BA491DA57E
오픈 사이언스와 빅데이터 79
오픈 사이언스와 빅데이터 80
81오픈 사이언스와 빅데이터
참고문헌
• [1] 과학(위키) http://bit.ly/2oxe0oX
• [2] 과학이란 무엇인가 – 파인만 http://bit.ly/2nCsLrb
• [3] 국민이설계하는대학운동 :: 희망블로거 http://hopebloggers.tistory.com/1
• [4] 지식점프 http://bit.ly/2p6z8jR
• [5] 연세대학교 계산과학공학과 http://cse.yonsei.ac.kr/
• [6] Nancy Pontika; Petr Knoth; Matteo Cancellieri; Samuel Pearce (2015). "Fostering Open Science to Research
using a Taxonomy and an eLearning Portal". Retrieved 12 August 2015.
• [7] Gezelter, D. (2009). What, exactly, is Open Science? URL http://www.openscience.org/blog/?p=269
• [8] Stodden, V. (2009). Enabling Reproducible Research: Open Licensing for Scientific Innovation. International
Journal of Communications Law and Policy, vol.13, pp.1-25
• [9] Murray-Rust, P. (2008). Open Data in Science. Serials Review, vol.34, no.1, pp.52-64.
doi:10.1016/j.serrev.2008.01.001
• [10] Altenh†ren, R. Open Source Software - definition, licensing models and organizational consequences
(introduction). In Proceedings of the 71 IFLA General Conference and Council “Libraries – A voyage of
discovery” (Oslo, 2005) URL http://archive.ifla.org/IV/ifla71/papers/121e-Altenhoener.pdf
• [11] What is the Difference between Qualitative Research and Quantitative Research?
https://www.snapsurveys.com/blog/what-is-the-difference-between-qualitative-research-and-quantitative-
research/
• [12] What Is “Research Data”? http://www.bu.edu/datamanagement/background/whatisdata/
오픈 사이언스와 빅데이터 82
경청해 주셔서 고맙습니다.
Q & A
오픈 사이언스와 빅데이터 83

More Related Content

What's hot

과학을 과학답게 만드는 데이터 그리고 데이터 사이언티스트
과학을 과학답게 만드는 데이터 그리고 데이터 사이언티스트과학을 과학답게 만드는 데이터 그리고 데이터 사이언티스트
과학을 과학답게 만드는 데이터 그리고 데이터 사이언티스트Suntae Kim
 
연구데이터와 전문도서관
연구데이터와 전문도서관연구데이터와 전문도서관
연구데이터와 전문도서관Suntae Kim
 
연구 데이터와 DMP 대응 - CoreTrustSeal 분석-
연구 데이터와 DMP 대응 - CoreTrustSeal 분석-연구 데이터와 DMP 대응 - CoreTrustSeal 분석-
연구 데이터와 DMP 대응 - CoreTrustSeal 분석-Suntae Kim
 
연구패러다임 변화와-데이터-집중-과학 국립해양생물자원관
연구패러다임 변화와-데이터-집중-과학 국립해양생물자원관연구패러다임 변화와-데이터-집중-과학 국립해양생물자원관
연구패러다임 변화와-데이터-집중-과학 국립해양생물자원관Suntae Kim
 
학술데이터 공유 플랫폼_datanest_ccgs2015
학술데이터 공유 플랫폼_datanest_ccgs2015학술데이터 공유 플랫폼_datanest_ccgs2015
학술데이터 공유 플랫폼_datanest_ccgs2015Suntae Kim
 
과학데이터와연구소재
과학데이터와연구소재과학데이터와연구소재
과학데이터와연구소재Suntae Kim
 
2010 0603 이상호_과학데이터 아카이빙-이상호
2010 0603 이상호_과학데이터 아카이빙-이상호2010 0603 이상호_과학데이터 아카이빙-이상호
2010 0603 이상호_과학데이터 아카이빙-이상호glorykim
 
D bguide 데이터 기반 연구 패러다임(2회)_데이터 과학과 오픈 사이언스 운동
D bguide 데이터 기반 연구 패러다임(2회)_데이터 과학과 오픈 사이언스 운동D bguide 데이터 기반 연구 패러다임(2회)_데이터 과학과 오픈 사이언스 운동
D bguide 데이터 기반 연구 패러다임(2회)_데이터 과학과 오픈 사이언스 운동Suntae Kim
 
학술데이터 공유 플랫폼 - 김선태
학술데이터 공유 플랫폼 - 김선태학술데이터 공유 플랫폼 - 김선태
학술데이터 공유 플랫폼 - 김선태Creative Commons Korea
 
D bguide 데이터 기반 연구 패러다임(1회)_연구 패러다임 변화와 데이터 집중 과학
D bguide 데이터 기반 연구 패러다임(1회)_연구 패러다임 변화와 데이터 집중 과학D bguide 데이터 기반 연구 패러다임(1회)_연구 패러다임 변화와 데이터 집중 과학
D bguide 데이터 기반 연구 패러다임(1회)_연구 패러다임 변화와 데이터 집중 과학Suntae Kim
 
InCites 20180918
InCites 20180918InCites 20180918
InCites 20180918hswcau
 
빅데이터의 이해
빅데이터의 이해빅데이터의 이해
빅데이터의 이해수보 김
 
빅데이터 기술을 활용한 뉴스 큐레이션 서비스 - 온병원
빅데이터 기술을 활용한 뉴스 큐레이션 서비스 - 온병원빅데이터 기술을 활용한 뉴스 큐레이션 서비스 - 온병원
빅데이터 기술을 활용한 뉴스 큐레이션 서비스 - 온병원datasciencekorea
 
빅데이터 처리기술의 이해
빅데이터 처리기술의 이해빅데이터 처리기술의 이해
빅데이터 처리기술의 이해paul lee
 
iDBLab @KAIST 소개 20160317-업로드용(김태훈)
iDBLab @KAIST  소개 20160317-업로드용(김태훈)iDBLab @KAIST  소개 20160317-업로드용(김태훈)
iDBLab @KAIST 소개 20160317-업로드용(김태훈)Taehun Kim, Ph.D
 
20100407 박진호 d_lifecycle_kisti
20100407 박진호 d_lifecycle_kisti20100407 박진호 d_lifecycle_kisti
20100407 박진호 d_lifecycle_kistiglorykim
 
데이터에 포함된 동적 패턴의 탐색과 해석을 위한 협업적 탐험 플랫폼 -최진혁
데이터에 포함된 동적 패턴의 탐색과 해석을 위한 협업적 탐험 플랫폼 -최진혁데이터에 포함된 동적 패턴의 탐색과 해석을 위한 협업적 탐험 플랫폼 -최진혁
데이터에 포함된 동적 패턴의 탐색과 해석을 위한 협업적 탐험 플랫폼 -최진혁datasciencekorea
 
빅데이터 기본개념
빅데이터 기본개념빅데이터 기본개념
빅데이터 기본개념현주 유
 
iDBLab 연구실 소개 20150911-업로드용(김태훈)
iDBLab 연구실 소개 20150911-업로드용(김태훈)iDBLab 연구실 소개 20150911-업로드용(김태훈)
iDBLab 연구실 소개 20150911-업로드용(김태훈)Taehun Kim, Ph.D
 
빅데이터미래전략세미나발표자료 빅데이터기술현황및전망-황승구-20120410
빅데이터미래전략세미나발표자료 빅데이터기술현황및전망-황승구-20120410빅데이터미래전략세미나발표자료 빅데이터기술현황및전망-황승구-20120410
빅데이터미래전략세미나발표자료 빅데이터기술현황및전망-황승구-20120410Peter Woo
 

What's hot (20)

과학을 과학답게 만드는 데이터 그리고 데이터 사이언티스트
과학을 과학답게 만드는 데이터 그리고 데이터 사이언티스트과학을 과학답게 만드는 데이터 그리고 데이터 사이언티스트
과학을 과학답게 만드는 데이터 그리고 데이터 사이언티스트
 
연구데이터와 전문도서관
연구데이터와 전문도서관연구데이터와 전문도서관
연구데이터와 전문도서관
 
연구 데이터와 DMP 대응 - CoreTrustSeal 분석-
연구 데이터와 DMP 대응 - CoreTrustSeal 분석-연구 데이터와 DMP 대응 - CoreTrustSeal 분석-
연구 데이터와 DMP 대응 - CoreTrustSeal 분석-
 
연구패러다임 변화와-데이터-집중-과학 국립해양생물자원관
연구패러다임 변화와-데이터-집중-과학 국립해양생물자원관연구패러다임 변화와-데이터-집중-과학 국립해양생물자원관
연구패러다임 변화와-데이터-집중-과학 국립해양생물자원관
 
학술데이터 공유 플랫폼_datanest_ccgs2015
학술데이터 공유 플랫폼_datanest_ccgs2015학술데이터 공유 플랫폼_datanest_ccgs2015
학술데이터 공유 플랫폼_datanest_ccgs2015
 
과학데이터와연구소재
과학데이터와연구소재과학데이터와연구소재
과학데이터와연구소재
 
2010 0603 이상호_과학데이터 아카이빙-이상호
2010 0603 이상호_과학데이터 아카이빙-이상호2010 0603 이상호_과학데이터 아카이빙-이상호
2010 0603 이상호_과학데이터 아카이빙-이상호
 
D bguide 데이터 기반 연구 패러다임(2회)_데이터 과학과 오픈 사이언스 운동
D bguide 데이터 기반 연구 패러다임(2회)_데이터 과학과 오픈 사이언스 운동D bguide 데이터 기반 연구 패러다임(2회)_데이터 과학과 오픈 사이언스 운동
D bguide 데이터 기반 연구 패러다임(2회)_데이터 과학과 오픈 사이언스 운동
 
학술데이터 공유 플랫폼 - 김선태
학술데이터 공유 플랫폼 - 김선태학술데이터 공유 플랫폼 - 김선태
학술데이터 공유 플랫폼 - 김선태
 
D bguide 데이터 기반 연구 패러다임(1회)_연구 패러다임 변화와 데이터 집중 과학
D bguide 데이터 기반 연구 패러다임(1회)_연구 패러다임 변화와 데이터 집중 과학D bguide 데이터 기반 연구 패러다임(1회)_연구 패러다임 변화와 데이터 집중 과학
D bguide 데이터 기반 연구 패러다임(1회)_연구 패러다임 변화와 데이터 집중 과학
 
InCites 20180918
InCites 20180918InCites 20180918
InCites 20180918
 
빅데이터의 이해
빅데이터의 이해빅데이터의 이해
빅데이터의 이해
 
빅데이터 기술을 활용한 뉴스 큐레이션 서비스 - 온병원
빅데이터 기술을 활용한 뉴스 큐레이션 서비스 - 온병원빅데이터 기술을 활용한 뉴스 큐레이션 서비스 - 온병원
빅데이터 기술을 활용한 뉴스 큐레이션 서비스 - 온병원
 
빅데이터 처리기술의 이해
빅데이터 처리기술의 이해빅데이터 처리기술의 이해
빅데이터 처리기술의 이해
 
iDBLab @KAIST 소개 20160317-업로드용(김태훈)
iDBLab @KAIST  소개 20160317-업로드용(김태훈)iDBLab @KAIST  소개 20160317-업로드용(김태훈)
iDBLab @KAIST 소개 20160317-업로드용(김태훈)
 
20100407 박진호 d_lifecycle_kisti
20100407 박진호 d_lifecycle_kisti20100407 박진호 d_lifecycle_kisti
20100407 박진호 d_lifecycle_kisti
 
데이터에 포함된 동적 패턴의 탐색과 해석을 위한 협업적 탐험 플랫폼 -최진혁
데이터에 포함된 동적 패턴의 탐색과 해석을 위한 협업적 탐험 플랫폼 -최진혁데이터에 포함된 동적 패턴의 탐색과 해석을 위한 협업적 탐험 플랫폼 -최진혁
데이터에 포함된 동적 패턴의 탐색과 해석을 위한 협업적 탐험 플랫폼 -최진혁
 
빅데이터 기본개념
빅데이터 기본개념빅데이터 기본개념
빅데이터 기본개념
 
iDBLab 연구실 소개 20150911-업로드용(김태훈)
iDBLab 연구실 소개 20150911-업로드용(김태훈)iDBLab 연구실 소개 20150911-업로드용(김태훈)
iDBLab 연구실 소개 20150911-업로드용(김태훈)
 
빅데이터미래전략세미나발표자료 빅데이터기술현황및전망-황승구-20120410
빅데이터미래전략세미나발표자료 빅데이터기술현황및전망-황승구-20120410빅데이터미래전략세미나발표자료 빅데이터기술현황및전망-황승구-20120410
빅데이터미래전략세미나발표자료 빅데이터기술현황및전망-황승구-20120410
 

Similar to 오픈사이언스와 연구데이터

과학데이터와연구소재
과학데이터와연구소재과학데이터와연구소재
과학데이터와연구소재Suntae Kim
 
연구업적 데이터베이스를 활용한 빅데이터 분석시스템 (16 sep2014)
연구업적 데이터베이스를 활용한 빅데이터 분석시스템 (16 sep2014)연구업적 데이터베이스를 활용한 빅데이터 분석시스템 (16 sep2014)
연구업적 데이터베이스를 활용한 빅데이터 분석시스템 (16 sep2014)Han Woo PARK
 
웹보메트릭스와 계량정보학14 2
웹보메트릭스와 계량정보학14 2웹보메트릭스와 계량정보학14 2
웹보메트릭스와 계량정보학14 2Han Woo PARK
 
빅데이터전문가교육 2학기
빅데이터전문가교육 2학기빅데이터전문가교육 2학기
빅데이터전문가교육 2학기Kangwook Lee
 
데이터 노마디즘_4차 산업혁명 시대 인문학을 위한 다언어 다문화 데이터 아카이브 플랫폼 구상_20201101_new_수정완료.pdf
데이터 노마디즘_4차 산업혁명 시대 인문학을 위한 다언어 다문화 데이터 아카이브 플랫폼 구상_20201101_new_수정완료.pdf데이터 노마디즘_4차 산업혁명 시대 인문학을 위한 다언어 다문화 데이터 아카이브 플랫폼 구상_20201101_new_수정완료.pdf
데이터 노마디즘_4차 산업혁명 시대 인문학을 위한 다언어 다문화 데이터 아카이브 플랫폼 구상_20201101_new_수정완료.pdfAlexanderPark28
 
About cerebro scholar
About cerebro scholarAbout cerebro scholar
About cerebro scholarJungeunKim49
 
10.e 사이언스시대의인문사회학연구하기(박한우)
10.e 사이언스시대의인문사회학연구하기(박한우)10.e 사이언스시대의인문사회학연구하기(박한우)
10.e 사이언스시대의인문사회학연구하기(박한우)Han Woo PARK
 
E-사이언스시대의 인문사회학 연구하기(박한우)
E-사이언스시대의 인문사회학 연구하기(박한우)E-사이언스시대의 인문사회학 연구하기(박한우)
E-사이언스시대의 인문사회학 연구하기(박한우)Han Woo PARK
 
데이터과학의 정의와 대표과제 도출
데이터과학의 정의와 대표과제 도출데이터과학의 정의와 대표과제 도출
데이터과학의 정의와 대표과제 도출SRCDSC
 
세계 오픈액세스 주간 행사 소개 및 글로벌 동향 - 신하영
세계 오픈액세스 주간 행사 소개 및 글로벌 동향  - 신하영 세계 오픈액세스 주간 행사 소개 및 글로벌 동향  - 신하영
세계 오픈액세스 주간 행사 소개 및 글로벌 동향 - 신하영 Creative Commons Korea
 
Triple helix 연구소개와-아시아_트리플헬릭스_학회설립_추진현황_자료
Triple helix 연구소개와-아시아_트리플헬릭스_학회설립_추진현황_자료Triple helix 연구소개와-아시아_트리플헬릭스_학회설립_추진현황_자료
Triple helix 연구소개와-아시아_트리플헬릭스_학회설립_추진현황_자료Han Woo PARK
 
Src10대 과제 - 1. 총괄파트
Src10대 과제 - 1. 총괄파트Src10대 과제 - 1. 총괄파트
Src10대 과제 - 1. 총괄파트SRCDSC
 
세계 오픈액세스 주간 & 글로벌 OA 동향
세계 오픈액세스 주간 & 글로벌 OA 동향세계 오픈액세스 주간 & 글로벌 OA 동향
세계 오픈액세스 주간 & 글로벌 OA 동향Stella Hayoung Shin
 
Disc 2015 보도자료 (휴대폰번호 삭제-수정)
Disc 2015 보도자료 (휴대폰번호 삭제-수정)Disc 2015 보도자료 (휴대폰번호 삭제-수정)
Disc 2015 보도자료 (휴대폰번호 삭제-수정)Han Woo PARK
 
국내 학술도서관과 오픈액세스 사례 - 임석종
국내 학술도서관과 오픈액세스 사례  - 임석종국내 학술도서관과 오픈액세스 사례  - 임석종
국내 학술도서관과 오픈액세스 사례 - 임석종Creative Commons Korea
 
Open Science - 열린 학술 저작, 공유 생태계
Open Science - 열린 학술 저작, 공유 생태계Open Science - 열린 학술 저작, 공유 생태계
Open Science - 열린 학술 저작, 공유 생태계Hansung University
 
융합사회의 정보분석의 매커니즘과 사례(11aug2010)sm
융합사회의 정보분석의 매커니즘과 사례(11aug2010)sm융합사회의 정보분석의 매커니즘과 사례(11aug2010)sm
융합사회의 정보분석의 매커니즘과 사례(11aug2010)smHan Woo PARK
 
웹보메트릭스와 계량정보학02 1
웹보메트릭스와 계량정보학02 1웹보메트릭스와 계량정보학02 1
웹보메트릭스와 계량정보학02 1Han Woo PARK
 
[IRU2016]CLASS02_SCIENTIFIC RESEARCH
[IRU2016]CLASS02_SCIENTIFIC RESEARCH[IRU2016]CLASS02_SCIENTIFIC RESEARCH
[IRU2016]CLASS02_SCIENTIFIC RESEARCHJY LEE
 
시카고 Array of Things 프로젝트 리뷰
시카고 Array of Things 프로젝트 리뷰시카고 Array of Things 프로젝트 리뷰
시카고 Array of Things 프로젝트 리뷰Kyuho Kim
 

Similar to 오픈사이언스와 연구데이터 (20)

과학데이터와연구소재
과학데이터와연구소재과학데이터와연구소재
과학데이터와연구소재
 
연구업적 데이터베이스를 활용한 빅데이터 분석시스템 (16 sep2014)
연구업적 데이터베이스를 활용한 빅데이터 분석시스템 (16 sep2014)연구업적 데이터베이스를 활용한 빅데이터 분석시스템 (16 sep2014)
연구업적 데이터베이스를 활용한 빅데이터 분석시스템 (16 sep2014)
 
웹보메트릭스와 계량정보학14 2
웹보메트릭스와 계량정보학14 2웹보메트릭스와 계량정보학14 2
웹보메트릭스와 계량정보학14 2
 
빅데이터전문가교육 2학기
빅데이터전문가교육 2학기빅데이터전문가교육 2학기
빅데이터전문가교육 2학기
 
데이터 노마디즘_4차 산업혁명 시대 인문학을 위한 다언어 다문화 데이터 아카이브 플랫폼 구상_20201101_new_수정완료.pdf
데이터 노마디즘_4차 산업혁명 시대 인문학을 위한 다언어 다문화 데이터 아카이브 플랫폼 구상_20201101_new_수정완료.pdf데이터 노마디즘_4차 산업혁명 시대 인문학을 위한 다언어 다문화 데이터 아카이브 플랫폼 구상_20201101_new_수정완료.pdf
데이터 노마디즘_4차 산업혁명 시대 인문학을 위한 다언어 다문화 데이터 아카이브 플랫폼 구상_20201101_new_수정완료.pdf
 
About cerebro scholar
About cerebro scholarAbout cerebro scholar
About cerebro scholar
 
10.e 사이언스시대의인문사회학연구하기(박한우)
10.e 사이언스시대의인문사회학연구하기(박한우)10.e 사이언스시대의인문사회학연구하기(박한우)
10.e 사이언스시대의인문사회학연구하기(박한우)
 
E-사이언스시대의 인문사회학 연구하기(박한우)
E-사이언스시대의 인문사회학 연구하기(박한우)E-사이언스시대의 인문사회학 연구하기(박한우)
E-사이언스시대의 인문사회학 연구하기(박한우)
 
데이터과학의 정의와 대표과제 도출
데이터과학의 정의와 대표과제 도출데이터과학의 정의와 대표과제 도출
데이터과학의 정의와 대표과제 도출
 
세계 오픈액세스 주간 행사 소개 및 글로벌 동향 - 신하영
세계 오픈액세스 주간 행사 소개 및 글로벌 동향  - 신하영 세계 오픈액세스 주간 행사 소개 및 글로벌 동향  - 신하영
세계 오픈액세스 주간 행사 소개 및 글로벌 동향 - 신하영
 
Triple helix 연구소개와-아시아_트리플헬릭스_학회설립_추진현황_자료
Triple helix 연구소개와-아시아_트리플헬릭스_학회설립_추진현황_자료Triple helix 연구소개와-아시아_트리플헬릭스_학회설립_추진현황_자료
Triple helix 연구소개와-아시아_트리플헬릭스_학회설립_추진현황_자료
 
Src10대 과제 - 1. 총괄파트
Src10대 과제 - 1. 총괄파트Src10대 과제 - 1. 총괄파트
Src10대 과제 - 1. 총괄파트
 
세계 오픈액세스 주간 & 글로벌 OA 동향
세계 오픈액세스 주간 & 글로벌 OA 동향세계 오픈액세스 주간 & 글로벌 OA 동향
세계 오픈액세스 주간 & 글로벌 OA 동향
 
Disc 2015 보도자료 (휴대폰번호 삭제-수정)
Disc 2015 보도자료 (휴대폰번호 삭제-수정)Disc 2015 보도자료 (휴대폰번호 삭제-수정)
Disc 2015 보도자료 (휴대폰번호 삭제-수정)
 
국내 학술도서관과 오픈액세스 사례 - 임석종
국내 학술도서관과 오픈액세스 사례  - 임석종국내 학술도서관과 오픈액세스 사례  - 임석종
국내 학술도서관과 오픈액세스 사례 - 임석종
 
Open Science - 열린 학술 저작, 공유 생태계
Open Science - 열린 학술 저작, 공유 생태계Open Science - 열린 학술 저작, 공유 생태계
Open Science - 열린 학술 저작, 공유 생태계
 
융합사회의 정보분석의 매커니즘과 사례(11aug2010)sm
융합사회의 정보분석의 매커니즘과 사례(11aug2010)sm융합사회의 정보분석의 매커니즘과 사례(11aug2010)sm
융합사회의 정보분석의 매커니즘과 사례(11aug2010)sm
 
웹보메트릭스와 계량정보학02 1
웹보메트릭스와 계량정보학02 1웹보메트릭스와 계량정보학02 1
웹보메트릭스와 계량정보학02 1
 
[IRU2016]CLASS02_SCIENTIFIC RESEARCH
[IRU2016]CLASS02_SCIENTIFIC RESEARCH[IRU2016]CLASS02_SCIENTIFIC RESEARCH
[IRU2016]CLASS02_SCIENTIFIC RESEARCH
 
시카고 Array of Things 프로젝트 리뷰
시카고 Array of Things 프로젝트 리뷰시카고 Array of Things 프로젝트 리뷰
시카고 Array of Things 프로젝트 리뷰
 

More from Suntae Kim

Information retrieval by_suntae_kim
Information retrieval by_suntae_kimInformation retrieval by_suntae_kim
Information retrieval by_suntae_kimSuntae Kim
 
연구 데이터 관리를 위한 메타데이터
연구 데이터 관리를 위한 메타데이터연구 데이터 관리를 위한 메타데이터
연구 데이터 관리를 위한 메타데이터Suntae Kim
 
과학과 비과학 이야기: 너 그거 아니?
과학과 비과학 이야기: 너 그거 아니? 과학과 비과학 이야기: 너 그거 아니?
과학과 비과학 이야기: 너 그거 아니? Suntae Kim
 
빅데이터의 다른 이야기 : Another Story about Big Data
빅데이터의 다른 이야기 : Another Story about Big Data빅데이터의 다른 이야기 : Another Story about Big Data
빅데이터의 다른 이야기 : Another Story about Big DataSuntae Kim
 
What's the real big data in ksla domain
What's the real big data in ksla domainWhat's the real big data in ksla domain
What's the real big data in ksla domainSuntae Kim
 
의과학지식의 공유플랫폼 P cube
의과학지식의 공유플랫폼 P cube의과학지식의 공유플랫폼 P cube
의과학지식의 공유플랫폼 P cubeSuntae Kim
 
4세대 r&d 패러다임과 도서관 서비스
4세대 r&d 패러다임과 도서관 서비스4세대 r&d 패러다임과 도서관 서비스
4세대 r&d 패러다임과 도서관 서비스Suntae Kim
 
기획 Kisti tdr(20100315,03,김선태)
기획 Kisti tdr(20100315,03,김선태)기획 Kisti tdr(20100315,03,김선태)
기획 Kisti tdr(20100315,03,김선태)Suntae Kim
 

More from Suntae Kim (9)

Information retrieval by_suntae_kim
Information retrieval by_suntae_kimInformation retrieval by_suntae_kim
Information retrieval by_suntae_kim
 
연구 데이터 관리를 위한 메타데이터
연구 데이터 관리를 위한 메타데이터연구 데이터 관리를 위한 메타데이터
연구 데이터 관리를 위한 메타데이터
 
과학과 비과학 이야기: 너 그거 아니?
과학과 비과학 이야기: 너 그거 아니? 과학과 비과학 이야기: 너 그거 아니?
과학과 비과학 이야기: 너 그거 아니?
 
빅데이터의 다른 이야기 : Another Story about Big Data
빅데이터의 다른 이야기 : Another Story about Big Data빅데이터의 다른 이야기 : Another Story about Big Data
빅데이터의 다른 이야기 : Another Story about Big Data
 
What's the real big data in ksla domain
What's the real big data in ksla domainWhat's the real big data in ksla domain
What's the real big data in ksla domain
 
Inside p cube
Inside p cubeInside p cube
Inside p cube
 
의과학지식의 공유플랫폼 P cube
의과학지식의 공유플랫폼 P cube의과학지식의 공유플랫폼 P cube
의과학지식의 공유플랫폼 P cube
 
4세대 r&d 패러다임과 도서관 서비스
4세대 r&d 패러다임과 도서관 서비스4세대 r&d 패러다임과 도서관 서비스
4세대 r&d 패러다임과 도서관 서비스
 
기획 Kisti tdr(20100315,03,김선태)
기획 Kisti tdr(20100315,03,김선태)기획 Kisti tdr(20100315,03,김선태)
기획 Kisti tdr(20100315,03,김선태)
 

오픈사이언스와 연구데이터

  • 1. 오픈 사이언스와 연구데이터 2017. 4. 13 과학데이터전략연구실 김선태
  • 3. 목 차 • 과학 • 오픈 사이언스 • 빅데이터 • 연구 데이터 • 과학 데이터 • 데이터 과학 • 데이터 과학자 오픈 사이언스와 빅데이터 3
  • 5. Data 구분 Source : https://en.wikipedia.org/wiki/Data Observational data captured in real- time, usually irreplaceable. For example, sensor data, survey data, sample data, neurological images. Experimental data from lab equipment, often reproducible, but can be expensive. For example, gene sequences, chromatograms, toroid magnetic field data. Simulation data generated from test models where model and metadata are more important than output data. For example, climate models, economic models. Derived or compiled data is reproducible but expensive. For example, text and data mining, compiled database, 3D models. Reference or canonical a (static or organic) conglomeration or collection of smaller (peer-reviewed) datasets, most probably published and curated. For example, gene sequence databanks, chemical structures, or spatial data portals. Source : http://www.bu.edu/datamanagement/background/whatisdata/ Raw Data (Unprocessed Data) Processed Data Result Data Scientific Data ⊂ Research Data Qualitative Data Quantitative Data First Engilish use - 1640s "transmittable and storable computer information“ – 1946 "data processing“ - 1954 데이터 처리 단계, 데이터 도메인, 데이터 생산 방식에 의한 데이터 구분 5오픈 사이언스와 빅데이터
  • 8. 출처: http://bit.ly/2opPVOR 출처: http://bit.ly/2o7rG6N • 그 수를 헤아릴 수 없고 • 번식력이 빠르고 • 그 형태가 다양하고 오픈 사이언스와 빅데이터 8
  • 9. Data science (출처: https://en.wikipedia.org/wiki/Data_science) 9오픈 사이언스와 빅데이터
  • 10. 오픈 사이언스와 빅데이터 10 출처: http://bit.ly/2o7HXc6 출처: http://bit.ly/2nGp83v
  • 13. 과학(科學, Science) • 禾 + 斗 = 科 • 보편적 진리나 법칙의 발견을 목적으로 그 원리를 연구하여 하나의 체계를 세우는 학 문 • 대상 영역에 따라: 자연과학(좁은의미), 사회 과학, 인문과학, 형식 과학(수학,논리학 포 함), 인문과학(철학포함) • 순수과학, 응용과학 오픈 사이언스와 빅데이터 13
  • 14. 과학의 분류 • 자연과학: 인간에 의해 나타나지 않은 모든 자연 현상 연구 • 사회과학: 인간들의 행동과 그들이 이루는 사회를 과학적인 방 법으로 연구 • 인문과학: 인간과 인간의 문화에 관심을 갖거나 인간의 가치와 인간만이 지닌 자기 표현 능력을 바르게 이해하기 위한 과학 적인 연구 • 순수과학: 자연을 탐구하여 그것의 작동 원리를 체계화시키는 연구 • 응용과학: 순수과학 연구의 결과를 통해 인류의 필요를 충족시 키려는 연구 [1] 오픈 사이언스와 빅데이터 14
  • 15. 과학의 3가지 분류 출처: http://bit.ly/2oxchju 1. 새로운 사실을 이끌어 낼 수 있는 방법론과 그때의 사고 흐름 2. 관찰을 바탕으로 특정 규칙을 끄집어내는 것 3. 그 규칙을 바탕으로 새로운 기술을 발명하는 것 [2] 규칙이란 끊임없는 의심과 반박을 당하고 다시 설명되어야 할 사실에 불과 (과학의 불확실성) 좋은 규칙과 더 좋은 규칙 명확하고 정밀한 규칙일수록 반박당 하기 쉬움 (지구,태양 109배) 오픈 사이언스와 빅데이터 15
  • 16. 과학의 특징 출처: http://bit.ly/2p3YC4d 규칙의 예외 발견 >> 반박 [2] 예외 발생 시 규칙은 더욱 간단해짐 ex. 케플러가 행성이 타원으로 돈다고 주장 sw개발 오픈 사이언스와 빅데이터 16
  • 17. OPEN
  • 19. Why Open (1/2) • 정보격차의 해소 • 순수한 지식의 공유 (교육분야) • 에코시스템 (기업입장) • 경영의 패러다임이 바뀔 정도로 기업의 생존과도 연결이 되는 이슈(업계) • 오픈을 하면 좋고 하지 않으면 나쁘다, 즉 개방자 체가 윤리적판단의 기준이 되고 있기 때문에, 기 업의 입장에서는 open is power ! 오픈이 기업이 할 수 있는 선택의 결과로서 판단이 되는 것은 곤란 • open이 또 하나의 이데올로기가 될 수 있다는 새로 운 시각 [3] 오픈 사이언스와 빅데이터 19
  • 20. Why Open (2/2) • '세바시'의 구범준PD : '별자리'. 눈에 띄지 않는 별들도 우리에게 밝은 빛을 송출하고 있으며 이들을 보이게 하려면 별자리를 만들면 되고 그러기 위한 필요충분조건은 open이라고 생각했던 것이다. CBS 는 보이지 않는 별, 이므로. (1) 사원들을 이것을 교육해라 (2) 지식복지에 대한 스폰서 요청 • KT : 아이디어팝/ IT CEO포럼/ 특허양도/ 등 open을 하고 있는 사례 들이 있고, 이와 비슷한 것들을 이미 대기업이 하고는 있지만, 넘어 야할 장애물이 있다고 한다.그것은 바로 NIH신드롬(Not Invented Here: 외부의 아이디어나 지식 ,기술을 거부)과 NST(Not Sold There: 내부 아 이디어를 사외에서 사업화하는 것을 거부) [3] • 언즉행, 언즉필, 언즉손[4] 오픈 사이언스와 빅데이터 20
  • 23. Open Science Taxonomy 오픈 사이언스와 빅데이터 23
  • 24. Open Science principles 24 (그림출처: https://en.wikipedia.org/wiki/Open_science) 오픈 사이언스와 빅데이터
  • 25. OS 핵심 컴포넌트 • Open Access • Open Source • Open Data • Open Reproducible Research 오픈 사이언스와 빅데이터 25
  • 26. OS 핵심 요소 (1/4) Open access • refers to online, peer-reviewed scholarly outputs, which are free to read, with limited or no copyright and licensing restrictions. • 동료평가된 연구결과물을 저작권이나 라이선스 제한 없이 자유롭게 이용 하는 Open Access • The first official recognition of open access dates back to 2002, when the Budapest Open Access Initiative defined open access not only as a term, but also as a strategy that could induce an increase in the amount of free of cost, accessible and reusable research outputs. • 학술지 구독료 절감. 재사용 가능한 연구결과물에 대한 접근 허용 • Since then, the open scholarly communications agenda has grown and currently more terms are embedded in it such as open data, open source and open reproducible research. [6] 26오픈 사이언스와 빅데이터
  • 27. OS 핵심 요소 (2/4) Open data • deals with the online publication of the research data gathered during a research project and made available for access and re-use. [9] 27 주요 선진국은 공공자금이 투입된 연구 결과물의 체계적인 관리와 재사용을 보장하기 위해서 연구 데이터(research data) 관리 이러한 저변 노력이 오픈 데이터와 오픈 사이언스 운동을 활성화 시킬 것 오픈 사이언스와 빅데이터
  • 28. OS 핵심 요소 (3/4) Open source means software that • can be accessed online for free, – with a source code license • that allows its use, • creation of derivatives and • distribution. [10] 28오픈 사이언스와 빅데이터
  • 29. OS 핵심 요소 (4/4) • Open reproducible research is the act of practicing OS to enable the independent reproducibility of the research results. [8] 계산과학공학을 위해, 꼭 필요한 것은 무엇입니까? 공학, 의료영상, 자연과학 및 산업분야에서 제기되는 문제를 수리모델링-시뮬레이션-시각화과정을 통하여 예측/분석, 사용자에게 효율적인 프로그램 개발, 산업화에 이르기까지 다단계 연구를 종합적으로 수행 [5] 29오픈 사이언스와 빅데이터
  • 30. OS 요소들의 원칙과 동향 OS shares the same underlying principles: • transparency, • universal accessibility and • reusability of the scientific information disseminated via online tools [7] 계산과학공학 관련 데이터로의 접근을 어떻게 제공할 것인가? The fact that OS is inclusive of these four terms demonstrates a universal trend that • calls for a shift in the researchers’behaviour towards open content and for the adoption of a wide range of open practices and strategies that relate to the whole research life cycle. [6] 30오픈 사이언스와 빅데이터
  • 31. OS 효과 OS allows • the reproduction of the research findings, • enables transparency in the research methodology, • increases the researcher's societal impact and • saves money and time both for researchers and research institutions. [6] 31오픈 사이언스와 빅데이터
  • 32. OS 사례 (1/3) • 운영주체 : Center for Open Science (COS) 개발, 유지 • 예산지원 : federal agencies, private foundations, and commercial entities • 저장공간 : 개인 연구자별 5GB 제공 • Project >> components >> files • 컴포넌트 = sub-project • 컴포넌트 자체의 privacy and sharing settings • 컴포넌트 인용을 위한 식별자 • 컴포넌트 위키 및 add-ons • 프로젝트 등록 없이 컴포넌트 등록 가능 32오픈 사이언스와 빅데이터
  • 33. OS 사례 (2/3) Identifiers: DOI 10.17605/OSF.IO/RKFQ4 | ARK c7605/osf.io/rkfq4 Source: https://osf.io/rkfq4/ 33오픈 사이언스와 빅데이터
  • 35. 계산과학공학과 OS OS is a relatively new and complex concept and its adoption will require a shift in the researchers' behaviour regarding the conduction of research and information sharing and will demand the adoption of new practices. • 연구 수행과 정보공유에 있어 SHIFT • 새로운 실천 필요 Many researchers are today not aware of all the components that comprise OS and have not been trained to practise OS. [6] 무엇을 훈련시킬 것인가? 누가 훈련 시킬 것인가? 35오픈 사이언스와 빅데이터
  • 40. 측우기 기록과 빅데이터 오픈 사이언스와 빅데이터 40
  • 41. February 2001 Doug Laney, an analyst with the Meta Group, publishes a research note titled “3D Data Management: Controlling Data Volume, Velocity, and Variety.” A decade later, the “3Vs” have become the generally-accepted three defining dimensions of big data, although the term itself does not appear in Laney’s note. (출처: Gil Press. 2013. A Very Short History Of Big Data) 오픈 사이언스와 빅데이터 41
  • 43. 빅데이터는 어떻게 만들어 지는가? (1/5) 오픈 사이언스와 빅데이터 43
  • 44. 빅데이터는 어떻게 만들어 지는가? (2/5) 오픈 사이언스와 빅데이터 44
  • 45. 빅데이터는 어떻게 만들어 지는가? (3/5) 오픈 사이언스와 빅데이터 45
  • 46. 빅데이터는 어떻게 만들어 지는가? (4/5) 오픈 사이언스와 빅데이터 46 거대강입자가속기(LHC) 제임스 웹 망원경 미국 중력파 검출장치 ‘LIGO’
  • 47. 빅데이터는 어떻게 만들어 지는가? (5/5) 오픈 사이언스와 빅데이터 47
  • 48. 빅데이터 유래 • 이미 우리는 약 70년 전부터 “정보 폭발 (a term first used in 1941, according to the Oxford English Dictionary)” 이란 용어 사용 • October 1997 Michael Cox and David Ellsworth publish “Application-controlled demand paging for out-of-core visualization” in the Proceedings of the IEEE 8th conference on Visualization. They start the article with “Visualization provides an interesting challenge for computer systems: data sets are generally quite large, taxing the capacities of main memory, local disk, and even remote disk. We call this the problem of big data. It is the first article in the ACM digital library to use the term “big data.” • November 2000 Francis X. Diebold presents to the Eighth World Congress of the Econometric Society a paper titled • “Big Data Dynamic Factor Models for Macroeconomic Measurement and Forecasting” in which he states “Recently, much good science, whether physical, biological, or social, has been forced to confront—and has often benefited from—the “Big Data” phenomenon. They also that in 1986, 99.2% of all storage capacity was analog, but in 2007, 94% of storage capacity was digital, a complete reversal of roles (in 2002, digital information storage surpassed non-digital for the first time). • February 2010 Kenneth Cukier “Data, data everywhere.” “…the world contains an unimaginably vast amount of digital information which is getting ever vaster more rapidly… The effect is being felt everywhere, from business to science, from governments to the arts. Scientists and computer engineers have coined a new term for the phenomenon: ‘big data.’” 오픈 사이언스와 빅데이터 48
  • 49. Big Data vs. Difficult Data 오픈 사이언스와 빅데이터 49
  • 50. Big Data, Research Data 50 연구가 시작되어 연구가 끝날 때 까지 생산되는 모든 데이터 오픈 사이언스와 빅데이터
  • 54. 연구 데이터 정의 (1/2) Datacite.org • Research Content = Research Objects, Research Data ⊂ Research Objects • Research Objects ∃ Workflows, Research Data ∄ Workflows • Research Objects ∃ Standards, Research Data ∄ Standards • Research Data ∃ Dataset Queensland univ • { facts, observations, images, computer program results, recordings, measurements, experiences } ⊂ Research Data from Queensland univ. Melbourne univ • { facts, observations or experiences, laboratory notebooks; field notebooks; primary research data (including research data in hardcopy or in computer readable form); questionnaires; audiotapes; videotapes; models; photographs; films; test responses } ⊂ Research data from Melbourne univ. • { slides; artefacts; specimens; samples } ⊂ Research collections from Melbourne univ. • {electronic mail as well as paper-based correspondence); project files; grant applications; ethics applications; authorship agreements; technical reports; research reports; laboratory notebooks or research journals; master lists; signed consent forms; and information sheets for research participants } ⊂ Research records from Melbourne univ. Griffith Univ. • 설문조사, 녹음 자료는 연구 데이터 인가? • primary materials’ vs ‘research data’ Observational Experimental Simulation Derived or compiled Reference or canonical Source : http://www.bu.edu/datamanage ment/background/whatisdata/ 54오픈 사이언스와 빅데이터
  • 55. 연구 데이터 정의 (2/2) • administrative data Administrative data consists of records of payrolls, student enrolments, research assessment, and so on. Some administrative data relates to research projects and may need to be treated as research data. However, for the most part it is treated independently within the institution in terms of data management policies, procedures and strategies. • teaching data Teaching data comprises courseware and other resources which are part of the teaching function of a university. Again, this may be of interest to a research project, but it is usually managed independently. • research publications Research publications can be regarded as data, but for the most part these are well taken care of outside the institution, by publishers and the like. Even when held within the institution, either on open access or for research reporting purposes, these tend to be managed separately from other research data. Source : http://www.bu.edu/datamanagement/background/whatisdata/ 55오픈 사이언스와 빅데이터
  • 56. 연구 데이터 사례 • Text or Word documents, spreadsheets • Laboratory notebooks, field notebooks, diaries • Questionnaires, transcripts, codebooks • Audiotapes, videotapes • Photographs, films • Test responses • Slides, artifacts, specimens, samples • Collection of digital objects acquired and generated during the process of research • Data files • Database contents including video, audio, text, images • Models, algorithms, scripts • Contents of an application such as input, output, log files for analysis software, simulation software, schemas • Methodologies and workflows • Standard operating procedures and protocols [12] Primary Data Secondary Data Processed Data Research Records Source : http://www.bu.edu/datamanage ment/background/whatisdata/ Research Records : Correspondence including electronic mail and paper-based correspondence / Project files / Grant applications / Ethics applications / Technical reports / Research reports / Master lists Signed consent forms 56오픈 사이언스와 빅데이터
  • 57. 연구 데이터, 공공 데이터, 과학 데이터 • Factual records, which may take the form of numbers, symbols, text, images or sounds, used as primary sources for research, and that are commonly accepted in the research community as necessary to validate research findings. Source : http://www.ands.org.au/guides/what-is-research-data • Another way of approaching a definition of research data is to ask the question 'what needs to be kept to validate the results of research?' This may provide a different response, and allows the researcher, rather than the institution, to focus what needs to be kept in case research findings are questioned. Source : http://www.bu.edu/datamanagement/background/whatisdata/ 연구 데이터 • Factual records used for validating research findings • 연구 과정에서 수집, 생산된 데이터 • 연구 내용 검증에 사용될 수 있는 데이터 (Validating research findings) • 연구 내용 재현에 꼭 필요한 데이터 (Reproducible science) 공공 데이터 • 공공재원을 사용하여 수행된 연구 및 조사 활동을 통해 수집, 생산된 데이터 과학 데이터 • 과학 활동을 통해 수집, 생산 된 데이터로서 공공재원으로 진행된 연구를 통해 생산된 데이터는 공공 데 이터로 분류할 수 있음 57오픈 사이언스와 빅데이터
  • 58. 과학 데이터 정의 • Cheng(2006)은 과학데이터는 과학기술 활동의 결과로서 관측(Observation), 감시(Monitoring), 조사(Investigation), 실 험(Experiment), 연구 분석(Research Analysis), 계산 (Computation) 등의 활동을 통해 생성된 데이터 • OECD(2006)의 경우, 데이터는 과학 연구수행을 위한 주요 한 원천으로 사용하는 사실적인 기록(숫 자, 문자정보, 이 미지 및 소리)으로 정의 • CCSDS(2002)는 과학데이터는 전달, 해석 및 가공에 적합 하 도록 형식을 갖춘, 재해석이 가능한 정보의 표현 Consultative committee on Space Data Systems Source : Cheng, Jinpei. 2006. Strategies for Preservation of and Open Access to Scientific Data in China: Summary of a Workshop 58오픈 사이언스와 빅데이터
  • 59. 과학 데이터 정의 및 사례 과학 데이터 정의 • 연구자의 연구 활동 과정 중 생성되는 다양한 유형의 사 실적 기록을 의미한다. 즉, 연구활동을 통하여 생산 된 연 구활동의 기록물로서 관측, 감시, 조사, 실험, 분석, 계산 등의 과정을 통하여 생산된 문자, 이미지, 오디오, 동영상 등의 아날로그 및 디지털 형식을 포괄하는 데이터 과학 데이터 사례 • 실험데이터, 통계데이터, 단백질 구조이미지, 생물의 표 본 자료, 천문학의 분광관측(spectral survey) 자료 등 Source: 김선태(2011), 「과학데이터 보존 및 활용모델에 관한 연구」 http://scholar.ndsl.kr/schArticleDetail.do?cn=JAKO201013351026193 59오픈 사이언스와 빅데이터
  • 60. 과학 데이터 유형 • 연구분야 및 연구방법, 관측장비, 실험장비, 분석방법 등 에 따라 다양 • 주로 수치정보, 공간정보, 도표정보, 문서 등의 형태 • 지구관측 및 환경 분야의 데이터는 주 로 관측데이터 로서 공간 및 수치정보와 이미지 정보 • 사회과학 분야의 데이터는 주로 설문조사를 통한 통계 데이터 형태 • 컴퓨터과학 분야 의 데이터는 주로 도표 또는 수치정 보 • 소량의 통계데이터 부터 가속기를 통해 매년 16 Petabytes씩 생산되는 대용량 미립자 충돌 데이터까지 규모와 형태 적인 측면에서 매우 다양한 특징 60오픈 사이언스와 빅데이터
  • 61. 과학 데이터 특징 • 데이터의 형식에 있어서 매우 다양하 다는 것이다. 위에서 언급되었듯이 과학데이터는 문서형 식을 취하 는 아날로그 정보형식에서 부터 컴퓨터 파일, 이미지 등의 다양한 디지털 정보 형식을 포괄하여 모 든 유형의 형식으로 존재 • 과학데이터는 특정한 현상을 설명하기 위하여 재가공이 가능하다는 것이다. 일반적으로 과학데이 터는 최종의 결과물을 추출하기 위 한 기초데 이터(Raw Data)로서 기능 수행. 따라서 연구자들은 연구행 위 및 활 동에 대한 최종 결과물을 생산하기 위하여 연구 과정에서 생산된 다양한 기초데이터를 활용 • 과학데이터는 자연과학, 공학 등의 분야뿐만이 아니라 사회과학 등에서 생산되는 다양한 통계데 이터 까지를 포괄 • 데이터 형식의 다양성으로 인하여 관리의 어려움이 존재한다는 것이다. 즉, 아날로 그 및 디지털 형식으로 존재함으로 해서 단순히 데이터 베이스에 저장하는 것이 아닌 체계화된 관리방법이 요구됨 Source: 김선태(2011), 「과학데이터 보존 및 활용모델에 관한 연구」 61오픈 사이언스와 빅데이터
  • 64. • 1960년 Peter Naur è ‘computer science’의 대체 용 어로 처음 사용. ‘datalogy’ 개념으로 사용 • 2015년 10월 현재 è 구조적 혹은 비구조적인 다양한 형 식의 방대한 데이터로부터 지식과 통찰력(insights)를 추 출하는 분야와 이의 행위를 돕는 시스템과 관련된 다양 한 분야 • 데이터 과학은 규모가 큰 빅 데이터에만 특화된 것이 아님. 빅 데이터를 처리하기 위한 방법론들은 데이터 과학의 특화된 분야 중 하나일 뿐 • 데이터 과학은 비즈니스 환경에서 폭발적으로 사용되 고 있지만 많은 학자와 저널리스트들은 ‘데이터 과학’ 과 ‘통계학’의 차이점이 명확하지 않기 때문에 데이 터 과학이 부각되는 것을 비판Data science (출처: https://en.wikipedia.org/wiki/Data_science) Data Science 64오픈 사이언스와 빅데이터
  • 65. 수학, 통계학 계량분석화학 정보 과학, 컴퓨터 과학 신호처리 가능성 모델 기계학습, 통계학습 데이터 마이닝 데이터베이스 데이터 엔지니어링 패턴 인식과 학습 가시화 미래분석 불확실성 모델링 데이터 웨어하우징 데이터 압축 컴퓨터 프로그래밍 인공 지능 고성능 컴퓨팅 … 농업 의료 마케팅 최적화 이상행위 감지 위기관리 마케팅 분석 공공 정책 … 기후 변화나 황사, 해 양 오염 등 범 지구적 문제 해결 노력 다양한 분야에서 문제점을 조사하고 의사결정을 지원하는데 사용 Data Science 활용 65오픈 사이언스와 빅데이터
  • 66. Data Science 활용사례 • 기후 데이터의 경우, 과거에는 기후 분야를 연구하는 과학 자들이 주 사용 • 오늘날에는 물과 공공용지(public land), 건강, 해양 분야 등의 자원 관리자들이 그들의 의사결정과 연구를 위해 기 후 데이터 접근 요청 • 정책 수립 분야에서도 기후 변화 대응 전략을 수립하기 위 하여 데이터 접근 필요 • 기하급수적으로 발생하는 기후 데이터에 대한 물리적인 보존과 공유에 대한 이슈가 활발 출처: Overpeck, J. T., Meehl, G. A., Bony, S., and Easterling, D. R., “Climate Data Challenges in the 21st Century”, Science, Vol. 331, 2011. 66오픈 사이언스와 빅데이터
  • 68. Data Scientists Data Scientists (NSF 2005, p27) The information and computer scientists, database and software engineers and programmers, disciplinary experts, curators and expert annotators, librarians, archivists, and others, who are crucial to the successful management of a digital data collection 데이터 과학자 데이터 과학과 관련된 분야를 전공하고 데이터 분석과 관련된 업무에 종사하는 사람을 말한다. 즉 데이터 과학자는 현장에 존재하는 대량의 데 이터를 모으고, 분석에 적합한 형태로 가공하고, 데이터가 의미하는 바를 이야기(story)에 담아 다 른 사람에게 효과적으로 전달하는 역할을 한 다.(O’Reilly Media, 2012) 데이터 과학자 Business analyst VS. Data analyst Research Scientist Data Scientist (Jeff Hammerbacher & DJ Patil / 2008년) Experiences like my own suggest that the best way to become a data scientist isn’t to be trained as a data scientist, but to do serious, data-intensive work in some other discipline. 오픈 사이언스와 빅데이터 68
  • 69. Data Scientists (2/3) • September 2005 The National Science Board publishes “Long-lived Digital Data Collections: Enabling Research and Education in the 21st Century.” • The report defines data scientists as “the information and computer scientists, database and software engineers and programmers, disciplinary experts, curators and expert annotators, librarians, archivists, and others, who are crucial to the successful management of a digital data collection.” 69오픈 사이언스와 빅데이터
  • 70. Data Scientists (3/3) • Research Data Management • Research Data Service by Data Scientists Team. 70오픈 사이언스와 빅데이터
  • 73. 연구자가 원하는 콘텐트 계산과학공학센터 연구사업과 관련된 데이터는 어디? 오픈 사이언스와 빅데이터 73
  • 74. What is Datanest ? Research Data Repository 오픈 사이언스와 빅데이터 74
  • 75. 진정한 과학자 • 논문에 반드시 포함되어야 하는것 중 하나 : 선행연구 • 선행연구는 기존 연구방법 조사, 연구의 한계점 등을 기술하는 섹션 • 과학이라는 것은 기존 연구에서 제시한 규칙을 반박하 고 새로운 규칙을 제시하는 것 • 기존 규칙을 반박하기 위해서는 기존 연구와 동일한 환경에서 기존 연구결과의 검증이 필수 • 이상이 가능하기 위해서는 기존 연구에서 사용한 데이 터와 데이터를 둘러싼 컨텍스트 정보가 반드시 필요 • 진정 과학자라면 자신이 주장하는 규칙을 증명 혹은 반박할 수 있도록 데이터를 제공해야 함 • 이는 연구윤리 측면에서 솔찬히 중요함 오픈 사이언스와 빅데이터 75
  • 82. 참고문헌 • [1] 과학(위키) http://bit.ly/2oxe0oX • [2] 과학이란 무엇인가 – 파인만 http://bit.ly/2nCsLrb • [3] 국민이설계하는대학운동 :: 희망블로거 http://hopebloggers.tistory.com/1 • [4] 지식점프 http://bit.ly/2p6z8jR • [5] 연세대학교 계산과학공학과 http://cse.yonsei.ac.kr/ • [6] Nancy Pontika; Petr Knoth; Matteo Cancellieri; Samuel Pearce (2015). "Fostering Open Science to Research using a Taxonomy and an eLearning Portal". Retrieved 12 August 2015. • [7] Gezelter, D. (2009). What, exactly, is Open Science? URL http://www.openscience.org/blog/?p=269 • [8] Stodden, V. (2009). Enabling Reproducible Research: Open Licensing for Scientific Innovation. International Journal of Communications Law and Policy, vol.13, pp.1-25 • [9] Murray-Rust, P. (2008). Open Data in Science. Serials Review, vol.34, no.1, pp.52-64. doi:10.1016/j.serrev.2008.01.001 • [10] Altenh†ren, R. Open Source Software - definition, licensing models and organizational consequences (introduction). In Proceedings of the 71 IFLA General Conference and Council “Libraries – A voyage of discovery” (Oslo, 2005) URL http://archive.ifla.org/IV/ifla71/papers/121e-Altenhoener.pdf • [11] What is the Difference between Qualitative Research and Quantitative Research? https://www.snapsurveys.com/blog/what-is-the-difference-between-qualitative-research-and-quantitative- research/ • [12] What Is “Research Data”? http://www.bu.edu/datamanagement/background/whatisdata/ 오픈 사이언스와 빅데이터 82
  • 83. 경청해 주셔서 고맙습니다. Q & A 오픈 사이언스와 빅데이터 83