1. 연구 데이터 관리와
데이터 관리 계획서 (DMP)
2017.8.22 (화)
한국과학기술정보연구원
과학데이터연구센터
Dr. 김선태 stkim@kisti.re.kr
2017 한국정보관리학회 하계학술대회,‘17.8.22
연세대학교 위당관 문과대학 100주년 기념홀
Part 01
• 진정한 과학과 연구자 환경
• 연구환경과 데이터 인식변화
2. 목차
• 진정한 과학과 연구자 환경
• 연구환경과 데이터 인식변화
• 데이터와 데이터세트
• 메타데이터와 연구기록
• 연구 데이터
• 데이터 관리 계획서
3. 진정한 과학
우주에 대한 지식을 모아 테스트 가능한 규칙과 이론으로 압축하는 체계
적인 활동
• 과학의 성공과 신뢰성은 과학자의 의지에 달려 있음
• 동료 연구자들에 의한 독립적인 테스트와 복제가 가능하도록 자신의
아이디어와 결과를 공개하는 것에 달려 있음
• 이를 위해서 데이터와 연구절차, 필요자원(materials) 에 대한 공개 교
환이 요구됨
• 자신의 과학적 주장을 포기하거나 수정하며 발전 (self-correction)
연구자 개인의 지식은 매우 단편적임
• 연구자는 연구과정에서 그리고 연구결과에서 자신이 보고싶은 것
만 바라봄: promising findings and nice discoveries 외관상 그럴
듯한 이러한 성공적 연구는 재현 불가능함
(출처: http://www.aps.org/policy/statements/99_6.cfm)
(출처: C. Glenn Begley, John P.A. Ioannidis. 2015. Reproducibility in Science / Improving the Standard for Basic and
Preclinical Research. 2015 Circulation Research / https://doi.org/10.1161/CIRCRESAHA.114.303819Circulation
Research. 2015;116:116-126 Originally published December 31, 2014)
4. 연구자 환경
• 철저한 연구, 엄격한 연구가 창의적고 혁신적인 연구를 방해한
다는 잘못된 믿음 만연
• 기대와 다른, 설명되지 않은 관찰내용은 철저하게 검증된 후 공
표되어야 함
• 하지만, 연구자들은 확인되지 않고 확증할 수 없는 발견을 출판
하기 바쁨
• 실험 반복 실패 / 합당한 컨트롤(legitimate controls) 사용 실패 /
시약 입증(validate reagents) / 적정한 통계 테스트 실패
• 전체 데이터셋 참조 보다는 최상의 실험 선택 복제불가
능. 논문의 주요 결론이 입증되지 못함
• 복제 불가능한 연구 출판물 수백번 인용되고 임상 연구가
진행됨 인용자가 재현시도를 하지 않거나 피인용 논문의 발
견(findings)을 변조함
(출처: C. Glenn Begley, John P.A. Ioannidis. 2015. Reproducibility in Science / Improving the Standard for Basic and Preclinical Research. 2015 Circulation Research /
https://doi.org/10.1161/CIRCRESAHA.114.303819Circulation Research. 2015;116:116-126 Originally published December 31, 2014)
7. 연구환경과 데이터 인식변화 (1/7)
데이터에 대한
인식 변화
(기업, 기관, 국가)
하드웨어
소프트웨어
네트워크
연구 환경 변화
e-science
e-research
open science
연구 패러다임 변화
data-intensive
scientific discovery
2002, Hwang’s Law
1965, Moore’s Law
Nand Flash Memory
8. 연구환경과 데이터 인식변화 (2/7)
결론: 대용량 과학데이터의 효율적 조정, 관리, 가시화를 위한 새로운 기술 필요
<Praise for The Fourth Paradigm>
Jim Gray의 생각은 사람들로 하여금 “데이터와 소프트웨어가 ‘과학을 한다는
것’의 의미를 재정의하는 것에 대해 새로운 방법으로 사고하도록 함” – Bill
Gates, Chairman, Microsoft Corporation
과학적 발견을 위한
연구의 중심도구 변화 :
관찰 > 이론 >
계산 > 데이터
12. Open Data
Open Science
Tools
Open Repositories
RDM / RDS
Research Data
Scientific Data
Data Journal
Data Paper
DMP
연구환경과 데이터 인식변화 (6/7)
12
13. 연구환경과 데이터 인식변화 (7/7)
OS allows
• the reproduction of the research findings,
• enables transparency in the research methodology,
• increases the researcher's societal impact and
• saves money and time both for researchers and
research institutions.
Nancy Pontika; Petr Knoth; Matteo Cancellieri; Samuel Pearce
(2015). "Fostering Open Science to Research using a
Taxonomy and an eLearning Portal". Retrieved 12 August 2015.
13
Editor's Notes
The American Physical Society (APS) is a non-profit membership organization working to advance the knowledge of physics.
황의 법칙(Hwang's Law)은 한국의 삼성전자의 기술총괄 사장이었던 황창규(현 KT 사장)가 제시한 이론[1]이다. 2002년 2월 미국 샌프란시스코에서 열렸던 ISSCC(국제반도체회로 학술회의)에서 그는 '메모리 신성장론'을 발표. 무어의 법칙과 달리 메모리반도체의 집적도가 1년에 두 배씩 늘어난다는 이론
무어의 법칙 (영어: Moore's law) 1965년 페어차일드(Fairchild)의 연구원으로 있던 고든 무어(Gordon Moore)가 마이크로칩의 용량이 매년 2배가 될 것으로 예측하며 만든 법칙으로, 1975년 24개월로 수정되었고, 그 이후 18개월로 정의되었다. 이 법칙은 컴퓨터의 처리속도와 메모리의 양이 2배로 증가하고, 비용은 상대적으로 떨어지는 효과를 가져왔다.출처: http://whynotbad.tistory.com/entry/무어의-법칙-황의-법칙 [whynot?notbad?]
낸드플래시메모리
http://terms.naver.com/entry.nhn?docId=1240716&cid=40942&categoryId=32832
전원이 끊겨도 데이터를 보존하는 비휘발성 메모리의 일종으로, 전기적인 방법으로 정보를 입출력한다. 내부 구조가 평면 구조(2D)에서 수직 구조(3D)로 발전하였으며, 이를 '3D 낸드'라고 한다.전원 공급이 없으면 정보를 모두 잃어버리는 휘발성 메모리 반도체인 D램, S램과 달리, 플래시메모리는 전원이 꺼지더라도 저장된 데이터를 보존하는 롬(ROM)의 장점과 손쉽게 데이터를 쓰고 지울 수 있는 램(RAM)의 장점을 동시에 지니는 비휘발성 메모리이다. 플래시메모리는 전력 소모가 적고 기존의 자기디스크에 비해 고속으로 읽기 및 쓰기가 가능하다. 이러한 특징으로 인해 디지털 카메라, 스마트폰, 휴대전화, USB 드라이브 등의 다양한 휴대용 기기와 SSD(Solid StateDrive)에 널리 사용되고 있다. 플래시메모리는 칩 내부의 회로 형태에 따라 낸드플래시와 노어(NOR)플래시로 구분된다. 노어플래시메모리는 저장 단위인 셀(cell)이 병렬로 배치되어 있는 코드 저장형 플래시메모리로, 읽기가 빠른 대신 쓰기 속도가 느리다. 반면 낸드플래시메모리는 셀이 직렬로 배치된 데이터 저장형 플래시메모리로, 좁은 면적에 집적 가능한 셀이 많고 대용량화가 가능하다. 또한 제조 단가가 저렴하고 노어플래시에 비해 쓰기 및 지우기가 빠르다. 따라서 노어플래시메모리는 주로 핸드폰의 메모리로 사용되고, 낸드플래시메모리는 MP3플레이어, 디지털카메라, 휴대용저장장치 등 주로 휴대용 정보통신기기의 메모리로 사용된다.
[네이버 지식백과] 낸드플래시메모리 [Nand Flash Memory] (두산백과)
디버전스
https://www.theverge.com/2016/1/25/10828208/welcome-to-the-divergence-vinyl-turntables-film-cameras
네트워크
데이터 전송속도가 최대 2.4Mbps 정도였던 3G 시절에는 모바일 네트워크의 답답함을 호소. 4G LTE 기술은 초당 수MB 정도의 데이터 전송속도를 현실적으로 구현한다. 유선 네트워크와 비교해도 손색이 없는 수준이며 오늘날의 모바일 활용 환경에서는 차고 넘치는 속도라고 표현해도 무방.
미래창조과학부에 따르면 5G가 본격 서비스될 것으로 예상되는 2020년의 5G 시장 규모는 378억 달러지만 6년 후인 2026년에는 1조1588억 달러로 급성장할 전망.
유럽연합(EU) 집행위원회는 2013년에 이미 7억 유로의 예산을 배정해 5G 기술에 대한 연구를 지원하고 나섰고 중국 역시 2020년을 5G 상용화의 원년으로 설정하고 연구·개발(R&D)을 적극 지원하고 있다. 일본은 2020년 도쿄 올림픽 개최에 맞춰 5G를 상용화해 시장을 선도한다는 계획을 세움
2007년 1월 28일, 센프란시스코 근처, 파랄론섬으로 어머니 유해를 뿌리기 위해 혼자 출항. 그리고 행불
Microsoft Research. MS 부서로서, 1991년 컴퓨팅 기술 개발과 범 지구적 문제를 대학, 정부, 산업계 연구자들의 혁신적 협력을 통해 극복하고자 만들어짐. 1천명 이상의 직원들이 근무(컴퓨터 과학자, 물리학자, 엔지니어, 수학자 등, 컴퓨터분야, 수학분야 노벨상 수상자 영입(Turing Award 수상자, Fields Medal 수상자))
2007년 1월11일, Jim Gray 마지막 공개 연설 내용을 토대로, 2009년, The Fourth Paradigm 도서 공개
Jim Gray는 대용량 과학데이터의 효율적 조정, 관리, 가시화를 위한 새로운 기술 필요 주장
과학적 발견을 위한 연구의 중심도구 변화 : 관찰 > 이론 > 계산 > 데이터
Scientific breakthroughs will be powered by advanced computing capabilities that help researchers manipulate and explore massive datasets. 컴퓨팅 파워
The speed at which any given scientific discipline advances will depend on how well its researchers collaborate with one another, and with technologists, in areas of eScience such as databases, workflow management, visualization, and cloud computing technologies. 연구자들간 협력, 연구자와 엔지니어들과의 협력 필요
2009년 Microsoft Research – The Fourth Paradigm: Data-Intensive Scientific Discovery. The book focuses on the change of all sciences moving from observational, to theoretical, to computational and now to the 4th Paradigm – Data-Intensive Scientific Discovery. This is based on Jim Gray’s insights captured via his final public talk to the National Research Council on Jan 11, 2007. This is truly a legacy of his work.
Nancy Pontika; Petr Knoth; Matteo Cancellieri; Samuel Pearce (2015). "Fostering Open Science to Research using a Taxonomy and an eLearning Portal". Retrieved 12 August 2015.
Nancy Pontika; Petr Knoth; Matteo Cancellieri; Samuel Pearce (2015). "Fostering Open Science to Research using a Taxonomy and an eLearning Portal". Retrieved 12 August 2015.
재인용: Nancy Pontika; Petr Knoth; Matteo Cancellieri; Samuel Pearce (2015). "Fostering Open Science to Research using a Taxonomy and an eLearning Portal". Retrieved 12 August 2015.
소스: RIN/NESTA. (2010). Open to all? Case studies of openness in research. URL http://www.rin.ac.uk/our-work/datamanagement-and-curation/open-science-case-studies