연구 데이터 관리와
데이터 관리 계획서 (DMP)
2017.8.22 (화)
한국과학기술정보연구원
과학데이터연구센터
Dr. 김선태 stkim@kisti.re.kr
2017 한국정보관리학회 하계학술대회,‘17.8.22
연세대학교 위당관 문과대학 100주년 기념홀
Part 03
• 연구 데이터
목차
• 진정한 과학과 연구자 환경
• 연구환경과 데이터 인식변화
• 데이터와 데이터세트
• 메타데이터와 연구기록
• 연구 데이터
• 데이터 관리 계획서
연구 데이터
연구 데이터란 무엇인가? (1/4)
• 연구 데이터 정의
• 연구 데이터 사례
• 연구 데이터, 공공 데이터, 과학 데이터
• 과학 데이터 정의 및 사례
• 과학 데이터 유형
• 과학 데이터 특징
4
연구 데이터란 무엇인가? (2/4)
미 행정 관리 예산국(OMB) 정의 : 과학 커뮤니티에서
연구 발견(결과)를 검증하는데 필요하다고 인정되는
‘기록된 사실 자료 (recorded factual material)’
제외대상: preliminary analyses, drafts of scientific papers, plans for future research, peer reviews, or communications with colleagues
• In a practical context...
• Consider what set of files and information you would need to provide someone if s/he wanted to validate your
published research findings. We should not and cannot save everything; prioritize the subset of your data that meets
the definition above. As an example, raw data files may be critical in the initial processing phase of your research
project, but they might become useless after the data have been converted to a more workable format (say, binary
instrument output converted to ASCII). When facing the reality that you can’t save and manage every digital bit that
you’ve ever collected, consider what would be useful to you or others if you had to reproduce your results.
(http://guides.library.oregonstate.edu/research-data-services/data-management-define-data)
https://www.computerhope.com/issues/ch001632.htm
raw data
workable format
processed data 연구의 재현과 검증을
위해 무엇이
필요한가?
연구 데이터란 무엇인가? (3/4)
Datacite.org
• Research Content = Research Objects, Research Data ⊂
Research Objects
• Research Objects ∃ Workflows, Research Data ∄ Workflows
 보스턴 대학의 정의와 상이
• Research Objects ∃ Standards, Research Data ∄ Standards
• Research Data ∃ Dataset
Queensland univ
• { facts, observations, images, computer program results,
recordings, measurements, experiences } ⊂ Research Data
from Queensland univ.
6
연구 데이터란 무엇인가? (4/4)
Melbourne univ
• { facts, observations or experiences, laboratory notebooks; field notebooks;
primary research data (including research data in hardcopy or in computer
readable form); questionnaires; audiotapes; videotapes; models; photographs;
films; test responses } ⊂ Research data from Melbourne univ.
• { slides; artefacts; specimens; samples } ⊂ Research collections from
Melbourne univ.
• {electronic mail as well as paper-based correspondence; project files; grant
applications; ethics applications; authorship agreements; technical reports;
research reports; laboratory notebooks or research journals; master lists;
signed consent forms; and information sheets for research participants } ⊂
Research records from Melbourne univ.
Griffith Univ.
• 설문조사, 녹음 자료는 연구 데이터 인가?
• primary materials’ vs ‘research data’
7
연구 데이터의 다른 정의
• administrative data Administrative data consists of records of payrolls, student enrolments,
research assessment, and so on. Some administrative data relates to research projects and may need to be treated as research
data. However, for the most part it is treated independently within the institution in terms of data management policies,
procedures and strategies.
• teaching data Teaching data comprises courseware and other resources which are part of the
teaching function of a university. Again, this may be of interest to a research project, but it is usually managed independently.
• research publications Research publications can be regarded as data, but for the
most part these are well taken care of outside the institution, by publishers and the like. Even when held within the institution,
either on open access or for research reporting purposes, these tend to be managed separately from other research data.
Source : http://www.bu.edu/datamanagement/background/whatisdata/
! Research Data
8
관리(ⅹ), 교육 (ⅹ), 연구 출판물 (△)... 연구 출판물의 경우,
DataCite 및 ANDS 정의와 함께 검토되어야 함
연구 데이터 사례
• Text or Word documents, spreadsheets
• Laboratory notebooks, field notebooks, diaries
• Questionnaires, transcripts, codebooks
• Audiotapes, videotapes, Photographs, films
• Test responses, Slides, artifacts, specimens, samples
• Collection of digital objects acquired and generated during the process of research
• Data files, Database contents including video, audio, text, images
• Models, algorithms, scripts
• Contents of an application such as input, output, log files for analysis software,
simulation software, schemas
• Methodologies and workflows  DataCite.org 정의와 상이
• Standard operating procedures and protocols
Source :
http://www.bu.edu/datamanage
ment/background/whatisdata/
Research Records 는 연구 데이터가 아님 : correspondence including electronic mail
and paper-based correspondence / Project files / Grant applications / Ethics applications /
Technical reports / Research reports / Master lists / Signed consent forms
9
보스턴 대학교
연구 데이터,
공공 데이터, 과학 데이터
• Factual records, which may take the form of numbers, symbols, text, images or sounds, used as primary
sources for research, and that are commonly accepted in the research community as
necessary to validate research findings. Source : http://www.ands.org.au/guides/what-is-research-data
• Another way of approaching a definition of research data is to ask the
question 'what needs to be kept to validate the results of research?' This
may provide a different response, and allows the researcher, rather than the institution, to focus what needs to be
kept in case research findings are questioned.
Source : http://www.bu.edu/datamanagement/background/whatisdata/
연구 데이터
• Factual records used for validating research findings
• 연구 과정에서 수집, 생산된 데이터
• 연구 내용 검증에 사용될 수 있는 데이터 (Validating research findings)
• 연구 내용 재현에 꼭 필요한 데이터 (Reproducible science)
공공 데이터
• 공공재원을 사용하여 수행된 연구 및 조사 활동을 통해 수집, 생산된 데이터
과학 데이터
• 과학 활동을 통해 수집, 생산 된 데이터로서 공공재원으로 진행된 연구를 통해 생산된 데이터는 공공 데이터로 분
류할 수 있음
10
과학 데이터 정의
• 과학기술 활동의 결과로서 관측(Observation), 감시
(Monitoring), 조사(Investigation), 실험(Experiment),
연구 분석(Research Analysis), 계산(Computation) 등
의 활동을 통해 생성된 데이터 (Cheng, 2006)
• 과학 연구수행을 위한 주요한 원천으로 사용하는
사실적인 기록(숫 자, 문자정보, 이미지 및 소리)
(OECD, 2006)
• 전달, 해석 및 가공에 적합하도록 형식을 갖춘, 재
해석이 가능한 정보의 표현 (CCSDS, 2002)
Source : Consultative committee on Space Data Systems
Source : Cheng, Jinpei. 2006. Strategies for Preservation of and Open Access to Scientific Data in China: Summary of a Workshop
11
과학 데이터 정의 및 사례
과학 데이터 정의
• 연구자의 연구 활동 과정 중 생성되는 다양한 유형
의 사실적 기록. 즉, 연구활동을 통하여 생산 된 연
구활동의 기록물로서 관측, 감시, 조사, 실험, 분석,
계산 등의 과정을 통하여 생산된 문자, 이미지, 오
디오, 동영상 등의 아날로그 및 디지털 형식을 포
괄하는 데이터
과학 데이터 사례
• 실험데이터, 통계데이터, 단백질 구조이미지, 생물
의 표본 자료, 천문학의 분광관측(spectral survey)
자료 등
Source: 김선태(2011), 「과학데이터 보존 및 활용모델에 관한 연구」
http://scholar.ndsl.kr/schArticleDetail.do?cn=JAKO201013351026193
12
과학 데이터 유형
연구분야 및 연구방법, 관측장비, 실험장비, 분석방법 등에
따라 다양
• 주로 수치정보, 공간정보, 도표정보, 문서 등의 형태
• 지구관측 및 환경 분야의 데이터는 주 로 관측데이터
로서 공간 및 수치정보와 이미지 정보
• 사회과학 분야의 데이터는 주로 설문조사를 통한 통계
데이터 형태
• 컴퓨터과학 분야 의 데이터는 주로 도표 또는 수치정
보
• 소량의 통계데이터 부터 가속기를 통해 매년 16
Petabytes씩 생산되는 대용량 미립자 충돌 데이터까지
규모와 형태 적인 측면에서 매우 다양한 특징
13
연구 데이터, 연구 기록, 연구 출판물
facts, observations or experiences,
laboratory notebooks; field
notebooks; primary research
data (including research data in
hardcopy or in computer
readable form); questionnaires;
audiotapes; videotapes; models;
photographs; films; test
responses
electronic mail as well as paper-
based correspondence; project files;
grant applications; ethics
applications; authorship agreements;
technical reports; research reports;
laboratory notebooks or research
journals; master lists; signed consent
forms; and information sheets for
research participants
administrative data
teaching data
연구 기록
research records
research journal
연구 출판물
research
publications
Research Content = Research Objects
연구 데이터
research data
연구 데이터 특징
• 모든 유형의 형식으로 존재
• 최종 결과물을 추출하기 위한 원천 데이터(Raw Data)로서 기능 수행
• 다양한 통계데이터 까지 포괄
• 단순 DB, 파일시스템으로 관리하는 것이 아닌, 보다 체계화된 관리방
법이 요구됨 Source: 김선태(2011), 「과학데이터 보존 및 활용모델에 관한 연구」
15
데이터

연구데이터 관리와 데이터 관리 계획서 (DMP) - part03

  • 1.
    연구 데이터 관리와 데이터관리 계획서 (DMP) 2017.8.22 (화) 한국과학기술정보연구원 과학데이터연구센터 Dr. 김선태 stkim@kisti.re.kr 2017 한국정보관리학회 하계학술대회,‘17.8.22 연세대학교 위당관 문과대학 100주년 기념홀 Part 03 • 연구 데이터
  • 2.
    목차 • 진정한 과학과연구자 환경 • 연구환경과 데이터 인식변화 • 데이터와 데이터세트 • 메타데이터와 연구기록 • 연구 데이터 • 데이터 관리 계획서
  • 3.
  • 4.
    연구 데이터란 무엇인가?(1/4) • 연구 데이터 정의 • 연구 데이터 사례 • 연구 데이터, 공공 데이터, 과학 데이터 • 과학 데이터 정의 및 사례 • 과학 데이터 유형 • 과학 데이터 특징 4
  • 5.
    연구 데이터란 무엇인가?(2/4) 미 행정 관리 예산국(OMB) 정의 : 과학 커뮤니티에서 연구 발견(결과)를 검증하는데 필요하다고 인정되는 ‘기록된 사실 자료 (recorded factual material)’ 제외대상: preliminary analyses, drafts of scientific papers, plans for future research, peer reviews, or communications with colleagues • In a practical context... • Consider what set of files and information you would need to provide someone if s/he wanted to validate your published research findings. We should not and cannot save everything; prioritize the subset of your data that meets the definition above. As an example, raw data files may be critical in the initial processing phase of your research project, but they might become useless after the data have been converted to a more workable format (say, binary instrument output converted to ASCII). When facing the reality that you can’t save and manage every digital bit that you’ve ever collected, consider what would be useful to you or others if you had to reproduce your results. (http://guides.library.oregonstate.edu/research-data-services/data-management-define-data) https://www.computerhope.com/issues/ch001632.htm raw data workable format processed data 연구의 재현과 검증을 위해 무엇이 필요한가?
  • 6.
    연구 데이터란 무엇인가?(3/4) Datacite.org • Research Content = Research Objects, Research Data ⊂ Research Objects • Research Objects ∃ Workflows, Research Data ∄ Workflows  보스턴 대학의 정의와 상이 • Research Objects ∃ Standards, Research Data ∄ Standards • Research Data ∃ Dataset Queensland univ • { facts, observations, images, computer program results, recordings, measurements, experiences } ⊂ Research Data from Queensland univ. 6
  • 7.
    연구 데이터란 무엇인가?(4/4) Melbourne univ • { facts, observations or experiences, laboratory notebooks; field notebooks; primary research data (including research data in hardcopy or in computer readable form); questionnaires; audiotapes; videotapes; models; photographs; films; test responses } ⊂ Research data from Melbourne univ. • { slides; artefacts; specimens; samples } ⊂ Research collections from Melbourne univ. • {electronic mail as well as paper-based correspondence; project files; grant applications; ethics applications; authorship agreements; technical reports; research reports; laboratory notebooks or research journals; master lists; signed consent forms; and information sheets for research participants } ⊂ Research records from Melbourne univ. Griffith Univ. • 설문조사, 녹음 자료는 연구 데이터 인가? • primary materials’ vs ‘research data’ 7
  • 8.
    연구 데이터의 다른정의 • administrative data Administrative data consists of records of payrolls, student enrolments, research assessment, and so on. Some administrative data relates to research projects and may need to be treated as research data. However, for the most part it is treated independently within the institution in terms of data management policies, procedures and strategies. • teaching data Teaching data comprises courseware and other resources which are part of the teaching function of a university. Again, this may be of interest to a research project, but it is usually managed independently. • research publications Research publications can be regarded as data, but for the most part these are well taken care of outside the institution, by publishers and the like. Even when held within the institution, either on open access or for research reporting purposes, these tend to be managed separately from other research data. Source : http://www.bu.edu/datamanagement/background/whatisdata/ ! Research Data 8 관리(ⅹ), 교육 (ⅹ), 연구 출판물 (△)... 연구 출판물의 경우, DataCite 및 ANDS 정의와 함께 검토되어야 함
  • 9.
    연구 데이터 사례 •Text or Word documents, spreadsheets • Laboratory notebooks, field notebooks, diaries • Questionnaires, transcripts, codebooks • Audiotapes, videotapes, Photographs, films • Test responses, Slides, artifacts, specimens, samples • Collection of digital objects acquired and generated during the process of research • Data files, Database contents including video, audio, text, images • Models, algorithms, scripts • Contents of an application such as input, output, log files for analysis software, simulation software, schemas • Methodologies and workflows  DataCite.org 정의와 상이 • Standard operating procedures and protocols Source : http://www.bu.edu/datamanage ment/background/whatisdata/ Research Records 는 연구 데이터가 아님 : correspondence including electronic mail and paper-based correspondence / Project files / Grant applications / Ethics applications / Technical reports / Research reports / Master lists / Signed consent forms 9 보스턴 대학교
  • 10.
    연구 데이터, 공공 데이터,과학 데이터 • Factual records, which may take the form of numbers, symbols, text, images or sounds, used as primary sources for research, and that are commonly accepted in the research community as necessary to validate research findings. Source : http://www.ands.org.au/guides/what-is-research-data • Another way of approaching a definition of research data is to ask the question 'what needs to be kept to validate the results of research?' This may provide a different response, and allows the researcher, rather than the institution, to focus what needs to be kept in case research findings are questioned. Source : http://www.bu.edu/datamanagement/background/whatisdata/ 연구 데이터 • Factual records used for validating research findings • 연구 과정에서 수집, 생산된 데이터 • 연구 내용 검증에 사용될 수 있는 데이터 (Validating research findings) • 연구 내용 재현에 꼭 필요한 데이터 (Reproducible science) 공공 데이터 • 공공재원을 사용하여 수행된 연구 및 조사 활동을 통해 수집, 생산된 데이터 과학 데이터 • 과학 활동을 통해 수집, 생산 된 데이터로서 공공재원으로 진행된 연구를 통해 생산된 데이터는 공공 데이터로 분 류할 수 있음 10
  • 11.
    과학 데이터 정의 •과학기술 활동의 결과로서 관측(Observation), 감시 (Monitoring), 조사(Investigation), 실험(Experiment), 연구 분석(Research Analysis), 계산(Computation) 등 의 활동을 통해 생성된 데이터 (Cheng, 2006) • 과학 연구수행을 위한 주요한 원천으로 사용하는 사실적인 기록(숫 자, 문자정보, 이미지 및 소리) (OECD, 2006) • 전달, 해석 및 가공에 적합하도록 형식을 갖춘, 재 해석이 가능한 정보의 표현 (CCSDS, 2002) Source : Consultative committee on Space Data Systems Source : Cheng, Jinpei. 2006. Strategies for Preservation of and Open Access to Scientific Data in China: Summary of a Workshop 11
  • 12.
    과학 데이터 정의및 사례 과학 데이터 정의 • 연구자의 연구 활동 과정 중 생성되는 다양한 유형 의 사실적 기록. 즉, 연구활동을 통하여 생산 된 연 구활동의 기록물로서 관측, 감시, 조사, 실험, 분석, 계산 등의 과정을 통하여 생산된 문자, 이미지, 오 디오, 동영상 등의 아날로그 및 디지털 형식을 포 괄하는 데이터 과학 데이터 사례 • 실험데이터, 통계데이터, 단백질 구조이미지, 생물 의 표본 자료, 천문학의 분광관측(spectral survey) 자료 등 Source: 김선태(2011), 「과학데이터 보존 및 활용모델에 관한 연구」 http://scholar.ndsl.kr/schArticleDetail.do?cn=JAKO201013351026193 12
  • 13.
    과학 데이터 유형 연구분야및 연구방법, 관측장비, 실험장비, 분석방법 등에 따라 다양 • 주로 수치정보, 공간정보, 도표정보, 문서 등의 형태 • 지구관측 및 환경 분야의 데이터는 주 로 관측데이터 로서 공간 및 수치정보와 이미지 정보 • 사회과학 분야의 데이터는 주로 설문조사를 통한 통계 데이터 형태 • 컴퓨터과학 분야 의 데이터는 주로 도표 또는 수치정 보 • 소량의 통계데이터 부터 가속기를 통해 매년 16 Petabytes씩 생산되는 대용량 미립자 충돌 데이터까지 규모와 형태 적인 측면에서 매우 다양한 특징 13
  • 14.
    연구 데이터, 연구기록, 연구 출판물 facts, observations or experiences, laboratory notebooks; field notebooks; primary research data (including research data in hardcopy or in computer readable form); questionnaires; audiotapes; videotapes; models; photographs; films; test responses electronic mail as well as paper- based correspondence; project files; grant applications; ethics applications; authorship agreements; technical reports; research reports; laboratory notebooks or research journals; master lists; signed consent forms; and information sheets for research participants administrative data teaching data 연구 기록 research records research journal 연구 출판물 research publications Research Content = Research Objects 연구 데이터 research data
  • 15.
    연구 데이터 특징 •모든 유형의 형식으로 존재 • 최종 결과물을 추출하기 위한 원천 데이터(Raw Data)로서 기능 수행 • 다양한 통계데이터 까지 포괄 • 단순 DB, 파일시스템으로 관리하는 것이 아닌, 보다 체계화된 관리방 법이 요구됨 Source: 김선태(2011), 「과학데이터 보존 및 활용모델에 관한 연구」 15 데이터

Editor's Notes

  • #12 공공데이터 : 정부 또는 공공기관이 공공재원을 사용하여 연구, 조사 또는 보고 등을 통해 수집, 보유한 데이터 과학데이터 : 공공데이터 중, 과학기술 활동을 통해 확보된 데이터 (출처: 강희종. 21세기 핵심자원, 국가과학데이터 활용을 위한 정책 과제 http://bit.ly/2eBJC4f) Cheng, Jinpei. 2006. Strategies for Preservation of and Open Access to Scientific Data in China: Summary of a Workshop Consultative committee on Space Data Systems