[데이터를 부탁해] 항공기상 데이터 분석으로 운항 스케줄 예측하기 by 신진환FAST CAMPUS
2015년 11월 20일, 패스트캠퍼스가 개최한 [데이터를 부탁해] 오픈 세미나의 2번째 세션에서 발표하신, [파이썬을 활용한 데이터 분석 CAMP]를 수강하셨던 신진환 님의 자료입니다.
http://www.fastcampus.co.kr/dab_openlecture_151120/
[파이썬을 활용한 데이터 분석 CAMP] 자세히 보기 ↓
http://www.fastcampus.co.kr/data_camp_pda/
[KERIS 이슈리포트] 요약 세미나 (Webinar) 자료
* 원문 링크: http://bit.ly/196LHBs
국내외 빅데이터 및 학습 분석 관련 기고서들과 동향 분석자료를 요약한 이슈리포트. UNESCO Policy Brief와 IMS Global의 백서를 중심으로 학습 분석 기술의 활용가능성과 쟁정들을 분석한 자료.
<주요>
1. 빅데이터 기술 및 산업 동향
2. 학습 분석 기술에 대한 이해
3. 학습 분석 기술 표준화 동향
4. 시사점
[데이터를 부탁해] 항공기상 데이터 분석으로 운항 스케줄 예측하기 by 신진환FAST CAMPUS
2015년 11월 20일, 패스트캠퍼스가 개최한 [데이터를 부탁해] 오픈 세미나의 2번째 세션에서 발표하신, [파이썬을 활용한 데이터 분석 CAMP]를 수강하셨던 신진환 님의 자료입니다.
http://www.fastcampus.co.kr/dab_openlecture_151120/
[파이썬을 활용한 데이터 분석 CAMP] 자세히 보기 ↓
http://www.fastcampus.co.kr/data_camp_pda/
[KERIS 이슈리포트] 요약 세미나 (Webinar) 자료
* 원문 링크: http://bit.ly/196LHBs
국내외 빅데이터 및 학습 분석 관련 기고서들과 동향 분석자료를 요약한 이슈리포트. UNESCO Policy Brief와 IMS Global의 백서를 중심으로 학습 분석 기술의 활용가능성과 쟁정들을 분석한 자료.
<주요>
1. 빅데이터 기술 및 산업 동향
2. 학습 분석 기술에 대한 이해
3. 학습 분석 기술 표준화 동향
4. 시사점
KISTI 계산과학공학센터에서 2017년 4월에 발표한 자료입니다. 오픈사이언스와 연구데이터, 빅데이터, 과학데이터, 데이터과학자에 대한 내용을 담고 있습니다.
공학, 의료영상, 자연과학 및 산업분야에서 제기되는 문제를
수리모델링-시뮬레이션-시각화과정을 통하여 예측/분석, 사용자에게 효율적인 프로그램 개발, 산업화에 이르기까지
다단계 연구를 종합적으로 수행하는 센터에서 인사이트를 가져사겼길 바랍니다.
- 4세대 연구 패러다임 변화
- 연구환경 변화
- 연구자가 원하는 콘텐트
- Open Science
- Data 정의 및 구분
- Dataset & Meta data
- Research records
- 연구 데이터 정의 및 사례
- 과학 데이터 정의 및 특징
- Data Publication
- Data Journal
- Data Paper
- Data Management Plan
- Data Repository
- Data Scientists
- 과학의 신뢰와 DMP-ProRR
- 4세대 연구 패러다임 변화
- 연구환경 변화
- 연구자가 원하는 콘텐트
- Open Science
- Data 정의 및 구분
- Dataset & Meta data
- Research records
- 연구 데이터 정의 및 사례
- 과학 데이터 정의 및 특징
- Data Publication
- Data Journal
- Data Paper
- Data Management Plan
- Data Repository
- Data Scientists
- 과학의 신뢰와 DMP-ProRR
2. 총괄| 융합으로서의 데이터 과학 대표과제와 업적
2
총괄
목차
I
II
III
센터 소개
과제 도출
과제의 선도성
IV 과제의 융합성
V 업적
3. 총괄| 융합으로서의 데이터 과학 대표과제와 업적
3
총괄
센터 소개 – 연구 인력
• 총 12명의 통계학, 컴퓨터 공학, 산업 공학 및 의학 전공 분야의 핵심 교수 참여
• 다양한 전문 분야의 4명의 협력교수, 5명의 연구교수, 3명의 박사후 연구원 참여
제 1 총괄과제 핵심교수
이영조 교수
서울대학교 통계학과
임요한 교수
서울대학교 통계학과
이재용 교수
서울대학교 통계학과
오희석 교수
서울대학교 통계학과
신동완 교수
이화여자대학교 통계학과
제 2 총괄과제 핵심교수
이상구 교수
서울대학교 컴퓨터공학부
서진욱 교수
서울대학교 컴퓨터공학부
제 3 총괄과제 핵심교수
박용태 교수
서울대학교 산업공학과
조성준 교수
서울대학교 산업공학과
박종헌 교수
서울대학교 산업공학과
김유경 교수
서울대학교 의과대학
핵의학교실
유경상 교수
서울대학교 의과대학
임상약리학교실
4. 총괄| 융합으로서의 데이터 과학 대표과제와 업적
4
총괄
센터 소개 – 홈페이지
• http://srcdsc.snu.ac.kr/
• 센터 소개, 구성원, 공동 연구 활동, 성과, 보도자료 등 소개
5. 총괄| 융합으로서의 데이터 과학 대표과제와 업적
5
데이터과학의
다학제적
학문 체계 정립
데이터 과학의
융합적
연구 모형 개발
세계를 선도하는
데이터 과학 연구
및 브레인 풀 구축
데이터 활용의
선도적 응용 연구
총괄
연구 주제의
선도성
기존의 데이터를 그대로 분석하는
수동적 접근이 아닌 요구하는
데이터를 탐색하여 구축하고 지식을
창출하는 능동적/혁신적 접근
국내 최고의 인력들이 연구한 최신
이론 및 기법을 바탕으로 데이터와
지식 생성을 위한 과학적 연구 방법
제시
연구 방법/인력의
선도성
연구성과의
선도성
다양한 곳에서 생성된 복잡한
데이터로부터 데이터의 특성을
올바르게 반영한 미래 지향적 지식을
창출
센터 소개 -연구 목표
6. 총괄| 융합으로서의 데이터 과학 대표과제와 업적
6
총괄
과제 도출 – 과학 혁명의 패러다임
새로운
자연적
현상
새로운
사회적
문제
새로운
경제적
과제
수수께끼(Enigma)
새로운 패러다임: 문제해결과정
정상과학(Normal science)
새로운 이론기반 새로운 기술기반
과학혁명의 과정
Thomas Kuhn, The Structure of Scientific Revolutions, 1962
7. 총괄| 융합으로서의 데이터 과학 대표과제와 업적
7
총괄
과제 도출 – 과학 혁명의 패러다임
새로운
자연적
현상
새로운
사회적
문제
새로운
경제적
과제
수수께끼(Enigma)
새로운 패러다임: 문제해결과정
정상과학(Normal science)
새로운 이론기반 새로운 기술기반
과학혁명의 과정
Thomas Kuhn, The Structure of Scientific Revolutions, 1962
데이터 과학은 새롭게 출현하는 사회적, 경제적,
자연적 이슈들에 대응하여,
방대하고 복잡한 데이터를 다학제적 융합(muti-
disciplinary convergence)과
시스템적 접근(systems approach)을 반영하여
창의적 지식(creative knowledge)으로 전환하는
활동으로 정의함
8. 총괄| 융합으로서의 데이터 과학 대표과제와 업적
8
총괄
과제 도출 – 과제 영역 도출
새로운
자연적
현상
새로운
사회적
문제
새로운
경제적
과제
수수께끼(Enigma)
새로운 패러다임: 문제해결과정
정상과학(Normal science)
새로운 이론기반 새로운 기술기반
과제 도출 영역 I – 이슈 대응 과제
과제 도출 영역 III –
기술 기반 과제
과제 도출 영역 II –
이론 기반 과제
9. 총괄| 융합으로서의 데이터 과학 대표과제와 업적
9
총괄
과제 도출 – 대표과제 도출
이슈 대응 과제
기술 기반 과제
이론 기반 과제
단계 1
단계 2
단계 3
새로운 과학 패러다임의 출현을
견인하는 사회적/경제적/자연적 이슈
새로운 과학 패러다임의 이슈들에
대응하는 기술 기반의 구축
새로운 과학 패러다임의 이슈들에
대응하는 이론 기반의 구축
사회적 문제
경제적 과제
자연적 현상
생명의료 (Bio-Medical)
기술 관리 (Techno-Managerial)
기후변화 (climatological)
통계분석 Tool
통합 Database
시각화 Algorithm
한국형 통계패키지 개발
이질적 데이터 통합 구축
시각화 패키지 개발
불확실성
고차원성
지식공간
불확실성 측도 이론 개발
분산처리 기법 이론 개발
지식공간 확장 이론 개발
이슈 과제
10. 총괄| 융합으로서의 데이터 과학 대표과제와 업적
10
총괄
과제 도출 – 연구과제의 내용
과제 기반에 따라 도출된 영역에 맞춰 새로운 지식을 창출하고, 분석 이론을 구체화 하고, 이
론 체계를 확립할 대표과제를 수행
과제기반 과제영역 과제주제
이론 기반 불확실성 측도 불확실성 측도 연구 h-likelihood 측도 기법
지식공간 확장 통계모형 지식공간의 확장 –HGLM 확장
미분방정식에 기반한 동적 모형 연구
기술 기반 패키지 SRC-STAT 국산 통계 패키지 개발
플랫폼 이질적 데이터 통합 및 분석 기반 구축
구조화 희소특징학습의 분산처리와 응용
이슈 기반 생명의료 영상 데이터로부터의 지식발견 기법
전자의무기록 정보를 이용한 질병 극복
의료정보의 시각적 분석
기술관리 신성장 동력 기술의 발굴
생산성 혁신을 위한 순간 최적화 엔진
빅데이터 기반 비즈니스 인텔리전스
기후변화 미래형 기후예측 시스템
11. 총괄| 융합으로서의 데이터 과학 대표과제와 업적
11
총괄
과제의 선도성 – 1총괄
이론: 데이터 모델링과 이론 연구
(모델링) 기존에 다루지 못하는 복잡한
데이터를 모형화 하는데 크게 기여
(이론) 최근 등장하는 다양한 형태의 데이터를
분석하는 이론적 밑거름을 제공
연구 방법/인력의 선도성 연구 성과의 선도성연구 주제의 선도성
수요가 크게 증가하고 있는 고차원/시공
간 데이터 처리 기법 개발
국내의 기술만을 바탕으로 만든 차세대
국산 통계 패키지 (SRC-Stat) 개발
고차원/시공간 데이터 처리를 위한 새로
운 방법을 제안하고, 최신의 이론을 도입
하여 검증
기존의 이론을 개선한 새로운 이론 제공
분석이 어려운 고차원/시공간 데이터에
대한 효과적인 분석 시도
최신의 이론을 토대로 데이터 분석 알고
리즘의 효율성 향상
LM GLM GLMM JGLM
Causality MDHGLM DHGLM HGLM
SEM Factor Model∩
∩
∩
∩
∩
+
+
∩
∩
12. 총괄| 융합으로서의 데이터 과학 대표과제와 업적
12
총괄
과제의 선도성 – 2총괄
연구 방법/인력의 선도성 연구 성과의 선도성연구 주제의 선도성
대용량의 이질적 데이터를 통합하여
분석이 용이한 융합적 데이터 구축
복잡도가 높은 데이터를 시각화하여
지식 창출을 위한 근거 자료 제공
그래프와 같은 최적화된 이론을 데이터
분야에 적용하여 데이터를 통합
기계적 제시가 아닌 요구 사항에 맞는
시각화 방법과 전처리 과정 제시
요구되는 모든 목적에 부합하는 데이터
구축 및 지식 창출 기법 제시
모든 데이터에 통합적으로 적용할 수 있
는 시각화 기법을 통해 지식 창출
기술: 데이터 테크놀로지
(데이터 기술) 다양한 유형의 대용량 데이터 간
유연한 접근 및 통합 방법 개발
(시각화 기술) 통계학적 분석 기술과 시각화
기술을 통합하는 데이터과학적 접근 방법 개발
13. 총괄| 융합으로서의 데이터 과학 대표과제와 업적
13
총괄
과제의 선도성 – 3총괄
연구 방법/인력의 선도성 연구 성과의 선도성연구 주제의 선도성
창의적/체계적 알고리즘을 바탕으로 한
사회과학 및 공학적 지식 및 전략 창출
데이터 축적을 바탕으로 미래 질병 및 의
료에 대한 예측 결과 창출
지식가치 사슬을 통합함으로써 기술 및
산업에 대한 다각적 지식 창출
다학제간 연계를 바탕으로 의료 데이터
로부터 미래 지향 지식 창출
접근 및 분석이 어려운 기술 및 사회 데
이터를 통합하고 활용하여, 지식 창출의
영역의 확장
이전 의료 데이터로부터 숨겨진 지식을
찾고 이를 통해 새로운 지식 생성
3총괄
산업
공학
의학
이론: 지식발견 및 생성
(사회기술) 기술-제조-서비스로 이루어지는
산업 사이클에 맞추어 혁신적 시스템 구축
(의학) 복합 의료 정보 데이터의 체계적 분류 및
재구조화를 통한 효과적인 활용 및 분석
14. 총괄| 융합으로서의 데이터 과학 대표과제와 업적
14
총괄
과제의 융합성 – 기술 이론 이슈의 융합
Data
Mining
Explorative
Technology Applied
Statistics
이슈
Data
Science
기술
(컴퓨터공학)
이론
(통계학)
이슈
(의학,
산업공학)
15. 총괄| 융합으로서의 데이터 과학 대표과제와 업적
15
총괄
과제의 융합성 - 융합 과학으로서의 데이터 과학
융합 과학으로서의 데이터 과학 가치
Knowledge
Creation
확장성
Modeling
& Analysis
속도
Huge Data
Various Data
데이터 기반
새로운 지식 탐색 및 창출
의료, 기술, 기후 분야: 예측력이
경쟁력
대용량의 다양한 데이터를 EMR등으로
체계적으로 관리
하둡/맵리듀스 등을 이용
실시간적 (속도)으로 제공함
대용량의 데이터를 분석하는 두뇌
통계처리분석/모델링/예측,
새로운 국산 패키지 개발
확장성이 매우 중요
이슈: 생명의료, 기술관리, 기후변화
기술 : 대용량, 다차원, 성능
이론 : 모형화, 분석
16. 총괄| 융합으로서의 데이터 과학 대표과제와 업적
16
총괄
과제의 융합성 – 원천기술의 개발과 응용
데이터 구축/처리 방법 및
기술적 지원(소프트웨어) 제공
지식창출을 위한
데이터와 근거 자료 제공
데이터 과학
(원천기술 개발)
데이터 처리 및 분석에 대한 원천 기술 제공
컴퓨터 과학, 산업공학, 의학 분야의 요구에 맞는
다양한 형태의 데이터 처리 기법 및 노하우 제공
통계학 (1총괄) 컴퓨터 과학 (2총괄)
산업공학, 의학 분야의 요구에 맞는 데이터 구축 및
통합에 대한 원천 기술 제공
데이터 생성 및 지식 창출을 위한 시각화 기법 제공
컴퓨터 과학 (2총괄)원천기술 결합
지식 창출
(원천기술 응용)
산업공학 (3총괄)
원천 기술들을 바탕으로 사회과학 및 공학의 실증
사례로부터 지식을 창출
제조업, 기술경영 등 다양한 분야로부터 얻을 수
있는 데이터를 가공하여 혁신적 지식을 창출
산업공학 (3총괄) 의학 (3총괄)
원천 기술들을 바탕으로 생명과학 및 의학의 실증
사례로부터 지식을 창출
바이오/의학 분야에서 얻을 수 있는 고차원 데이터와
복합 정보 데이터를 가공하여 혁신적 지식을 창출
의학 (3총괄)
지식 결합
17. 총괄| 융합으로서의 데이터 과학 대표과제와 업적
17
총괄
과제의 융합성 - 연구의 융합형 추진 시스템
새로운 과학적, 사회적, 경제적 이슈에 대응하기 위한 다학제적 융합과 시스템 접근을 통해 연구를 추진
이슈 기반 –
생명의료
이슈 기반 –
기술관리
이슈 기반 –
기후변화
이론 기반
기술 기반
통계적 방법론을
이용한 기후예측
향상
수치 및 텍스트
기반 복합의료
정보를 이용한
질병 극복
뇌졸중 연구
혁신을 위한 시각
적 분석 시스템
신성장 동력
기술의 발굴
제조업 생산성
혁신
정보 서비스
혁신 시스템
SRC-STAT
국산 통계 패키지
개발
이질적 데이터 통
합 분석을 위한
기반 구축
불확실성
측도
연구
통계 모형의
지식공간 확장
구조화
희소특징학습의
분산처리와 응용
미분방정식에
기반한 동적 모형
연구
영상 데이터를
이용한 지식 발견
기법
18. 총괄| 융합으로서의 데이터 과학 대표과제와 업적
18
총괄
업적 – 연구성과
• 4차년도 기준 총 연구실적은 논문 125편으로 목표치인 104편을 121% 정도로 초과 달성했으며, 논문
실적의 달성도와 공동 연구 논문의 수는 시간이 지날수록 꾸준히 증가
43.80%
104.00%
181.80%
187.50%
0
13
25
38
50
1차년도 3차년도
SCI급 비 SCI급 달성도
0.00%
7.14%
12.50%
28.89%
0
4
7
11
14
1차년도 3차년도
공동연구논문 공동연구비율
공동 연구논문 성과
초기에는 연구 실적이 목표치에 미달하였으나, 이후 실
적이 꾸준히 증가하여, 3,4차년도에는 목표의 180% 이
상의 연구 실적 달성
초기에는 공동연구가 진행되지 않았으나, 이후 꾸준히
공동연구 논문의 수와 비중이 증가
19. 총괄| 융합으로서의 데이터 과학 대표과제와 업적
19
총괄
업적 – 인력 양성
• 4차년도 기준 총 양성한 인력은 총 119명(석사 73명, 박사 46명)으로 목표치인 90명을 119%로 초과
달성했으며, 매 년 목표 인원 이상의 인력을 배출
23
20
23
>7
19
13
7 >7
0
6
12
18
24
30
1차년도 3차년도
석사 박사
155.56%
132.00%
166.67%
>70.00%
0.00%
42.50%
85.00%
127.50%
170.00%
212.50%
1차년도 3차년도
1차년도 2차년도 3차년도 4차년도(진행중)
• 4차년도의 2015년 8월 졸업 예정자 자료는 반영되지 않음
인력 양성 성과 달성도인력 양성 성과
모든 연도 별로 석사와 박사 졸업생을 꾸준하게 배출
하고 있으며, 석사는 매년 20명 이상 배출
3차년도까지 목표치의 150%에 가까운 인력 양성 성과
를 냈으며, 4차년도 전반기 실적 또한 목표의 50% 이상
달성
20. 총괄| 융합으로서의 데이터 과학 대표과제와 업적
20
업적 – 국산 통계 패키지 SRC-STAT
총괄
• 순수 국내 기술을 바탕으로 데이터 처리에 대한 다양한 분야의 요구를 모두 만족
자료 시각화에 강점
2014년 미래창조과학부 주관 R&D 성과확산대전 출품
21. 총괄| 융합으로서의 데이터 과학 대표과제와 업적
21
업적 – 특허
총괄
제조/서비스 시스템에 적용할 수 있는
데이터 기반의 원천 기술 창출
데이터 기반의 적용 가능한 새로운
시스템 관련 원천 지식 창출
페트리넷과 발사 추천기에 기반한 최적화
시스템 및 구현 방법
유사도 특성을 이용한 메타휴리스틱
알고리즘에 기반한 시스템 및 그 제어 방법
계획 검색 및 수정 기법을 이용한 고속 자원
할당 계획 방법
키스트로크 다이나믹스 패턴 정보에 기초한
사용자 인증 방법 및 장치
메신저 서비스 수행 시 정당 사용자 여부
판단을 위한 시스템
• 데이터과학과 지식 창출을 위한 여러 형태의 원천 기술을 확보하여 총 5건의 특허 확보
원천 기술 및 지식 창출 관련 특허
기술 창출
지식 창출
22. 총괄| 융합으로서의 데이터 과학 대표과제와 업적
22
업적 – 유상기술이전
총괄
• 다단계일반화선형혼합모형(DHGLM) 알고리즘 기술을 주식회사 에스이랩에 유상기술이전
GLM JGLM HGLM DHGLM MHGLM ∙∙∙LM
일반화 선형 모형(GLM) 의 확장 단계
발명 신고서 발명 신고서기술이전 계약서 기술이전 공문
23. 총괄| 융합으로서의 데이터 과학 대표과제와 업적
23
데이터 확보 데이터베이스
탐색
데이터
데이터
확장
질환
정보
약물
정보
실험실
검사
당뇨환자
데이터베이
스
전자의무기록(EMR)
• 전자의무기록(Electronic Medical Records, EMR)에 축적되어 있는 당뇨환자 자료를 데이터베이스화
하여, 다각도적 분석에 용이하게 활용할 수 있도록 함.
업적 – 의료데이터베이스(EMR) 당뇨 자료 구축
총괄
데이터추출
변수추가
Schema
데이터베이스의 구조 (schema) 데이터의 가시화 및 활용 예
• 성별
• 연령
• 체중/키
• 혈압
• 질환명
• 처방 일자
• 처방 약물
• 용법/용량
• 검사내역
• 이상반응
• 경과
• …
• 연도별 처방 경향성 확인
• 약물별 처방 빈도 확인
• 처방에 따른 검사 수치 변화 확인