2021년 12월 3일 개최된 (국립전파연구원 주최) ISO/IEC JTC1 표준 전문가 세미나 발표자료.
디지털 전환과 에듀테크의 성장을 촉진하기 위해 표준화를 고려해야 할 부분도 적지 않다. 먼저 에듀테크 국제 표준화가 지난 20년간 어떤 큰 흐름으로 전개되어 왔는지, 지금은 어떤 방향성을 가지고 표준화가 추진되고 있는지를 설명한다. 에듀테크 분야도 공적 표준(de-jure) 영역과 사실상 표준(de-facto) 영역이 존재하는데, 공적 표준화 기구로는 JTC1 산하의 SC36(Information Technology for Learning, Education, and Training)이 있고, 사실상 표준화 기구 중에는 IMS Global Learning Consortium과 IEEE 산하의 LTSC가 있다.
요즘 많은 관심과 빠른 성장을 거듭하고 있는 학습 분석 관련 표준화 동향과 특히 학습분석이 인공지능 기술과의 융합을 통해 어떤 사례들이 시도되고 있는지를 설명한다. 그 밖에 메타데이터 표준, e포트폴리오 표준, 접근성 표준들의 특성도 짧게 설명한다.
05/29 제33회 빅데이터 분석전문가 오픈세미나 발표자료
제목 : "Programming Language의 변화를 통해 바라본 Python의 미래"
발표요약
- 언어의 변천사를 통해 바라본 Python의 가능성을 살펴보고, 이를 통해 현 시점에 우리가 가져야 할 언어를 바라보는 관점에 대해 논해보고자 한다.
- 그리고 기존 Control Flow에 적합한 절차적 언어 대신 현재 Data Flow개념의 언어가 출현하게 된 배경에 대해 설명하고 이에 Python이 각광받게 된 시대적 흐름에 대해 발표해 보고자 한다.
- 프로그래밍 언어의 변천사를 통해 언어가 각광받게 된 시대적 배경과 왜 그 언어를 사용하게 되었는지에 대한 개발자 및 사용자 관점에 대해 살펴보고, 앞으로 시대에서 우리는 프로그래밍 랭귀지에 대해 어떻게 접근해야 할까에 대해 구체적으로 발표하고자 한다.
Pathways-Driven Sparse Regression Identifies Pathways and Genes Associated wi...SOYEON KIM
Summary of paper "Pathways-Driven Sparse Regression Identifies Pathways and Genes Associated with High-Density Lipoprotein Cholesterol in Two Asian Cohorts",
Silver M, Chen P, Li R, Cheng C-Y, Wong T-Y, et al.
In PLOS Genetics, 2013
Reproducibility and automation of machine learning processDenis Dus
A speech about organization of machine learning process in practice. Conceptual and technical aspects discussed. Introduction into Luigi framework. A short story about neural networks fitting in Flo - top-level mobile tracker of women health.
2021년 12월 3일 개최된 (국립전파연구원 주최) ISO/IEC JTC1 표준 전문가 세미나 발표자료.
디지털 전환과 에듀테크의 성장을 촉진하기 위해 표준화를 고려해야 할 부분도 적지 않다. 먼저 에듀테크 국제 표준화가 지난 20년간 어떤 큰 흐름으로 전개되어 왔는지, 지금은 어떤 방향성을 가지고 표준화가 추진되고 있는지를 설명한다. 에듀테크 분야도 공적 표준(de-jure) 영역과 사실상 표준(de-facto) 영역이 존재하는데, 공적 표준화 기구로는 JTC1 산하의 SC36(Information Technology for Learning, Education, and Training)이 있고, 사실상 표준화 기구 중에는 IMS Global Learning Consortium과 IEEE 산하의 LTSC가 있다.
요즘 많은 관심과 빠른 성장을 거듭하고 있는 학습 분석 관련 표준화 동향과 특히 학습분석이 인공지능 기술과의 융합을 통해 어떤 사례들이 시도되고 있는지를 설명한다. 그 밖에 메타데이터 표준, e포트폴리오 표준, 접근성 표준들의 특성도 짧게 설명한다.
05/29 제33회 빅데이터 분석전문가 오픈세미나 발표자료
제목 : "Programming Language의 변화를 통해 바라본 Python의 미래"
발표요약
- 언어의 변천사를 통해 바라본 Python의 가능성을 살펴보고, 이를 통해 현 시점에 우리가 가져야 할 언어를 바라보는 관점에 대해 논해보고자 한다.
- 그리고 기존 Control Flow에 적합한 절차적 언어 대신 현재 Data Flow개념의 언어가 출현하게 된 배경에 대해 설명하고 이에 Python이 각광받게 된 시대적 흐름에 대해 발표해 보고자 한다.
- 프로그래밍 언어의 변천사를 통해 언어가 각광받게 된 시대적 배경과 왜 그 언어를 사용하게 되었는지에 대한 개발자 및 사용자 관점에 대해 살펴보고, 앞으로 시대에서 우리는 프로그래밍 랭귀지에 대해 어떻게 접근해야 할까에 대해 구체적으로 발표하고자 한다.
Pathways-Driven Sparse Regression Identifies Pathways and Genes Associated wi...SOYEON KIM
Summary of paper "Pathways-Driven Sparse Regression Identifies Pathways and Genes Associated with High-Density Lipoprotein Cholesterol in Two Asian Cohorts",
Silver M, Chen P, Li R, Cheng C-Y, Wong T-Y, et al.
In PLOS Genetics, 2013
Reproducibility and automation of machine learning processDenis Dus
A speech about organization of machine learning process in practice. Conceptual and technical aspects discussed. Introduction into Luigi framework. A short story about neural networks fitting in Flo - top-level mobile tracker of women health.
제1회 DataGeeks(디긱스) 오픈세미나 발표자료
주제 : 데이터 분석과 활용
Google Analytics (이태영) - 모바일과 웹 비즈니스 분석을 위한 Google Analytics 활용
일시 : 12월 13일(토) 오후 13:30 ~ 17:30
장소 : 신논현역(9호선) 1번출구 2분 이내 데브기어 강의장
[KERIS 이슈리포트] 요약 세미나 (Webinar) 자료
* 원문 링크: http://bit.ly/196LHBs
국내외 빅데이터 및 학습 분석 관련 기고서들과 동향 분석자료를 요약한 이슈리포트. UNESCO Policy Brief와 IMS Global의 백서를 중심으로 학습 분석 기술의 활용가능성과 쟁정들을 분석한 자료.
<주요>
1. 빅데이터 기술 및 산업 동향
2. 학습 분석 기술에 대한 이해
3. 학습 분석 기술 표준화 동향
4. 시사점
- 4세대 연구 패러다임 변화
- 연구환경 변화
- 연구자가 원하는 콘텐트
- Open Science
- Data 정의 및 구분
- Dataset & Meta data
- Research records
- 연구 데이터 정의 및 사례
- 과학 데이터 정의 및 특징
- Data Publication
- Data Journal
- Data Paper
- Data Management Plan
- Data Repository
- Data Scientists
- 과학의 신뢰와 DMP-ProRR
- 4세대 연구 패러다임 변화
- 연구환경 변화
- 연구자가 원하는 콘텐트
- Open Science
- Data 정의 및 구분
- Dataset & Meta data
- Research records
- 연구 데이터 정의 및 사례
- 과학 데이터 정의 및 특징
- Data Publication
- Data Journal
- Data Paper
- Data Management Plan
- Data Repository
- Data Scientists
- 과학의 신뢰와 DMP-ProRR
빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)Myungjin Lee
오늘날 인터넷의 보편화와 소셜 미디어 및 스마트 기기의 발전으로 인해 정보의 양이 급격히 증가함에 따라 비즈니스 영역에 있어서 새로운 기회와 도전의 시기를 맞고 있다. 빅 데이터라 불리는 이러한 수 많은 정보들은 기업이 효율적인 의사결정을 지원할 수 있도록 도와줄 수 있으며, 또한 다른 기업과의 비즈니스 경쟁에서 경쟁우위를 차지하는데 아주 중요한 역할을 한다. 이러한 의사결정을 지원하기 위해서는 빅 데이터를 효과적으로 분석할 수 있는 방법론이 필요할 뿐 아니라 이를 지원할 수 있는 다양한 인프라를 필요로 한다. 따라서 본 논문에서는 빅 데이터를 분석하기 위한 고급분석 기법과 이를 지원하기 위한 기술 요소들을 도출하고, 향후의 발전 방향에 대해 논하고자 한다. 이러한 분석 기법과 기술을 통한 정확하고 신뢰성 높으며 신속한 의사결정은 기업이 고객의 요구를 신속히 수용하고 반영함으로써 기업의 수익 창출 및 시장을 선점하는 중요한 요인으로 작용할 수 있다.
Recently, as the Internet, social-media, and smart devices have been spread and common, the amount of information increases incredibly. Nowadays, we are confronting new opportunities and challenges in every business area. Obviously, such huge amount of information which called Big Data is playing a significant role at many parts, like improvement of effective decision making. Therefore, many companies could maintain their competitiveness in the market place. In order to support firm’s decision making, we need not only the methodology for the effective analysis of Big Data, but also various infra-structure which could support the firm’s decision making. As a result, this paper discusses advanced analysis methodologies and it’s supporting technical factors. The firm’s decision which is based on such analysis and techniques is usually accurate, reliable, fast, receiving and refreshing customer’s feedback immediately, so the decision making plays an important role in the revenue creation and preempt of market share.
2. 임요한 | 구조화된 모형학습을 위한 분산처리 기반기술 개발
I
II
III
IV
연구의 주제 및 성격
연구의 선도성
연구의 융합성
연구 실적 목록
V 향후 계획
목차
3. 임요한 | 구조화된 모형학습을 위한 분산처리 기반기술 개발
구조화된 모형학습을 위한 분산처리 기반기술 개발
자료에 내재된 구조를 활용하면 보다 효율적인 통계적 추론 및 고속 계산이 가능. 추론 과정
을 병렬화된 알고리즘으로 근사, 구현하여 고차원 대용량 자료 분석에 적용
연구의 주제 및 성격 – 구조화된 모형학습을 위한 분산처리 기반기술 개발
1단계: 구조가 있는
자료의 모델링
4단계: 실제 데이터
적용
3단계: 고성능 분산
처리 컴퓨팅 구현
2단계: 병렬
알고리즘 개발
[Modeling
Structured Data]
[Parallel Algorithm]
[Distributed
Computing]
[Application]
Fused LASSO
시공간 –
Hidden Markov
Random Field
𝐴𝑥 = 𝑏, 𝐴 is a
structured
matrix
Composite
likelihood
Hadoop /
MapReduce
GPU
시공간자료
대용량 Omics
자료
뇌과학 자료
4. 임요한 | 구조화된 모형학습을 위한 분산처리 기반기술 개발
구조화된 모형학습을 위한 분산처리 기반기술 개발
• Fused LASSO 병렬화 절차 개발 : 현존하는 가장 빠른 알고리즘으로 현재 1-D까지 진행, 2-D에서도
근원적 단계부터 개선중
• 시공간– Hidden Markov Random Field의 Block Maximum Likelihood Estimator 제안 : 통계적 효율성이
이론적으로 증명된 composite likelihood 기반의 estimator를 제안
연구의 선도성 – 거대자료로부터 지식을 창출하기 위해 병렬화기법으로 효율성 극대화
연구주제의 선도성 연구방법의 선도성
계산 효율성이 떨어져 거대
자료에 대한 통계 모형 적합이
곤란
기존 연구 한계
통계적 효율성이 이론적으로
증명된 composite likelihood
기반의 estimator를 적용
새로운 통계적 방법론을
이용하여 데이터 분석
과정에서의 효율성을 극대화
연구성과의 선도성
브레인스토밍 등 전문가의
비과학적 방법론에 의존
데이터 분석의 효율성 극대화
기존 연구 한계
이론적으로 검증된 기법 적용
기존 연구 한계
복잡한 거대자료를 첨단
기법으로 분석하여 지식-
정보화 사회의 선도적 지식
창출
거대자료를 이용한 지식 창출
효율성에 대한 이론적인
측면의 검증 부족
5. 임요한 | 구조화된 모형학습을 위한 분산처리 기반기술 개발
구조화된 모형학습을 위한 분산처리 기반기술 개발
• 거대자료로부터 효율적으로 지식을 창출하기 위해, 이론적 배경인 기반 기술 지식과 구체적 알고
리즘을 제공하는 과학적∙공학적 방법론의 융합성 강조
연구의 융합성 – 기반 이론 및 기술 개발 단계부터 실제 적용과의 융합성 고려
연구 주제의 융합성
구조화된 모형
학습의 분산처리 기술 및
통계패키지 개발
의학, 기상학
데이터 분석
알고리즘의
기초이론 개발
통계학
고성능 컴퓨팅
기반기술 제공
컴퓨터 과학
스펙트럼 자료, 뇌자료,
시공간 기상 자료 등
거대자료 및 지식 제공
실제 활용가치 점검
연구 과정의 융합성
알고리즘 구현을 위한
고성능 컴퓨팅 기반 기술
개발
알고
리즘
및
패키지
개발
컴퓨팅
기반
기술
개발
고성능 알고리즘의 이론
확립 및 데이터 분석 협동
연구 주관
알고리즘 개발(통계학)
기술 개발(컴퓨터과학)
알고리즘 및 기반 기술 개발, 지식 창
출 등 전분야에서 타 팀들과 협업
통계패키지(SRC-stat)를
통한 자료분석 툴박스 제공
거대자료를 이용하여
새로운 지식 창출
지식
창출
지식 창출(의학,기상학)
연구 인력의 융합성
복잡한 통계 모형의 효율적인 계산
방법에 대한 연구 수행
다양한 분야의 통계 분석 모형 개발
통계학(임요한 교수 연구팀)
각 분야의 전문 지식과 풍부한 경험을
갖춘 우수 연구 인력들이 협업
병렬처리 기법 등 첨단 고성능
컴퓨팅 기반 기술 연구 수행
컴퓨터공학(xxx교수 연구팀)
고해상도 뇌영상 자료, 시공간 기상
자료 등에 대한 연구 수행
의학(김유경교수 연구팀) 및
기상학(오희석/이재용교수 연구팀)
6. 임요한 | 구조화된 모형학습을 위한 분산처리 기반기술 개발
구조화된 모형학습을 위한 분산처리 기반기술 개발
• 주제와 관련된 다양한 연구를 진행하였으며, 초기의 이론적 기반에 대한 연구 단계를 거쳐 다른 팀
들과의 공동연구 단계로 확대∙발전시킬 예정
연구 실적 목록 – 학술지 실적
논문명 게재연월 저널명 구분
Input permutation method to detect active voxels in fMRI study 201212 Magnetic Resonance Imaging SCIE
Parameter estimation in the spatial auto-logistic model with
varying independent subblocks
201212
Computational Statistics &
Data Analysis
SCIE
Distinguishing between genotoxic and non-genotoxic
hepatocarcinogens by gene expression profiling and
bioinformatic pathway analysis
201310 Scientific Reports SCIE
Investigating the different mechanisms of genotoxic and non-
genotoxic carcinogens by a gene set analysis
201401 PLoS ONE SCIE
Senescing human bone-marrow-derived clonal mesenchymal
stem cells have altered lysophospholipid composition and
functionality
201403
Journal of Proteome
Research
SCI
Detection of Pancreatic Cancer Biomarkers Using Mass
Spectrometry
201411 Cancer Informatics -
Asymptotically efficient parameter estimation in hidden Markov
spatio-temporal random fields
201501 Statistica Sinica SCI
High-dimensional fused lasso regression using majorization-
minimization and parallel processing
201503
Journal of Computational and
Graphical Statistics
SCIE
Two Sample Test for High Dimensional Partially Paired Data 게재승인
Journal of
Applied Statistics
SCIE
Some properties of generalized fused lasso and its applications
to high dimensional data
게재승인
Journal of Korean
Statistical Society
SCIE
7. 임요한 | 구조화된 모형학습을 위한 분산처리 기반기술 개발
구조화된 모형학습을 위한 분산처리 기반기술 개발
• 분산처리 기반기술 개발은 현재 3단계 과정 중 2단계 과제를 진행 중에 있으며, 이를 바탕으로 대용
량 고차원 자료 분석을 위한 자료 분석 툴박스를 개발하는 한편, 이를 실제 자료 분석에 적용하여
새로운 지식을 창출할 계획
향후 계획 – 추진 로드맵
진행 완료
1단계
(2011~2013)
진행중
2단계
(2014~2015)
기획중3단계
(2016~2017)
알고리즘에 대한 이론적 기반 확립
Fused LASSO 분산학습에 대한 이론 개발
시공간 정보를 반영한 MLE 등에 대한 일반이론 개발
이론적 기반의 확장, 알고리즘 구현
컴퓨팅 기술 기반을 활용하여 Fused LASSO 1-D 직렬구조의 분산학습
알고리즘 및 시공간 HMRF 모형 추정 알고리즘 구현
병렬처리 기법 개발을 위한 prototype 구현
이론 고도화, 자료 분석 툴박스 개발 및 대용량자료를 이용한 새로운 지식 창출
분산처리 이론을 1-D 직렬구조에서 2-D 병렬구조로 확장
R라이브러리 개발 및 SRC-stat에 공급
개발된 알고리즘을 대용량 고차원 자료에 적용하여 새로운 지식 창출