본 자료는 빅데이터를 분석하는 전반적인 과정에 대해 정리한 자료로써 사회과학을 포함한 다양한 영역(컴퓨터 공학, 통계학, 수학 등)이 분석 과정에 참여할 수 있는지를 정리한 자료이다. 분석 과정 세부 영역에 있어선 주로 사회과학의 관점에서 기술하였다. 현재 자료는 2010년부터 사회과학의 관점에서 데이터 분석을 계속 해오면서 경험한 부분과 문헌 및 발표 자료 등을 통해 정리한 자료이다. 앞으로 여러 영역을 공부하면서 빅데이터 분석 프로세스를 더욱 발전시켜 나갈 예정이다.
본 자료는 빅데이터를 분석하는 전반적인 과정에 대해 정리한 자료로써 사회과학을 포함한 다양한 영역(컴퓨터 공학, 통계학, 수학 등)이 분석 과정에 참여할 수 있는지를 정리한 자료이다. 분석 과정 세부 영역에 있어선 주로 사회과학의 관점에서 기술하였다. 현재 자료는 2010년부터 사회과학의 관점에서 데이터 분석을 계속 해오면서 경험한 부분과 문헌 및 발표 자료 등을 통해 정리한 자료이다. 앞으로 여러 영역을 공부하면서 빅데이터 분석 프로세스를 더욱 발전시켜 나갈 예정이다.
대형 병원의 교양 세미나에서 발표한 자료입니다.
이미 기술 지식은 충분하셨고 사례를 많이 궁금해 하셨습니다. 그래서 제 경험을 통해 얻었던 인사이트를 많이 나누었습니다. 하지만 의료현장은 플랫폼이나 기술보다는 의료기기로 접근하지 않으면 사용되기 힘들다는 생각이 들었습니다.
빅데이터 구축 및 술루션 가이드 주요 내용
- 고객 내부 빅데이터 프로젝트 진행시 단계별 진행 가이드
- 빅데이터 프로젝트 구축 타입
- 각 산업분야별로 빅데이터 엔진을 활용한 솔루션 구축 가이드
(딥 러닝 기법 기반의 분석 포함)
코세나(kosena), 이승훈 실장 admin@kosena.kr, kosena21@naver.com
010-9338-6400
(오리지널 구글 프리젠테이션은 http://goo.gl/uiX2UH 에)
- 권재명 (Jaimyoung Kwon)
1. 실리콘 벨리 데이터 기업들
2. 온라인 광고 사업
3. 데이터 사이언티스트, 데이터 엔지니어, 머신러닝 사이언티스트
4. 실리콘 벨리 데이터 사이언티스트의 하루
5. 데이터 사이언스 툴채인
6. 데이터 사이언스 베스트 프랙티스
7. 데이터 사이언스 필수 통계 개념
8. 사내 데이터 사이언스 도입
빅데이터 기술의 소프트웨어 공학 적용
1. 빅데이터 기술의 활용 사례 - 빅데이터 기술은 이미 많은 적용 사례를 가지고 있고, IoT 기술과 더불어 일상의 기술이 되어 가고 있다 (Pervasive & Invisible Analytics).
2. Spark 플랫폼 - 이전에 Hadoop으로 대표되는 빅데이터의 분산 처리 기술은 계속 발전하고 있고, Spark는 메모리 기반 데이터 처리로 기존 대비 성능을 10~100배 개선하였다. 특히, Spark는 Scala라는 함수형 언어로 구현되었고, 이전에 Java 기반의 빅데이터 처리 코드를 보다 명료하고 Compact하게 구현할 수 있다. 데이터 분석에는 Imperative 언어보다 함수형 언어가 보다 적합하다.
3. 소프트웨어 공학에서의 데이터 분석 사례 - 최근 Software Analytics, Repository Mining 등 데이터 분석 사례들이 있고, 최근 GitHub 이나 StackOverflow 분석과 같은 빅데이터 분석 연구들이 진행되고 있다.
4. Spark를 활용한 Word Count 예
5. Big Data Software Engineering - 큰 데이터 처리 외에도, 실시간 데이터 처리 (Velocity), 다양한 데이터 처리 (Variety) 부분에도 소프트웨어 공학 적용이 필요하다. 또한, Big Data Software를 Engineering하는 부분에도 관심이 필요하다. Big Data 분석 코드 역시 SE의 대상으로 바라보고, Test Driven Dev, Agile Methodology와 같은 개발 방법의 적용을 살펴볼 필요가 있다.
마지막으로, 현재 빅데이터 기술에 대한 진입 장벽은 많이 낮아졌고, 사용 가능한 오픈소스들이 많다. 소프트웨어 공학자라면 빅데이터 분석을 직접 시도해 볼 필요가 있고, 특히, Spark-Scala는 향 후 더욱 발전 확대될 기술이다.
빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)Myungjin Lee
오늘날 인터넷의 보편화와 소셜 미디어 및 스마트 기기의 발전으로 인해 정보의 양이 급격히 증가함에 따라 비즈니스 영역에 있어서 새로운 기회와 도전의 시기를 맞고 있다. 빅 데이터라 불리는 이러한 수 많은 정보들은 기업이 효율적인 의사결정을 지원할 수 있도록 도와줄 수 있으며, 또한 다른 기업과의 비즈니스 경쟁에서 경쟁우위를 차지하는데 아주 중요한 역할을 한다. 이러한 의사결정을 지원하기 위해서는 빅 데이터를 효과적으로 분석할 수 있는 방법론이 필요할 뿐 아니라 이를 지원할 수 있는 다양한 인프라를 필요로 한다. 따라서 본 논문에서는 빅 데이터를 분석하기 위한 고급분석 기법과 이를 지원하기 위한 기술 요소들을 도출하고, 향후의 발전 방향에 대해 논하고자 한다. 이러한 분석 기법과 기술을 통한 정확하고 신뢰성 높으며 신속한 의사결정은 기업이 고객의 요구를 신속히 수용하고 반영함으로써 기업의 수익 창출 및 시장을 선점하는 중요한 요인으로 작용할 수 있다.
Recently, as the Internet, social-media, and smart devices have been spread and common, the amount of information increases incredibly. Nowadays, we are confronting new opportunities and challenges in every business area. Obviously, such huge amount of information which called Big Data is playing a significant role at many parts, like improvement of effective decision making. Therefore, many companies could maintain their competitiveness in the market place. In order to support firm’s decision making, we need not only the methodology for the effective analysis of Big Data, but also various infra-structure which could support the firm’s decision making. As a result, this paper discusses advanced analysis methodologies and it’s supporting technical factors. The firm’s decision which is based on such analysis and techniques is usually accurate, reliable, fast, receiving and refreshing customer’s feedback immediately, so the decision making plays an important role in the revenue creation and preempt of market share.
대형 병원의 교양 세미나에서 발표한 자료입니다.
이미 기술 지식은 충분하셨고 사례를 많이 궁금해 하셨습니다. 그래서 제 경험을 통해 얻었던 인사이트를 많이 나누었습니다. 하지만 의료현장은 플랫폼이나 기술보다는 의료기기로 접근하지 않으면 사용되기 힘들다는 생각이 들었습니다.
빅데이터 구축 및 술루션 가이드 주요 내용
- 고객 내부 빅데이터 프로젝트 진행시 단계별 진행 가이드
- 빅데이터 프로젝트 구축 타입
- 각 산업분야별로 빅데이터 엔진을 활용한 솔루션 구축 가이드
(딥 러닝 기법 기반의 분석 포함)
코세나(kosena), 이승훈 실장 admin@kosena.kr, kosena21@naver.com
010-9338-6400
(오리지널 구글 프리젠테이션은 http://goo.gl/uiX2UH 에)
- 권재명 (Jaimyoung Kwon)
1. 실리콘 벨리 데이터 기업들
2. 온라인 광고 사업
3. 데이터 사이언티스트, 데이터 엔지니어, 머신러닝 사이언티스트
4. 실리콘 벨리 데이터 사이언티스트의 하루
5. 데이터 사이언스 툴채인
6. 데이터 사이언스 베스트 프랙티스
7. 데이터 사이언스 필수 통계 개념
8. 사내 데이터 사이언스 도입
빅데이터 기술의 소프트웨어 공학 적용
1. 빅데이터 기술의 활용 사례 - 빅데이터 기술은 이미 많은 적용 사례를 가지고 있고, IoT 기술과 더불어 일상의 기술이 되어 가고 있다 (Pervasive & Invisible Analytics).
2. Spark 플랫폼 - 이전에 Hadoop으로 대표되는 빅데이터의 분산 처리 기술은 계속 발전하고 있고, Spark는 메모리 기반 데이터 처리로 기존 대비 성능을 10~100배 개선하였다. 특히, Spark는 Scala라는 함수형 언어로 구현되었고, 이전에 Java 기반의 빅데이터 처리 코드를 보다 명료하고 Compact하게 구현할 수 있다. 데이터 분석에는 Imperative 언어보다 함수형 언어가 보다 적합하다.
3. 소프트웨어 공학에서의 데이터 분석 사례 - 최근 Software Analytics, Repository Mining 등 데이터 분석 사례들이 있고, 최근 GitHub 이나 StackOverflow 분석과 같은 빅데이터 분석 연구들이 진행되고 있다.
4. Spark를 활용한 Word Count 예
5. Big Data Software Engineering - 큰 데이터 처리 외에도, 실시간 데이터 처리 (Velocity), 다양한 데이터 처리 (Variety) 부분에도 소프트웨어 공학 적용이 필요하다. 또한, Big Data Software를 Engineering하는 부분에도 관심이 필요하다. Big Data 분석 코드 역시 SE의 대상으로 바라보고, Test Driven Dev, Agile Methodology와 같은 개발 방법의 적용을 살펴볼 필요가 있다.
마지막으로, 현재 빅데이터 기술에 대한 진입 장벽은 많이 낮아졌고, 사용 가능한 오픈소스들이 많다. 소프트웨어 공학자라면 빅데이터 분석을 직접 시도해 볼 필요가 있고, 특히, Spark-Scala는 향 후 더욱 발전 확대될 기술이다.
빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)Myungjin Lee
오늘날 인터넷의 보편화와 소셜 미디어 및 스마트 기기의 발전으로 인해 정보의 양이 급격히 증가함에 따라 비즈니스 영역에 있어서 새로운 기회와 도전의 시기를 맞고 있다. 빅 데이터라 불리는 이러한 수 많은 정보들은 기업이 효율적인 의사결정을 지원할 수 있도록 도와줄 수 있으며, 또한 다른 기업과의 비즈니스 경쟁에서 경쟁우위를 차지하는데 아주 중요한 역할을 한다. 이러한 의사결정을 지원하기 위해서는 빅 데이터를 효과적으로 분석할 수 있는 방법론이 필요할 뿐 아니라 이를 지원할 수 있는 다양한 인프라를 필요로 한다. 따라서 본 논문에서는 빅 데이터를 분석하기 위한 고급분석 기법과 이를 지원하기 위한 기술 요소들을 도출하고, 향후의 발전 방향에 대해 논하고자 한다. 이러한 분석 기법과 기술을 통한 정확하고 신뢰성 높으며 신속한 의사결정은 기업이 고객의 요구를 신속히 수용하고 반영함으로써 기업의 수익 창출 및 시장을 선점하는 중요한 요인으로 작용할 수 있다.
Recently, as the Internet, social-media, and smart devices have been spread and common, the amount of information increases incredibly. Nowadays, we are confronting new opportunities and challenges in every business area. Obviously, such huge amount of information which called Big Data is playing a significant role at many parts, like improvement of effective decision making. Therefore, many companies could maintain their competitiveness in the market place. In order to support firm’s decision making, we need not only the methodology for the effective analysis of Big Data, but also various infra-structure which could support the firm’s decision making. As a result, this paper discusses advanced analysis methodologies and it’s supporting technical factors. The firm’s decision which is based on such analysis and techniques is usually accurate, reliable, fast, receiving and refreshing customer’s feedback immediately, so the decision making plays an important role in the revenue creation and preempt of market share.
Note (2017-07-12): a more recent version of this slide has been released. https://www.slideshare.net/ByoungHeeKim1/20170629-osia-final
Introduction to deep learning approaches for artificial intelligence (with some practice materials) (mostly in Korean)
(서울대학교 인지과학협동과정, 인지과학방법론 2016년 2학기 강의)
2022.12.03 <4차 산업혁명 도시 정책 아이디어 경진대회> 강연
1. 개요
AI, ML, DL 에 대해 설명하고 적재적소에 AI를 적용하는 방법과 팀 주제별 AI 적용 예시를 찾아보았다.
2. 목차
(1) 강연자 소개
(2) 인공지능, 머신러닝, 딥러닝
(3) 인공지능 활용 사례
(4) 만능도구 인공지능?
(5) 각 팀별로 인공지능 적용해보기
국토지리정보원의 요청으로 수행했던 '공간정보 대량맞춤화 정보지원체계 연구' 소개 자료입니다. 연구의 배경, 공간정보 대량맞춤화의 개념, 향후 업무 체계 변화 방향, 법제도 개선 방향 등 연구 전반에 대한 개략적인 소개를 담고 있습니다. 결론적으로, 현재의 공급자, 제품 위주의 공간정보 생산/관리/제공 체계를 수요자, 서비스 위주로 개선할 때 필요한 사항들을 지적하고 있습니다.
[KERIS 이슈리포트] 요약 세미나 (Webinar) 자료
* 원문 링크: http://bit.ly/196LHBs
국내외 빅데이터 및 학습 분석 관련 기고서들과 동향 분석자료를 요약한 이슈리포트. UNESCO Policy Brief와 IMS Global의 백서를 중심으로 학습 분석 기술의 활용가능성과 쟁정들을 분석한 자료.
<주요>
1. 빅데이터 기술 및 산업 동향
2. 학습 분석 기술에 대한 이해
3. 학습 분석 기술 표준화 동향
4. 시사점
2. 2014 MACHINE LEARNING CAMP, FAST CAMPUS
2
목차
I
II
III
데이터사이언스활용분야
데이터사이언스속의기계학습
데이터사이언스
3. 2014 MACHINE LEARNING CAMP, FAST CAMPUS
3
과학(SCIENCE)의의미
Science = Sceadan(to devide, separate)
The study of nature and behavior of natural things and the knowledge that we obtain about them.
4. 2014 MACHINE LEARNING CAMP, FAST CAMPUS
사실로부터지혜까지
4
사실
(Fact)
데이터
(Data)
정보
(Information)
지식
(Knowledge)
지혜
(Wisdom)
객관적실재
김수현이맥도널드에서빅맥세트를먹었다.
김우빈이맥도널드에서베이컨토마토디럭스세트를먹었다.
객관적실재의체계화
사실을특정한방식을통해저장
고객명
일자
버거
음료
사이드
가격
리필여부
김수현
12.03.02
빅맥
콜라
감자튀김
7,000
Y
김우빈
12.03.02
베이컨…
사이다
오징어링
8,000
N
…
…
…
…
…
…
…
데이터+의미
데이터를특정목적과문제해결에도움이되도록가공한것
“김수현과김우빈은
3월과9월에두번씩맥도널드를방문한다”
정보+가치
정보를집적하고체계화하여장래의일반적사용에대비한보편성확보
신학기기념할인!
한달내3번방문시, 세번째주문1,000원할인!!
지식+추론
추론및문제해결을위한지적능력
김수현과김우빈의월별방문횟수
2012년3월: 2회방문, 2012년4월: 1회방문
2012년5월: 0회방문…
11. 2014 MACHINE LEARNING CAMP, FAST CAMPUS
데이터마이닝
Definition
Extracting useful informationfrom large datasets. (Hand et al., 2001)
The process of exploration and analysis, by automatic or semi-automatic means, of large quantities of datain order to discover meaningful patterns and rules. (Berry and Linoff, 1997, 2000)
The process of discovering meaningful new correlations, patterns and trendsby sifting through large amount data stored in repositories, using pattern recognition technologies as well as statistical and mathematical techniques. (Gartner Group, 2004)
11
12. 2014 MACHINE LEARNING CAMP, FAST CAMPUS
12
데이터마이닝: 전망
1.Tissue Engineers
2.Gene Programmers
3.Pharmers
4.FrankenfoodMonitors
5.DataMiners
6.Hot-lineHandyman
7.VirtualReality Actors
8.Narrowcastors
9.Turing Testors
10.Knowledge Engineers
1.Modeling Surprise
2.Probabilistic Chips
3.NanoRadio
4.Wireless Power
5.Atomic Magnetometers
6.Offline Web Applications
7.GrapheneTransistors
8.Connectomics
9.Reality Mining
10.CellulolyticEnzymes
What will be the 10 hottest jobs?
10 Emerging technologies 2008
-Times, 2000
-Technology Review, 2008
14. 2014 MACHINE LEARNING CAMP, FAST CAMPUS
데이터마이닝: “빅데이터”의시대
Data Scientist: The sexist job of the 21stCentury
14
(Harvard Business Review, Oct. 2012, 내용요약은최윤섭팀장블로그참조(Link))
15. 2014 MACHINE LEARNING CAMP, FAST CAMPUS
데이터마이닝: “빅데이터”의시대
What is “Big Data”
15
Volume
Value
Velocity
Variety
16. 2014 MACHINE LEARNING CAMP, FAST CAMPUS
16
빅데이터등장배경
1
ICT 패러다임의변화
(Source: Ji-Sun Jeong, New Possibilities of Big Data and Counterstragegy, Mar. 2012)
24. 2014 MACHINE LEARNING CAMP, FAST CAMPUS
24
빅데이터 등장 배경
연산 능력의 비약적인 발전
4
품명 무게 CPU RAM HD 가격
Cray-2s
Parallel
Computing
System
with 3 PCs
2000kg
30kg
4개
16개
1Gb
64Gb
40Gb
4.5Tb
270억
500만
70배 4배 64배 100배 5400배
25. 2014 MACHINE LEARNING CAMP, FAST CAMPUS
25
빅데이터등장배경
연산능력의비약적인발전
IBM’s super computer Watson won an overwhelming victory in final Jeopardy! In Feb. 2011
4
28. 2014 MACHINE LEARNING CAMP, FAST CAMPUS
28
빅데이터등장배경
데이터분석을가능하게하는인프라와(오픈소스) 소프트웨어
DBMS
Analytics
6
29. 2014 MACHINE LEARNING CAMP, FAST CAMPUS
29
A Short History
1960
1980
1990
2000
2010
Related to Statistical Analysisfrom the 60’s with SASand SPSS packages
Machine Learning, Database Engineering methods
Data Dredging or
“beat your data until it confesses”
(Descriptive modeling)
Analytics
(Predictive modeling)
Data Science
(Analyze and deploy
everything you can think of)
41. 2014 MACHINE LEARNING CAMP, FAST CAMPUS
41
데이터사이언스활용분야
미래의예측, 진단및탐지
2
Kang et. al. (2009) A virtual metrology system for semiconductor manufacturing, Expert Systems with Applications36(10): 12554-12561.
47. 2014 MACHINE LEARNING CAMP, FAST CAMPUS
47
목차
I
II
III
데이터사이언스활용분야
데이터사이언스속의기계학습
데이터사이언스
48. 2014 MACHINE LEARNING CAMP, FAST CAMPUS
기계학습: Machine Learning
정의
A computer program is said to learnfrom experience E with respect to some class of tasks T and performance measure P, if its performance at task in T, as measured by P, improves with experience E,” –Mitchell (1997)
48
지도학습: Supervised Learning
목적: 특정한타겟을예측하는것
독립변수X와종속변수Y사이의관계(인과관계혹은상관관계)를찾음
과거에타겟정보가있는데이터를사용하여모델학습
새로운데이터를사용하여모델평가
비지도학습: Unsupervised Learning
데이터에내재된특징을분석
데이터의분포추정, 고객집단의구분, 연관규칙분석등
예측하고자하는지정된타겟변수가존재하지않음
49. 2014 MACHINE LEARNING CAMP, FAST CAMPUS
49
지도학습vs. 비지도학습
비지도학습
Var. 1
Var. 2
…
Var. d
Ins.1
..
..
…
..
Ins.2
..
..
…
..
…
…
…
…
…
Ins. N
..
..
..
..
Unsupervised learning
Explores intrinsic characteristics
Estimates underlying distribution
Density estimation, clustering, association rule mining, network (graph) analysis, etc.
A given dataset X
50. 2014 MACHINE LEARNING CAMP, FAST CAMPUS
50
지도학습 vs. 비지도학습
지도학습
Var. 1 Var. 2 … Var. d
Ins. 1 .. .. … ..
Ins. 2 .. .. … ..
… … … … …
Ins. N .. .. .. ..
A given dataset X &Y
Y
..
..
…
..
y f (x)
Supervised learning
Finds relations between X and Y: estimate the underlying
function
Classification, regression, novelty detection
y f (x)
51. 2014 MACHINE LEARNING CAMP, FAST CAMPUS
목적에 따른 기계학습 방법론
51
분류: Classification
목적: 범주형 타겟 변수를 예측
구매/비구매, 사기 거래/정상거래, 양성 반응/음성 반응 등
데이터의 각 행은 레코드에 해당하며 각 열은 설명변수에 해당
이진 분류(binary classification) 문제가 대다수
1
-5 -4 -3 -2 -1 0 1 2 3 4 5
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
63. 2014 MACHINE LEARNING CAMP, FAST CAMPUS
63
2단계: 데이터수집/검증/수정
데이터수집/검증/수정: 데이터수정
변수변환
Binning:
•연속형변수를순서형변수로1-of-C coding:
•1개의명목형변수를C개의이진형변수로
Low
Mid
High
“Color: yellow, red, blue, green”
d1
d2
d3
d4
yellow
1
0
0
0
red
0
1
0
0
blue
0
0
1
0
green
0
0
0
1
2
64. 2014 MACHINE LEARNING CAMP, FAST CAMPUS
64
3단계: 데이터 탐색 및 전처리
데이터 탐색 및 전처리: 데이터 탐색
단변량 분석
히스토그램: Histogram
• 한 변수의 값이 갖는 분포를
파악
• 정규분포 가정 등에 이용
상자그림: Box plot
0
20
40
60
80
100
120
140
160
180
5 10 15 20 25 30 35 40 45 50
Frequency
MEDV
Histogram
median
quartile 1
“max”
“min”
outliers
mean
outlier
quartile 3
3
65. 2014 MACHINE LEARNING CAMP, FAST CAMPUS
65
3단계: 데이터 탐색 및 전처리
데이터 탐색 및 전처리: 데이터 탐색
다변량 분석
상관계수:
• 어떤 변수들이 서로 상관관계가 높은가?
• 대표성을 갖는 적은 수의 변수를 선택할 때 사용 가능
CRIM ZN INDUS CHAS NOX RM
CRIM 1
ZN -0.20047 1
INDUS 0.406583 -0.53383 1
CHAS -0.05589 -0.0427 0.062938 1
NOX 0.420972 -0.5166 0.763651 0.091203 1
RM -0.21925 0.311991 -0.39168 0.091251 -0.30219 1
3
66. 2014 MACHINE LEARNING CAMP, FAST CAMPUS
66
3단계: 데이터탐색및전처리
데이터탐색및전처리: 데이터탐색
Var. 1
Var. 2
Var. 3
Var. 4
3
67. 2014 MACHINE LEARNING CAMP, FAST CAMPUS
67
3단계: 데이터탐색및전처리
데이터탐색및전처리: 데이터전처리
차원의저주: Curse of dimensionality
변수가증가할수록동일한설명력을유지하기위해필요한레코드의수는기하급수적으로증가함
“If there are various logical ways to explain a certain phenomenon, the simplest is the best” -Occam’s Razor
21=2
22=4
23=8
3
73. 2014 MACHINE LEARNING CAMP, FAST CAMPUS
73
5단계: 결과의 평가 및 해석
결과의 평가 및 해석
분류 성능 평가 지표
혼동 행렬(confusion matrix)
Simple accuracy: (A+C)/(A+B+C+D)
Balanced correction rate:
Lift charts, receiver operating characteristic (ROC) curve, etc.
Predicted
1(+) 0(-)
Actual
1(+)
True positive,
Sensitivity (A)
False negative,
Type I error (B)
0(-)
False positive,
Type II error (C)
True negative,
Specificity (D)
C D
D
A B
A
5
74. 2014 MACHINE LEARNING CAMP, FAST CAMPUS
74
5단계: 결과의 평가 및 해석
결과의 평가 및 해석
회귀 성능 평가 지표
y: actual target value, y’: predicted target value
• Mean squared error, Root mean squared error
• Mean absolute error
• Mean absolute percentage error
n
i i i y y
n
MSE
1
2 ( )
1
n
i i i y y
n
RMSE
1
2 ( )
1
n
i i i y y
n
MAE
1
1
n
i i i i y y y
n
MAPE
1
/
1
0
2
4
6
8
10
0 5 10
5
75. 2014 MACHINE LEARNING CAMP, FAST CAMPUS
75
5단계: 결과의 평가 및 해석
결과의 평가 및 해석
군집화 성능 평가 지표
군집 내 분산: 동일 군집 내 레코드들은 얼마나 가까이 위치하는가
군집 간 분산: 다른 군집에 속하는 레코드들은 얼마나 멀리 떨어져 있
는가
좋은 군집화 결과: 군집 내 분산은 작고 군집 간 분산은 큼
연관규칙분석 성능 평가 지표
Support:
Confidence:
Lift:
P(A,B)
( )
( , )
( | )
P B
P A B
P A B
( ) ( )
( , )
( )
( | )
P A P B
P A B
P B
P A B
5
76. 2014 MACHINE LEARNING CAMP, FAST CAMPUS
76
6단계: 적용및모니터링
적용및모니터링
모델적용
구축된기계학습모델을운영시스템에이식및실행
기계학습모델의예측결과를바탕으로실제action 수행
•“강필성고객이다음달에우리회사서비스를이용하지않을확류이80%이니이탈하지않도록사용쿠폰을발송하시오.”
모니터링
기계학습예측결과를바탕으로수행한캠페인의성과분석
필요할경우모델의업데이트수행
6