SlideShare a Scribd company logo
1 of 32
Download to read offline
오픈소스 및 머신러닝 도입 이야기
모 금융회사
k
Datayanolja 2017
2
3
0 발표자 소개
1 인터넷 폐쇄망에서 분석 시스템 구축 (feat. 엔지니어가 없을 때)
2 분석 보고서 자동화
Machine Learning 삽질기 (분석 & 개발)
Datayanolja 2017
3
,
0 발표자 소개
1 인터넷 폐쇄망에서 분석 시스템 구축 (feat. 엔지니어가 없을 때)
2 분석 보고서 자동화 하기
Machine Learning 삽질기 (분석 & 개발)
Datayanolja 2017
4삽질의 진화
(2012.9~2015.2) 인지과학
We use empirical methods and formal tools
to uncover the mechanisms of human learning
and inference.
3 M 3(( N RN I ( % M 3(( V FV M I F P( V F ( N ( )-1 0 -( V E S I
Datayanolja 2017
5삽질의 진화
(2015) MINDSCALE
: 데이터분석 온라인 교육 사이트 컨텐츠 제작
http://mindscale.kr/
(2015) R User Conference in Korea 2015
: R을 이용한 텍스트 감정분석
- 여론과 감성 발견하기
Datayanolja 2017
6삽질의 진화
3M 3((L NPN(NSI M 5 N 4 :7 1 21 :7
16 2-E :9 2/ 12 :7 7, 7. :9 2. 62
:7 17 11 :7 17 6-
M 3(( S NPN INF VL( NPN(8 LSN N E N S
3
M 3((R L SF V R(A DN SMS5 L I4SN E F
V S L? 4 ). ))11, 0 F L V ? 4-/ V B
V V4 V B V V4M ,6 L L
PV
3 g
3 f
Datayanolja 2017
7
,
0 발표자 소개
1 인터넷 폐쇄망에서 분석 시스템 구축 (feat. 엔지니어가 없을 때)
2 분석 보고서 자동화
Machine Learning 삽질기 (분석 & 개발)
Datayanolja 2017
8SQL, EXCEL, SAS
3 M 3((SFR NPN( ( :8 1 78 :7 18 1) :8 2: 6.
Datayanolja 2017
9R과 Python을 하고 싶어요..
R과
Python을
하고
싶어요..
Datayanolja 2017
10R과 Python을 하고 싶어요..
miniCRAN 이용
R
• y x
• https://github.com/qinwf/awesome-R
&
& RNSN8B6?
& h x
Datayanolja 2017
11R과 Python을 하고 싶어요..
conda 이용
pip 이용
Python
• N M
• N I S FI x
• http://www.lfd.uci.edu/~gohlke/pythonlibs/
& NSI NSFV x
• SIF d B v
Datayanolja 2017
12버전 업데이트는요???
서버를 주신다면..
동기화를 해서…
관리는 누가해요??
Nobody knows…
R은 3.2.x
Python은 3.5.x
ODBC / JDBC
Datayanolja 2017
13
,
0 발표자 소개
1 인터넷 폐쇄망에서 분석 시스템 구축 (feat. 엔지니어가 없을 때)
2 분석 보고서 자동화
Machine Learning 삽질기 (분석 & 개발)
Datayanolja 2017
14보고서 자동화
3 https://www.slideshare.net/SungYongLee4/pycon2017-dances-with-the-last-samurai
Datayanolja 2017
15SQL, EXCEL, SAS
3 M 3((SFR NPN( ( :8 1 78 :7 18 1) :8 2: 6.
Datayanolja 2017
16SQL, EXCEL, (R or Python)
3 M 3((SFR NPN( ( :8 1 78 :7 18 1) :8 2: 6.
Datayanolja 2017
17보고서 자동화
3
http://blog.naver.com/PostView.nhn?blogId=djfdma8&logNo=220124054628&parentCategoryNo=&categoryNo=&viewDate=&isSho
wPopularPosts=false&from=postView
Datayanolja 2017
18보고서 자동화
& m_ a
& _ a
“An eye for an eye and a tooth for a tooth”
& 8 O
&
& 3 NSP 3 NSL
& a c u
Datayanolja 2017
19보고서 자동화
3 http://hashcode.co.kr/questions/1975/%EC%9B%B9%ED%81%AC%EB%A1%A4%EB%A7%81-
%ED%95%9C%EA%B8%80-%EA%B9%A8%EC%A7%90-%EC%A7%88%EB%AC%B8%EC%9D%B4%EC%9A%94
j
Datayanolja 2017
20보고서 자동화
Datayanolja 2017
21보고서 자동화
Datayanolja 2017
22보고서 자동화
Datayanolja 2017
23보고서 자동화
Datayanolja 2017
24보고서 자동화
Datayanolja 2017
25
,
0 발표자 소개
1 인터넷 폐쇄망에서 분석 시스템 구축 (feat. 엔지니어가 없을 때)
2 분석 보고서 자동화
Machine Learning 삽질기 (연구 & 개발)
Datayanolja 2017
26Machine Learning 연구
VS
많은 기능이 지원되는 caret에
새로운 알고리즘 추가
별도 라이브러리 생성
장점:
- 타 알고리즘 비교 가능
- 병렬처리 등 다양한 기능 구현 쉬움
단점:
- 기능 구현 시간이 느려
- 라이센스 이슈 (GPL)
장점:
- Tech 덜 신경
- 특정 알고리즘에 맞는 아키텍쳐
단점:
- 알고리즘 일반화가 어려움
Datayanolja 2017
27Machine Learning 연구
데이터 이슈 및 고려점들
- 머신러닝에 적합한 데이터 형태(Input)
: 6개월내, 3개월내, 1개월내 à 거래별, 월별
& 그럼에도 불구하고 기존 방법론 대비 변별력 향상
& 머신러닝 시 경계할 점들
: 상관 높은 변수들이 많이 선택될 위험성
시간이 지남에 따라 변별력이 낮아짐 (과거와 미래의 패턴이 달라짐)
계산 시간을 어떻게 줄일 것인가(하드웨어 VS 소프트웨어)
Datayanolja 2017
28Machine Learning 개발 및 배포
& 알고리즘 확장성
& 오류처리
& 라이센스
& 호환성
& 세션 처리
& 웹프레임웍
& 가상 Windows 미지원
& 서버 좀 …
Datayanolja 2017
29Machine Learning 개발
장점:
& 라이센스에 비교적 자유로움
& 개발 관련 지원 라이브러리들
단점:
& 언어 진입장벽
& Only Python만의 한계
& 혼자서 개발이 가능한가?
Datayanolja 2017
30Machine Learning
3 M 3(( N V R(N N E VL( F (1)1.2 -10,..1) 0
Datayanolja 2017
31Machine Learning
& F MNS = FVSNSL _5
& e iu · t _ s u
& _p DC ·
& r o c b _5
& n g _5
& i l w o_5
더 생각해볼 문제들
THANK YOU FOR WATCHING

More Related Content

Similar to A Financial Company Story of Bringing Open Source and ML in

Memento, 그 사람에 대한 모든 정보
Memento, 그 사람에 대한 모든 정보Memento, 그 사람에 대한 모든 정보
Memento, 그 사람에 대한 모든 정보Jiun Bae
 
[2A7]Linkedin'sDataScienceWhyIsItScience
[2A7]Linkedin'sDataScienceWhyIsItScience[2A7]Linkedin'sDataScienceWhyIsItScience
[2A7]Linkedin'sDataScienceWhyIsItScienceNAVER D2
 
Things Data Scientists Should Keep in Mind
Things Data Scientists Should Keep in MindThings Data Scientists Should Keep in Mind
Things Data Scientists Should Keep in MindDataya Nolja
 
Case Study를 통해 본 데이터사이언스 협업 플랫폼의 필요성 (옥주영 컨설턴트, Hancom MDS) :: AWS Techforum ...
Case Study를 통해 본 데이터사이언스 협업 플랫폼의 필요성 (옥주영 컨설턴트, Hancom MDS) :: AWS Techforum ...Case Study를 통해 본 데이터사이언스 협업 플랫폼의 필요성 (옥주영 컨설턴트, Hancom MDS) :: AWS Techforum ...
Case Study를 통해 본 데이터사이언스 협업 플랫폼의 필요성 (옥주영 컨설턴트, Hancom MDS) :: AWS Techforum ...Amazon Web Services Korea
 
DB관점에서 본 빅데이터 (2019년 8월)
DB관점에서 본 빅데이터 (2019년 8월)DB관점에서 본 빅데이터 (2019년 8월)
DB관점에서 본 빅데이터 (2019년 8월)Kee Hoon Lee
 
머신러닝의 개념과 실습
머신러닝의 개념과 실습머신러닝의 개념과 실습
머신러닝의 개념과 실습Byoung-Hee Kim
 
Nnstreamer stream pipeline for arbitrary neural networks
Nnstreamer stream pipeline for arbitrary neural networksNnstreamer stream pipeline for arbitrary neural networks
Nnstreamer stream pipeline for arbitrary neural networksNAVER Engineering
 
빅데이터 기술전문가
빅데이터 기술전문가 빅데이터 기술전문가
빅데이터 기술전문가 YeLim Yu
 
창발 세미나 - 머신러닝과 소프트웨어 개발
창발 세미나 - 머신러닝과 소프트웨어 개발창발 세미나 - 머신러닝과 소프트웨어 개발
창발 세미나 - 머신러닝과 소프트웨어 개발Sang-Min Park
 
Apache MXNet으로 배워보는 딥러닝(Deep Learning) - 김무현 (AWS 솔루션즈아키텍트)
Apache MXNet으로 배워보는 딥러닝(Deep Learning) - 김무현 (AWS 솔루션즈아키텍트)Apache MXNet으로 배워보는 딥러닝(Deep Learning) - 김무현 (AWS 솔루션즈아키텍트)
Apache MXNet으로 배워보는 딥러닝(Deep Learning) - 김무현 (AWS 솔루션즈아키텍트)Amazon Web Services Korea
 
RealDisplay Platform V1.5 소개
RealDisplay Platform V1.5 소개RealDisplay Platform V1.5 소개
RealDisplay Platform V1.5 소개Lee Sangboo
 
Machine learning and deep learning (AiBB Lab)
Machine learning and deep learning (AiBB Lab)Machine learning and deep learning (AiBB Lab)
Machine learning and deep learning (AiBB Lab)Don Chang
 
권기훈_개인포트폴리오
권기훈_개인포트폴리오권기훈_개인포트폴리오
권기훈_개인포트폴리오Kihoon4
 
모바일 개발 트랜드
모바일 개발 트랜드모바일 개발 트랜드
모바일 개발 트랜드Terry Cho
 
SAYAHAE - 상품평 분석 및 추천 서비스 (자연어 처리)
SAYAHAE - 상품평 분석 및 추천 서비스 (자연어 처리)SAYAHAE - 상품평 분석 및 추천 서비스 (자연어 처리)
SAYAHAE - 상품평 분석 및 추천 서비스 (자연어 처리)Eunchan Lee
 
오픈소스 컨트리뷰톤 2020 backend.ai 발표자료
오픈소스 컨트리뷰톤 2020 backend.ai 발표자료오픈소스 컨트리뷰톤 2020 backend.ai 발표자료
오픈소스 컨트리뷰톤 2020 backend.ai 발표자료지원 정
 
Predictive analytics를 위한 alteryx
Predictive analytics를 위한 alteryxPredictive analytics를 위한 alteryx
Predictive analytics를 위한 alteryxPikdata Inc.
 
링크브릭스 2019
링크브릭스 2019링크브릭스 2019
링크브릭스 2019Sangkyu Kim
 
[경북] I'mcloud information
[경북] I'mcloud information[경북] I'mcloud information
[경북] I'mcloud informationstartupkorea
 

Similar to A Financial Company Story of Bringing Open Source and ML in (20)

Memento
MementoMemento
Memento
 
Memento, 그 사람에 대한 모든 정보
Memento, 그 사람에 대한 모든 정보Memento, 그 사람에 대한 모든 정보
Memento, 그 사람에 대한 모든 정보
 
[2A7]Linkedin'sDataScienceWhyIsItScience
[2A7]Linkedin'sDataScienceWhyIsItScience[2A7]Linkedin'sDataScienceWhyIsItScience
[2A7]Linkedin'sDataScienceWhyIsItScience
 
Things Data Scientists Should Keep in Mind
Things Data Scientists Should Keep in MindThings Data Scientists Should Keep in Mind
Things Data Scientists Should Keep in Mind
 
Case Study를 통해 본 데이터사이언스 협업 플랫폼의 필요성 (옥주영 컨설턴트, Hancom MDS) :: AWS Techforum ...
Case Study를 통해 본 데이터사이언스 협업 플랫폼의 필요성 (옥주영 컨설턴트, Hancom MDS) :: AWS Techforum ...Case Study를 통해 본 데이터사이언스 협업 플랫폼의 필요성 (옥주영 컨설턴트, Hancom MDS) :: AWS Techforum ...
Case Study를 통해 본 데이터사이언스 협업 플랫폼의 필요성 (옥주영 컨설턴트, Hancom MDS) :: AWS Techforum ...
 
DB관점에서 본 빅데이터 (2019년 8월)
DB관점에서 본 빅데이터 (2019년 8월)DB관점에서 본 빅데이터 (2019년 8월)
DB관점에서 본 빅데이터 (2019년 8월)
 
머신러닝의 개념과 실습
머신러닝의 개념과 실습머신러닝의 개념과 실습
머신러닝의 개념과 실습
 
Nnstreamer stream pipeline for arbitrary neural networks
Nnstreamer stream pipeline for arbitrary neural networksNnstreamer stream pipeline for arbitrary neural networks
Nnstreamer stream pipeline for arbitrary neural networks
 
빅데이터 기술전문가
빅데이터 기술전문가 빅데이터 기술전문가
빅데이터 기술전문가
 
창발 세미나 - 머신러닝과 소프트웨어 개발
창발 세미나 - 머신러닝과 소프트웨어 개발창발 세미나 - 머신러닝과 소프트웨어 개발
창발 세미나 - 머신러닝과 소프트웨어 개발
 
Apache MXNet으로 배워보는 딥러닝(Deep Learning) - 김무현 (AWS 솔루션즈아키텍트)
Apache MXNet으로 배워보는 딥러닝(Deep Learning) - 김무현 (AWS 솔루션즈아키텍트)Apache MXNet으로 배워보는 딥러닝(Deep Learning) - 김무현 (AWS 솔루션즈아키텍트)
Apache MXNet으로 배워보는 딥러닝(Deep Learning) - 김무현 (AWS 솔루션즈아키텍트)
 
RealDisplay Platform V1.5 소개
RealDisplay Platform V1.5 소개RealDisplay Platform V1.5 소개
RealDisplay Platform V1.5 소개
 
Machine learning and deep learning (AiBB Lab)
Machine learning and deep learning (AiBB Lab)Machine learning and deep learning (AiBB Lab)
Machine learning and deep learning (AiBB Lab)
 
권기훈_개인포트폴리오
권기훈_개인포트폴리오권기훈_개인포트폴리오
권기훈_개인포트폴리오
 
모바일 개발 트랜드
모바일 개발 트랜드모바일 개발 트랜드
모바일 개발 트랜드
 
SAYAHAE - 상품평 분석 및 추천 서비스 (자연어 처리)
SAYAHAE - 상품평 분석 및 추천 서비스 (자연어 처리)SAYAHAE - 상품평 분석 및 추천 서비스 (자연어 처리)
SAYAHAE - 상품평 분석 및 추천 서비스 (자연어 처리)
 
오픈소스 컨트리뷰톤 2020 backend.ai 발표자료
오픈소스 컨트리뷰톤 2020 backend.ai 발표자료오픈소스 컨트리뷰톤 2020 backend.ai 발표자료
오픈소스 컨트리뷰톤 2020 backend.ai 발표자료
 
Predictive analytics를 위한 alteryx
Predictive analytics를 위한 alteryxPredictive analytics를 위한 alteryx
Predictive analytics를 위한 alteryx
 
링크브릭스 2019
링크브릭스 2019링크브릭스 2019
링크브릭스 2019
 
[경북] I'mcloud information
[경북] I'mcloud information[경북] I'mcloud information
[경북] I'mcloud information
 

More from Dataya Nolja

How to Study Mathematics for ML
How to Study Mathematics for MLHow to Study Mathematics for ML
How to Study Mathematics for MLDataya Nolja
 
Music Data Start to End
Music Data Start to EndMusic Data Start to End
Music Data Start to EndDataya Nolja
 
Find a Leak Time in the Schedule
Find a Leak Time in the ScheduleFind a Leak Time in the Schedule
Find a Leak Time in the ScheduleDataya Nolja
 
Practice, Practice, Practice and do the Dirty Work
Practice, Practice, Practice and do the Dirty WorkPractice, Practice, Practice and do the Dirty Work
Practice, Practice, Practice and do the Dirty WorkDataya Nolja
 
Predicting People Who May Get off at the Next Station
Predicting People Who May Get off at the Next StationPredicting People Who May Get off at the Next Station
Predicting People Who May Get off at the Next StationDataya Nolja
 
Endless Trial-and-Errors for Data Collecting
Endless Trial-and-Errors for Data CollectingEndless Trial-and-Errors for Data Collecting
Endless Trial-and-Errors for Data CollectingDataya Nolja
 
Log Design Case Study
Log Design Case StudyLog Design Case Study
Log Design Case StudyDataya Nolja
 
Let's Play with Data Safely
Let's Play with Data SafelyLet's Play with Data Safely
Let's Play with Data SafelyDataya Nolja
 
Things Happend between JDBC and MySQL
Things Happend between JDBC and MySQLThings Happend between JDBC and MySQL
Things Happend between JDBC and MySQLDataya Nolja
 
Human-Machine Interaction and AI
Human-Machine Interaction and AIHuman-Machine Interaction and AI
Human-Machine Interaction and AIDataya Nolja
 
Julia 0.5 and TensorFlow
Julia 0.5 and TensorFlowJulia 0.5 and TensorFlow
Julia 0.5 and TensorFlowDataya Nolja
 
Zeppelin and Open Source Ecosystem and Silicon Valley
Zeppelin and Open Source Ecosystem and Silicon ValleyZeppelin and Open Source Ecosystem and Silicon Valley
Zeppelin and Open Source Ecosystem and Silicon ValleyDataya Nolja
 
Hadoop 10th Birthday and Hadoop 3 Alpha
Hadoop 10th Birthday and Hadoop 3 AlphaHadoop 10th Birthday and Hadoop 3 Alpha
Hadoop 10th Birthday and Hadoop 3 AlphaDataya Nolja
 
Kakao Bank Powered by Open Sources
Kakao Bank Powered by Open SourcesKakao Bank Powered by Open Sources
Kakao Bank Powered by Open SourcesDataya Nolja
 
Open Source is My Job
Open Source is My JobOpen Source is My Job
Open Source is My JobDataya Nolja
 
Creating Value through Data Analysis
Creating Value through Data AnalysisCreating Value through Data Analysis
Creating Value through Data AnalysisDataya Nolja
 
How to Make Money from Data - Global Cases
How to Make Money from Data - Global CasesHow to Make Money from Data - Global Cases
How to Make Money from Data - Global CasesDataya Nolja
 
Structured Streaming with Apache Spark
Structured Streaming with Apache SparkStructured Streaming with Apache Spark
Structured Streaming with Apache SparkDataya Nolja
 
How to Create Value from Data, and Its Difficulty
How to Create Value from Data, and Its DifficultyHow to Create Value from Data, and Its Difficulty
How to Create Value from Data, and Its DifficultyDataya Nolja
 
Machine Learning with Apache Spark and Zeppelin
Machine Learning with Apache Spark and ZeppelinMachine Learning with Apache Spark and Zeppelin
Machine Learning with Apache Spark and ZeppelinDataya Nolja
 

More from Dataya Nolja (20)

How to Study Mathematics for ML
How to Study Mathematics for MLHow to Study Mathematics for ML
How to Study Mathematics for ML
 
Music Data Start to End
Music Data Start to EndMusic Data Start to End
Music Data Start to End
 
Find a Leak Time in the Schedule
Find a Leak Time in the ScheduleFind a Leak Time in the Schedule
Find a Leak Time in the Schedule
 
Practice, Practice, Practice and do the Dirty Work
Practice, Practice, Practice and do the Dirty WorkPractice, Practice, Practice and do the Dirty Work
Practice, Practice, Practice and do the Dirty Work
 
Predicting People Who May Get off at the Next Station
Predicting People Who May Get off at the Next StationPredicting People Who May Get off at the Next Station
Predicting People Who May Get off at the Next Station
 
Endless Trial-and-Errors for Data Collecting
Endless Trial-and-Errors for Data CollectingEndless Trial-and-Errors for Data Collecting
Endless Trial-and-Errors for Data Collecting
 
Log Design Case Study
Log Design Case StudyLog Design Case Study
Log Design Case Study
 
Let's Play with Data Safely
Let's Play with Data SafelyLet's Play with Data Safely
Let's Play with Data Safely
 
Things Happend between JDBC and MySQL
Things Happend between JDBC and MySQLThings Happend between JDBC and MySQL
Things Happend between JDBC and MySQL
 
Human-Machine Interaction and AI
Human-Machine Interaction and AIHuman-Machine Interaction and AI
Human-Machine Interaction and AI
 
Julia 0.5 and TensorFlow
Julia 0.5 and TensorFlowJulia 0.5 and TensorFlow
Julia 0.5 and TensorFlow
 
Zeppelin and Open Source Ecosystem and Silicon Valley
Zeppelin and Open Source Ecosystem and Silicon ValleyZeppelin and Open Source Ecosystem and Silicon Valley
Zeppelin and Open Source Ecosystem and Silicon Valley
 
Hadoop 10th Birthday and Hadoop 3 Alpha
Hadoop 10th Birthday and Hadoop 3 AlphaHadoop 10th Birthday and Hadoop 3 Alpha
Hadoop 10th Birthday and Hadoop 3 Alpha
 
Kakao Bank Powered by Open Sources
Kakao Bank Powered by Open SourcesKakao Bank Powered by Open Sources
Kakao Bank Powered by Open Sources
 
Open Source is My Job
Open Source is My JobOpen Source is My Job
Open Source is My Job
 
Creating Value through Data Analysis
Creating Value through Data AnalysisCreating Value through Data Analysis
Creating Value through Data Analysis
 
How to Make Money from Data - Global Cases
How to Make Money from Data - Global CasesHow to Make Money from Data - Global Cases
How to Make Money from Data - Global Cases
 
Structured Streaming with Apache Spark
Structured Streaming with Apache SparkStructured Streaming with Apache Spark
Structured Streaming with Apache Spark
 
How to Create Value from Data, and Its Difficulty
How to Create Value from Data, and Its DifficultyHow to Create Value from Data, and Its Difficulty
How to Create Value from Data, and Its Difficulty
 
Machine Learning with Apache Spark and Zeppelin
Machine Learning with Apache Spark and ZeppelinMachine Learning with Apache Spark and Zeppelin
Machine Learning with Apache Spark and Zeppelin
 

A Financial Company Story of Bringing Open Source and ML in