Introduction to ankus(data mining and machine learning open source)

2,032 views

Published on

Introduction to ankus.
Hadoop based data mining and machine learning open source framework.

Published in: Technology
3 Comments
19 Likes
Statistics
Notes
No Downloads
Views
Total views
2,032
On SlideShare
0
From Embeds
0
Number of Embeds
19
Actions
Shares
0
Downloads
72
Comments
3
Likes
19
Embeds 0
No embeds

No notes for slide

Introduction to ankus(data mining and machine learning open source)

  1. 1. 하둡 기반 데이터 마이닝 / 기계학습 오픈소스! ankus ! ! ankus community / 전수현! suhyunjun@gmail.com! openankus.org

  2. 2. 빅데이터와 데이터 마이닝
  3. 3. 빅데이터 = 시스템 + 분석 + .. 시스템 (인프라) 데이터 분석
  4. 4. 빅데이터 프로세스 collection (수집) storage (저장) analysis (분석)
  5. 5. 빅데이터 과제 빅데이터를 도입하면 과연 효과를 얻을 수 있을까?
  6. 6. 빅데이터의 성공적인 사례들은 직간접적으로 증명되고 있다! 오바마 美 행정부 빅데이터 '올인'···"효과 아니까~"
  7. 7. 빅데이터의 성공적인 사례들은 직간접적으로 증명되고 있다! Netflix 경영진은 자사 고객의 동영상 시청 선호도를 분석하여 1990년 BBC 사의 미스터리물을 리메이크하기로 결정! 대박 사건!! 1억 달러(1천억원) 투자!!
  8. 8. 빅데이터의 효율적인 활용을 위해서는 고급 분석 기법이 필요
  9. 9. 데이터 마이닝 정의 Data + Mining 데이터 속의 잠재적인 유용한 의미를 가진 정보를 추출하는 것을 말하며 또한 KDD(knowledge-discovery in databases) 과정 중 한 단계이기도 하다.
  10. 10. 데이터 마이닝의 이해 - 과거 메인프레임(Big Iron)! (고가의 비용) 데이터 분석 기법 적용! (데이터 마이닝)! 낮은 품질의 결과물 초래!
  11. 11. 데이터 마이닝의 이해 - 현재 분산 컴퓨팅! (저렴한 비용)! 고급 데이터 분석 기법 재구현! (데이터 마이닝)! 자연스럽게 데이터 분석 ! 품질이 높아짐!
  12. 12. 그래서 ! 데이터 분석 기법인 데이터 마이닝이 다시 주목받기 시작한 것이다.
  13. 13. 데이터 마이닝 기법 Predictive (예측 모델링) data mining Classification (분류) Clustering (군집화) K-NN! Decision Tree! Neural Networks! SVM! Regression! Bayesian Network K-Means! EM! Density Based! SOM! Hierarchical Descriptive (기술 모델링) Association (연관성) Apriori! FP-Growth Recommendation system 13
  14. 14. Classification(분류) 데이터들을 미리 지정된 카테고리나 등급으로 나누는 분석 14
  15. 15. Clustering(군집) 데이터들을 유사한 성격을 가지는 임의의 그룹으로 분할 15
  16. 16. Association(연관) 구매 데이터에서 반복적으로 함께 판매되는 상품들간의 연관성에 대한 규칙을 찾아내기 16
  17. 17. 데이터 마이닝의 이해 Choice algorithm 데이터의 특징과 ! 해결하려는 문제에 적합한 기법(알고리즘)을 잘 선택해야 한다. 17
  18. 18. 하둡 기반의 데이터 분석
  19. 19. 전통적 데이터 분석 도구 WEKA IBM SPSS Modeler R SAS Enterprise Miner ECMiner 19
  20. 20. 하둡 기반 데이터 분석 도구 Data Analysis Data mining / machine learning 20
  21. 21. 데이터 분석을 위한 인프라 비교 Previous Analysis Tools Data Analysis Tool Local: Data Aggregation MapReduce based Analysis Data Processing/Extraction and Analysis Tool Data Mining / Data Processing/Extraction MapReduce Framework Distributed Big Data System based on Hadoop …… 21
  22. 22. 맵리듀스 개념 및 예제
  23. 23. 맵리듀스 정의 In Wikipedia! MapReduce is a programming model for processing large data sets with a parallel, distributed algorithm on a cluster.! A MapReduce program comprises a Map() procedure that performs filtering and sorting ! and a Reduce() procedure that performs a summary operation. • Hadoop으로 대표되는 빅데이터 플랫폼에서의 데이터 처리 프로세스! • Map/Reduce : Key, Value 구조를 기반으로 하는 데이터 분산 처리 구조
 (프레임워크)! • Google에서 2004년 최초 발표 23
  24. 24. 맵리듀스 예제 - Word count 24
  25. 25. 맵리듀스 예제 - Word count - Mapper 25
  26. 26. 맵리듀스 예제 - Word count - Reducer 26
  27. 27. 하둡 기반 데이터 마이닝/기계학습! 오픈소스 라이브러리 ! ankus
  28. 28. ankus 목적 28
  29. 29. ankus vs mahout • • 별도의 전처리 없이 입력 파일 사용 가능! 다양한 분석을 위한 파라미터 선택 분석 수행 지원! 웹 기반 UI 지원으로 손 쉽게 분석 수행 가능! 국내 순수 100% 기술 • 한정된 개수의 알고리즘 제공! • • 장점 • • • ! 다양한 종류의 알고리즘 및 안정된 버전 제공(2008~)! 시퀀스 파일을 이용한 빠른 수행 속도 지원! • 단점 라이선스 ! • 시퀀스 파일 형태의 입력 파일 처리 필요! 분석 수행 시 파라미터(속성) 선택 불가능! CLI 중심의 개발 • Apache License 2.0 • Apache License 2.0 29
  30. 30. ankus 설계 구조 30
  31. 31. ankus 주요 기능 31
  32. 32. CLI 기반의 ankus 실행 32
  33. 33. 웹 기반의 ankus 실행 - 1 33
  34. 34. 웹 기반의 ankus 실행 - 2 34
  35. 35. ankus 예제 - 유사/상관계수 - Pearson Correlation Coefficient 35
  36. 36. ankus 예제 - 유사/상관계수 - Pearson Correlation Coefficient ankus framework 데모 36
  37. 37. ankus 예제 - 유사/상관계수 - Pearson Correlation Coefficient MR - 1 MR - 2 ……. (생략) input 데이터 (무비렌즈 데이터셋) 첫번째 MR Job 결과 데이터 마지막 MR Job 결과 데이터 37
  38. 38. ankus 커뮤니티 • 소스코드 다운로드! • • • http://github.com/suhyunjeon/ankus http://sourceforge.net/projects/ankus 위키 - 사용자/개발자 가이드! • • 사용자 그룹 - 페이스북! • • http://openankus.org http://www.facebook.com/groups/openankus 사용자 포럼 - 구글 그룹스! • http://goo.gl/d8nP81 마지막 MR Job 결과 데이터 38
  39. 39. 감사합니다.

×