Introduction to ankus(data mining and machine learning open source)

  • 1,612 views
Uploaded on

Introduction to ankus. …

Introduction to ankus.
Hadoop based data mining and machine learning open source framework.

More in: Technology
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
No Downloads

Views

Total Views
1,612
On Slideshare
0
From Embeds
0
Number of Embeds
2

Actions

Shares
Downloads
55
Comments
3
Likes
12

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. 하둡 기반 데이터 마이닝 / 기계학습 오픈소스! ankus ! ! ankus community / 전수현! suhyunjun@gmail.com! openankus.org

  • 2. 빅데이터와 데이터 마이닝
  • 3. 빅데이터 = 시스템 + 분석 + .. 시스템 (인프라) 데이터 분석
  • 4. 빅데이터 프로세스 collection (수집) storage (저장) analysis (분석)
  • 5. 빅데이터 과제 빅데이터를 도입하면 과연 효과를 얻을 수 있을까?
  • 6. 빅데이터의 성공적인 사례들은 직간접적으로 증명되고 있다! 오바마 美 행정부 빅데이터 '올인'···"효과 아니까~"
  • 7. 빅데이터의 성공적인 사례들은 직간접적으로 증명되고 있다! Netflix 경영진은 자사 고객의 동영상 시청 선호도를 분석하여 1990년 BBC 사의 미스터리물을 리메이크하기로 결정! 대박 사건!! 1억 달러(1천억원) 투자!!
  • 8. 빅데이터의 효율적인 활용을 위해서는 고급 분석 기법이 필요
  • 9. 데이터 마이닝 정의 Data + Mining 데이터 속의 잠재적인 유용한 의미를 가진 정보를 추출하는 것을 말하며 또한 KDD(knowledge-discovery in databases) 과정 중 한 단계이기도 하다.
  • 10. 데이터 마이닝의 이해 - 과거 메인프레임(Big Iron)! (고가의 비용) 데이터 분석 기법 적용! (데이터 마이닝)! 낮은 품질의 결과물 초래!
  • 11. 데이터 마이닝의 이해 - 현재 분산 컴퓨팅! (저렴한 비용)! 고급 데이터 분석 기법 재구현! (데이터 마이닝)! 자연스럽게 데이터 분석 ! 품질이 높아짐!
  • 12. 그래서 ! 데이터 분석 기법인 데이터 마이닝이 다시 주목받기 시작한 것이다.
  • 13. 데이터 마이닝 기법 Predictive (예측 모델링) data mining Classification (분류) Clustering (군집화) K-NN! Decision Tree! Neural Networks! SVM! Regression! Bayesian Network K-Means! EM! Density Based! SOM! Hierarchical Descriptive (기술 모델링) Association (연관성) Apriori! FP-Growth Recommendation system 13
  • 14. Classification(분류) 데이터들을 미리 지정된 카테고리나 등급으로 나누는 분석 14
  • 15. Clustering(군집) 데이터들을 유사한 성격을 가지는 임의의 그룹으로 분할 15
  • 16. Association(연관) 구매 데이터에서 반복적으로 함께 판매되는 상품들간의 연관성에 대한 규칙을 찾아내기 16
  • 17. 데이터 마이닝의 이해 Choice algorithm 데이터의 특징과 ! 해결하려는 문제에 적합한 기법(알고리즘)을 잘 선택해야 한다. 17
  • 18. 하둡 기반의 데이터 분석
  • 19. 전통적 데이터 분석 도구 WEKA IBM SPSS Modeler R SAS Enterprise Miner ECMiner 19
  • 20. 하둡 기반 데이터 분석 도구 Data Analysis Data mining / machine learning 20
  • 21. 데이터 분석을 위한 인프라 비교 Previous Analysis Tools Data Analysis Tool Local: Data Aggregation MapReduce based Analysis Data Processing/Extraction and Analysis Tool Data Mining / Data Processing/Extraction MapReduce Framework Distributed Big Data System based on Hadoop …… 21
  • 22. 맵리듀스 개념 및 예제
  • 23. 맵리듀스 정의 In Wikipedia! MapReduce is a programming model for processing large data sets with a parallel, distributed algorithm on a cluster.! A MapReduce program comprises a Map() procedure that performs filtering and sorting ! and a Reduce() procedure that performs a summary operation. • Hadoop으로 대표되는 빅데이터 플랫폼에서의 데이터 처리 프로세스! • Map/Reduce : Key, Value 구조를 기반으로 하는 데이터 분산 처리 구조
 (프레임워크)! • Google에서 2004년 최초 발표 23
  • 24. 맵리듀스 예제 - Word count 24
  • 25. 맵리듀스 예제 - Word count - Mapper 25
  • 26. 맵리듀스 예제 - Word count - Reducer 26
  • 27. 하둡 기반 데이터 마이닝/기계학습! 오픈소스 라이브러리 ! ankus
  • 28. ankus 목적 28
  • 29. ankus vs mahout • • 별도의 전처리 없이 입력 파일 사용 가능! 다양한 분석을 위한 파라미터 선택 분석 수행 지원! 웹 기반 UI 지원으로 손 쉽게 분석 수행 가능! 국내 순수 100% 기술 • 한정된 개수의 알고리즘 제공! • • 장점 • • • ! 다양한 종류의 알고리즘 및 안정된 버전 제공(2008~)! 시퀀스 파일을 이용한 빠른 수행 속도 지원! • 단점 라이선스 ! • 시퀀스 파일 형태의 입력 파일 처리 필요! 분석 수행 시 파라미터(속성) 선택 불가능! CLI 중심의 개발 • Apache License 2.0 • Apache License 2.0 29
  • 30. ankus 설계 구조 30
  • 31. ankus 주요 기능 31
  • 32. CLI 기반의 ankus 실행 32
  • 33. 웹 기반의 ankus 실행 - 1 33
  • 34. 웹 기반의 ankus 실행 - 2 34
  • 35. ankus 예제 - 유사/상관계수 - Pearson Correlation Coefficient 35
  • 36. ankus 예제 - 유사/상관계수 - Pearson Correlation Coefficient ankus framework 데모 36
  • 37. ankus 예제 - 유사/상관계수 - Pearson Correlation Coefficient MR - 1 MR - 2 ……. (생략) input 데이터 (무비렌즈 데이터셋) 첫번째 MR Job 결과 데이터 마지막 MR Job 결과 데이터 37
  • 38. ankus 커뮤니티 • 소스코드 다운로드! • • • http://github.com/suhyunjeon/ankus http://sourceforge.net/projects/ankus 위키 - 사용자/개발자 가이드! • • 사용자 그룹 - 페이스북! • • http://openankus.org http://www.facebook.com/groups/openankus 사용자 포럼 - 구글 그룹스! • http://goo.gl/d8nP81 마지막 MR Job 결과 데이터 38
  • 39. 감사합니다.