Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Big Data Analytics and Data Mining

2,176 views

Published on

http://onoffmix.com/event/19596
2013.10.10(목) '빅 데이터 활용을 위한 오픈소스 프레임워크 기술 세미나'에 중
'빅데이터 분석 알고리즘 소개 및 사례' 대한 발표자료입니다.

Published in: Technology

Big Data Analytics and Data Mining

  1. 1. 2013.10.10 전략사업팀/빅데이터사업부 송원문
  2. 2. Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved. 빅데이터가 아닌 빅앤서 I. 빅데이터 분석 – 데이터 마이닝과 사례
  3. 3. Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved. 빅데이터와 데이터 마이닝 I. 빅데이터 분석 – 데이터 마이닝과 사례 SYSTEM / MANAGEMENT ANALYSIS / APPLICATION Hadoop and Ecosystem / MapReduce Data Mining and Machine Learning 빅데이터 분석  MapReduce 기반의 데이터 분석
  4. 4. Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved. 데이터 마이닝 I. 빅데이터 분석 – 데이터 마이닝과 사례 • Description • 대량의 데이터로부터 그 안에 숨어있는(implicit) 새롭고(previously unknown), 가치 있고(non- trivial), 의사결정에 유용한(potentially useful) 정보를 찾는 작업
  5. 5. Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved. 데이터 마이닝을 위한 접근 I. 빅데이터 분석 – 데이터 마이닝과 사례 Data Data Mining 질문 어떤 사람들이 신용불량자(잠재)일까? [ 가설의 생성 ] * 직업이 자영업,무직 등에 속한 사람들 * 수입이 233만원 이하이고, 지역이 A지역에 거주하는 경우 신용불량 확률 높음 학습 (가설) 검증 모델 저장소 가설 Data 검증 고객의 직업과 수입 정도가 신용불량 여부와 관련이 많다. 질의도구 시각화도구 OLAP도구 기존 – 가설 확인 중심 데이터 분석 데이터 마이닝 - 가설 발견 중심 프로세스
  6. 6. Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved. 데이터 마이닝 수행 방법 I. 빅데이터 분석 – 데이터 마이닝과 사례 Mining / Training Test/Evaluation/ Verification Prediction/ Application Data Set (DB, DW) Training Data Test(Evaluation) Data New Data Training Model Data Mining Process
  7. 7. Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved. 데이터 마이닝 기법의 분류 I. 빅데이터 분석 – 데이터 마이닝과 사례 Data Mining Predictive Classification (Supervised) Descriptive Clustering (Unsupervised) Association Recommendation k-NN Decision Tree Neural Networks SVM Regression Bayes Network k-means EM Density Based SOM Hierarchical Apriori FP-Growth Collaborative Filtering Contents Based Association Rule Based Machine Learning Text Mining Social Analysis, ….
  8. 8. Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved. 분류 및 군집 문제의 예 I. 빅데이터 분석 – 데이터 마이닝과 사례 Classification (분류) Clustering (군집) • Supervised Learning (Predictive DM) • 데이터(레코드)들을 미리 지정된 부류나 등급으 로 나누는 작업 • 예) 신용 등급에 따라 고객을 분류 하는 모델을 구축하고, 신규 고객의 정보에 따라 신용 등급을 예측 • Unsupervised Learning (Descriptive DM) • 데이터(레코드)들을 유사한 성격을 가지는 그룹 으로 분할하는 작업 • 예) 고객을 특징이 유사한 그룹으로 분할하고 그룹별 특징을 분석 • 스팸 메일 자동 분류 • 문서의 카테고리 자동 분류 • 인터넷 중독 진단 시스템 • 학업 성취도/능력에 따른 학생 특징 분석 • 특정 질병에 대한 유전자 발현 특징 분석 • 구매 패턴 유사 고객 특징 분석 ID 월소득 직업 나이 학력 지역 기대출금 연체여부 … 신용등급 1 500 개발 45 대졸 강남 2,000 No … A 2 300 영업 30 고졸 은평 0 No … B .. .. .. .. .. .. .. .. .. .. 특징(features)/속성(attributes) 목표 클래스 (target class) - 350 영업 40 대졸 구로 1,000 No .. ?
  9. 9. Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved. 연관 분석 I. 빅데이터 분석 – 데이터 마이닝과 사례 • 장바구니 분석 (마트 등에서의 구매 상품 목록) • 금융 상품 구매 분석 • 영화/VOD 등 디지털 콘텐츠 구매 분석 Walmart • Association • 거래(구매) 데이터에서 자주 함께 판매되는 상품들간의 연관성에 대한 규칙을 찾아내는 분석 vs.
  10. 10. Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved. 추천 분석 I. 빅데이터 분석 – 데이터 마이닝과 사례 • Recommendation (Personalization) • 사용자가 좋아할 만한 콘텐츠/아이템을 선별해 내어 사용자에게 권유/소비를 유도 하는 것 [ 협력적 추천 – 사용자 기반 ] 나와 선호(시청) 성향이 유사한 사용자들이 좋다고 한 아이템(영화)를 나에게 추천한다. Amazon, Netflix, MovieLens, Watcha
  11. 11. Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved. 공공데이터 분석의 주요 사례 분류 I. 빅데이터 분석 – 데이터 마이닝과 사례 해외 사례 국내 사례 도로/교통 기상/교통 예측 (브라질) 심야버스 노선 결정 (서울시) 기상/재해/재난 치안 범죄 예방 시스템 (미국) 복지 맞춤형 복지 사회 (싱가포르) 수요자 중심 복지 서비스 (보건복지부) 기타 탈세 방지 시스템 (미국) 민원 정보 분석 (국민권익위원회) • 국내 및 해외의 공공 부분 (지자체 및 정부 기관 등) 빅데이터 분석 활용 주요 사례 • 다양한 사례들 중 공공 분야별로 비교적 잘 알려졌거나 성공적으로 운영된 사례 중심
  12. 12. Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved. 범죄 예방 시스템 / 미국 샌프란시스코 I. 빅데이터 분석 – 데이터 마이닝과 사례 • 범죄 발생 지역 및 발생 시각을 예측하여 범죄를 미연에 방지하기 위한 시스템 • 범죄 발생 지역 및 시각을 예측하여 필요한 곳에 경찰 인력을 배치, 범죄를 예방 • 과거 발생한 범죄 패턴을 분석하여 후속 범죄 가능성 예측 • 과거 데이터에서 범죄자 행동을 분석하여 사건 예방을 위한 해법 제시
  13. 13. Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved. 탈세 방지 시스템 / 미국 국세청 I. 빅데이터 분석 – 데이터 마이닝과 사례 • 빅데이터 분석을 활용하여 탈세 및 사기 범죄 예방 시스템 구축 • 사기 방지 솔루션, 소셜 네트워크 분석, 데이터 통합 및 마이닝 등 활용 • 방대한 데이터로부터 탈세/사기 징후를 찾아내어 감시 • 연간 3,450억 달러의 세금 누락 및 불필요한 세금 환급 절감 효과 발생
  14. 14. Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved. 맞춤형 복지사회 / 싱가포르 I. 빅데이터 분석 – 데이터 마이닝과 사례 • 데이터 분석을 통한 지역사회의 화합 및 맞춤형 복지사회 구현 • 다양한 인종, 나이, 문화, 소득, 연령에 따른 주민의 데이터를 수집/분석하여 맞춤형 서비스 제공 가 능한 플랫폼 구현 • 1,800개 이상의 주민위원회 센터를 네트워크로 연결하고 서비스 수요와 경험 데이터를 분석 • 주요 서비스 니즈별(인종, 문화, 소득, 연령을 고려한) 세분화를 통한 맞춤식 서비스 및 캠페인
  15. 15. Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved. 기상 및 교통 예측 / 브라질 리우데자네이루 I. 빅데이터 분석 – 데이터 마이닝과 사례 • 환경, 교통, 치안 등 도시에서 발생하는 모든 정보를 통합한 똑똑해지는 도시 구현 • 강 유역의 지형 측량 자료, 강수량 통계, 레이더 사진 등의 데이터와 교통 체증, 정전 사태 등 30여 개의 시/정부 산하 부서 및 기관 공유 자료를 통합하여 도시에 영향을 미치는 데이터를 분석 • 48시간 전에 기상(폭우 및 홍수) 및 교통 상황을 예측하는 지능형 운영 센터 운영 • 정보를 시민들에게 제공하고 공무원 및 관련 팀에 내용 전달
  16. 16. Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved. 심야버스 노선 결정 / 서울시 I. 빅데이터 분석 – 데이터 마이닝과 사례 • 이통사의 콜로그를 바탕으로 한 유동인구 정보를 기반으로 최적의 심야 버스 노선 결정 • 심야 시간대에 발생하는 콜 로그와 청구지 주소 등의 연관 분석을 통한 유동인구와 출발/목적지 예 측 • 구역별 유동인구 밀집도 및 노선/시간/요일별 패턴을 분석하여 최적 노선 정보를 추출 • 정류장 단위 통행량 추정과 요일별 배차 간격 조정을 통한 최적 노선 운영
  17. 17. Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved. 민원정보분석 / 국민권익위원회 I. 빅데이터 분석 – 데이터 마이닝과 사례 • 월별, 지역별, 주요 민원을 캘린더로 제작하여 민원의 사전 예방과 대책 마련이 가능하도록 중앙 행정 기 관 및 지방 자치 단체 등에 제공 • 주요 민원 캘린더와 주요 민원 지도를 토대로 민원 사전 예방과 대책 마련 • 지역별, 계절별 주요 민원을 체계적으로 분석 • 불필요한 행정력 낭비 방지와 신뢰 행정 구현이 가능한 시스템으로 발전 • 온라인국민소통시스템의 홈페이지를 통한 민원 제안 콜센터 상당 등 분석
  18. 18. Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved. 수요자 중심 복지 서비스 / 보건복지부 I. 빅데이터 분석 – 데이터 마이닝과 사례 • 지자체 공무원들의 복지 행정 처리를 지원하는 정보 시스템 • 지방 자치 단체에서 집행하는 120여가지 복지 급여 및 서비스 이력 데이터 이용 • 복지대상자 선정이 정확하고 효율적으로 이루어져 복지 행정의 획기적인 변화 기대 • 다양한 복지 사업별 유사/중복 서식을 통합하고 데이터를 공유하여 행정 효율 및 민원 편의 증대 • 지자체의 복지급여 및 서비스 이력을 통합 관리하여 복지 대상자 선정, 사후 관리 등의 업무를 지원
  19. 19. Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved. 빅데이터 처리를 위한 분산 프로세스 구조 II. 빅데이터 분석 기술: MapReduce • In Wikipedia • MapReduce is a programming model for processing large data sets with a parallel, distributed algorithm on a cluster. • A MapReduce program comprises a Map() procedure that performs filtering and sorting and a Reduce() procedure that performs a summary operation. • Hadoop으로 대표되는 빅데이터 플랫폼에서의 데 이터 처리 프로세스 • Map/Reduce : Key, Value 구조를 기반으로 하는 데이터 분산 처리 구조 (프레임워크) • Google에서 2004년 최초 발표
  20. 20. Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved. MapReduce 프레임워크의 프로세스 예시 II. 빅데이터 분석 기술: MapReduce < Map > 라인 단위입력 내용을 Key와 Value로 구분하여 표기 < Reduce > 동일 Key의 Value를 List로 전달받아 일괄 처리 파일 내 출현 단어들의 횟수를 확인하는 Map/Reduce 프레임워크 구조
  21. 21. Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved. MapReduce 프레임워크의 프로세스 예시: Mapper II. 빅데이터 분석 기술: MapReduce Deer Beer River Car Car River Mapper Key (Line Offset) Value (String) Mapper – 1 ?????? Deer Beer River Mapper - 2 ?????? Car Car River Data File Mapper Input from Data File ex) Split Words Set Word as “Key” Set 1 as “Value” for count Mapper Value Processing : Key Value Setting Mapper Key Value Mapper – 1 Deer 1 Beer 1 River 1 Mapper - 2 Car 1 Car 1 River 1 Mapper Output for Reducer 6 Key-Value Pairs the number of mappers = the number of lines
  22. 22. Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved. MapReduce 프레임워크의 프로세스 예시: Reducer II. 빅데이터 분석 기술: MapReduce Key Value Deer 1 Beer 1 River 1 Car 1 Car 1 River 1 Input from Mapper (6 key-Value Pair) Key Value Deer 1 Sort / Shuffle Key Value River 1 River 1 Key Value Beer 1 Key Value Car 1 Car 1 Reducer Key Value (List) Reducer-1 Beer {1} Reducer-2 Car {1, 1} Reducer-3 Deer {1} Reducer-4 River {1, 1} Reducer Input Reducer Value Processing (Iterative) : Key Value Writing ex) Compute Value Sum Set Key as “Key” Set Sum as “Value” Beer 1 Car 2 Deer 1 River 2Result File the number of reducers = the number of distinct keys Reducer Output
  23. 23. Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved. K-means 군집 분석의 개념 III. 빅데이터 분석 예 – 1. 군집 분석 • 군집 분석 – 데이터를 속성이 유사한 데이터들끼리 그룹을 만드는 것 • K-means – 데이터를 가장 가까운 군집에 할당 시키고, 동일 소속 데이터들의 정보에 따라 군집의 중심을 업데이트 해 가는 과정을 반복하여 군집을 형성 하는 것 (a) 초기 군집 중심 설정 (b) 데이터에 군집 할당 (c) 군집 중심 업데이트 (b 반복) 데이터에 군집 할당 (c 반복) 군집 중심이 변경되지 않을 때 까지 b와 c 를 반복 수행  군집 중심이 변경 되지 않으면 종료
  24. 24. Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved. K-means 군집 분석의 MapReduce 수행 설계 III. 빅데이터 분석 예 – 1. 군집 분석 1. 군집의 초기 중심을 설정 한다. 2. 모든 데이터에 대해 다음을 수행 (반복) - 데이터 자신과 각 군집 중심과의 거리를 측정한다. - 가장 가까운 군집 중심에 데이터 자신을 할당한다. 3. 모든 군집에 대해 다음을 수행 (반복) - 군집에 할당된 모든 데이터의 평균을 계산한다. - 계산된 평균을 군집의 중심 정보로 업데이트 한다. 4. 업데이트 된 군집 중심 정보와 업데이트 이전의 군집 중심을 비교 한다 - 만약, 군집 중심이 달라졌다면, 다시 2번 과정부터 반복 한다. - 만약 군집 중심이 변경되지 않았다면, 군집을 종료 한다. K-means 군집 프로세스와 MapReduce 변환 모든 데이터에 대해 동일 과정 반복 수행  Mapper 각 군집별 데이터를 이용하여 군집별로 수행  Reducer
  25. 25. Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved. K-means 군집 분석의 MapReduce 수행 설계: MapReduce III. 빅데이터 분석 예 – 1. 군집 분석 Map 1, 1 1, (1, 1) 2, 2 2, (2, 2) 9, 9 2, (9, 9) 10, 10 2, (10, 10) Reduce 1, {(1, 1)} (1, 1) 2, {(2, 2), (9, 9), (10, 10)} (7, 7)동일 Key로 셔플/정렬 Cluster ID Cluster Info 1 1, 1 2 2, 2 X X X X Map 1, 1 1, (1, 1) 2, 2 1, (2, 2) 9, 9 2, (9, 9) 10, 10 2, (10, 10) MapReduce 반복 Reduce 1, {(1, 1), (2, 2)} (1.5, 1.5) 2, {(9, 9), (10, 10)} (9.5, 9.5) X X X X
  26. 26. Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved. 추천 분석 – 협력적 추천 (Collaborative Filtering based Recommendation) IV. 빅데이터 분석 예 – 2. 추천 분석 Process - 1 Users Extraction having Similar Preference Process - 2 Recommendation based on Similar User’s Preferences [ 협력적 추천 – 사용자 기반 ] 나와 선호(시청) 성향이 유사한 사용자들이 좋다고 한 아이템(영화)를 나에게 추 천
  27. 27. Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved. 유사 사용자 정보와 협력적 추천 IV. 빅데이터 분석 예 – 2. 추천 분석 Ii wiw Ii uiu Ii wiwuiu RRRR RRRR wuPCC 2 , 2 , ,, )()( ))(( ),( U2 = {I2=1, I3=-1, I4=-1} U5 = {I1=1, I2=1, I3=-1}  PCC(U2, U5) = 1 PCC (Pearson Correlation Coefficient): 두 벡터간 공통 항목 값의 상관 관계, -1~1사이의 실수 - 1인 경우 두 벡터는 음의 상관관계, 1인 경우 양의 상관관계, 0인 경우 특별한 관계가 없음 U1 U2 U3 U4 U5 I1 I2 I3 I4 U2와 U5의 pcc가 1  양의 상관 관계  U2의 I4 값이 -1이므로 U5의 I4 값 또한 -1일 것 협력적 추천의 핵심
  28. 28. Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved. 실제 데이터에 PCC 계산을 적용한 예 IV. 빅데이터 분석 예 – 2. 추천 분석 uid item-1 item-2 item-3 item-4 item-5 item-6 item-7 item-8 u 5 3 1 2 1 4 5 3 w 4 3 2 1 2 5 4 3 Ii wiw Ii uiu Ii wiwuiu RRRR RRRR wuPCC 2 , 2 , ,, )()( ))(( ),( 82.0),( wuPCC uid item-100 u 5 w ?  4 or 5 서로 동일한 성향인 정도가 0.82(최대값 1) • Netflix(DVD 대여 회사) 평가 데이터의 PCC 계산 예 • 사용자들이 대여한 DVD에 대해 1~5점 사이로 평점을 표기한 데이터
  29. 29. Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved. Netflix 데이터의 MapReduce 기반의 PCC 계산 IV. 빅데이터 분석 예 – 2. 추천 분석 Alice, Matrix, 5 Alice, Alien, 1 Alice, Inception, 4 Bob, Alien, 2 Bob, Inception, 5 Peter, Matrix, 4 Peter, Alien, 3 Peter, Inception, 2 Netflix 데이터 예 (사용자, 영화, 평점) PCC(Alice, Bob) = ? PCC(Alice, Peter) = ? PCC(Bob, Peter) = ? Matrix Alien Inception Alice 5 1 4 Bob 2 5 Peter 4 3 2 2번의 Map/Reduce 작업을 통해 사용자간의 PCC 계산 가능 Sequential 프로그래밍이 아닌 Map/Reduce 구조에 기반한 PCC 계산 로직 설계/개발 필요 • 1단계 Map/Reduce – 동일 영화를 본 사용자 쌍 정보를 추출 • 2단계 Map/Reduce – 사용자 쌍(동일 영화에 대한 평점 목록)에 대하여 PCC를 계산
  30. 30. Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved. Netflix 데이터의 MapReduce 기반의 PCC 계산 – 1st MapReduce IV. 빅데이터 분석 예 – 2. 추천 분석 Map Alice, Matrix, 5 Matrix (Alice, 5) Alice, Alien, 1 Alien (Alice, 1) Alice, Inception, 4 Inception (Alice, 4) Bob, Alien, 2 Alien (Bob, 2) Bob, Inception, 5 Inception (Bob, 5) Peter, Matrix, 4 Matrix (Peter, 4) Peter, Alien, 3 Alien (Peter, 3) Peter, Inception, 2 Inception (Peter, 2) Reduce Matrix {(Alice, 5) , (Peter, 4)} (Alice, Peter) (Matrix) (5, 4) Alien {(Alice, 1) , (Bob, 2) , (Peter, 3)} (Alice, Bob) (Alien) (1, 2) (Alice, Peter) (Alien) (1, 3) (Bob, Peter) (Alien) (2, 3) Inception {(Alice, 4) , (Bob, 5) , (Peter, 2)} (Alice, Bob) (Inception) (4, 5) (Alice, Peter) (Inception) (4, 2) (Bob, Peter) (Inception) (5, 2) 동일 Key로 셔플/정렬
  31. 31. Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved. Netflix 데이터의 MapReduce 기반의 PCC 계산 – 2nd MapReduce IV. 빅데이터 분석 예 – 2. 추천 분석 Map Alice, Peter, Matrix, 5, 4 (Alice, Peter) (5, 4) Alice, Bob, Alien, 1, 2 (Alice, Bob) (1, 2) Alice, Peter, Alien, 1, 3 (Alice, Peter) (1, 3) Bob, Peter, Alien, 2, 3 (Bob, Peter) (2, 3) Alice, Bob, Inception, 4, 5 (Alice, Bob) (4, 5) Alice, Peter, Inception, 4, 2 (Alice, Peter) (4, 2) Bob, Peter, Inception, 5, 2 (Bob, Peter) (5, 2) Reduce (Alice, Peter) {(5, 4) , (1, 3) , (4, 2)} (Alice, Peter) (0.24) (Alice, Bob) {(1, 2) , (4, 5)} (Alice, Bob) (1.00) (Bob, Peter) {(2, 3) , (5, 2)} (Bob, Peter) (-1.00) Matrix Alien Inception Alice 5 1 4 Bob 2 5 Peter 4 3 2 동일 Key로 셔플/정렬 Ii wiw Ii uiu Ii wiwuiu RRRR RRRR wuPCC 2 , 2 , ,, )()( ))(( ),(
  32. 32. Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved. Netflix 데이터의 MapReduce 기반의 PCC 계산 – Summary IV. 빅데이터 분석 예 – 2. 추천 분석 Alice, Matrix, 5 Alice, Alien, 1 Alice, Inception, 4 Bob, Alien, 2 Bob, Inception, 5 Peter, Matrix, 4 Peter, Alien, 3 Peter, Inception, 2 PCC(Alice, Bob) = 0.24 PCC(Alice, Peter) = 1.00 PCC(Bob, Peter) = -1.00 Mapper Reducer Mapper Reducer 영화를 키로, 사용자와 점수를 추출 동일 영화를 함께 본 사용자 점수 쌍을 생성 사용자 쌍을 키로, 함께 본 영화의 점수 쌍을 추출 동일 사용자 쌍에 대해 함께 본 영화의 점수 쌍을 취합하여 PCC를 계산
  33. 33. MapReduce based Data Mining and Machine Learning Algorithms for Intelligent Big Data Analysis in Hadoop Framework http://www.openankus.org
  34. 34. Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved. 지능형 빅데이터 분석 라이브러리 V. 빅데이터 분석 도구 - Ankus • Ankus: Intelligent Big Data Analyzer • 빅 데이터 분석/활용 통합 프레임워크 환경을 제공을 위한 Hadoop 기반 분산 빅데이터 환경에서의 데이터 마이닝 및 기계학습 기반의 데이터 분석 라이브러리 • 오픈 소스 기반의 SW 이며, Java 라이브러리 형태로 배포됨 Ankus 와 통합 프레임워크 Flamingo Hadoop Manager & Appliance 지능형 분석을 위한 Ankus의 요소 기술  기초 통계 분석 및 데이터 전처리  데이터 유사/상관 분석  분류/군집 등 기계학습 분석  맞춤형 콘텐츠 추천 분석
  35. 35. Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved. 지능형 빅데이터 분석 라이브러리 V. 빅데이터 분석 도구 - Ankus • Ankus: Intelligent Big Data Analyzer 빅데이터 기반 의사 결정 지원을 위한 데이터 마이닝 및 기계학습 기반 분석 Apache Hadoop과의 연동을 통한 Mahout 대체 국내 공개 SW 기술 활용 분야 분산 빅데이터 환경을 위한 MapReduce 기반의 분산 분석 알고리즘 제공 기초 통계 및 전처리 등 패턴 분석과 분류/군집 분석 등의 기계학습 기반 분석 제공 기업 실무 적용/활용을 위한 개인 맞춤형 추천 분석 모듈 제공 빅데이터 활용 통합을 위한 Flamingo Hadoop Manager/Appliance와의 연동 제공 예정 주요 특징 개발 마일스톤

×