Pag 빅데이터-한국에도필요한가

3,058 views

Published on

Platform Ad

0 Comments
2 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
3,058
On SlideShare
0
From Embeds
0
Number of Embeds
258
Actions
Shares
0
Downloads
90
Comments
0
Likes
2
Embeds 0
No embeds

No notes for slide

Pag 빅데이터-한국에도필요한가

  1. 1. 빅데이터 , 한국에도 필요한가 ? <ul><li>Platform Advisory Group </li></ul><ul><li>김우승 </li></ul>
  2. 2. 빅데이터 ? 1952.5.21 The first IBM large-scale electronic computer IBM 701
  3. 3. 왜 지금 빅데이터 ? 구글 , 페이스북 , 야후 ! 등은 이미 PB 급 데이터 처리 글로벌 회사 ( 특히 금융 ) 들도 PB 급 데이터를 처리 다양한 분야에 응용
  4. 4. 빅데이터의 속성
  5. 5. 국내의 빅데이터 ? SKT, KT, LGU+ 네트워트 다운 없이 ... 꼬박꼬박 과금 국내통신사들은 이미 PB 급 네트워크 트랙픽을 처리 PB 급 데이터 프로세싱 ?
  6. 6. 국내의 빅데이터 ? <ul><li>네이버 , 다음과 같이 검색과 서비스를 모두 갖추지 않은 인터넷 사업자는 기본적인 접속로그 분석으로 그치는 상황 </li></ul><ul><li>대부분 사용로그는 여전히 RDBMS 에 저장하고 분석 </li></ul><ul><li>많은 인터넷 스타업들은 구글 애널리틱스 서비스 활용 </li></ul><ul><li>대기업 , 금융등 자본이 많은 회사는 전용 DW 솔루션으로 해결 </li></ul><ul><ul><li>main-memory db </li></ul></ul><ul><ul><li>전용 appliance </li></ul></ul><ul><ul><li>reporting tools </li></ul></ul>기초 통계 , UV, PV, 반응률 , 시청률 계산 수준 소규모의 Hadoop 클러스터를 가지고도 직접적인 성능 , 경제적 이득을 얻을 수 있음
  7. 7. 빅데이터의 진정한 가치는 ... <ul><li>검색 </li></ul><ul><li>상품 추천 </li></ul><ul><li>사용자 프로파일링 </li></ul><ul><li>SIRI? </li></ul>개인화 서비스 국내에서 검색 / 개인화 서비스를 제대로 하고 있는 회사는 ? Association Rule Collaboration Filtering
  8. 8. 빅데이터 기술 <ul><li>데이터 마이닝 </li></ul><ul><li>기계 학습 </li></ul><ul><li>분산 컴퓨팅 </li></ul><ul><li>OS(Linux) </li></ul>상대적으로 저비용으로 빅데이터를 처리할 수 있는 MapReduce 프레임워크와 분산스토리지 에 대한 기술이 구글논문을 통해 알려지고 이를 기반으로 오픈소스 Hadoop 이 만들어지게 되면서 매우 짧은 기간동안에 빅데이터 시장 형성을 위한 기술적인 에코시스템을 갖추게 됨
  9. 9. 빅데이터를 할려면 ... <ul><li>Service </li></ul><ul><ul><li>Recommendation </li></ul></ul><ul><ul><li>Advertisement </li></ul></ul><ul><li>Data Miner </li></ul><ul><ul><li>Statistics </li></ul></ul><ul><ul><li>Data Mining </li></ul></ul><ul><li>S/W Developer </li></ul><ul><ul><li>Mining Algorithm </li></ul></ul><ul><ul><li>Machine Learning </li></ul></ul><ul><ul><li>DBMS </li></ul></ul><ul><ul><li>MapReduce </li></ul></ul><ul><ul><li>NoSQL </li></ul></ul><ul><li>System Engineer </li></ul><ul><ul><li>Linux </li></ul></ul><ul><ul><li>H/W, Network Engineer </li></ul></ul><ul><ul><li>Hadoop </li></ul></ul>Data Scientist DevOps Software Engineer
  10. 10. Future ? Real-time Data Visualization Privacy !!!
  11. 11. Melon 곡추천 사례 Import 멜론로그파일 취합 ( 종량 / 프리 / 스트리밍 ) 사용자별 구매 / 플레이 곡 수집 연관규칙생성 정렬 Ranking 기준일생성 Export Lift 값 변경 멜론 연관규칙 마이닝 Process 실례 프로세스 실행 결과 예 ① ① ② ③ ④ ⑤ ⑥ ⑦ ⑧ ⑨ ② ③ ④ ⑤ ⑥ ⑦ ⑧ ⑨ ① ①
  12. 12. 예전엔 , 지금도… Usage logs 고가의 상용솔루션 도입 HP/SUN High-End Multi-core Single Machine EMC/SUN 의 SAN 스토리지 시스템 상용 마이닝 솔루션 및 ETL Tool 용량 확장 상대적 어려움 비용이 기하급수적으로 증대 기존 Architecture 의 변경 불가피 Infrastructure SAN Storage FTP Server 서비스 서버 ETL Machine Oracle RDBMS 데이터 요약 / 통계 상용 마이닝 솔루션 데이터 수집 데이터 마이닝 추천 정보 MySQL API Local FS
  13. 13. 지금은 ... Usage logs FUSE 상용솔루션에서 hadoop 을 이용한 Cluster Computing 환경으로 단계적으로 업그레이드 System Architecture 의 변경없이 성능 및 용량을 확장할 수 있는 Infrastructure 확보 향후 MySQL 과 NoSQL 의 적용 범위를 넓히는 방향으로 추진 Infrastructure SPADE HDFS FTP Server 서비스 서버 ETL Processor MapReduce Framework 데이터 요약 / 통계 Mining Processor 데이터 수집 데이터 마이닝 추천 정보 MySQL/ NoSQL API Local FS ORACLE SAN SAN

×