• Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
No Downloads

Views

Total Views
1,993
On Slideshare
0
From Embeds
0
Number of Embeds
1

Actions

Shares
Downloads
77
Comments
0
Likes
1

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. 빅데이터 , 한국에도 필요한가 ?
    • Platform Advisory Group
    • 김우승
  • 2. 빅데이터 ? 1952.5.21 The first IBM large-scale electronic computer IBM 701
  • 3. 왜 지금 빅데이터 ? 구글 , 페이스북 , 야후 ! 등은 이미 PB 급 데이터 처리 글로벌 회사 ( 특히 금융 ) 들도 PB 급 데이터를 처리 다양한 분야에 응용
  • 4. 빅데이터의 속성
  • 5. 국내의 빅데이터 ? SKT, KT, LGU+ 네트워트 다운 없이 ... 꼬박꼬박 과금 국내통신사들은 이미 PB 급 네트워크 트랙픽을 처리 PB 급 데이터 프로세싱 ?
  • 6. 국내의 빅데이터 ?
    • 네이버 , 다음과 같이 검색과 서비스를 모두 갖추지 않은 인터넷 사업자는 기본적인 접속로그 분석으로 그치는 상황
    • 대부분 사용로그는 여전히 RDBMS 에 저장하고 분석
    • 많은 인터넷 스타업들은 구글 애널리틱스 서비스 활용
    • 대기업 , 금융등 자본이 많은 회사는 전용 DW 솔루션으로 해결
      • main-memory db
      • 전용 appliance
      • reporting tools
    기초 통계 , UV, PV, 반응률 , 시청률 계산 수준 소규모의 Hadoop 클러스터를 가지고도 직접적인 성능 , 경제적 이득을 얻을 수 있음
  • 7. 빅데이터의 진정한 가치는 ...
    • 검색
    • 상품 추천
    • 사용자 프로파일링
    • SIRI?
    개인화 서비스 국내에서 검색 / 개인화 서비스를 제대로 하고 있는 회사는 ? Association Rule Collaboration Filtering
  • 8. 빅데이터 기술
    • 데이터 마이닝
    • 기계 학습
    • 분산 컴퓨팅
    • OS(Linux)
    상대적으로 저비용으로 빅데이터를 처리할 수 있는 MapReduce 프레임워크와 분산스토리지 에 대한 기술이 구글논문을 통해 알려지고 이를 기반으로 오픈소스 Hadoop 이 만들어지게 되면서 매우 짧은 기간동안에 빅데이터 시장 형성을 위한 기술적인 에코시스템을 갖추게 됨
  • 9. 빅데이터를 할려면 ...
    • Service
      • Recommendation
      • Advertisement
    • Data Miner
      • Statistics
      • Data Mining
    • S/W Developer
      • Mining Algorithm
      • Machine Learning
      • DBMS
      • MapReduce
      • NoSQL
    • System Engineer
      • Linux
      • H/W, Network Engineer
      • Hadoop
    Data Scientist DevOps Software Engineer
  • 10. Future ? Real-time Data Visualization Privacy !!!
  • 11. Melon 곡추천 사례 Import 멜론로그파일 취합 ( 종량 / 프리 / 스트리밍 ) 사용자별 구매 / 플레이 곡 수집 연관규칙생성 정렬 Ranking 기준일생성 Export Lift 값 변경 멜론 연관규칙 마이닝 Process 실례 프로세스 실행 결과 예 ① ① ② ③ ④ ⑤ ⑥ ⑦ ⑧ ⑨ ② ③ ④ ⑤ ⑥ ⑦ ⑧ ⑨ ① ①
  • 12. 예전엔 , 지금도… Usage logs 고가의 상용솔루션 도입 HP/SUN High-End Multi-core Single Machine EMC/SUN 의 SAN 스토리지 시스템 상용 마이닝 솔루션 및 ETL Tool 용량 확장 상대적 어려움 비용이 기하급수적으로 증대 기존 Architecture 의 변경 불가피 Infrastructure SAN Storage FTP Server 서비스 서버 ETL Machine Oracle RDBMS 데이터 요약 / 통계 상용 마이닝 솔루션 데이터 수집 데이터 마이닝 추천 정보 MySQL API Local FS
  • 13. 지금은 ... Usage logs FUSE 상용솔루션에서 hadoop 을 이용한 Cluster Computing 환경으로 단계적으로 업그레이드 System Architecture 의 변경없이 성능 및 용량을 확장할 수 있는 Infrastructure 확보 향후 MySQL 과 NoSQL 의 적용 범위를 넓히는 방향으로 추진 Infrastructure SPADE HDFS FTP Server 서비스 서버 ETL Processor MapReduce Framework 데이터 요약 / 통계 Mining Processor 데이터 수집 데이터 마이닝 추천 정보 MySQL/ NoSQL API Local FS ORACLE SAN SAN