• Like
  • Save
1 손에잡히는빅데이터 이경일
Upcoming SlideShare
Loading in...5
×
 

1 손에잡히는빅데이터 이경일

on

  • 3,169 views

 

Statistics

Views

Total Views
3,169
Views on SlideShare
2,424
Embed Views
745

Actions

Likes
4
Downloads
166
Comments
1

9 Embeds 745

http://in2.saltlux.com 323
http://blog.saltlux.com 252
http://www.saltlux.com 153
http://document.saltlux.com 6
http://saltlux.com 6
http://blog.naver.com 2
http://www.hanrss.com 1
http://translate.googleusercontent.com 1
http://webcache.googleusercontent.com 1
More...

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel

11 of 1

  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
  • 그래서 빅데이터를 체험해 보려면? [Do it! 직접 해보는 하둡 프로그래밍] ㅎㅎ
    http://www.yes24.com/24/goods/8426044?scode=032&OzSrank=5
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    1 손에잡히는빅데이터 이경일 1 손에잡히는빅데이터 이경일 Presentation Transcript

    • Saltlux Annual Conference 2012 Saltlux Annual Conference 2012 손에 잡히는 ‘빅 데이터’ 2012.04.25 솔트룩스 이경일
    • Saltlux Annual Conference 2012 9 Myths of Big Data 전설 속의 빅 데이터 구미호 2
    • Saltlux Annual Conference 2012 미신 #1 “빅 데이터는 규모가 정말 큰 데이터 를 말한다.” 진실 #1 “빅 데이터는 처리의 난이도가 정말 큰 데이터를 말한다” “4V := Volume, Velocity, Variety + Value” 3
    • Saltlux Annual Conference 2012 미신 #2 “더 큰 데이터에서 더 큰 인사이트를 얻을 수 있다” 진실 #2 “여전히 의미 있는 데이터를 잘 선택하는 것이 더 중요하다” “No Garbage-in, Gold-out” - At least goldstone-in 4
    • Saltlux Annual Conference 2012 미신 #3 “빅 데이터 분석은 소셜 데이터(SNS) 분석을 말한다” 진실 #3 “소셜 데이터는 빅 데이터 소스 중 일부일 뿐이다” “It is not enough to understand the World” 5
    • Saltlux Annual Conference 2012 미신 #4 “빅 데이터 분석의 핵심은 미래 예측 에 있다” 진실 #4 “현 상황의 올바른 이해와 최적화가 핵심이다” “The best way to predict the future is to create it” 6
    • Saltlux Annual Conference 2012 미신 #5 “성공적 빅 데이터 분석은 신기술 이해 와 적용에서 시작된다” 진실 #5 “명확한 목표 설정과 사람 중심의 기계와 협업이 성공을 좌우한다” “People People People under the Clear Vision" 7
    • Saltlux Annual Conference 2012 미신 #6 “빅 데이터 처리는 하둡(Hadoop)의 사용이 필수적이다” 진실 #6 “하둡은 필요 시 사용되는 도구가 될 것이다” “제발, 소 잡는 칼로 닭 잡지 말자" 8
    • Saltlux Annual Conference 2012 미신 #7 “빅 데이터 기술은 거대 IT 시장을 만들어 줄 것이다” 진실 #7 “빅 데이터 가치를 서비스로 연결한 소수만 승리할 것이다” “It’s not Buzz, but be careful“ - you wouldn’t be. 9
    • Saltlux Annual Conference 2012 미신 #8 “빅 데이터 사업은 기존 BI 사업이 확장, 발전된 것이다” 진실 #8 “BI는 응용 중 하나, 스트림, 그래프, 비정형 빅 데이터 분석 등, 새 가치를 추구한다” “It’s Not a Old Wine in New Bottle!“ 10
    • Saltlux Annual Conference 2012 미신 #9 “빅 데이터 분석은 분석 전문가와 경영자를 위한 것이다” 진실 #9 “빅 데이터 가치 평가와 최종 수혜자는 일반인이다” “Invisible and Calm Big Data Analytics“ 11
    • Saltlux Annual Conference 2012 Applications Working on Big Data 12
    • Saltlux Annual Conference 2012 빅 데이터 분석 응용 사례 실시간성 금융, 통신 부정 사용 감지 1s 모바일 서비스 개인화 1m 도시 관제, 재난 대응 의료, 헬스케어 서비스 1h 소셜 미디어 분석 (트랜드, 감성, 이슈 분석 외) 고객, 시민 목소리 (VOC) 분석 1d 국방, 보안 관제 / eDiscovery 기술, 학술 1w 공공 정책 발굴, 관리 정보 분석 비정형성 정형 반정형 비정형 13
    • Saltlux Annual Conference 2012 빅 데이터 분석 응용 사례 도시 관제 공공 데이터 질병 예방 범죄 예방 국방, 안보 국가 정책 최적화 의료 정책 분석 복지 서비스 금융 사고 방지 고객 목소리 분석 서비스 개인화 기업 위험 관리 사회 이슈 분석 e-Discovery 마케팅 최적화 사업 전략 최적화 기업 평판 분석 기업 데이터 소셜 데이터 14
    • Saltlux Annual Conference 2012 통신 빅 데이터 : 개인화, 맞춤 추천15
    • Saltlux Annual Conference 2012 하이브리드 시맨틱 분석 기술 적용16
    • Saltlux Annual Conference 2012 기업 빅 데이터 : 통합 정보 검색/분석17 17
    • Saltlux Annual Conference 2012 기업 빅 데이터 : e-Discovery & Compliance 18
    • Saltlux Annual Conference 2012 고객 빅 데이터 : 고객 목소리 분석(VOC)19
    • Saltlux Annual Conference 2012 기술 빅 데이터 : 트랜드 센싱20
    • Saltlux Annual Conference 2012 학술 빅 데이터 : 전문가 추천21
    • Saltlux Annual Conference 2012 소셜 빅 데이터 : 트랜드, 평판 분석 TrueStory.co.kr 22
    • Saltlux Annual Conference 2012 국방/안보 빅 데이터 : 정보 분석23 23
    • Saltlux Annual Conference 2012 스마트 시티 빅 데이터 : 매설물 관리 Sensor Monitoring Leakage Detection Discover Leakage Area Infer Leakage Pipe Link Automatic Alert Recom. Detour Path 24
    • Saltlux Annual Conference 2012 스마트 시티 빅 데이터 : 교통 최적화 • 이탈리아 밀라노에 대한 솔트룩스와 독일 지맨스의 협력 프로젝트 • 교통 센서 네트워크 기반, 교통 흐름 예측과 최적 경로 추천 (2시간, 90%) • 스트림 데이터에 대해, 온톨로지와 기계학습(ML) 기술을 결합 Milano City Sensor Map  Traffic data from Milano (Italy)  Data ranging from Mar. 07 to July 09  5 min. sampling rate for flow & speed  Traffic flow & speed from  209 sensors that are able to classify vehicles, and  757 non classifying sensors  Weather data provided from http://www.ilmeteo.it  1 hour sampling rate for weather data Sensors – Crossroads – Street Categories (multi-colored) 25
    • Saltlux Annual Conference 2012 Understanding Big Data Analytics 26
    • Saltlux Annual Conference 2012 빅 데이터 분석 절차는? – 소셜미디어 사례 Crawling Data model Wrapping NLP, ML Taxonomy Open API Cloud tech Parsing Lang re-src ML(SVM..) Meta-data Keyword Raw Data Raw Data Data Extraction/ & Topic Collection Archiving Classification Annotation Extraction Idx model Federation Models Algorithm User Model Cloud tech Ranking Rules Statistics Algo/Stat. Raw Data & Searching Network User Induction Meta-data & Querying & Trend Profiling & Deduction Indexing (Selection) Analysis (behav. prof.) S/F-Model UX Model Algo./Stat. Algorithm It’s so complicate and Sensing & Visualization sophisticate process Forecasting & Interaction 27
    • Saltlux Annual Conference 2012 어떤 종류의 데이터가 있는가? King of Data : Linking Open Data 공개된 공공/학술 데이터 + 소셜 미디어 데이터 + 민간/기업 보유 데이터 + 비공개 정부 데이터 28
    • Saltlux Annual Conference 2012 그 중의 대부분은 비정형 빅 데이터 80~90%가 비정형 빅 데이터 Enterprise Strategy Group, 2010 그럼에도 불구하고 비정형 데이터 기반한 분석과 의사 결정에 취약 결국, 빅 데이터 분석의 진정한 성공은 비정형 데이터와 정형 데이터의 의미적으로 통합 분석에 달림 29
    • Saltlux Annual Conference 2012 경험해 보지 못한 스트림 데이터 세상 센서 네트워크, 소셜 네트워크, 데이터 웹, M2M… 30
    • Saltlux Annual Conference 2012 데이터 수집과 관리 - 소셜 데이터 사례 논문 인터넷 수집방법 휴대전화 이메일 뉴스 블로그 트위터 패이스북 포스퀘어 특허 카페 Legacy DB ○ ○ ○ △ Ⅹ Ⅹ Ⅹ Ⅹ Ⅹ Crawling Ⅹ Ⅹ △ ○ ○ △ △ △ △ Feeding (RSS) Ⅹ Ⅹ Ⅹ ○ ○ △ Ⅹ Ⅹ Ⅹ Push (Streaming) Ⅹ Ⅹ Ⅹ △ Ⅹ Ⅹ △ Ⅹ Ⅹ Open API Ⅹ Ⅹ ○ △ △ Ⅹ △ △ △ Agent Install △ △ Ⅹ Ⅹ Ⅹ Ⅹ △ △ Ⅹ Col. Interval 1mins 1hrs 1mons 1hrs 6hrs 6hrs 1mins 20mins 1days Min. Life-time 3mons 6mons 5yrs 5yrs 3yrs 2yrs 1yrs 1yrs 6mons ○:적합, △:부분적합, Ⅹ:부적합, Col. Interval:수집 간격, Min. Life-time:최소수명주기 31
    • Saltlux Annual Conference 2012 데이터 저장 관리 – CAP Theorem? 하나의 저장소로는 일관성(consistency), 가용성(Availability), 단절내성(Partition Tolerance) 모두를 만족 시킬 수 없다. By Nathan Hurst 32
    • Saltlux Annual Conference 2012 데이터 저장 관리 – Hybrid Storage? Source : http://kkovacs.eu/cassandra-vs-mongodb-vs-couchdb-vs-redis 33
    • Saltlux Annual Conference 2012 어떤 분석 방법을 선택할 것인가? 귀납적inductive vs. 연역적deductive 하향식top-down vs. 상향식bottom-up 수치적numerical vs. 해석적analytical 분산화distributed vs. 병렬화parallel 34
    • Saltlux Annual Conference 2012 빅 데이터 induction 기계 학습 Black Box Test-data (learning machine) Training data Model Model Prediction • Support vector machines • Inductive logic programming • Clustering • Decision tree learning • Bayesian networks • Association rule learning • Reinforcement learning • Artificial neural networks • Representation learning • Genetic programming • Sparse Dictionary Learning 35
    • Saltlux Annual Conference 2012 빅 데이터 기계 학습 IBM Watson 사례36
    • Saltlux Annual Conference 2012 비정형 빅 데이터 기계 학습37
    • Saltlux Annual Conference 2012 Watson의 Deep QA 프로세스 One Jeopardy! question can take 2 hours on a single 2.6Ghz Core 2880-Core IBM Power750’s using UIMA-AS, Watson is answering in 2-6 seconds. 38
    • Saltlux Annual Conference 2012 Data Query & Selection : 검색 VS. 추론 39
    • Saltlux Annual Conference 2012 빅 데이터 deduction 울프람|알파 매스매티카 7과 수퍼컴퓨터 클러스터에 기반한 자연언어 질의 응답 시스템 • 다양한 소스에서 수집된 10조 개의 통합 데이터와 50,000 이상의 알고르즘과 모델 • 데이터 큐레이션 : 방법론, 프로세스, 도구에 기반한 사람이 직접 데이터 정제, 통합 • 1000개 이상의 도메인에 대한 데이터 큐레이션을 통해 50~100개의 도메인 모델로 축약 • 온톨로지를 통해 메타 모델 구성 : Hierarchical knowledge (entity classes, attributes) 40
    • Saltlux Annual Conference 2012 모바일 데이터 deduction 애플 Siri41
    • Saltlux Annual Conference 2012 어떤 분석 방법을 선택할 것인가? 이질적 방법들의 전략적, 선택적, 통합 사용 필요! 귀납적inductive + 연역적deductive 하향식top-down + 상향식bottom-up 수치적numerical + 해석적analytical 분산화distributed + 병렬화parallel 42
    • Saltlux Annual Conference 2012 스트림 데이터 하이브리드 분석 BOTTARI : Winner of Semantic Web Challenges 43
    • Saltlux Annual Conference 2012 빅 데이터 분석 플랫폼 요구사항 1. 다양한 유형의 데이터 수집, 통합/융합 용이 2. 기존 데이터 소스(레거시, LOD)와의 쉬운 연동성 3. 데이터 품질 관리, 통제 가능성 (governance) 4. 데이터 선택과 테스트의 용이성 (query&selection) 5. 스트림 데이터에 대한 실시간 처리성 6. 다양한 분석 모듈의 결합 사용 가능성 7. 분석 모델링, 평가 전용 도구의 제공 8. 손쉽고, 유연한 분석 프로세스 모델링 (script) 9. 분석 과정에 데이터/모델/프로세스 변경 허용 (+ agile) 10. 분석 데이터, 모델, 프로세스의 재활용성 11. Open API제공과 응용 서비스 구현 용이 12. 쉽고 저렴한 확장성 (easy scale-out) 13. 동시에 여러 사람이 분석 작업에 참여 가능해야 함 14. 편리한 사용자 인터렉션을 통한 분석 과정/결과 이해 15. 그리고 또 기타 등등 - 웁스 T_T 44
    • Saltlux Annual Conference 2012 빅 데이터 분석 플랫폼 개념 : TrueStory 사례 빅 데이터 분석 플랫폼 심층 분석 서비스 기대 효과 분석 서비스 응용 및 시각화 실시간 마케팅 소셜 데이터 최적화 사회, 시장 트랜드 분석 분석 워크플로우 시스템 기업 데이터 경쟁 전략 고객, 시민 목소리 분석 최적화 분석 서비스 컴포넌트 금융 데이터 트랜드, 분류, 군집, 사회망, 인물, 감성 제품, 서비스 평판 분석 동적 비용 최적화 통신 데이터 분석 기술 인프라 자연어처리, 기계학습, 통계, 시맨틱/추론 경쟁자 모니터링, 분석 신 사업, 안보 데이터 정책 발굴 데이터 수집/통합/관리 인프라 사업 리스크 감지, 분석 의료 데이터 위험 조기 감지 분산, 병렬처리 인프라 부정 사용자, 비리 감지 사전 대응 하둡, NoSQL(HBASE, mongoDB, …) 생산 데이터 생산 시스템 모니터링 생산 시스템 최적화 클라우드 컴퓨팅 인프라 45
    • Saltlux Annual Conference 2012 분석은 결과가 아니라 과정 • 분석은 일련의 복잡한 절차 : Workflow 체계 중요 • 분석가들과 기계의 협력 중요 : 분석 과정 중 전략 변경 VS 46
    • Saltlux Annual Conference 2012 빅 데이터 분석 기술 Visual- ization Semantics Statistics (R) In-memory Analytics Text Machine Mining Learning Cloud, NoSQL NLP IR Crawling (Search) 47
    • Saltlux Annual Conference 2012 소셜 빅 데이터 분석 인프라 O2 TM • 수집/분석 클라우드 규모 : 380 CPU Cores, 1,232 GB Ram, 100TB HDD • 원시 소셜 데이터 : 총 2.4억 건, 약 1.7 TB (2012월 3월 현재) • 수집 속도 : 100만 건 / 일 + ∞ with EC2 • 수집 방식 : Hybrid Model (크롤링 + Open API + Agent) • 저장 구조 : 클라우드 (NoSQL + DFS) + 데이터 3중화 원시 데이터 구성 미디어 수집 건수 용량 200,000 뉴스 미투 뉴 스 1,845,521 25 GB 150,000 1% 전체 데이 블로그 58,499,109 1,500 GB 100,000 뉴스 18% 트위터 트위터 184,846,614 150 GB 블로그 블로그 50,000 57% 트위터 24% 미투데이 42,321,834 30 GB 0 11.06 11.09 11.05 11.12 11.07 12.02 11.08 11.11 12.01 11.10 총 계 287,513,078 1,705 GB 48
    • Saltlux Annual Conference 2012 빅 데이터 분석 플랫폼 TrueStory TM49
    • Saltlux Annual Conference 2012 [IN2]TM 플랫폼은 시맨틱 검색/마이닝을 통해 비정형 빅 데이터 거버넌스 제공 시맨틱 검색 엔진 [IN2]Discovery 2 클라우드 지원 [IN2]SSAMZIE 통합 검색 엔진 [IN2]DOR 소셜서치 & 마이닝 엔진 [IN2]HBC [IN2]SearchBox 하이브리드 자동분류 엔진 사내 검색 포털 (Appliance) 50
    • Saltlux Annual Conference 2012 [IN2]플랫폼의 빅 데이터 지능화를 통한 올바른 의사 결정 지원 의사결정 미래에 대한 이해와 대응 방안 제시가 가능한가? Level 5 기존 지식을 통해 새로운 지식 생산이 가능한가? 예측성 [IN2]SSAMZIE [IN2]Discovery 2 세상이 어떻게 변화해 가고 무엇이 핵심인가? Level 4 분석성 정보간의 상관 관계와 전문가 찾을 방법은? Level 3 연관 정보의 발견과 재활용 방안은? 발견성 숨겨진 정보를 정확히 검색하려면? Level 2 [IN2]SearchBox 원하는 정보를 빠르게 찾는 방법은? 접근성 기존 시스템 수준 빅 데이터의 체계적 관리 방안은? Level 1 [IN2]HBC 관리성 보관을 좀더 구조적으로 할 수 있을까? Level 0 [IN2]DOR 문서 손실을 방지할 수 있을까? 저장성 51
    • Saltlux Annual Conference 2012 Value Creation52
    • Saltlux Annual Conference 2012 빅 데이터는 미래사회의 가치창출 엔진?? 미래 사회 특징 빅 데이터의 역할과 가치 • 현실 세계 데이터 기반의 패턴 분석, 전망 불확실성 통찰력 • 다각적 상황 고려 큰 그림 이해, 통찰 확보 • 사회 현상 이해와 시나리오 시뮬레이션 • 환경, 소셜 데이터 분석과 이상 징후 감지 리스크 대응력 • 이슈 사전 인지와 실시간 의사 결정 지원 • 국가, 기업 경영 투명성 제고와 비용 절감 • 평판, 트랜드 분석 통한 기업 경쟁력 확보 스마트 경쟁력 • 상황 인지, 인공지능 기반 대국민 서비스 • 개인화, 지능화 기반 차세대 사업 모델 • 이질적 지식의 융합 분석과 신 가치 창출 융합 창조력 • 상관 관계 이해를 통한 시행착오 최소화 • 컨버전스 패턴 분석을 통한 융합 시장 창출 source : NIA, 2011.12.30 53
    • Saltlux Annual Conference 2012 3 + 1 Big Values  take two! 품질 • 서비스 개인화 • 신 사업, 정책 발굴 • VOC, 고객 이해 지속가능 • 경쟁 전략 최적화 • 의료, 헬스케어 sustainability • 도시관제, 재난대응 • 기업 위험 관리 • e-Discovery • 국가 보안, 국방 • 환경 관리, 유지 비용 속도 • 실시간 마케팅 최적화 • 실시간 생산, 유통 최적화 • 금융 부정 사용 감지 54
    • Saltlux Annual Conference 2012 빅 데이터 5단계 사업 모델 5단계 4단계 3단계 2단계 1단계 55
    • Saltlux Annual Conference 2012 정말일까? 매킨지의 빅 데이터 가치 전망 300조 원 빅 데이터를 활용한 미국 헬스케어 1년 잠재 매출, 스페인 1년 총 헬스케어 매출의 두 배에 해당 빅 데이터를 활용한 EU의 공공 부문 잠재 매출, 그리스 GDP보다 큰 규모로 발전 전망 380조 원 600조 원 모바일 사용자의 개인 위치 정보를 활용한 소비자 잉여 발생과 기업의 이익 상승 효과 빅 데이터 활용을 통해 유통, 소매 부문의 영업 마진 및 운영 이익 증대 기대 60 % 150만 명 미국 내에서 필요한 빅 데이터에 익숙한 관리자와 분석 전문가가, 새로운 고용 증대 요소 56
    • Saltlux Annual Conference 2012 최근에 IDC가 B2B/G 시장에 대해 말하길... Big Data Phenomenon is REAL. 1. 2010년 전세계 3조 시장에서, 2015년 20조 시장으로 성장 2. 년 평균 성장률 40%로 다른 IT부문 성장의 7배에 달함 3. 서버 27.3%, 소프트웨어 34.2%, 저장소 61.4% 시장 성장 4. 현재 훈련된 빅 데이터 기술자가 매우 부족하며 이것이 시장 성장을 저해 : 클라우드 솔루션으로 해결 시도 5. 응용 서비스와 클라우드 기술 등의 발전으로 최종 사용자 들은 기술 이해 없이 편하게 사용 (IDC, March 7, 2012) 57
    • Saltlux Annual Conference 2012 met AI BigData when Big Future?58
    • Saltlux Annual Conference 2012 진정한 혁신 > 낭비 하도록 만들기 Transistors in a CPU (matthew Komorwski, 2010) 1/1억 100만 배 2020년 : 저장 가격 1/100, 반도체 집적도 X100 ?? 59
    • Saltlux Annual Conference 2012 Invisible and Calm Big Data By Corning, 2010 60
    • Saltlux Annual Conference 2012 맺음말 “유일한 성공 방법은, 미래를 예측하는 것이 아니라 이미 시작된 변화를 이해, 그 시간차를 이용하는 것!" 61