빅데이터 기업의 솔루션 및 서비스 추진 현황_NIA_2012.09

6,457 views

Published on

빅데이터 기업의 솔루션 및 서비스 추진 현황_NIA_2012.09

  1. 1. 2012. 9.작성 및 문의한국정보화진흥원 빅데이터 전략연구센터정지선 책임연구원(jjs@nia.or.kr, 02-2131-0533)
  2. 2. ContentsI 추진배경 및 목적II 빅데이터 기업의 추진 현황 1 그루터(Gruter)`•`10 2 넥스알(NexR)`•`17 3 다음소프트(Daumsoft)`•`22 4 사이람(CYRAM)`•`29 5 솔트룩스(Saltlux)`•`35 6 EMC`•`42 7 HP`•`51 8 IBM`•`57 9 오라클(Oracle)`•`62 10 SAS`•`68 11 테라데이타(Teradata)`•`74
  3. 3. I추진배경 및 목적
  4. 4. 빅데이터 공급 기업의 현황 파악 필요성`▒` 용자들이 빅데이터를 이해하고 업무에 활용하기 위해서는 빅데이터 서비스 사 및 솔루션 공급 현황을 파악하는 것이 필요 - 용할 소스 데이터(내부데이터, 웹, 소셜 등)와 분석 목적에 따라서 데이터 활 수집과 분석 방법은 천차만별 - 데이터 활용 범위와 목적에 가장 부합하는 효율적인 방식을 찾기 위해서는 빅 각종 서비스와 솔루션에 대한 이해가 중요 ※ 업뿐만 아니라 공공·통신· 기 교육·교통·의료 등 여러 분야에서 제기되는 빅데이터 서비스는 목적과 대상에 맞는 다른 접근법 필요 ※ 양한 고급분석 기법을 활용하여 관계, 패턴, 트렌드, 의미, 선호도, 통계 분석 등 목적에 다 맞는 분석 결과 도출이 가능 빅데이터 업계 지도(Big Data Landscape) Log Data Apps Vertical Apps Business Analytics and Intelligence Visualization Data Providers Analytics Operational Infrastructure As Structured Databases Infrastructure Infrastructure A Service Copyright Ⓒ 2012 Dave Feinleib dave@vcdave.com http://blogs.forbes.com/davefeinleib/ ※ 출처 : www.forbes.com/sites/davefeinleib/2012/06/19/the-big-data-landscape4
  5. 5. `▒` T기업들의 빅데이터 추진 현황은 미래 빅데이터 시장 발전 방향과 차세대 I Ⅰ. 추진배경 및 목적 정보화 패러다임을 이해하는데도 유용한 정보 - 근 IT 업계는 빅데이터 비즈니스 발굴에 주력하며 글로벌 빅데이터 시장에서 최 주도권을 잡기위한 전략을 강화중 - 데이터 중심의 선도기업 뿐만 아니라 신생 IT기업, 전통적인 IT 기업들도 빅 후발주자로 참여하며 빅데이터 시장 경쟁이 본격화 ※ 키본(Wikibon)의 자료에 따르면 빅데이터 시장 규모는 ’12년 약 51억 달러에서 ’17년 위 534억 달러로 10배 이상 성장할 것으로 전망 향후 빅데이터 시장 전망(2012~2017) Big Data Market Forecast, 2012-2017 (in $US billions) $60.0 $53.4 $50.0 $48.0 $40.0 $30.0 $32.1 $20.0 $16.8 $10.0 $10.2 $5.1 $0.0 2012 2013 2014 2015 2016 2017 ※ 출처 : Jeff Kelly(2012), ‘Big Data Market Size and Vendor Revenues’, Wikibon 11) http://wikibon.org/wiki/v/Big_Data_Market_Size_and_Vendor_Revenues 빅데이터 기업의 솔루션 및 서비스 추진 현황`Ⅰ 5
  6. 6. IT기업들의 빅데이터 추진 동향`▒` 재 많은 IT기업들은 기존의 강점과 전문성을 빅데이터 영역까지 확장시켜 현 새로운 서비스와 솔루션을 마련중 - 로벌 IT기업들은 빅데이터를 차세대 주력분야로 선정하고, 빅데이터 전문 글 기업의 인수합병 등을 통해 선도적 전략 수립 - 통적으로 비즈니스 솔루션에 강점이 있는 기업들은 BI, DW 등에 빅데이터를 전 접목하고, 고급 분석(Advanced Analysis)을 강화 글로벌 IT기업의 빅데이터 사업 추진 현황 기업명 빅데이터 사업 추진 현황 • 이터 저장부터 관리, 분석까지 빅 데이터와 관한 모든 것을 제공하기 위해 데 EMC 그린플럼, 아이실론 등 빅 데이터 솔루션 업체 및 데이터 관련 다수업체 인수 • 빅 데이터 스토리지 솔루션(아이실론, 아트모스), 콘텐츠 관리 솔루션(다큐멘텀) • BI 솔루션 업체 ‘버티카’, 기업용 검색엔진 업체 ‘오토노미’ 인수 HP • 버티카와 오토노미를 결합하여 빅 데이터 분석 시장에 진입 • 기업경영 의사결정, 경영정보 분석 등 경영지원 전략 수립 서비스 제공 • 석용 데이터 저장관리 업체(네티자), 데이터 통합 업체(에센셜), 분석 솔루션 분 IBM 업체(코그너스) 등 비즈니스 분석 관련업체 인수 • 빅 데이터 솔루션 : InfoSphere BigInsight(Hadoop), InfoSphere Streams • 세계적인 DB 업체, ‘하이페리온社’를 인수로 분석기술 확보 Oracle • 오라클 빅데이터 어플라이언스 제품 출시 • 급 분석(Advanced Analytics)을 위한 ‘HPA(High Performance Analytics) 고 SAS 기반의 SEMMA 방법론’ 제시 • IT+분석+비즈니스’ 통합 플랫폼 구현(SAS 빅데이터 분석 플랫폼 Solution MAP) ‘ • 데이터웨어하우징 및 비즈니스 인텔리전스(BI) 전문 업체 Teradata • 비정형 데이터의 고급분석·관리 솔루션 업체 인수(애스터데이터) • ‘애스터 맵리듀스 플랫폼’ 제시`▒` 데이터의 프로세스의 전 과정을 아우르는 빅데이터 플랫폼부터 특화된 빅 단위와 분야별 서비스까지 다양한 빅데이터 서비스 등장6
  7. 7. - 데이터 수집, 저장, 분석, 표현의 전체 과정을 통합적으로 처리할 수 있는 빅 Ⅰ. 추진배경 및 목적 빅데이터 플랫폼 구축 및 토털솔루션 서비스 제공- 라우드 서비스(저장, 관리), 소셜 네트워크 분석/텍스트 마이닝(분석), 클 시맨틱 검색(수집, 검색) 등 여러 서비스 영역 창출 국내 IT기업의 빅데이터 사업 추진 현황기업명 빅데이터 추진 현황 • 데이터 관련 플랫폼, 기술, 솔루션 전문기업 빅그루터 • 데이터 플랫폼 구축 및 컨설팅 서비스, 빅데이터 분석 및 데이터 제공 서비스, 빅 빅데이터 분석 플랫폼 제공 서비스 구축 • 스알 빅데이터 분석 플랫폼(NDAP : NexR Data Analytics Platform), 넥스알 넥넥스알 빅데이터 분석 솔루션(RHive) 구축 • NS 정보 기반 여론 진단 서비스, 소셜미디어 트위터, 블로그 트렌드 분석 S 다음 • 셜미디어 상의 데이터들에서 의미 있는 정보를 찾고, 조직화함으로써 정보 소소프트 간의 관계나 패턴, 트렌드 등을 분석하는 서비스 제공 • 셜 네트워크 분석 소프트웨어 넷마이너(NetMiner) 개발 : 대규모 소셜 네트워크 및 소사이람 데이터 간의 관계를 계량적으로 분석해 패턴을 파악하고 시각화하는 기능을 제공 • 셜 네트워크 분석 응용솔루션 및 컨설팅 제공 소 • 정형 빅데이터 분석 및 시맨틱 기술 전문기업 비 • 비정형 빅데이터 분석 플랫폼(truestory), 클라우드 기반 시맨틱 검색 플랫폼(IN2), 솔트룩스 시맨틱 기반 빅데이터 추론 플랫폼(STORM), 빅데이터 분석 서비스 플랫폼(O2) 서비스 빅데이터 기업의 솔루션 및 서비스 추진 현황`Ⅰ 7
  8. 8. 보고서 작성 개요 ❖ 빅데이터 솔루션 및 서비스를 제공하는 IT기업들의 현황을 파악을 통해 - 기업과 조직이 빅데이터 활용 시에 참고할 수 있고, - IT시장의 중요한 패러다임 변화를 이해할 수 있도록 자료 작성▒` (목적) 국내의 빅데이터 관련 기업의 기술 및 솔루션 제공 현황을 파악 `▒` 방법) 국내에서 활동하고 있는 빅데이터 기업을 선정하고, 해당 기업의 담당자에게 ( 빅데이터 추진현황에 관한 원고 작성을 요청 - 빅데이터 국가전략 포럼」 창립 초기에 참여한 빅데이터 전문기업을 중심으로 「 기업 선정 - 기업의 빅데이터 담당자들에게 자사의 빅데이터 비즈니스 전략, 기술, 각 솔루션 등을 소개하는 원고를 의뢰하여 정리 ※ 후에도 포럼 참여기관 및 그 외 다양한 국내 빅데이터 전문기업들의 빅데이터 솔루션과 이 서비스 추진 현황을 조사하여 추가적으로 보고서를 발간할 계획임 각 기업의 원고작성 담당자 및 원문 출처 • 그루터, 이전행 미디어랩 이사 • 넥스알, 김연섭 이사 • 다음소프트, 권미경 이사 • 사이람, 하정엽 경영기획팀 팀장 • 솔트룩스, 여준희 차장 • EMC, 강정민 마케팅팀 부장 • HP, 최형광 기술컨설팅본부 상무 • IBM, 김경전 실장 • Oracle, 김상현, ‘Big Data in Oracle’, ORACLE KOREA MAGAZINE, 2011 Winter. 참고 • SAS, 이진권 솔루션서비스본부 상무 • Teradata, 구태훈 이사`▒` 내용) 각 기업의 빅데이터 추진 전략 및 비전 소개 ( - 각 기업의 빅데이터 관련 기술, 서비스, 솔루션의 소개 - 국내외 적용 사례 및 적용 효과 - 향후 발전방향8
  9. 9. II빅데이터 기업의 추진 현황 1. 그루터(Gruter)` 2. 넥스알(NexR) 3. 다음소프트(Daumsoft)` 4. 사이람(CYRAM) 5. 솔트룩스(Saltlux)` 6. EMC 7. HP` 8. IBM` 9. 오라클(Oracle)` 11. SAS 12. 테라데이타(Teradata)`
  10. 10. 1 2 그루터(Gruter)그루터의 비전 및 주요 전략`▒` 루터는 빅데이터 관련한 플랫폼 및 기술과 솔루션 전문 기업 그 - 데이터 플랫폼 구축뿐만 아니라 구축 이후 최적화 관리가 가능한 종합적인 빅 관리 운영체계를 솔루션化해서 제공`▒` 루터의 빅데이터 비전 : ‘Data Centric Company’ 그 - 루터는 데이터 수집, 분석, 서비스 등 일련의 데이터 프로세스의 전 과정을 그 경험하고 공유하며 체화하여 최고의 기술력을 보유 - 후 솔루션 중심의 기술 안정화, 서비스를 통한 운영 안정화 그리고 꾸준한 향 인력 양성을 통해 글로벌 경쟁력을 유지하고자 함`▒` 데이터 플랫폼 구축 및 컨설팅, 빅데이터 분석 및 데이터 제공, 빅데이터 빅 분석 플랫폼 제공 등의 기술과 서비스 보유 ① 데이터 플랫폼 구축 및 컨설팅 서비스(Big Data Platform Providing 빅 Consulting Service). ② 데이터 분석 및 데이터 제공 서비스(Big Data Analysis Data Providing 빅 Service)2) 원문 출처 : 그루터 미디어랩 이전행 이사(kusong.lee@gruter.com)10
  11. 11. - 셜 데이터와 같은 다양한 빅데이터 수집 소 ·분석 서비스 Ⅱ. 빅데이터 기업의 추진 현황 - 이터 혹은 재 가공된 데이터를 기업 등에 제공 데 ③ 데이터 분석 플랫폼 제공 서비스(Big Data Ad-hoc Analysis Platform 빅 Service) - 별 기업의 특정 목적에 따라 원하는 분석을 자유롭고 효과적으로 수행할 개 수 있는 빅데이터 분석 플랫폼 제공빅데이터 플랫폼, BAAS (BigData Analysis Application System)`▒` AAS는 대용량 데이터 수집, 저장, 실시간 분석 및 일괄 분석 등 분석용 B 데이터의 전체 라이프 사이클을 관리하는 플랫폼 BAAS의 개념도 Front-end 서버 SAN NAS (웹로그, 메일, 블로그 등) Data 저장 Contents Storage Log or Data Data 추출 검색 HTTPd Collector/ NoSQL Real-time Analysis 검색 서버군 분석 Batch Analysis 분산 스토리지 BAAS 빅데이터 기업의 솔루션 및 서비스 추진 현황`Ⅰ 11
  12. 12. BAAS의 주요 특징 특징 주요 내용 데이터수집/ • 오픈소스 중심의 소프트웨어 스택 저장/분석 • 86 Linux 서버와 SATA/SAS 등 저가의 디스크 사용 x 토탈 솔루션 • 산/병렬 처리로 고성능 데이터 처리 실현 분오픈소스 취약점을 • 리 및 모니터링 도구 관 보완하는 추가 • 루터 자체 개발 다양한 부가 컴포넌트 제공 그 컴포넌트 제공 대용량 데이터 • 타바이트 이상 규모의 원본 데이터 저장 가능 페 저장 • 백억 건 이상의 실시간 트렌젝션 데이터 저장 수 • 이터 증가 시 서비스 중단 또는 프로그램 변경 없이 지속적으로 증설 가능 데 탄력적인 확장성 • 필요한 서버는 별도의 작업 없이 즉시 제거 가능 불 • 든 컴포넌트는 장애 발생 시 자가 치유 능력 보유로 지속적인 서비스 가능 모 안정성 • 든 데이터는 2 ~ 3중 백업 체계 모 BAAS의 주요 기능 기능 주요 내용 • 데이터 발생원으로 안정적인 저장소로 저장 원본 데이터 • 파일 기반 저장 및 트렌젝션 데이터 저장 수집 및 저장 • 외부 데이터(웹, 사용자 로그, 블로그, 소셜네트워크 등) 수집 ✽ 지원솔루션 : Flume/Hadoop/HBase/Cassandra • 다양한 분석 유형 제공 : 실시간/준실시간/배치 분석 • uery 기반의 분석 룰 관리 기능 : 분석 룰 관리 및 분석된 데이터 검색 Q 통합 관리 UI 제공 데이터 분석 • 석에 필요한 도구 제공 : 데이터 마이닝 알고리즘, Sentiment Analysis 등 분 • 알고리즘 또는 작업 관리 도구 제공 ✽ 원솔루션 : Esper(실시간분석), Cloustream(준실시간 분석), Hive(배치 지 분석), 분석을 위한 Rule Manager, M/R, Hive Manager • 사용자 별 개인화된 검색 및 전체 데이터에 대한 검색 • 다양한 검색 조건을 이용한 검색 검색 • 첨부 파일 검색(txt, doc, ppt, xls, pdf 등) ✽ 원솔루션 : ElasticSearch 지 분산시스템 • 데이터 관련 솔루션은 대부분 오픈소스이므로 관리 및 모니터링 환경은 빅 모니터링 및 취약. Management • 분산된 서버에 대한 클러스터 및 통합 환경 설정 관리 System - • 관리용 웹 콘솔 및 Shell 명령 제공 Cloumon ✽ 상솔루션 : Hadoop, ZooKeeper, HBase/Cassandra, Hive, Flume 대12
  13. 13. Ⅱ. 빅데이터 기업의 추진 현황 BAAS의 세부구성 내용 데이터 소스/수집기 Cluster Monitoring Cluster coordinator Rule Manager 데이터 수집기/실시간 분석 (각종 로그 데이터) Flume Collector Cloumon Zookeeper ARM Data Source (Web Server) Logical Node 원본 저장소(File/Structured), 준 실시간 분석 Pipeline-Sink Thrift Flume Thrift Source Agent Sink HBase Serri-Strue Cloustream NoSQL RegionServer tured HBase Hadoop Temporary DataNode Origin File 준 실시간 분석 Hadoop Thrift Source 검색엔진(Search) 데이터 소스/수집기 검색 (FTP, HTTP 등 ElasticSearch Index 배치분석/저장소 표준 프로토콜) Rnaltime 배치분석 Data Source Analysis 실시간 분석 결과저장소 (File/Structured) Hive FTP/ Flume Thrift HBase Serri-Strue RegionServer Hadoop HTTP Agent Sink tured Mapeduce Analysis Hadoop Hadoop DataNode Origin File Temporary DataNode Origin File Oracle/ MySQL RGB`▒` AAS는 다양한 오픈 소스와 그루터 자체 기술로 구성된 소프트웨어 스택 B 솔루션 제공 - 데이터 플랫폼에 필요한 전체 기술 스택 및 컨설팅 제공 빅 - 객의 요구사항에 맞게 최적화된 오픈 소스를 선택하여 빅데이터 플랫폼을 고 구현(유연성) - 고객의 요구 기능에 따라 필요한 모듈을 개발하여 추가(확장성) 빅데이터 기업의 솔루션 및 서비스 추진 현황`Ⅰ 13
  14. 14. 그루터 빅데이터 플랫폼의 기본적인 소프트웨어 스택 Interface Management Web Phone Pad Analysis Data Visualization (Near)Real-time Batch Analysis Analysis Management Monitoring (cloumon) Analysis Job Analysis Job Script Language(Hive, Pig) Real-time Analysis Platform (ClouStream) Job Workflow Engine(cozie, cascade) Cluster Management Collector (flume, scribe, chukwa) Data Analysis Platform(hadoop) (Zookeeper) Aggregator Data Store Collector File System NoSQL NoSQL Search (flume, scribe, chukwa) (HadoopFS) (cloudata) (HBase, Cassandra) (ElasticSearch) 오픈소스 자체구축빅데이터 분석 및 데이터 제공 서비스 (Big Data Analysis Data Providing Service)`▒` 셜네트워크 데이터 수집 및 분석 서비스 : Seenal.com 소 - 위터, 페이스북, 블로그 및 기타 소셜네트워크 미디어 등의 데이터 수집 트 및 분석 서비스 제공 - 기업의 소셜 네크워트 활동과 관련된 모니터링, 분석 정보제공 - 이미지, 인물, 제품 및 이슈등 대한 실시간 분석 서비스 - 메시지, 이슈에 대한 확산 경로 및 확산 요인 분석 - 메시지에 대한 감성, 영향력, 확산 정도 등 효과 측정 - 소셜네트워크 검색 서비스 - 효율적인 성과지표 관리를 지원하는 보고서 기능 제공14
  15. 15. Ⅱ. 빅데이터 기업의 추진 현황`▒` 이터 제공 서비스(Data Providing Service) 데 - 소셜네트워크 분석 및 데이터 제공 서비스 - 기업이 요청하는 원본 Raw Data Crawl Feeding 서비스 - 분석결과를 직접 서비스 지원하는 API 제공빅데이터 분석 플랫폼 제공 서비스 (Ad-Hoc BigData Analysis Platform Service)`▒` 데이터 분석 플랫폼을 보유하지 않은 기업들에게 다양한 목적과 내용의 빅 빅데이터를 분석할 수 있도록 플랫폼 제공 - 데이터 플랫폼 구축에 비용 등의 부담을 느끼는 중소기업이나 부분적인 빅 분석의 필요성만 있는 기업의 경우에 적합한 솔루션 빅데이터 기업의 솔루션 및 서비스 추진 현황`Ⅰ 15
  16. 16. `▒` 루터가 자체적으로 보유하고 있는 빅데이터 플랫폼을 개별 기업들이 그 빅데이터를 분석하는데 이용할 수 있도록 서비스 제공 - 소셜 네트워크 데이터의 분석 플랫폼 제공 - On Demand 빅데이터 분석 플랫폼을 제공 - 기업의 Social CRM 구현을 위한 CRM연동 - 빅데이터 분석 모듈의 On Demand 제공16
  17. 17. Ⅱ. 빅데이터 기업의 추진 현황 2 3 넥스알(NexR)넥스알 빅데이터 분석 플랫폼 (NDAP : NexR Data Analytics Platform)`▒` ig Data 배치 처리 및 근 실시간 검색 플랫폼, NDAP B - 데이터 분석을 위한 모든 작업(수집/저장/분석/검색/관리 등) 및 실시간 빅 데이터 질의를 처리할 수 있는 소프트웨어 플랫폼 - NSI SQL를 기본 언어로 사용하여 신규 개발 및 기존 DB나 DW(Data A Warehouse)의 마이그레이션(Migration)4이 용이 - 데이터 처리 및 향후 데이터 증가에 유연하게 대처할 수 있는 scale-out 빅 구조3) 원문 출처 : 넥스알, 김연섭 이사(eric.kim@nexr.com)4) 나의 운영환경으로부터 더 나은 운영환경으로 옮아가는 과정을 뜻하는 정보통신 용어(네이버 하 백과사전) 빅데이터 기업의 솔루션 및 서비스 추진 현황`Ⅰ 17
  18. 18. 넥스알 빅데이터 솔루션 NDAP Enterprise RHive Advanced analytics Integration of R and Hive NDAP Enterprise Hive Oracle-to-Hive, Hive workflow, Batch data processing Hive performance monitor, query planner NDAP Data Store Common data storage HDFS, Sqoop-based data import/export NDAP Search Lucene-based distributed log search engine Real-time query Time-ranged index sharding NDAP Collector Flume-based data collector Streamed data collection Checkpointing for low overhead agents NDAP Admin Center Zookeeper-based distributed coordinator Collected-based system/app management 기존 제품과 NDAP의 차별성 차별성 주요 내용 저비용 • DB 기반의 기존 DW 시스템에 비해 시스템(처리 성능, 저장 용량) R 고 확장성 구조 확장이 쉽고 저비용임 다양한 데이터 • 양한 형식의 데이터를 쉽게 적재할 수 있으며, 필요할 경우 플러그인 다 적재 방법 제공 형식의 확장으로 신규 데이터를 쉽게 적재할 수 있음 정형/비정형 관계없이 • 정형/비정형 등 데이터 유형에 관계없이 모두 수용 가능 모두 수용 가능 분산 기반 고성능 검색 • 색인 및 검색을 scale-out 구조로 분산화 하여 빅 데이터 수용에 적합 기능 제공 • 표현이 다양한 검색 질의 언어 제공(기능 확장 중) (NDAP Search) 데이터 다중화 • 특정 노드 장애에 관계없이 seamless한 서비스 가능 (2copy, 3copy,…)18
  19. 19. 넥스알 빅데이터 분석 솔루션 : RHive Ⅱ. 빅데이터 기업의 추진 현황`▒` ig Data 고급 분석 플랫폼, RHive B - 장 대중적인 분석 도구인 R5과 검증된 대용량 분산 DW`시스템인 Hive를 가 결합하여 제작 - 분석가들에게 친숙한 R 환경에서 빅데이터 고급 분석 가능 넥스알 빅데이터 솔루션 RHive ◆ Language : R or ANSI-SQL ◆ 가장 널리 사용하는 Analytic Tool ◆ Hadoop 기반 분산 병렬 처리 ◆ R-Hive Bridge ◆ CRAN : 4,000+Rich R library Set ◆ ANSI SQL : Low Leaning Cost ◆ R Export ◆ 용이한 Library/Procedure 제작 ◆ 용이한 기능 확장 : UDF, UAF ◆ R 기반 분산 처리 Framework ◆ 다양한 Visualization, IDE 도구 ◆ NexR Add-on`▒` Hive는 빅데이터를 대상으로 고급 분석(Advanced Analysis)을 할 수 있게 R 하는 플랫폼 - 급 분석이란 빅데이터에서 세부 정보, 극단적인 정보도 빠짐없이 분석하여 고 기존에는 찾을 수 없었던 Big Value를 찾아내는 분석 - Hive는 군집 분석, 회귀 분석, 기계 학습, 이상 징후 예측 분석, 시계열 R 분석 등의 고급 분석이 가능5) R’이란 오픈소스 통계분석 소프트웨어임. 무료 소프트웨어이며 각종 API 제공으로 기능 확장 및 ‘ 타 SW와의 연동이 용이하여 학계 및 산업계에서 널리 쓰이고 있음 빅데이터 기업의 솔루션 및 서비스 추진 현황`Ⅰ 19
  20. 20. `▒` 존의 상용 분석 도구와 빅데이터 분산처리 플랫폼의 장단점을 분석하여 기 사용하기 쉬운 빅데이터 분석 플랫폼, ‘RHive’를 제작 - 존 통계 분석 도구는 DW의 요약된 정보를 대상으로 분석을 수행하므로 기 outlier 및 long-tail의 숨은 정보를 놓치는 문제 발생 - 한 분석 대상 데이터가 메모리 위에 존재해야 하므로, 처리 속도 및 저장 또 용량 면에서 빅데이터 처리가 어려움 상용 분석 도구와 빅데이터 분산처리 플랫폼의 장단점 장점 단점 ◆ ata Analytics 기법은 수 십 년간 연구되 D ◆ 이터 처리 스케일 : GB 데 R 및 기존 상용 어 성숙 단계임 분석 도구들 ◆ 용량 데이터는 샘플링에 의존 대 ◆ 이터 분석가들이 쉽게 사용할 수 있는 데 ◆ 일 node, In-memory 처리 기반 단 자체 분석 언어 제공 ◆ 성능을 위해서는 H/W 수직 확장이 고 ◆ 각화, 시스템화를 위한 각종 편의 도 시 필요 구 제공 ◆ 석가들이 다루기 어렵다(패키지 언어 분 ◆ 이터 처리 스케일 : TB ~ PB 데 에 Lock-in) ◆ 산 병렬 처리 기반 분 ◆ ibrary화 된 분석 기법이 많지 않다. L ◆ 평 확장 가능하여 저비용으로 고성 수 ◆ 석 기법 Porting이 어렵다(java, 분 능 보장 MapReduce, HDFS 등 언어 및 패러다 임 이질성) 전통적 분석가들이 쓰기 쉽다 Big Data 분석 도구 Big Data를 다루지 못한다 Analytics Platform 분산 처리 Big Data 분석 가능 플랫폼 분석가들이 다루기 어렵다`▒` Hive는 Hadoop과 같은 분산 처리 시스템 기반의 빅데이터 분석 시스템에 R 비해서 개발이 용이 - 이터 분석가들이 많이 사용하는 R 인터페이스를 지원하여 사용하기 쉬운 데 친숙한 인터페이스 호환성 지원 - 산화 모델로 이식된 R Basic Function을 제공하고, ANSI SQL 기반의 분 Hive-QL로 개발 가능하여 개발이 상대적으로 쉬움20
  21. 21. - 한 맵리듀스 모델(MapReduce Model)을 R 개발자가 이해하기 쉽도록 또 Ⅱ. 빅데이터 기업의 추진 현황 추상화한 프레임워크 제공 - 리듀스에 대한 지식이 없이도 분산 모델의 프로그래밍이 가능 맵`▒` Hive는 공개 소프트웨어(OSS)로 개방(Apache License Version 2) R - http://www.github.com/nexr/RHive - http://cran.r-project.org/web/packages/RHive - -Hive Integration 기능, R-HDFS Integration 기능 및 분산 처리화 된 R R 기본 함수(range, mode, xtabs, cut, by 등)를 제공`▒` Hive의 상용 버전으로 ‘Enterprise RHive’ 제작 R - Hive의 기본 기능 외에 각종 편의 도구 및 분산화 된 분석 알고리즘 R 패키지를 제공 - Means, Sampling, Scatter Plot, Simple Linear Regression 등 K 분산화 된 분석 알고리즘 제공(알고리즘 셋(set) 추가 확장 중) - 발 도구로 SSO(Single-Sign-On) 연동된 RStudio6 사용 가능 개 - Hive 및 보고서 Action을 기술할 수 있는 웹기반 워크플로우(Workflow) R 관리 기능 제공 - 스템 모니터링/관제/작업 관리/설정 관리 등의 기능을 제공하는 웹 기반 시 통합 관리 콘솔 기능 제공6) RStudio는 R을 위한 무료 오픈소스 통합 개발 환경(IDE)임(사이트 : rstudio.org). 빅데이터 기업의 솔루션 및 서비스 추진 현황`Ⅰ 21
  22. 22. 3 7 다음소프트(Daumsoft)소셜미디어 분석을 위한 다음소프트의 전략`▒` 음소프트는 고도의 자연 언어 처리 기술과 방대한 언어 자원을 기반으로 다 소셜미디어 등 대용량의 텍스트 분석 서비스를 제공 - 셜미디어 상의 데이터들에서 의미 있는 정보를 찾고, 조직화함으로써 소 정보 간의 관계나 패턴, 트렌드 등을 분석하는 서비스 - 정형 텍스트 데이터인 소셜미디어 데이터를 자연 언어 처리 기술인 텍스트 비 마이닝(text mining) 기법 등을 활용하여 분석 다음소프트의 소셜미디어 분석 서비스 기술 범주 세부 정보 정확도 높은 단어 및 개체명 인식을 통해 이용자가 관심이 있는 키워드 혹은 관심도 분석 개체명이 특정 소스, 특정 기간의 문서에서 얼마나 나타났는지를 시계열로 확인할 수 있는 버즈 분석 서비스 관심 키워드/개체명이 어떤 키워드/개체명과 특정 소스, 특정 기간의 문서에서 연관어 분석 얼마나 연관되어 나타났는지를 시계열로 확인할 수 있는 연관어 분석 서비스 관심 키워드/개체명이 어떤 속성어/감성어와 특정 소스, 특정 기간의 문서에서 감성 및 긍부정 분석 어떠한 양상(긍정, 부정)으로 나타났는지를 시계열로 확인할 수 있는 속성 및 감성 분석 서비스7) 원문 출처 : 다음소프트, 권미경 이사(fanto@daumsoft.com)22
  23. 23. Ⅱ. 빅데이터 기업의 추진 현황 기술 범주 세부 정보 관심 키워드/개체명과 관련된 이슈의 발생과 변화를 감지하고 모니터링할 이슈 분석 수 있는 이슈 분석 서비스 관심 키워드/개체명과 관련된 버즈를 발생시키는 영향력 있는 사용자를 영향력자 분석 감지하고 모니터링할 수 있는 사용자 영향력 분석 서비스 이용자/기업의 소셜 네트워크 계정에 대한 리트위트, 맨션 등의 상호작용을 소셜미디어 계정 분석 모니터링하고 대응할 수 있는 계정 분석 서비스`▒` 음소프트는 잘 구성된 규칙적 알고리즘, 방대한 언어자원, 통계정보 등 자연 다 언어 처리를 위한 최고 수준의 기술 보유 - 랜 연구 개발 경험을 통해 정확도가 높은 단어를 인식하고, 단어의 구조를 오 파악하는 형태소 분석 기술 보유 - 장 내에서 단어 간의 관계를 파악할 수 있는 문장 분석 기술 보유 문 - 체명 사전, 사물과 상황에 대한 주관적 평가의 표현에 사용되는 속성어와 개 감성어 사전 등의 방대한 언어 자원 구축 빅데이터 분석을 위한 다음소프트 보유 기술 기술 범주 세부 정보 자연어 처리 기술 형태소 분석 기술, 품사 태깅 기술, 복합명사 인식 기술, 개체명 인식 기술 특성 추출 기술, 카테고리 분류 기술, 군집화 기술, 토픽 연관성 분석 기술, 데이터마이닝 기술 Fact 추출 기술, SNS 분석 기술 문서 변환 기술 텍스트 추출 기술, 메타 정보 추출 기술, 표준 포맷 변환 기술 지식 구축 및 사전 구축 및 관리 기술, DB 구축 및 관리 기술, Ontology 구축 및 관리 관리 기술 기술 Ontology 관련 기술 Ontology 자료구조(기술 언어) 기타 보유 기술 트렌드 분석 기술`▒` 업들은 위기 감지, 소비자 반응 분석, 소비자 트렌드 및 행동 연구, 커뮤니 기 케이션 활동 평가 등에 소셜미디어 분석을 활용 빅데이터 기업의 솔루션 및 서비스 추진 현황`Ⅰ 23
  24. 24. 기업들의 소셜미디어 분석서비스 도입 목적 도입 목적 설명 Risk Monitoring 자사 관련 이슈에 대한 조기 감지 및 대응 Market Research 자사 제품/브랜드에 대한 소비자 반응 조사 Trend Watching 소셜미디어를 통한 소비자 트렌드 및 행동 연구 Communication 커뮤니케이션 활동을 평가하기 위한 SNS 모니터링 Evaluation빅데이터 관련 서비스 및 솔루션`▒` 데이터 분석을 위한 Hub 솔루션 : ‘SOCIALmetrics™ TrendMap’ 빅 - 셜미디어 분석을 위하여 개발된 허브 시스템으로 제품, 브랜드, 산업 및 소 사회현상이나 트렌드 분석에 주로 활용 ‘소셜메트릭스™ TrendMap 2.0’의 분석 환경 및 기능 제공 언어 한국어 분석 대상 블로그, 트위터, 미디어(뉴스) 주요 분석결과 관심도분석, 연관어분석, 감성분석, 분류분석, 영향력자 분석24
  25. 25. `▒` 시간 소셜미디어 분석 및 모니터링 서비스 : ‘트윗몹™’ 실 Ⅱ. 빅데이터 기업의 추진 현황 - 위터 상에서 공유되고 있는 거의 모든 종류의 콘텐츠 링크를 실시간으로 트 모아 프리뷰를 제공하는 큐레이팅 서비스 ‘트윗몹(www.tweetmob.co.kr)’의 분석 환경 및 기능 제공 언어 한국어 분석 대상 트위터 주요 분석결과 트위터에서 공유되는 다양한 콘텐츠링크를 주제별로 프리뷰`▒` 셜메트릭스서비스의 기업용 버전 : ‘SOCIALmetrics™ Biz’ 소 - 정된 기업, 제품(서비스)에 대한 상시 모니터링, 소셜미디어 중심의 디지털 지 마케팅 효과 분석, 마케팅 타겟 발굴, 인플루언서 분석 제공 ‘소셜메트릭스 Biz(http://insight.some.co.kr)’의 분석환경 및 기능 제공 언어 한국어 분석 대상 블로그, 트위터 주요 분석결과 실시간 이슈 모니터링, 이슈 히스토리, 계정분석(트위터), 키워드탐색 빅데이터 기업의 솔루션 및 서비스 추진 현황`Ⅰ 25
  26. 26. `▒` 셜메트릭스 Enterprise edition : ‘SOCIALmetrics™ Enterprise’ 소 - 양한 수집원과 분석 카테고리를 활용하여 기업의 제품, 브랜드 분석 및 다 캠페인 분석 결과를 제공 ‘소셜메트릭스™ Enterprise’의 분석 환경 및 기능 제공 언어 한국어, 영어, 중국어 블로그, 트위터, 페이스북(팬페이지), 포럼, 포털, 쇼핑몰 및 기타 전문 리뷰 분석 대상 사이트 브랜드 제품별 온라인버즈 점유율변화, 피쳐별 긍부정 분석, 캠페인효과분석, 주요 분석결과 사이트별 분석, 리포팅을 위한 각종 통계26
  27. 27. 공공분야 적용 사례 Ⅱ. 빅데이터 기업의 추진 현황`▒` 가권익위원회 - 온라인 민원정보분석시스템 구축 국 - 가권익위원회 홈페이지 민원, 제안, 콜센터 상담을 통해 축적된 민원 국 데이터를 분석하여 민원이 정책에 환류될 수 있도록 지원 - 보의 획득 및 이슈 민원 분석시간 단축 등을 통한 업무효율화 정 - 미기반의 다차원 분석을 통한 개선사항 조기발견 및 선제적 대응을 목적으로 의 온라인 민원정보분석시스템 구축 국가권익위원회 온라인국민소통시스템(2차년도)`▒` 가대표포털(www.korea.go.kr) 콘텐츠 이용 활성화를 위한 소셜 트렌드 국 분석 - 근 3년간의 블로그 데이터를 대상으로 국민의 관심사 및 서비스 콘텐츠에 최 대한 관심도를 분석 - 민들의 월별 관심사 파악을 통해 시의적인 콘텐츠 및 서비스 제공 국 - 심사에서 주요 언급되는 내용을 분석하여 국민의 니즈를 반영한 콘텐츠 관 구성에 활용 빅데이터 기업의 솔루션 및 서비스 추진 현황`Ⅰ 27
  28. 28. 대한민국정부포털 콘텐츠 이용활성화를 위한 트렌드 분석 • 연말정산간소화에 대한 관심도 변화 및 연관어 3500 3000 2500 2000 1500 1000 500 0 01 01 01 01 01 01 01 01 01 01 01 01 1 1 1 -0 -0 -0 1- 4- 7- 0- 1- 4- 7- 0- 1- 4- 7- 0- 07 01 04 -0 -0 -0 -0 -0 -0 -0 -0 -0 -1 -1 -1 11- 11- 11- 08 09 10 08 09 10 08 09 10 08 09 10 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 연말정산 연말정산간소화 순위 연관어 문서수 1 필요하다 697 2 가능하다 263 3 다양한 103 4 달라지다 97 5 편리하다 57 6 쉽다 57 7 편리한 54 8 불편 57 9 큰 기대 41 10 아름다운 41 11 간단한 38 12 어렵다 36 13 어려운 32 14 다르다 29 15 간편하다 29 16 새로운 28 17 기대 28 18 불만 23 19 까다롭다 20 20 신속한 18 ⋮ ⋮ ⋮28
  29. 29. Ⅱ. 빅데이터 기업의 추진 현황 4 8 사이람(CYRAM)소셜 네트워크 분석 전문기업 사이람`▒` 이람은 소셜 네트워크 분석(SNA)에 기반하여 개체 데이터와 관계 데이터를 사 함께 분석할 수 있는 통합 데이터 마이닝 기업 - 이터 수집, 모델링 및 처리, 알고리즘 개발, 분석, 시스템 구축, 컨설팅 등 데 데이터 마이닝 종합 솔루션 제공 소셜 네트워크 분석 응용 분야 및 적용사례 주요 기능 내용 지식지도 시스템 연구자, 저널, 키워드 등 지식의 구성요소간 관계를 맵으로 시각화하고, 내비 문헌/정보관리 게이션 및 RD 동향에 대한 효과적 탐색 지원 대표사례 : 한국산업기술평가원(2011), KISTI(2011) 인적자원 네트워크 관리 시스템/지식 네트워크 관리 시스템 구성원, 부서, 업무, 역량, 지식 등 조직 자원 간의 관계를 분석하여 효율적인 인사조직/지식경영 조직 자원 배분과 전략 경영 지원 대표사례 : 현대 모비스(2011), 한국 컨텐츠 진흥원(2010) 네트워크형 범죄수사/사기적발 지원 시스템 혐의자들 간의 드러나거나 숨은 관계에 대한 수사를 가능하게 함으로써 불법 범죄수사/사기적발 증권거래 및 보험 사기 적발지원 대표사례 : 금융감독원(2010), 교보생명(2009)8) 원문 출처 : 사이람, 경영기획팀 하정엽 팀장(hazime98@cyram.com) 빅데이터 기업의 솔루션 및 서비스 추진 현황`Ⅰ 29
  30. 30. 주요 기능 내용 소셜 미디어 모니터링 시스템 소셜 미디어분석 소셜 미디어 분석을 통한 위기 관리, 여론 조사, 시장동향 파악 대표사례 : 정당(2012), 공공기관(2011), 언론사(2011) 소셜 마케팅 시스템/고객관계 네트워크 관리시스템 구매 및 활동이력, 고객 관계 네트워크를 통합·활용해 핵심 영향력자, 고객 마케팅/고객관리 커뮤니티를 파악하고 고객관리의 효율성 향상 대표사례 : 도서유통사(2011), 통신사(2008)소셜 네트워크 분석 전문 소프트웨어 : NetMiner`▒` etMiner는 국내 기술로 개발된 소셜 네트워크 분석 소프트웨어 N - 노드와 링크로 이루어진 데이터를 분석하고 시각화 - 전세계 50여개국 대학, 정부/공공기관, 글로벌 기업 고객 확보 NetMiner의 주요 특징 주요 특징 내용 대용량 네트워크 처리 • 최대 1백만 개의 노드로 구성된 네트워크 처리최신 SNA 분석지표 탑재 • SNA 표준 지표, 다양한 최신 분석 지표를 신속하게 반영 • 사용자의 분석 의도와 편의성을 반영한 다양한 기능 제공 상호작용이 원활한 • 드와 링크를 각 속성에 따라 자유롭게 스타일링 할 수 있을 뿐만 노 시각적 분석 아니라, 네트워크 지도상에서 자유롭게 노드와 링크의 이동이 가능 다양한 통계분석과 • 다양한 통계분석 기능과 차트가 포함되어 있어 통합된 분석환경을 제공 차트 기능의 포함 • 외부 통계 프로그램을 사용하지 않고서도 다양한 분석 가능`▒` 용량 데이터 최적화 알고리즘 구현으로 유연한 대 분석 수행 - etMiner는 최대 1백만 개의 노드와 1천만 N 개의 링크를 처리할 수 있으며, 대용량 데이터 처리에 최적화된 알고리즘 구현30
  31. 31. `▒` etMiner는 다양한 SNA(Social Network Analysis) 방법론과 이론을 N Ⅱ. 빅데이터 기업의 추진 현황 포함하는 포괄적인 범위의 네트워크 지표와 분석모델들을 제공 - 존 통계분석 모델과 차트 기능이 내장되어 외부 통계처리 프로그램을 기 사용하지 않고 다양한 분석 수행 가능 NetMiner의 분석모델과 차트기능 예시`▒` etMiner는 분석과 시각화가 유기적으로 결합되어 탐색적인 데이터 분석이 N 가능하며 분석결과를 직관적으로 이해하는데 도움 빅데이터 기업의 솔루션 및 서비스 추진 현황`Ⅰ 31
  32. 32. NetMiner의 시각화 사례 및 UI NetMiner 응용분야 예시 주요 기능 내용 온라인 네트워크 트위터와 같은 온라인 소셜미디어 상에 형성되는 여론이나 네트워크 등을 분석 분석하고 시각화 고객의 구매 및 활동 이력, 고객간 관계 네트워크를 분석하여 다양한 마케팅 고객 네트워크 분석 활용에 활용 조직구성원, 부서, 업무, 역량 등 조직 내 인적자원 간의 공식적, 비공식적 조직 네트워크 분석 관계를 분석하고 시각화 혐의자들 간의 드러나거나 숨은 관계(covert/overt network)를 분석하여 범죄 네트워크 분석 시각화 지식 네트워크 분석 연구나, 저널, 키워드 등 지식의 구성요소 간 관계를 분석하고 시각화네트워크 분석 엔터프라이즈 솔루션 : NetMetrica`▒` etMetrica는 엔터프라이즈 환경에서의 대용량 네트워크 데이터 속에 숨겨진 N 패턴과 가치 있는 정보를 찾아내는 데이터 분석 솔루션 - 향력 있는 노드(Node: 사람, 아이템 등) 추적, 행위 패턴 분석, 연결경로 영 추적, 노드의 역할 분석, 응집그룹 판별, 유사성 분석32
  33. 33. Ⅱ. 빅데이터 기업의 추진 현황 NettMetrica의 시스템 아키텍처 및 분석 프로세스 Resource Layer Analysis Layer Visualize Layer Customer Network NetViz ▶ ▶ DW Data Analyzed NetMetrica ▶ ▶ Network ▶ Data Mart NetViz Service Legacy ▶ manager Page Network ▶ Data Mart ▶ Administration Layer • 시스템 운영을 위한 관리/감독 Configuration Handler Log Handler 기능의 집합 Interface Layer Script Scheduler • 엔진에 분석을 요청하는 역할을 하는 On-Demand Analysis Client Script Script 기능 및 시스템 구성 요소의 집합 Manager Launcher • Interface Layer로부터 수취한 분석 Meciation Layer 요청을 해석한 결과 및 Storage Layer에 Request Gateway Request Analyzer Module Controller 저장된 데이터를 Analysis Layer의 분석 모듈에 전달하기 위해 필요한 매개 기능의 집합 Analysis Layer Data Processing Modules Network Analysis Modules Data Pre- Hub Community Role • 데이터 처리 및 분석을 위한 기능들의 Group Retrieval process Scorting Detection Identification 집합으로 독립적인 분석 단계의 단위인 ‘모듈’로 구성되어 있음 Post- Path Social Transform Similarity process Search Filtering Storage Layer Internal Storage External Storage Data Internal • 데이터의 저장, 관리, 전송을 위한 기능 Manager Internal File NAS 및 시스템 구성요소의 집합 System DB DB`▒` 대용량 네트워크 분석이 필요한 다양한 응용영역에서 데이터 처리, 시각화 솔루션 등과 연계하여 적용 가능 NetMetrica 특장점 특장점 내용 • 수천만 노드, 수십업 링크 이상으로 구성된 네트워크 데이터를 처리할 수 대용량 네트워크 있는 구조와 기능을 제공 데이터 분석 (4천 5백만 노드, 12억 링크로 구성된 데이터로 Eigenvector Centrality를 계산하는데 약 3시간 소요) 빅데이터 기업의 솔루션 및 서비스 추진 현황`Ⅰ 33
  34. 34. 특장점 내용 사용자에게 적합한 • 석 서버에서 스크립트 기반의 자동화된 처리, 클라이언트로부터의 분 분석 환경 제공 on-demand 분석요청 처리를 동시에 지원 • 내장 스케줄러를 통한 분석 예약기능 지원 스케줄 분석 지원 (정해진 시간에 분석 실행, 주기적인 배치 처리 지원) 기존 시스템과의 • etMetrica의 내부 인터페이스 레이어를 통해 기존 시스템의 데이터 및 N 유연한 연동 애플리케이션과 유연하게 연동 운영체제에 독립적인 • AVA 가상 머신에서 운영되어 기존 운영체제 환경에서 독립적인 시스템을 J 시스템 운영 가능 유지실시간 SNA API 지원 • 실시간 경로 검색 인터페이스를 이용한 웹 서비스 구현 가능 NetMetrica 주요 기능 개체 간 연결 경로 검색 NetMetrica의 기본 프레임워크• 노드간의 최단 연결 경로를 두 • 이터를 다루는데 필요한 기본적인 기능과 데 실시간으로 검색 네트워크의 기본적인 특성을 파악하는데 필요한 알고리즘 제공 • 리도구, 요청처리, 외부 시스템과의 관 인터페이스, 스케줄러 등의 기능 포함 커뮤니티 판결 행위와 관계 데이터를 통합• 규모 네트워크 데이터 대 활용한 아이템 추천 내에 숨겨져 있는 커뮤니티 • 협업 필터링을 통한 추천엔진 및 그룹을 추출 제공 • 용자의 행위 데이터와 사용자간 사 관계 데이터(소셜 네트워크)를 통합 활용하여 최적의 추천 아이템을 선정 네트워크 영향력 지수 분석 개체들간의 유사성 분석• 트워크 상에서 개체들의 구조적 네 • 일 유형의 개체간 또는 이중 개체간 동 중요성을 평가(중심성 분석) 관계 패턴의 유사성 지수를 산출• 히, 소설 네트워크에서 개인별 특 관계 영향력 지수를 산출하여 핵심 영향력자를 선별34
  35. 35. Ⅱ. 빅데이터 기업의 추진 현황 5 9 솔트룩스(Saltlux)솔트룩스의 경쟁력 및 사업영역`▒` 트룩스는 비정형 빅데이터 분석 및 정보 마이닝, 시맨틱 웹, 유비쿼터스 솔 컴퓨팅 등 차세대 웹과 지식 서비스 전문기업 - 시맨틱 기술 기반의 정형 비정형 빅데이터의 분석 및 지능화 서비스 제공 · - 톨로지와 시맨틱 기술을 토대로 한 시맨틱 기술 기반의 지능형 검색 온 부분에서 기술 경쟁력 보유 솔트룩스 주요 사업영역 Knowledge Communication Company 기술/사업 컨설팅 소프트웨어 솔루션 혁신 서비스 • 시맨틱 웹, LCD 지능형 • 온톨로지, 추론엔진 웹 • 소셜 미디어 분석(트랜드, 평판) • 초대용량 시맨틱 검색 • 고정밀 텍스트 마이닝 • 소셜 검색 및 분석 • 서비스 개인화, 추천 시맨틱 데이터 • 상황인지, Geo-Semantic 검색 지능화 • 지능형 모바일 서비스9) 원문 출처 : 솔트룩스, 여준희 차장(june820@saltlux.com) 빅데이터 기업의 솔루션 및 서비스 추진 현황`Ⅰ 35
  36. 36. ※ 라클, SAP, 온토프라이즈, STI2, 프란츠 등 미국 및 유럽의 글로벌 기업 및 연구 단체 오 들과 공동연구 및 협력을 통해 세계적인 기술력 보유 ※ 럽의 대규모 연구사업인 Larkc(Large Knowledge Collider) 프로젝트 중 FP6, FP7 유 (한화 100조원 규모) 등 유럽의 시맨틱 및 빅데이터 연구 프로젝트에 참여(위치기반 시맨틱 소셜미디어 분석엔진 개발)비정형 빅데이터 분석 플랫폼, 트루스토리(truestory)`▒` 루스토리(www.truestory.co.kr)는 클라우드 컴퓨팅과 인공지능 기술이 트 결합된 정형+비정형의 빅데이터 분석을 수행 - 트룩스 고유의 시맨틱(Semantic) 기술이 적용된 워크플로우 기반의 심층 솔 분석이 가능 - 셜 빅데이터 분석뿐 아니라 기업 빅데이터 분석, 통신 및 금융 빅데이터 소 분석 등 다양한 도메인에 활용 트루스토리 아키텍쳐 빅 데이터 ▶ 분석 플랫폼 ▶ 심층 분석 서비스 ▶ 기대 효과 분석 서비스 응용 및 시각화 실시간 마케팅 소셜 데이터 분석 워크플로우 시스템 ▶ 사회, 시장 트랜드 분석 최적화 기업 데이터 분석 서비스 컴포넌트 트랜드, 분류, 군집, 사히망, 인물, 감성 ▶ 고객, 시민 목소리 분석 경쟁 전략 최적화 금융 데이터 분석 기술 인프라 ▶ 제품, 서비스 평판 분석 등적 비용 자연어처리, 기계학습, 통계, 시맨틱/추론 최적화 통신 데이터 ▶ 경쟁자 모니터링, 분석 데이터 수집/통합/관리 인프라 신 사업, 안보 데이터 ▶ 사업 리스크 감지, 분석 정책 발굴 분산, 병렬처리 인프라 의료 데이터 하둡, NoSQL(HBASE, mongoDB, ...) ▶ 부정 사용자, 비리 감지 위험 조기 감지 사전 대응 클라우드 컴퓨팅 인프라36
  37. 37. `▒` 재 트루스토리 플랫폼을 사용한 현 Ⅱ. 빅데이터 기업의 추진 현황 시즌`1 서비스로 “정치인 소셜 빅데이터 분석 서비스”를 제공 - 로그, 뉴스, 트위터 등 약 2억 건 블 이상의 웹 및 소셜 미디어 데이터를 실시간 수집, 분석 - 치인 관심도, 호감· 정 비호감 등의 평판, 비교 분석 등의 결과 제공클라우드 기반 시맨틱 검색 플랫폼 : [IN2]`▒` IN2]는 클라우드 컴퓨팅 및 의미 기반 대용량 정보 검색, 텍스트 마이닝 [ (Text Mining), 지식 표현, 추론 기술이 융합 적용 - 손쉬운 연동 및 확장이 가능하며 초대용량 분산 클라우드 지원 - 정형 콘텐트의 의미적 융합·분석 및 내 외부 정보의 융합· ·분석을 비 검색 지원할 수 있는 클라우드 기반 시맨틱 검색 플랫폼`▒` 맨틱 검색엔진 : [IN2] 시 시맨틱 검색엔진 [IN2]Discovery Discovery - 미 기반 연관정보의 시맨틱 의 검색과 분석, 토픽 랭크 기반의 시맨틱 네트워크 분석, LOD (Linked Open Data) 적용이 가능한 검색 엔진 빅데이터 기업의 솔루션 및 서비스 추진 현황`Ⅰ 37
  38. 38. `▒` 라우드 지원 통합 검색엔진 : [IN2]DOR 클 - 체 클라우드 컴퓨팅 기능을 내장하고, 빅 데이터 시대에 적합한 고가용 자 통합 검색 엔진 - 대용량 검색, 다양한 종류의 비정형 데이터 대응, 실시간 생성/유통 되는 초 스트림 데이터의 인덱싱과 검색을 제공`▒` 이브리드 자동분류 엔진 : [IN2]HBC 하 - 대한 양의 다양한 비정형 문서들을 사전 정의한 분류체계로 실시간 자동 방 분류하는 대용량 고정밀 자동 분류 시스템`▒` 토리지 일체형 사내 검색포털 : [IN2]SearchBox 스 - 일서버와 개인 PC의 공유문서를 언제 어디서나 정확하고 빠르게 찾아서 파 지식으로 활용할 수 있게 지원시맨틱 기반 빅데이터 추론 플랫폼 : STORM`▒` TORM은 분산된 비즈니스 정보들로부터 시맨틱 메타데이터의 추출, 통합, S 저장, 관리 및 활용하기 위한 시맨틱 통합 플랫폼 - 반 구조, 응용 프레임워크, 개발 방법론을 제공 기 - 톨로지 공학 통합 환경, 견고하고 확장성 있는 시맨틱 메타데이터 처리, 온 효과적이고 생산적인 온톨로지 구축 도구 제공 - 력한 질의 및 추론 성능, 쉽고 유연한 응용 시스템 개발 지원 강`▒` 초대용량 트리플 저장, 질의, 추론 플랫폼 : STORM SOR - 맨틱 메타데이터의 생성, 저장, 관리, 질의와 추론을 가능하도록 하는 시 초대용량 시맨틱 컴퓨팅 프레임워크38
  39. 39. Ⅱ. 빅데이터 기업의 추진 현황 STORM SOR Integration / Application Interface System Managing Administration Ontology Browsing Data Storage / Retrieval Query Reasoning Instance Managing Instantiation Managing Query Managing Indexing loading User Authority Driver Manager Repository Managing TDB BigOWLIM AllegroGraph The others`▒` 소셜 서치 지식 네트워크 분석 엔진 : STORM SSAMZIE - 정형 정보로부터 소셜 네트워크와 시맨틱 네트워크를 자동 추출하고 지식 비 베이스로 통합하는 소셜 검색 및 지식 네트워크 분석 엔진`▒` 의미정보 추출과 온톨로지 인스턴스 자동생성 엔진 : STORM Semano - 용량 비정형(일반 텍스트) 혹은 반정형 정보들로부터 온톨로지 인스턴스 대 생성을 자동화하기 위한 고성능 어노테이션(Annotation) 도구`▒` 시맨틱 인스턴스 데이터 자동생성 엔진 : STORM Transformer - BMS 또는 텍스트 파일에 존재하는 정형화된 데이터를 온톨로지 스키마 D 간의 매핑을 통해 인스턴스 데이터로 자동 생성하는 변환 모듈`▒` 대용량 온톨로지 라이브러리 시스템 : STORM COMET - 업이 보유하고 있는 시맨틱 데이터 저장소, 추론엔진, 작성된 온톨로지 기 (Ontology)들을 통합 관리하기 위한 기반구조 빅데이터 기업의 솔루션 및 서비스 추진 현황`Ⅰ 39
  40. 40. 빅데이터 분석 서비스 플랫폼 : O2`▒` 2는 소셜 미디어 상의 지식 콘텐츠 수집 및 분석을 위한 분산 인프라와 O 시맨틱 기술 기반의 빅데이터 분석·융합 서비스 플랫폼 - 소셜 미디어 분석 기반 지식 콘텐트 제공 - 대용량 클라우드 컴퓨팅 인프라 및 데이터 수집·통합·관리 인프라`▒` 정형 빅데이터 분석 플랫폼 : Truestory(www.truestory.co.kr) 비 - 양한 형태의 소셜 빅데이터를 수집하여 제품·정치 사회 등과 관련된 다 · 이슈·평판·트렌드 영향력에 관한 분석을 지원 ·`▒` 마트 큐레이션 플랫폼 : Ziny.us 스 - 셜 빅데이터 분석과 사용자 선호 기계학습· 소 자동추천 등의 인공지능 기술이 융합된 미래형 소셜 플랫폼 - 마트 큐레이션 및 클라우드 퍼블리싱 기반의 멀티 플랫폼과 n-Screen을 스 지원하는 개인화된 소셜 매거진 서비스 제공 스마트 큐레이션 플랫폼, 지니어스40
  41. 41. 솔트룩스의 빅데이터 분석 구축사례 Ⅱ. 빅데이터 기업의 추진 현황 분야 및 목적 내용 • 산 지역 전문가들의 논문, 기고 등을 부 학술 빅데이터 : 분석해서 전문 지식 네트워크 도출 전문가 추천 • 관련된 전문가들을 연결, 추천 (부산 지식 • 문가들 간의 친밀도나 소셜 네트 전 네트워크 서비스) 워크 분석 기술 빅데이터 : • 삼성전자 내부 지식정보, 국내외 학술 트랜드 센싱 자료, 과학기술 동향 분석 (삼성전자 신기술 • 기술 문서들의 트렌드, 특정 기술의 센싱 및 트렌드 연관관계망 분석, 기술검색 서비스 등 분석) 제공 고객 빅데이터 : • 비정형 VOC 데이터 분석(통계, 분석 고객 VOC 분석 기반의 텍스트 마이닝) (KT 도로공사 • 객 불만`/`니즈 추출, 상품`/`서비스`/` 고 VOC 분석) 프로세스 측면의 연관 정보 분석 국방/안보 빅데이터 : • 부문별로 도출한 위험관리 지표 각 정보 분석 체계를 정보시스템 DB와 연계 (통일부 정보분석 • 측되는 위협요인 및 행동패턴, 특이 예 시스템) 동향에 따른 대응전략 수립을 지원 • 업의 비정형 정보로부터 시맨틱 기 기업 빅데이터 : 소셜 네트워크 도출 및 지식 유통 e-Discovery 구조를 분석하는 시스템 (기업 이메일 • 직 내의 문서들로부터 의미적 관계를 조 네트워크 분석) 발견하여 통합된 지식 생성스마트 시티 빅데이터 : • -City 사업에서 상황인지를 위해 u 지능형 u-City 시맨틱 웹 기술과 추론 기술 적용 관제 시스템 • -City의 지하 매설물 관리에 활용할 u (국토해양부 u-city 수 있는 지능형 관제 시스템을 구현 관제 시스템) 통신 빅데이터 : • 바일 소셜 네트워크 분석 시스템 모 개인화, 맞춤 추천 구현 (모바일 소셜 • 용자의 행동 패턴 학습을 통해 개인 사 네트워크 분석) 선호 정보 및 서비스 제공 빅데이터 기업의 솔루션 및 서비스 추진 현황`Ⅰ 41
  42. 42. 6 2 10 EMC전략 방향`▒` MC는 그린플럼(Greenplum), 아이실론(Isilion) 등 빅데이터 관련 솔루션 E 업체를 전략적으로 인수 - 린플럼은 대규모 데이터 클라우드와 데이터 분석 서비스의 핵심이 되는 그 데이터 웨어하우징(Data Warehousing) 기술을 보유 - 이실론은 스케일 아웃 NAS 스토리지 부문의 글로벌 선도 업체로서 아 데이터 관리를 위한 강력하고도 간편한 솔루션 제공 ※ 케일 아웃(Scale-out) 스토리지인 NAS(Network Attached Storage)는 데이터 저장 스 용량을 바로 확장할 수 있는 장점이 있어 데이터가 급격히 늘어날 경우 이에 대해 빠르게 대응 가능 - MC는 향후에도 빅데이터 시장의 선도적 입지를 강화하기 위해 지속적으로 E 관련 업체를 인수할 계획`▒` 이터 과학자들로 구성된 애널리틱스 랩(Analytics Lap) 부서를 운영하는 등 데 ‘데이터 과학자(Data Scientist)’ 확보 및 양성에 노력 - `11년 5월 세계적인 ‘데이터 과학자 서밋(Data Scientist Summit)’을 개최하여 약 500명의 데이터 과학자 및 업계 리더들이 함께 참여10) 원문 출처 : EMC, 마케팅팀 강정민 부장(Mina.Kang@emc.com)42
  43. 43. - 11년 말 ‘데이터 과학’과 ‘빅데이터 분석’ 교육 및 자격증 과정 신설 ’ Ⅱ. 빅데이터 기업의 추진 현황 - MC 산학협력 프로그램인 EAA(EMC Academic Alliance)에 참여하고 E 있는 40여 국가, 700개 이상 기관에 ‘데이터 과학’, ‘빅데이터 분석’ 커리 큘럼을 제공 ※ 국EMC는 EAA 프로그램의 첫 대상으로 숭실대학교를 선정, 정보인프라스트럭처 한 과정에 대한 지원을 하고 있으며 데이터 과학에 관련한 커리큘럼 역시 빠른 시일 내에 제공할 계획 11빅데이터 통합·분석을 위한 EMC 그린플럼(Greenplum)`▒` MC 그린플럼은 단일 어플라이언스 내에서 정형 비정형 데이터의 Seamless한 E · 상호 연계 처리 및 공유 기능을 제공 - 형 데이터 분석을 위한 DB모듈과 비정형 데이터 분석을 위한 하둡 모듈을 정 단일 어플라이언스 내에서 지원 EMC 그린플럼 어플라이언스의 구조 The Power of Data Co-Processing Greenplum Chorus Analytic Productivity Tool Integration Data Computing Interfaces SQL, MapReduce, In-Database Analytics, Parallel Data Loading (batch or real-time) SQL DB parallel MapReduce Engine data exchange Engine Compute Compute Storage parallel data exchange Storage Storage Network All Data Types11) 그린플럼은 현재 EMC 정보 인프라스트럭처 사업부 산하 데이터 컴퓨팅 제품(Data computing Product) 사업부로 통합돼 다양한 솔루션을 출시하는데 박차를 가하고 있음. 빅데이터 기업의 솔루션 및 서비스 추진 현황`Ⅰ 43
  44. 44. `▒` 형 데이터 분석을 위한 EMC 그린플럼 DBMS의 구조 정 - MC 그린플럼 어플라이언스(Data Computing Appliance)는 MPP E (Massively Parallel Processing) 아키텍쳐 시스템 - 산 병렬 처리에 기반한 강력한 로딩, 쿼리분석, 워크로드 관리기능, BI/ 분 ETL/마이닝 툴과의 연계를 지원`▒` 정형 데이터 분석을 위한 EMC 그린플럼 하둡 배포판 제작 비 - 둡 및 기타 하둡 배포판의 단점(가용성, 성능, 관리용이성)을 보완하여 하 Community 버전과 Enterprise 버전의 Hadoop을 제작 하둡과 그린플럼의 특성 비교 Greenplum HD Greenplum HD Hadoop Features Apache Hadoop Community Edition Enterprise Edition Scalability Yes Yes Yes Compatibility 100% 100% 100% Language Java Java C Commodity Hardward Yes Yes Yes Certified Stack No Yes Yes Installation Services No Yes Yes Performance Standard Standard 2-5X faster NFS Support No No Yes Fault Tolerance No Yes Yes Rolling Upgrades No No Yes Snapshot No No Yes Wide-Area Replication No No Yes`▒` MC는 지난해 9월 ‘EMC 그린플럼 모듈식 데이터 컴퓨팅 어플라이언스12 E (이하 그린플럼 DCA)’를 출시12) GreenplumⓇ Modular Data Computing Appliance44
  45. 45. - 린플럼 DCA는 단일 인프라스트럭처 내에서 정형 비정형 데이터 및 애플리 그 · Ⅱ. 빅데이터 기업의 추진 현황 케이션이 통합된 빅데이터 분석 플랫폼 - 업들이 무공유(Shared-nothing) MPP 기반 관계형 DB와 엔터프라 기 이즈급의 아파치 하둡을 결합시킬 수 있는 모듈식 아키텍처 - 형 비정형 데이터의 상호 연계 처리(co-processing) 및 정형 비정형 정 · · 데이터를 단일의 통합 플랫폼에서 필요에 따라 확장 가능 그린플럼 데이터 컴퓨팅 어플라이언스의 네 가지 모듈 모듈 종류 내용 • 목적별 DW 어플라이언스 모듈로 확장성 뛰어남 그린플럼 데이터베이스 • 이터베이스, 컴퓨팅, 스토리지 및 네트워크를 쉽게 실행할 수 있는 데 모듈(Greenplum 엔터프라이즈 시스템으로 통합 가능 Database Module) • 최고의 성능과 비용 효율성 제공 그린플럼 데이터베이스 • 원과 설치공간을 추가로 늘릴 필요 없이 수 페타바이트(PB)의 데이터를 전 고용량 모듈 관리할 수 있도록 설계 (Greenplum Database • 우 방대한 양의 데이터를 정교하게 분석해야 하는 기업이나 장기적인 매High Capacity Module) 아카이빙이 필요한 기업들을 위해 단위당 저렴한 비용의 DW를 제공 • 고성능 데이터 상호 연계 처리 하둡 어플라이언스 모듈 그린플럼 HD 모듈 • 둡과 그린플럼 데이터베이스를 결합시켜 정형·비정형 데이터를 단일 하(Greenplum HD Module) 솔루션 내에서 상호 연계 처리그린플럼 데이터 통합가속기 모듈(Greenplum • 치 로드를 줄이거나 마이크로 배치 로딩을 실행할 경우 업계 최고의 배 Data Integration 데이터 로딩 성능을 제공 Accelerator Module) 빅데이터 기업의 솔루션 및 서비스 추진 현황`Ⅰ 45
  46. 46. 13스케일 아웃 NAS 스토리지, EMC 아이실론(Isilion)`▒` MC 아이실론은 대규모 정형 비정형 데이터 관리를 위한 스케일 아웃 E · (Scale-out) NAS 스토리지 솔루션 - MC 아이실론 스토리지는 모듈 방식의 구조와 자동화된 기능으로 대량의 E 데이터를 빠르고 쉽게 처리 - 량과 성능을 유연하게 확장할 수 있어, 전체 컴퓨팅 구조를 단순화하고 용 효율적으로 구성`▒` MC 아이실론은 다양한 산업 분야 걸쳐 빅데이터 관리의 문제를 보다 쉽게 E 해결할 수 있도록 유기적이고, 유연한 인프라 제공 - 라우드 컴퓨팅 환경, 서버 가상화 및 VDI(Virtual Desktop Infra- 클 structure), 산업별 대규모 데이터 관리 등 다양한 분야에 활용 EMC 아이실론의 활용 사례 활용 분야 내용 • 케일 아웃 방식의 확장으로 용량과 성능을 필요한 만큼 선형적으로 스 증가시킬 수 있음 클라우드 컴퓨팅 • 러 노드를 하나의 파일 시스템으로 구성함으로써, 전체 컴퓨팅 환경을 여 환경을 위한 단순화하고, 스토리지 활용률 극대화 EMC 아이실론 • 하를 여러 노드에 자동 분산하고, 성능이 다른 노드를 계층별로 구성하여 부 사용자 요구에 맞는 가격대 성능 제공 • MC 아이실론 스토리지는 SSD, SAS, 또는 SATA 디스크로 스토리지 E 풀을 구성할 수 있어 가상머신의 업무가 필요로 하는 성능에 따라 다른 서버 가상화 및 VDI 성능을 제공 (Virtual Desktop • 능이 다른 여러 개의 스토리지 풀을 하나의 스토리지로 구성하여 성 Infrastructure)를 위한 일원화된 관리가 가능 EMC 아이실론 • 토리지 용량이나 성능 증가 시에 기존 서버나 가상머신의 구성 변경을 스 하지 않고 운영 중에 확장 가능13) 케일 아웃(Scale-out) NAS(Network Attached Storage) 스토리지. ‘Simple is Smart’라는 스 슬로건을 내세우고 있는 EMC 아이실론의 솔루션은 규모에 관계없이 간편하게 설치, 관리 및 확장이 가능하며 추가되는 스토리지의 수, 요구되는 성능 수준 또는 향후 비즈니스 요구 사항에 관계없이 탁월한 사용 편의성을 보장한다.46
  47. 47. Ⅱ. 빅데이터 기업의 추진 현황 활용 분야 내용 • 전자 분석을 위해 여러 컴퓨터가 동시에 읽고 분석할 수 있는 충분한 유 성능을 제공 생명 공학을 위한 • 기하급수적으로 증가하는 데이터를 쉽게 관리 할 수 있는 기능 제공 EMC 아이실론 • MC 아이실론 스토리지는 노드 단위로 확장되며, 최대 144노드, 15PB E 까지 하나의 스토리지로 구성할 수 있어, 용량 증설이 쉽고, 스토리지 관리가 용이`▒` 둡 분산 파일 시스템14과 통합된 엔터프라이즈 NAS 플랫폼, ‘EMC 아이실론 하 스케일아웃 NAS’ 출시(’12. 2월) - 둡 지원이 가능한 빅데이터 분석 솔루션인 EMC 그린플럼 HD(EMC 하 Greenplum HD)와 결합 - 존 오픈소스 기반의 하둡 대비, 성능과 효율성이 뛰어나고 유연한 데이터 기 스토리지 및 분석 지원 환경을 구현`▒` MC 아이실론 스케일아웃 NAS 하드웨어 및 소프트웨어 플랫폼 신제품 E 출시(’11. 5월) - 데이터 애플리케이션의 성능을 가속화하는데 최적화된 아이실론 스케일 빅 아웃 NAS 하드웨어 제품 : ‘아이실론 S200’, ‘아이실론 X200’ - 이터를 간편하게 관리할 수 있으며 S200과 X200의 하드웨어 성능을 데 최대화하는 소프트웨어 제품 : OneFS 6.5와 SyncIQ 3.0비정형 컨텐츠 관리를 위한 ‘EMC 다큐멘텀’ 솔루션`▒` MC는 비정형 컨텐츠 관리 및 협업을 담당하는 ECM(Enterprise Content E Management) ‘EMC 다큐멘텀’ 솔루션을 제공14) 하둡 분산 파일 시스템(HDFS : Hadoop Distributed File System) 빅데이터 기업의 솔루션 및 서비스 추진 현황`Ⅰ 47
  48. 48. - MC는 빅데이터를 위해서 Store-Analyze-Act로 규정되는 계층화 된 E 새로운 IT 아키텍처인 ‘EMC 빅데이터 Stack15’을 제시 - MC 다큐멘텀은 ‘EMC 빅데이터 Stack’에서 비정형 데이터 기반의 실행 E (Act) 계층에 포지셔닝 됨 - MC는 이와 같은 비정형 데이터 기반의 실행 계층을 ‘인포메이션 인텔리전스 E 그룹(Information Intelligence Group)’으로 분류 ※ MC 다큐멘텀은 국내 200여 개의 기업들이 사용하고 있는 솔루션으로써, 대부분의 E 기업들이 전사 엔터프라이즈 레벨로 도입하여 사용함`▒` 큐멘텀 솔루션은 컨텐츠를 축적 다 ·관리하는 것뿐만 아니라 비정형 컨텐츠와 핵심 업무 프로세스를 연결하는 프로세스 구현`▒` MC 다큐멘텀의 아키텍처는 객체지향 기술 및 서비스 기반의 안정적인 E 아키텍처를 제공 - 양한 고가용성(HA) 서비스 및 최고의 성능을 보장하기 위해 수평적, 다 수직적으로 확장이 쉬운 아키텍처를 제공하는 것이 특징 EMC 빅데이터 Stack The EMC Big Data “Stack” Collaborative Act EMC Documentum Real Time Analyze EMC Greenplum + Hadoop Structures Unstructured Petabyte Scale Store EMC Isilon + Atmos15) 데이터에서 신속하게 비즈니스 가치를 실현하기 위해 그것을 분석하는 새로운 IT 아키텍처로써 빅 ‘EMC 빅데이터 Stack’을 제시48
  49. 49. `▒` 업 내 광범위하게 분포한 다양한 유형의 비정형 콘텐츠를 관리하기 위한 기 Ⅱ. 빅데이터 기업의 추진 현황 EMC의 ECM(전사콘텐츠관리) 영역은 4가지로 구분 - Knowledge Worker : 지식업무를 위한 콘텐츠 기반의 협업 - Transactional : 프로세스 기반 업무(BPM), 이미징 - Interactive : 웹콘텐츠 관리, 동영상 관리 - ompliance Archiving : 문서 산출물의 장기 보관 및 보존 정책, 규정 C 준수 EMC의 ECM(Enterprise Content Management) 솔루션 영역 KNOWLEDGE COMPLIANCE TRANSACTIONAL INTERACTIVE WORKER ARCHIVING •협업 •입력/캡처 관리 •웹사이트 관리 •이메일 아카이빙 •문서관리혁신/검색 •프로세스 관리 •디지털 자산 관리 •SAP 아카이빙 컨텐츠 중심 어플리케이션 KNOWLEDGE COMPLIANCE TRANSACTIONAL INTERACTIVE WORKER ARCHIVING 컴플라이언스/보안 인프라스트럭처 다양한 컨텐츠 엑세스 기능 제공 EMC 2 다양한 컨텐츠 서비스 다양한 컨텐츠 타입 관리 빅데이터 기업의 솔루션 및 서비스 추진 현황`Ⅰ 49

×