Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Ankus 제품소개서 1개발배경

ankus제품소개서_개발 배경

  • Login to see the comments

Ankus 제품소개서 1개발배경

  1. 1. 2 01. 제품 개발 배경 TableofContents
  2. 2. 4 정보기술(IT)의 발달로 다양한 형태의 대용량 데이터를 신속히 처리해야 하는 환경에 직면 하게 되면서, 빅데이터 1세대에서는 데이터의 3가지 특징 (Volume, Velocity, Variety)에 주목하게 되었습니다. 이러한 배경속에서 ‘하둡과 같은 빅데이터 시스템(인프라)’분야가 빠르게 발전했습니다. 1.1빅데이터의변화 빅데이터의 3V
  3. 3. 5 빅데이터 2세대에서는 데이터에 숨어있는 ‘가치’를 찾는 일 에 집중합니다. 대용량의 데이터를 수집하고 관리하던 문제는 기업이 보유한 데이터에서 핵심 가치를 찾아내는 문제로 발전했습니다. 이제는 데이터로부터 숨겨진 ‘가치’를 찾기 위한 ‘데이터 분석 기술’이 필요 한 때입니다. 1.1빅데이터의변화 빅데이터의 4V KNOWLEDGE
  4. 4. 6 1.2 전통적데이터분석도구 GUI기반데이터마이닝/기계학습분석 스크립트언어기반통계/응용분석및시각화 워크플로우기반데이터마이닝/기계학습분석 IBM SPSS Modeler SAS Enterprise Miner ECMiner WEKA R (Rstudio) 빅데이터가나타나기이전부터데이터 에숨어있는새롭고,가치있고,유용한 정보를찾기위한노력은계속되어왔으 며,데이터마이닝/기계학습은가장중 요한데이터분석기법으로자리잡았 습니다. 데이터마이닝/기계학습기반의데이 터분석을위해서전통적으로WEKA, R, SAS Enterprise Miner, ECMiner, IBM SPSS Modeler 등이사용되어왔습니다.
  5. 5. 7 1.3 전통적데이터분석도구의 한계 데이터 전처리 요청 하둡 기반 빅데이터 인프라 … namenode datanode-1 datanode-2 datanode-3 datanode-n 전처리 데이터 추출 관리 데이터수집및분석서버 전통적 도구를 이용한 빅데이터 분석 분산/병렬처리인프라 에서의분석필요 • 분석하고자 하는 데이터의 전처리 및 추출 작업필요 • 분석 수행을 위한 별도의 서버 필요 • 분석 서버 용량을 초과하는 대용량데이 터 처리불가 Hadoop 기반의 분산 빅데이터 환경 전통적데이터분석도구들은분석도구 가설치된개별서버에서분석이이루어 집니다. 하둡과같은빅데이터인프라와데이터 연계는가능하지만,분석자체를하둡의 분산·병렬처리인프라에서수행하지못 하고,별도의분석서버에서수행해야 합니다. 이때문에,하둡기반의빅데이터환경 에서직접운용가능한분산기반데이 터분석도구들의필요성이대두되었습 니다.
  6. 6. 8 Hbase Columnar Store HCatalog Meta Data MapReduce Distributed Processing Framework 1.4 하둡기반데이터분석도구 * Apache Hadoop Ecosystem Ambari Provisioning, Managing and Monitoring Hadoop Clusters Oozie Workflow HDFS Hadoop Distributed File System Tajo Real-time SQL Query Impala Real-time SQL Query Hive SQL Query Pig Scripting Mahout Data Mining Zookee per Coordinati on Avro Data Serialization System Hiho Data Exchanger Scoop Data Exchanger Chukwa Log Collector Flume Log Collector 하둡 작업에 대한 워크 플로우 관리 SQL/Script/CLI 기반 데이터 분석 빅데이터분산관리/처리환경인하둡 시스템에서운용가능한데이터분석도 구로는Pig, Hive, Mahout, Tajo, Impala 등이있으며, 워크플로우관리를위한도구로는 Oozie가있습니다. 이중Mahout은유일하게데이터마 이닝/기계학습기반의데이터분석이 가능한도구로알려져있습니다.
  7. 7. 9 1.5 하둡기반데이터분석도구의출현배경 하둡기반의분석도구들은전통적데이 터분석도구와같이별도의분석서버 를이용하지않고,하둡기반빅데이터 인프라내에서분석을직접수행할수 있도록하는기능을제공합니다. 특히,하둡기반빅데이터인프라에서 데이터마이닝/기계학습분석이가능 한도구로mahout의한계점을극복 하기위한ankus가개발되었습니다. 데이터 전처리 및 추출 데이터 분석 등 알고르즘 수행 전통적도구기반의데이터분석 데이터수집및분석서버 하둡인프라기반의데이터분석 • 전처리 및 추출 등 처리기반 데이터 분석 도구 • 데이터 마이닝/ 기계 학습 기반 데이터 분석 도구 하둡 기반 빅데이터 인프라 … namenode datanode-1 datanode-2 datanode-3 datanode-n 관리 Hadoop 기반의 분산 빅데이터 환경

×