Your SlideShare is downloading. ×
  • Like
  • Save
[Open Technet Summit 2014] 쓰기 쉬운 Hadoop 기반 빅데이터 플랫폼 아키텍처 및 활용 방안
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×

Now you can save presentations on your phone or tablet

Available for both IPhone and Android

Text the download link to your phone

Standard text messaging rates apply

[Open Technet Summit 2014] 쓰기 쉬운 Hadoop 기반 빅데이터 플랫폼 아키텍처 및 활용 방안

  • 739 views
Published

 

Published in Technology
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
No Downloads

Views

Total Views
739
On SlideShare
0
From Embeds
0
Number of Embeds
0

Actions

Shares
Downloads
8
Comments
0
Likes
6

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. 쓰기 쉬운 Hadoop 기반 빅데이터 플랫폼 아키텍처 및 활용 방안 NIPA Open Frontier Lab 박치완 chiwanpark@icloud.com Open Technet Summit 2014
  • 2. 차례 • NIPA Open Frontier 소개 • Hadoop Eco-system • 여전히 Hadoop은 어렵다? • UI of Apache Hadoop • Flamingo Project – HDFS Browser – Workflow Designer, Dashboard – Apache Pig Integration – Apache Hive Integration – Hadoop Cluster Monitoring
  • 3. NIPA Open Frontier • 국내, 외 Open-source Project Committer, Contributor를 지원하는 정부 지원 프로그램 • 현 1기 진행 중, 3~4월 중 2기 선발 예정 • 인프라 및 연구 활동비, 활동 장려금 등 지원 • 1기 프로젝트 (일부) – Linux Kernel (http://www.kernel.org) – Epiphany (https://wiki.gnome.org/Apps/Web) – Haroopad (http://pad.haroopress.com) – 구름 입력기 (http://gureum.io) – R-iHELP (http://ihelp.r-forge.r-project.org) – Flamingo Project (http://www.opencloudengine.org) – Cling (http://4thline.org/projects/cling/) – Lucene Korean Analyzer 등 이외 다수
  • 4. Hadoop Eco-system • 2005년 Hadoop 첫 발표 • 이후, 따라오는 Hadoop 관련 프로젝트 – Apache Pig – Apache Hive, Apache Tajo, Cloudera Impala, Facebook Presto – Apache HBase, Apache Cassandra – Apache Flume, Facebook Scribe, Apache Kafka – etc.
  • 5. 여전히 Hadoop은 어렵다? http://jmlab.tistory.com/11 http://orbit.nlm.nih.gov/resource/kettle- pentaho-data-integration
  • 6. UI for Apache Hadoop • 여전히 Hadoop은 어렵다? – 빅데이터를 활용하기 위해서는 데이터 사용자가 자주, 빨리 분석을 수행 해 볼 수 있어야 함 – 아직은 Hadoop이 기존 시스템 보다 다루기 어려움 • 관련 프로젝트 – Apache Ambari (http://ambari.apache.org) • Hadoop Cluster를 쉽게 배포하고 관리할 수 있도록 도와주는 솔루션 – Cloudera Hue (http://gethue.com) • CDH 기반 Hadoop 관련 프로젝트를 하나로 묶어 쉽게 사용할 수 있도록 도 와주는 솔루션
  • 7. Flamingo 환경 http://flamingo.opencloudengine.org Web-based UI Based on Apache Hadoop Open-source Project
  • 8. Architecture
  • 9. HDFS Browser Web에서 HDFS내의 파일을 관리할 수 있는 HDFS Browser 제공 - Hadoop HDFS API 기반 디렉토리 관리 파일 업로드, 다운로드 Hive Metastore 연계 Audit Log
  • 10. HDFS Browser HDFS의 파일 처리 이력을 기록해 추후 관리자가 특정 파일의 이력 추적 가능
  • 11. DEMO of HDFS Browser
  • 12. Workflow Designer OpenGraph 기반 데이터 분석 Workflow Designer - 분석 Workflow를 DAG 기반으로 작성 가능
  • 13. Workflow Designer 기존에 사용하던 MapReduce도 통합하여 Workflow에 적용 가능 - https://github.com/cloudine/flamingo-mapreduce
  • 14. Workflow Dashboard 수행된 Workflow의 기록 열람
  • 15. Workflow Dashboard Workflow내 개별 MapReduce Job 마다 수행 Log, Configuration 확인
  • 16. Job Scheduling 구성된 Workflow를 Batch Job으로 등록
  • 17. DEMO of Workflow Designer, Dashboard
  • 18. Apache Pig Integration Apache Pig를 통합해, Pig Latin을 통해 추상화 된 데이터 분석 수행
  • 19. Apache Hive Integration Apache Hive를 통합해, HiveQL을 통해 SQL과 비슷한 구문으로 데이터 분석 수행
  • 20. Apache Hive Integration 수행된 Query의 결과를 즉시 열람
  • 21. Apache Hive Integration Hive Table를 Query문 없이 UI 만으로 생성
  • 22. DEMO of Hive Integration
  • 23. Monitoring 다양한 Monitoring 기능 제공 - HDFS, Datanode Monitoring
  • 24. Monitoring JobTracker, Namenode 등 주요 Hadoop Cluster의 Metrics 제공
  • 25. Monitoring 수행한 MapReduce Job에 대한 Monitoring 정보 제공
  • 26. Monitoring JobTracker, Namenode 등 주요 Hadoop Cluster의 Metrics 제공
  • 27. Future • 기본적으로 제공되는 Component 보강 – 데이터 전처리 모듈, 추론 모듈 등 • 사용자 별 Quota 설정 등 개별 제한 기능 • Hadoop 2 지원 • Amazon EMR, Rackspace Hadoop Platform 등 Hadoop 기반 엔터프라이즈 플랫폼 지원
  • 28. Project Information • 프로젝트 홈페이지 – http://wiki.opencloudengine.org/display/IN/Flamingo • Issue Tracker – http://jira.opencloudengine.org • Build Server – http://build.opencloudengine.org • License – Web-based UI (Ext.JS를 활용해 GPLv3) – Engine (Apache License)
  • 29. 감사합니다 chiwanpark@icloud.com