Open Cloud Engine
OpenSource Big Data Platform
Flamingo Project 소개 및 활용
Open Cloud Engine
Flamingo Project Leader
김병곤
(ceo@cloudine.co.kr)
2014.04.02 v0.9
빅 데이터 책임자에게듣는 흔한 질문
• 빅 데이터가 기존의 DW랑 차이가 뭐가 있는지 모르겠습니다.
• 단위 데이터만 봐서는 큰 데이터가 없습니다. 사업의 타당성을 만
들수가 없습니다. 어떻게 해야 하나요?
• A라는 데이터가 있는데 그것으로 뭘 해야할까요?
• 다른 회사는 뭐 한답니까? 혹시 동종업계 비슷한 사례가 있나요?
• 빅 데이터 플랫폼을 만들라는데 이놈이 뭐를 하는 놈인지 모르겠
습니다.
4.
빅 데이터 플랫폼의역할에 대한 고민
• 빅 데이터 플랫폼에서 하고자 하는 주요 업무는 무엇인가?
• 데이터 마이닝, 통계, 로그 관리(수집, 전처리, …)
• 빅 데이터 플랫폼에서 누가 무슨 일을 하는가?
• 사용자에 따라서 플랫폼의 기능이 서로 다를 수 있다.
• 운영자는 대부분 개발자 출신이기 때문에 시스템 관리 및 로그 관리에 초점
• 사용자가 분석가 출신인 경우 데이터 분석을 위한 환경의 성숙도가 초점
• 빅 데이터 플랫폼을 사용하는 사용자의 수는?
• 사용자가 많다면 플랫폼의 기능성과 인프라의 접근성이 중요
• 플랫폼이 데이터를 다루는 특성 때문에 보안에 취약할 수 있고 Hadoop은 실
제로 취약함
• 나는 운영자? 기획자? 개발자? 분석가?
• 책임자의 역할에 따라서 플랫폼의 기능도 다르게 정의한다.
빅 데이터 플랫폼이제공해야 하는 것
SECURITY
• ACCESS
• AUTHENTICATION
• AUTHORIZATION
• ENCRYPTION
• AUDITING
• POLICY
11.
빅 데이터 플랫폼이제공해야 하는 것
• 배치 작업 관리와 작업 모니터링
• 병렬 분석 프로그램
• 사용자의 행위에 대한 모니터링
• 리소스에 대한 각종 접근 통제 정책 및 시스템
• 인프라의 접근성 향상을 위한 다양한 기능들…
12.
Flamingo Project InOpen Cloud Engine
• 웹 기술을 활용하여 빅 데이터 인프라 및 데이터를 편리하게 사용
하도록 한다.
• 사용자가 데이터를 잘 활용할 수 있도록 한다.
• 하나의 화면에서 자유롭게 다양한 작업을 할 수 있는 작업 공간을
제공한다.
• 다양한 분석 및 처리 MapReduce를 쉽게 재활용 할 수 있도록
한다.
• 오픈소스 기반으로 모든 시스템을 제대로 갖추고 진행한다.
• 남의 것에 의존하지 않고 직접 다 만든다.
• 현장의 업무를 중심으로 설계한다.
• 다국어 지원을 통해 다양한 사람들이 사용할 수 있도록 한다.
• Hadoop EcoSystem을 잘 지원한다.
Browser
인포메이션 카탈로그
Search
인포메이션 유형
보안등급
생성주기
형식
사용자 친밀도
1
매일 새벽2시
XML
아이템 추천
2
매일 새벽 1시
JSON
구매 성향
3
매일 저녁 8시
XML/JSON
오피니언 리더 점수
2
매일 오전 10
시
XML/JSON
데이터