SlideShare a Scribd company logo
1 of 41
Download to read offline
통신 데이터 분석환경 구축사례
ICT Infra센터 Infra DT팀
2ICT Infra센터
I. DW 탄생배경
II. DW 초기 분석 환경
III. Metatron 1.0 적용
IV. Data Infra 개선점 도출
V. Metatron 3.0 적용 추진
VI. Metatron 활용분야 및 장점
VII. Metatron 개선 및 보완점
목 차
3ICT Infra센터
I. Infra센터 Data Warehouse 탄생배경
추억의 광고 소환…
이 광고 기억 나시나요?
4ICT Infra센터
I. Infra센터 Data Warehouse 탄생배경
전국 85개시 빈틈없이 깔린 기지국만이
전부가 아니라던 그 광고…
5ICT Infra센터
I. Infra센터 Data Warehouse 탄생배경
다~ 알아서
잘 되게 해주는게 핵심 이라던 광고…
6ICT Infra센터
I. Infra센터 Data Warehouse 탄생배경
이 광고의 마지막 화면도
기억 하시나요?
7ICT Infra센터
I. Infra센터 Data Warehouse 탄생배경
이 광고의 마지막 화면은..
8ICT Infra센터
I. Infra센터 Data Warehouse 탄생배경
2014년 T-PANI 시스템부터 본격적인 오픈소스 빅데이터 플랫폼 사용 시작
하루 수십 TB 와 수천억건의 데이터 생성
장비 성능/고장 통계 중심의 데이터 활용/분석에서 고객 경험 품질 중심의 데이터 활용/분석
HADOOP  Customer Experience Index 생성
S-GW
(LTE)
GGSN
(3G)
MME
(LTE)
Flume
(데이터수집)
로그
로그
HBase (NoSQL)
Storm
(실시간 처리플랫폼)
ZooKeeper (분산코디네이터) 3 nodes
서비스
환경
RDB
분석가
CEI 지표 설계 사상 : 고객이 불편을 느끼면 떨어짐
Open source
상용솔루션
9ICT Infra센터
I. Infra센터 Data Warehouse 탄생배경
CEI 변화에 따른 상세 분석 필요  다른 NMS 데이터의 연계 분석 Needs 발생
2015년부터 서로 다른 NMS 시스템의 연계 분석 환경 구축 & 서비스 시작
S-GW
(LTE)
GGSN
(3G)
MME
(LTE)
Flume
(데이터수집)
로그..
로그..
Spark SQL
Storm
(실시간 처리플랫폼)
Data Warehouse
ZooKeeper (분산코디네이터) 3 nodes
상용 BI 솔루션
분석
환경
서비스
환경
Open source
상용솔루션
RDB
HADOOP  Customer Experience Index 생성
분석가
NMS 1
NMS 2
NMS N
…
HBase (NoSQL)
10ICT Infra센터
II. DW 초기 분석 환경
초기 DW 분석 환경은 Global BI Solution 을 적용하여 분석 환경을 제공함
Node
Data
Node
Data
Hive MetaStore
JDBC Driver
Slave Nodes
Node
Data
…
Node
Data
Thrift Server
JDBC Driver
BI Solution Client
BI Solution Server
Repository DB
Global BI Solution
11ICT Infra센터
II. DW 초기 분석 환경
Global BI Solution 장점
• 시각화 차트 기능 강력함
• 다양한 차트 속성 컨트롤 가능
• 엑셀보다 큰 데이터 처리 가능
(메모리에서 열리는 만큼)
• 엑셀 등 다른 툴 호환성 높음
• 막강한 필터 기능
• 일단 열리기만 한다면 강력한 상
세분석(Drill Down) 기능 제공
12ICT Infra센터
II. DW 초기 분석 환경
Global BI Solution 단점
• 데이터베이스의 응답속도는 BI
Solution 의 영역이 아님
 Spark SQL, Hive 등의 경우 응답
속도가 느림
• 사내 인증 체계 적용, 데이터에 대한
권한 관리, 데이터 마스킹 처리 등
보안 측면 취약함
 All or Nothing
• 조회한 데이터의 양이 큰 경우 제어
가 불가능함
• SQL 작성을 지원하나 쓰기 어려움
• 개인용 Sandbox 개념 없음 BI Solution Client
BI Solution Server
Repository DB
Global BI Solution
RDB
13ICT Infra센터
II. DW 초기 분석 환경
글로벌 BI Solution 의
단점을 극복하기 위해
Metatron 1.0 적용 시작
14ICT Infra센터
III. Metatron 1.0 적용
Druid Cluster
Deep Storage
Historical Nodes Real-Time Nodes
Broker
Nodes
Zookeeper
Coordinator
Nodes
DW/Mart Data Batch & Reailtime
일반사용자用
Workbook 은 웹 기반의 BI 툴 기능 제공으로 OLAP
과 유사하게 Drag-&-Drop 기능을 활용하여 차트 기
반의 쉬운 데이터 분석 기능을 제공함
중급사용자用
Workbench 는 Hive 엔진을 사용하여 SQL 쿼리 기반
분석이 가능하며 HDFS 에 저장된 데이터 분석
고급사용자用
Zeppelin, Jupyter 등의 웹기반 분석 환경을 제공하며
Python, R, Scala 등의 Language 를 활용한 고급 분석
에 활용 가능하고 HDFS 와 Druid 둘다 분석이 가능
(Data Discovery)
Workbench
HDFS 데이터 분석
DW Hadoop
Sqoop
Hive On
Tez
SparkSQL
Thrift
Server
Yarn
SparkSQL
HDFS
Workbook
Druid 데이터 분석
Notebook
Druid 데이터 분석
HDFS 데이터 분석
2
1
3
적용 당시 Metatron은 상용 솔루션(현재는 오픈소스), 워크벤치 기능 없음(구현해서 적용)
 2017년 Metatron 1.0 기반 분석환경 제공 (기존 상용 솔루션 Fade-out)
15ICT Infra센터
III. Metatron 1.0 적용
서비스 오픈 이후
Metatron 1.0 사용자 패턴분석
16ICT Infra센터
III. Metatron 1.0 적용
로그인 워크벤치 SQL 작성 결과 다운로드
• 대부분의 사용자는 워크벤치(SQL)만 사용
 큰 데이터간의 조인, 집계 후 분석은 엑셀로…
• 대부분의 사용자가 일부 데이터만 사용
 원래 본인의 업무랑 상관없는 데이터는 쳐다보지 않음…
• 매우 많이 쓰거나 아예 안(or 못)쓰거나…
 SQL 교육 과정을 만들고 열심히 전파하여 지속적으로 사용자수 증가
하지만 SQL 못쓰는 사람은 아예 사용하지 않는 경우가 많음
17ICT Infra센터
IV. Data Infra 개선점 도출
더 많은 구성원이 Data 를 더 잘 활용할 수 있는 환경을 만들기 위한 개선점 도출
Metadata
• 필요한 Data 가 어디에 어떻게 관리되는지 모름
• Metadata 현행화 필요
• Data 분석을 위해 여러 시스템으로의 접근이 불편
• Metadata 검색 결과에 대한 해석이 불편하고 난해
• 분석 Tool 과 Metadata 정보의 연계 필요
• 구성원이 직접 Metadata 를 현행화할 수 있는 기능 필요
• 사내/외 정보(교통량, 날씨, 등산로 등)의 데이터 수집 대상 확대
• 실시간 Data 연동 및 분석 환경
• Data 활용성 향상을 위한 각종 매뉴얼/도움/공지 기능 필요
• Data 기반 업무 수행을 위한 단일화된 채널 접근 기능
• Metatron 기능 개선
• Metatron 성능 향상 요망
• 분석 기능 확장/시각화 기능 강화 필요
• 초/중/고급 사용자별 분석 기능 제공 요청
접근채널
공유/협업
Metatron
기능 개선
Data 수집
확대
(설문 대상 및 기간 : Data Steward 및 Metatron Power User 약 100명, ‘18.4.2 ~ 4.6 )
18ICT Infra센터
IV. Data Infra 개선점 도출
분석 툴 측면의 개선 방향 핵심 포인트
1.1. 멀티 데이터 소스 지원
• 여러개의데이터소스를차트중심으로연계분석
• 하나의대시보드에여러개의데이터소스표현필요
1.2. 지원 차트의 유형 확장
• MapChart등사용성이빈번한신규차트지원확장
1.3 차트 자체 기능 강화 및 UX 개선
• 지원되는차트의상세속성기능강화
3.1. 센터 Data Poral과 연계
• 메타트론활용시정보검색등센터
DataPoral과의연계강화
3.2. 포털과 컨텐츠 연계
• 파워유저를통해생성된컨텐츠를
포털을통해잘노출될수있도록연계
차트기능개선
1.
Chart Usability
메타정보와연계
2.
MDMS
데이터포털과연계
3.
Data Portal
2.1. MDMS 지원
• 메테데이터를잘관리할수있는기능제공
2.2. Metadata 와 분석 기능 연계
• 워크북분석에서메타정보노출및연계
• 워크벤치에서메타정보노출및연계
19ICT Infra센터
Metatron 3.0 적용 Metatron Project팀 및 기능 개선 추진, 잘 정리된 Metadata 와 분석 툴의
정보 연계 기능 강화
V. Metatron 3.0 적용 추진
분산 데이터베이스
Druid
DW/Mart Data Batch
Workbench
HDFS 데이터 분석
분산 파일시스템
HDFS
Workbook
Druid 데이터 분석
Notebook
Druid 데이터 분석
HDFS 데이터 분석
【 주요 추진내용 】
• 시각화 차트 중심 분석 기능WORKBOOK 전면 개편
• 데이터 전처리 기능 강화를 통해 개인 데이터와 DW 데이터
연계 강화
• Big Data 에 대한 Map Chart 지원 기능 개발
Metatron 3.0 적용 기반 시각화 분석 기능 강화1
• Metatron 내 MDMS주1 기능 추가로 메타데이터와 데이터
분석 툴의 유연한 연계를 통해 분석과정 효율성을 증대 시킴
• 메타데이터 현행화 지원을 위한 관리 기능 제공
메타데이터 연계를 통해 분석과정 효율성 강화2
【 Metatron 3.0 】
• 중/고급 사용자가 생성한 Metatron 컨텐츠를 IDCube 에
자연스럽게 노출 시킬 수 있도록 컨텐츠를 연계하여 초급
사용자들도 쉽게 리포트/분석 기능을 사용할 수 있음
IDCube 와의 연계를 통해 Easy-to-Use 환경 제공3
6,700 종 테이블 저장
252 종 테이터마트 저장
※ ※ 주1 : MDMS (MetaData Management System)
20ICT Infra센터
VI. Metatron 활용 분야 및 장점
Metatron 3.0 장점
• 드루이드와 긴밀하게 연결됨
• 워크벤치 기능 지원, 차트 연계 가능
• 권한 관리 기능 지원
• 자체 MDMS 기능 지원
• Multi Data Source 지원
• 개인 Database (Sandbox 지원)
• Data Preparation 기능 지원
• 프리젠테이션 모드 지원
21ICT Infra센터
VI. Metatron 활용 분야 및 장점
워크벤치 : 컨넥션 및 데이터 권한 제어1
• Hive, Presto 등 Hadoop 에 저장된
매우 큰 데이터를 분석/추출할 수 있음
• Presto 쿼리 엔진을 통해 RDB 와
Hadoop 데이터의 Join 을 쉽게할 수
있음
• 컨넥션 별로 권한을 차별화하여 원하
는 워크스페이스에 할당할 수 있음
 워크스페이스별 유저 및 유저그룹 할당 가능
• Hive 의 경우 role 설정 및 LDAP 연계
등을 통해 Table 단위의 권한 부여/관
리가 가능
22ICT Infra센터
VI. Metatron 활용 분야 및 장점
워크벤치 : 편의기능2
• 오픈소스에서는 찾아보기 힘든 편의 기능 프로그레스, 쿼리문 자동추천, SQL Beautifier 등 제공
23ICT Infra센터
VI. Metatron 활용 분야 및 장점
워크벤치 : Sandbox 개념의 개인 DB 제공3
• 워크벤치 핵심 기능으로 모든 유저에게 개인 DB (Hive) 제공
 워크벤치를 통해 실행한 결과 파일을 내 개인DB 에 테이블로 저장 가능
 개인적으로 관리하는 엑셀 파일을 내 DB 에 업로드하여 타 데이터와 연계 분석 가능
24ICT Infra센터
VI. Metatron 활용 분야 및 장점
워크벤치 : Sandbox 개념의 개인 DB 제공4
아쉽지만 이 핵심 기능은
아직 Github master branch 에
merge 되지 않았습니다. ^^;
저희만 사용 중이며 PR 요청 상태
@Kyungtaak Noh 빨리 반영해 주세요~ ㅎㅎ
25ICT Infra센터
VI. Metatron 활용 분야 및 장점
워크벤치 : 메타정보 연계5
• 메타데이터 관리기능을 제공하여 분석 기능과 연계함 (관리자 권한)
26ICT Infra센터
VI. Metatron 활용 분야 및 장점
워크벤치 : 메타정보 연계5
• MDMS 에서 관리된 메타 정보가 워크벤치 UX 에 노출되어 관련 정보 바로 확인
27ICT Infra센터
VI. Metatron 활용 분야 및 장점
워크벤치 : 주 활용분야6
분산 데이터베이스
Druid
DW/Mart Data Batch
Workbench
HDFS 데이터 분석
분산 파일시스템
HDFS
Workbook
Druid 데이터 분석
Notebook
Druid 데이터 분석
HDFS 데이터 분석
【 Metatron 3.0 】
6,700 종 테이블 저장
252 종 테이터마트 저장
• 무식하게 큰 데이터들이 많음
• 큰 데이터 들끼리 조인도 해야 됨
• 집계를 하여 조회를 한 데이터양도 큰
경우가 있음
• 조건을 바꿔가며 내가 원하는 데이터
를 추출하여 엑셀로 보고 싶음
• 메타트론에서는 쿼리 결과를 다운로드
뿐만아니고 차트로 바로 연계하여 분
석할 수 있음 (관리자만…^^;;)
28ICT Infra센터
VI. Metatron 활용 분야 및 장점
하지만 SQL 을 안(못)쓰는 사람에게는…
이런 기능이 필요합니다.
29ICT Infra센터
VI. Metatron 활용 분야 및 장점
워크북7
• 파워포인트 스타일의 UX 제공, Drag & Drop 과 차트 중심의 데이터 분석 기능
30ICT Infra센터
VI. Metatron 활용 분야 및 장점
이거 엑셀(Excel) 이나 다른 툴에서 다 되는거잖아?
라는 분에게...
31ICT Infra센터
VI. Metatron 활용 분야 및 장점
봐야되는 데이터가 100GB 쯤 되면 어떻게?
실제 100GB 는 도메인에 따라 매우 적은 양…
32ICT Infra센터
VI. Metatron 활용 분야 및 장점
분산 데이터베이스
Druid
DW/Mart Data Batch
Workbench
HDFS 데이터 분석
분산 파일시스템
HDFS
Workbook
Druid 데이터 분석
Notebook
Druid 데이터 분석
HDFS 데이터 분석
【 Metatron 3.0 】
테이블 저장
테이터마트 저장
• 잘 만들어 놓은 대시보드는 오늘도 보
고 내일도 봄…
부서 이동 전까지는 쭉~
• 잘만 구성해 놓으면 마치 모니터링 기
능 처럼 사용할 수 있음
 실제 모니터링 기능에 대한 Needs 많음
• 새로운 데이터가 생기거나 보고싶은
View 가 달라졌을 때마다 개발하지 않
아도 됨
• 잘 만들어 놓으면 다른 사람이랑 같이
활용 가능함
워크북7
• SQL 모르는데 엑셀에서 안 열리는 데이터를 봐야할 때 쓰면 됨
33ICT Infra센터
VI. Metatron 활용 분야 및 장점
메타트론 배우는 거 너무 어렵다….라는 분들에게?
34ICT Infra센터
VI. Metatron 활용 분야 및 장점
• 메타트론으로 만들어진 대시보드, 워크북 등의 컨텐츠를 타 사이트에 연계 가능
메타트론 사용자 월별 트렌드를 보기위해 만든 대시보드(실사용중)
이 대시보드를 메타트론이 아닌 다른 사이트에서 사용하고 싶음
’18년 10월 UV 가 814명
워크북 : 데이터포털에 등록/연계8
35ICT Infra센터
VI. Metatron 활용 분야 및 장점
워크북 : 데이터포털에 등록/연계8
• 센터 데이터 포털IDCube에 대시보드를 리포트로 등록하여 포털에서 사용 가능
36ICT Infra센터
VI. Metatron 활용 분야 및 장점
워크북 : 데이터포털에 등록/연계8
• 센터 데이터 포털IDCube에 대시보드를 리포트로 등록하여 포털에서 사용 가능
아까 그 대시보드임
37ICT Infra센터
VI. Metatron 활용 분야 및 장점
워크북 : 데이터포털에 등록/연계8
• 메타트론 접속 안하고도, 메타트론 컨텐츠를 쉽게 활용할 수 있음
38ICT Infra센터
VI. Metatron 활용 분야 및 장점
Infra센터의 메타트론 활용 분야9
Infra센터
품질
상세분석
모형
개발
업무 자동
기반 확보
• 다양한 데이터의 연계를 통한 품질 상
세분석이 필요한 경우 활용
• 평소 엑셀 노가다를 통해 Vlookup,
Pivot 돌리는데 시간 많이 허비하던 작
업 자동화에 활용
• 오늘 보다 낳은 내일을 만들기 위한 모
형 개발에 활용
• 품질 상세분석, 업무 자동기반 확보, 모형 개발 등에 메타트론 활용 중
• 향후 Anomally 등 실시간 모니터링 기능도 보완 예정
39ICT Infra센터
VI. Metatron 활용 분야 및 장점
향후 강점이 될 기능 : Map Chart10
• 현재 Map Chart 초기 버전 적용 상태, 공간 처리 기능 등 보완되면 활용도가 높을
것 으로 예상 
40ICT Infra센터
VII. Metatron 개선 및 보완점
향후 개선 및 보완되었으면 하는 점들…
• 드루이드와 긴밀하게 연결됨(워크북)
 장점이자 단점이며, 향후 RDB 등 지원되는 DB 확장 필요(써놯지만 나중에..)
• 수동적인 Versioning 정책
 master 에 많은 commiter 들이 기능 contribution 할 수 있도록 정책 변경 필요
• 벌레 박멸 필요
 많은 버그들이 존재하며 빠른 버그 픽스가 필요
• 차트 속성 강화 필요
 드루이드와 연계하여 타 BI Solution 대비 더 큰 데이터의 빠른 처리에 강점이 있
으나 개별 차트의 속성 설정 등 세부 기능에서는 상대적으로 부족함
• 노트북 연계 기능 강화
 현재 노트북은 Tightly 연계라기 보단 그냥 링크임
@이문수님 오늘 키노트 세션 발표 오셨던데 제플린이랑 어떻게 잘 안될까요?
가셨나? ^^;
41ICT Infra센터
감사합니다.
Q&A

More Related Content

What's hot

Why Data Virtualization? An Introduction
Why Data Virtualization? An IntroductionWhy Data Virtualization? An Introduction
Why Data Virtualization? An IntroductionDenodo
 
Best Practices for Backup and Recovery: Windows Workload on AWS
Best Practices for Backup and Recovery: Windows Workload on AWS Best Practices for Backup and Recovery: Windows Workload on AWS
Best Practices for Backup and Recovery: Windows Workload on AWS Amazon Web Services
 
Difference between star schema and snowflake schema
Difference between star schema and snowflake schemaDifference between star schema and snowflake schema
Difference between star schema and snowflake schemaUmar Ali
 
What is ETL testing & how to enforce it in Data Wharehouse
What is ETL testing & how to enforce it in Data WharehouseWhat is ETL testing & how to enforce it in Data Wharehouse
What is ETL testing & how to enforce it in Data WharehouseBugRaptors
 
Migrating your Databases to AWS: Deep Dive on Amazon RDS and AWS Database Mig...
Migrating your Databases to AWS: Deep Dive on Amazon RDS and AWS Database Mig...Migrating your Databases to AWS: Deep Dive on Amazon RDS and AWS Database Mig...
Migrating your Databases to AWS: Deep Dive on Amazon RDS and AWS Database Mig...Amazon Web Services
 
Data Quality Patterns in the Cloud with Azure Data Factory
Data Quality Patterns in the Cloud with Azure Data FactoryData Quality Patterns in the Cloud with Azure Data Factory
Data Quality Patterns in the Cloud with Azure Data FactoryMark Kromer
 
Amazon RDS Proxy 집중 탐구 - 윤석찬 :: AWS Unboxing 온라인 세미나
Amazon RDS Proxy 집중 탐구 - 윤석찬 :: AWS Unboxing 온라인 세미나Amazon RDS Proxy 집중 탐구 - 윤석찬 :: AWS Unboxing 온라인 세미나
Amazon RDS Proxy 집중 탐구 - 윤석찬 :: AWS Unboxing 온라인 세미나Amazon Web Services Korea
 
Creating a Data validation and Testing Strategy
Creating a Data validation and Testing StrategyCreating a Data validation and Testing Strategy
Creating a Data validation and Testing StrategyRTTS
 
Data Mesh Part 4 Monolith to Mesh
Data Mesh Part 4 Monolith to MeshData Mesh Part 4 Monolith to Mesh
Data Mesh Part 4 Monolith to MeshJeffrey T. Pollock
 
Large Scale Lakehouse Implementation Using Structured Streaming
Large Scale Lakehouse Implementation Using Structured StreamingLarge Scale Lakehouse Implementation Using Structured Streaming
Large Scale Lakehouse Implementation Using Structured StreamingDatabricks
 
(DAT201) Introduction to Amazon Redshift
(DAT201) Introduction to Amazon Redshift(DAT201) Introduction to Amazon Redshift
(DAT201) Introduction to Amazon RedshiftAmazon Web Services
 
Zendesk: Building a World-Class Cloud Center of Excellence (ENT309-S) - AWS r...
Zendesk: Building a World-Class Cloud Center of Excellence (ENT309-S) - AWS r...Zendesk: Building a World-Class Cloud Center of Excellence (ENT309-S) - AWS r...
Zendesk: Building a World-Class Cloud Center of Excellence (ENT309-S) - AWS r...Amazon Web Services
 
Modern Cloud Data Warehousing ft. Equinox Fitness Clubs: Optimize Analytics P...
Modern Cloud Data Warehousing ft. Equinox Fitness Clubs: Optimize Analytics P...Modern Cloud Data Warehousing ft. Equinox Fitness Clubs: Optimize Analytics P...
Modern Cloud Data Warehousing ft. Equinox Fitness Clubs: Optimize Analytics P...Amazon Web Services
 
Introducing Azure SQL Database
Introducing Azure SQL DatabaseIntroducing Azure SQL Database
Introducing Azure SQL DatabaseJames Serra
 
Building Data Lakes and Analytics on AWS
Building Data Lakes and Analytics on AWSBuilding Data Lakes and Analytics on AWS
Building Data Lakes and Analytics on AWSAmazon Web Services
 

What's hot (20)

Why Data Virtualization? An Introduction
Why Data Virtualization? An IntroductionWhy Data Virtualization? An Introduction
Why Data Virtualization? An Introduction
 
Best Practices for Backup and Recovery: Windows Workload on AWS
Best Practices for Backup and Recovery: Windows Workload on AWS Best Practices for Backup and Recovery: Windows Workload on AWS
Best Practices for Backup and Recovery: Windows Workload on AWS
 
Informatica Cloud Overview
Informatica Cloud OverviewInformatica Cloud Overview
Informatica Cloud Overview
 
Difference between star schema and snowflake schema
Difference between star schema and snowflake schemaDifference between star schema and snowflake schema
Difference between star schema and snowflake schema
 
adb.pdf
adb.pdfadb.pdf
adb.pdf
 
What is ETL testing & how to enforce it in Data Wharehouse
What is ETL testing & how to enforce it in Data WharehouseWhat is ETL testing & how to enforce it in Data Wharehouse
What is ETL testing & how to enforce it in Data Wharehouse
 
Migrating your Databases to AWS: Deep Dive on Amazon RDS and AWS Database Mig...
Migrating your Databases to AWS: Deep Dive on Amazon RDS and AWS Database Mig...Migrating your Databases to AWS: Deep Dive on Amazon RDS and AWS Database Mig...
Migrating your Databases to AWS: Deep Dive on Amazon RDS and AWS Database Mig...
 
Data Quality Patterns in the Cloud with Azure Data Factory
Data Quality Patterns in the Cloud with Azure Data FactoryData Quality Patterns in the Cloud with Azure Data Factory
Data Quality Patterns in the Cloud with Azure Data Factory
 
Amazon OpenSearch Service
Amazon OpenSearch ServiceAmazon OpenSearch Service
Amazon OpenSearch Service
 
Amazon RDS Proxy 집중 탐구 - 윤석찬 :: AWS Unboxing 온라인 세미나
Amazon RDS Proxy 집중 탐구 - 윤석찬 :: AWS Unboxing 온라인 세미나Amazon RDS Proxy 집중 탐구 - 윤석찬 :: AWS Unboxing 온라인 세미나
Amazon RDS Proxy 집중 탐구 - 윤석찬 :: AWS Unboxing 온라인 세미나
 
Creating a Data validation and Testing Strategy
Creating a Data validation and Testing StrategyCreating a Data validation and Testing Strategy
Creating a Data validation and Testing Strategy
 
Data Mesh Part 4 Monolith to Mesh
Data Mesh Part 4 Monolith to MeshData Mesh Part 4 Monolith to Mesh
Data Mesh Part 4 Monolith to Mesh
 
Data lake ppt
Data lake pptData lake ppt
Data lake ppt
 
Large Scale Lakehouse Implementation Using Structured Streaming
Large Scale Lakehouse Implementation Using Structured StreamingLarge Scale Lakehouse Implementation Using Structured Streaming
Large Scale Lakehouse Implementation Using Structured Streaming
 
(DAT201) Introduction to Amazon Redshift
(DAT201) Introduction to Amazon Redshift(DAT201) Introduction to Amazon Redshift
(DAT201) Introduction to Amazon Redshift
 
Zendesk: Building a World-Class Cloud Center of Excellence (ENT309-S) - AWS r...
Zendesk: Building a World-Class Cloud Center of Excellence (ENT309-S) - AWS r...Zendesk: Building a World-Class Cloud Center of Excellence (ENT309-S) - AWS r...
Zendesk: Building a World-Class Cloud Center of Excellence (ENT309-S) - AWS r...
 
Building a Data Lake on AWS
Building a Data Lake on AWSBuilding a Data Lake on AWS
Building a Data Lake on AWS
 
Modern Cloud Data Warehousing ft. Equinox Fitness Clubs: Optimize Analytics P...
Modern Cloud Data Warehousing ft. Equinox Fitness Clubs: Optimize Analytics P...Modern Cloud Data Warehousing ft. Equinox Fitness Clubs: Optimize Analytics P...
Modern Cloud Data Warehousing ft. Equinox Fitness Clubs: Optimize Analytics P...
 
Introducing Azure SQL Database
Introducing Azure SQL DatabaseIntroducing Azure SQL Database
Introducing Azure SQL Database
 
Building Data Lakes and Analytics on AWS
Building Data Lakes and Analytics on AWSBuilding Data Lakes and Analytics on AWS
Building Data Lakes and Analytics on AWS
 

Similar to [DDC 2018] 통신 데이터 분석환경 구축사례 (SKT, 홍태희)

201210 그루터 빅데이터_플랫폼_아키텍쳐_및_솔루션_소개
201210 그루터 빅데이터_플랫폼_아키텍쳐_및_솔루션_소개201210 그루터 빅데이터_플랫폼_아키텍쳐_및_솔루션_소개
201210 그루터 빅데이터_플랫폼_아키텍쳐_및_솔루션_소개Gruter
 
[DDC 2018] Metatron 오픈소스화 및 생태계 구축 (SKT 이정룡, 김지호)
[DDC 2018] Metatron 오픈소스화 및 생태계 구축 (SKT 이정룡, 김지호)[DDC 2018] Metatron 오픈소스화 및 생태계 구축 (SKT 이정룡, 김지호)
[DDC 2018] Metatron 오픈소스화 및 생태계 구축 (SKT 이정룡, 김지호)Metatron
 
태블로 소프트웨어(Tableau Software) 소개
태블로 소프트웨어(Tableau Software) 소개태블로 소프트웨어(Tableau Software) 소개
태블로 소프트웨어(Tableau Software) 소개HT Kim
 
DB관점에서 본 빅데이터 (2019년 8월)
DB관점에서 본 빅데이터 (2019년 8월)DB관점에서 본 빅데이터 (2019년 8월)
DB관점에서 본 빅데이터 (2019년 8월)Kee Hoon Lee
 
엔터프라이즈 환경의 데이터모델 관리 방안 By 엠바카데로 데브기어 2015.12.03
엔터프라이즈 환경의 데이터모델 관리 방안 By 엠바카데로 데브기어  2015.12.03엔터프라이즈 환경의 데이터모델 관리 방안 By 엠바카데로 데브기어  2015.12.03
엔터프라이즈 환경의 데이터모델 관리 방안 By 엠바카데로 데브기어 2015.12.03Devgear
 
1. 개방형 데이터 허브 핵심 기술 V2.pdf
1. 개방형 데이터 허브 핵심 기술 V2.pdf1. 개방형 데이터 허브 핵심 기술 V2.pdf
1. 개방형 데이터 허브 핵심 기술 V2.pdfssuserde0b2d
 
빅데이터캠퍼스 소개및데이터설명 최종
빅데이터캠퍼스 소개및데이터설명 최종빅데이터캠퍼스 소개및데이터설명 최종
빅데이터캠퍼스 소개및데이터설명 최종bigdatacampus
 
Big data 20111203_배포판
Big data 20111203_배포판Big data 20111203_배포판
Big data 20111203_배포판Hyoungjun Kim
 
빅데이터 기술전문가
빅데이터 기술전문가 빅데이터 기술전문가
빅데이터 기술전문가 YeLim Yu
 
빅데이터 인공지능 전략 및 로드맵
빅데이터 인공지능 전략 및 로드맵빅데이터 인공지능 전략 및 로드맵
빅데이터 인공지능 전략 및 로드맵r-kor
 
Datawarehouse를 이용한 데이터 블렌딩
Datawarehouse를 이용한 데이터 블렌딩Datawarehouse를 이용한 데이터 블렌딩
Datawarehouse를 이용한 데이터 블렌딩Pikdata Inc.
 
A Modern Data Integration Approach to Transform and Amplify Your Business (데이...
A Modern Data Integration Approach to Transform and Amplify Your Business (데이...A Modern Data Integration Approach to Transform and Amplify Your Business (데이...
A Modern Data Integration Approach to Transform and Amplify Your Business (데이...Denodo
 
[2018] 효율적인 데이터 관리를 위한 플랫폼 개발기
[2018] 효율적인 데이터 관리를 위한 플랫폼 개발기[2018] 효율적인 데이터 관리를 위한 플랫폼 개발기
[2018] 효율적인 데이터 관리를 위한 플랫폼 개발기NHN FORWARD
 
SiSense 사이센스 True Agile BI 솔루션
SiSense 사이센스 True Agile BI 솔루션SiSense 사이센스 True Agile BI 솔루션
SiSense 사이센스 True Agile BI 솔루션Planit-partners
 
[웨비나] 우리가 데이터 메시에 주목해야 할 이유
[웨비나] 우리가 데이터 메시에 주목해야 할 이유[웨비나] 우리가 데이터 메시에 주목해야 할 이유
[웨비나] 우리가 데이터 메시에 주목해야 할 이유confluent
 
Case Study를 통해 본 데이터사이언스 협업 플랫폼의 필요성 (옥주영 컨설턴트, Hancom MDS) :: AWS Techforum ...
Case Study를 통해 본 데이터사이언스 협업 플랫폼의 필요성 (옥주영 컨설턴트, Hancom MDS) :: AWS Techforum ...Case Study를 통해 본 데이터사이언스 협업 플랫폼의 필요성 (옥주영 컨설턴트, Hancom MDS) :: AWS Techforum ...
Case Study를 통해 본 데이터사이언스 협업 플랫폼의 필요성 (옥주영 컨설턴트, Hancom MDS) :: AWS Techforum ...Amazon Web Services Korea
 
DeView2013 Big Data Platform Architecture with Hadoop - Hyeong-jun Kim
DeView2013 Big Data Platform Architecture with Hadoop - Hyeong-jun KimDeView2013 Big Data Platform Architecture with Hadoop - Hyeong-jun Kim
DeView2013 Big Data Platform Architecture with Hadoop - Hyeong-jun KimGruter
 
빅데이터 기술 현황과 시장 전망(2014)
빅데이터 기술 현황과 시장 전망(2014)빅데이터 기술 현황과 시장 전망(2014)
빅데이터 기술 현황과 시장 전망(2014)Channy Yun
 
2017 주요 기술 흐름 및 개요
2017 주요 기술 흐름 및 개요2017 주요 기술 흐름 및 개요
2017 주요 기술 흐름 및 개요Hosung Lee
 
빅데이터 처리기술의 이해
빅데이터 처리기술의 이해빅데이터 처리기술의 이해
빅데이터 처리기술의 이해paul lee
 

Similar to [DDC 2018] 통신 데이터 분석환경 구축사례 (SKT, 홍태희) (20)

201210 그루터 빅데이터_플랫폼_아키텍쳐_및_솔루션_소개
201210 그루터 빅데이터_플랫폼_아키텍쳐_및_솔루션_소개201210 그루터 빅데이터_플랫폼_아키텍쳐_및_솔루션_소개
201210 그루터 빅데이터_플랫폼_아키텍쳐_및_솔루션_소개
 
[DDC 2018] Metatron 오픈소스화 및 생태계 구축 (SKT 이정룡, 김지호)
[DDC 2018] Metatron 오픈소스화 및 생태계 구축 (SKT 이정룡, 김지호)[DDC 2018] Metatron 오픈소스화 및 생태계 구축 (SKT 이정룡, 김지호)
[DDC 2018] Metatron 오픈소스화 및 생태계 구축 (SKT 이정룡, 김지호)
 
태블로 소프트웨어(Tableau Software) 소개
태블로 소프트웨어(Tableau Software) 소개태블로 소프트웨어(Tableau Software) 소개
태블로 소프트웨어(Tableau Software) 소개
 
DB관점에서 본 빅데이터 (2019년 8월)
DB관점에서 본 빅데이터 (2019년 8월)DB관점에서 본 빅데이터 (2019년 8월)
DB관점에서 본 빅데이터 (2019년 8월)
 
엔터프라이즈 환경의 데이터모델 관리 방안 By 엠바카데로 데브기어 2015.12.03
엔터프라이즈 환경의 데이터모델 관리 방안 By 엠바카데로 데브기어  2015.12.03엔터프라이즈 환경의 데이터모델 관리 방안 By 엠바카데로 데브기어  2015.12.03
엔터프라이즈 환경의 데이터모델 관리 방안 By 엠바카데로 데브기어 2015.12.03
 
1. 개방형 데이터 허브 핵심 기술 V2.pdf
1. 개방형 데이터 허브 핵심 기술 V2.pdf1. 개방형 데이터 허브 핵심 기술 V2.pdf
1. 개방형 데이터 허브 핵심 기술 V2.pdf
 
빅데이터캠퍼스 소개및데이터설명 최종
빅데이터캠퍼스 소개및데이터설명 최종빅데이터캠퍼스 소개및데이터설명 최종
빅데이터캠퍼스 소개및데이터설명 최종
 
Big data 20111203_배포판
Big data 20111203_배포판Big data 20111203_배포판
Big data 20111203_배포판
 
빅데이터 기술전문가
빅데이터 기술전문가 빅데이터 기술전문가
빅데이터 기술전문가
 
빅데이터 인공지능 전략 및 로드맵
빅데이터 인공지능 전략 및 로드맵빅데이터 인공지능 전략 및 로드맵
빅데이터 인공지능 전략 및 로드맵
 
Datawarehouse를 이용한 데이터 블렌딩
Datawarehouse를 이용한 데이터 블렌딩Datawarehouse를 이용한 데이터 블렌딩
Datawarehouse를 이용한 데이터 블렌딩
 
A Modern Data Integration Approach to Transform and Amplify Your Business (데이...
A Modern Data Integration Approach to Transform and Amplify Your Business (데이...A Modern Data Integration Approach to Transform and Amplify Your Business (데이...
A Modern Data Integration Approach to Transform and Amplify Your Business (데이...
 
[2018] 효율적인 데이터 관리를 위한 플랫폼 개발기
[2018] 효율적인 데이터 관리를 위한 플랫폼 개발기[2018] 효율적인 데이터 관리를 위한 플랫폼 개발기
[2018] 효율적인 데이터 관리를 위한 플랫폼 개발기
 
SiSense 사이센스 True Agile BI 솔루션
SiSense 사이센스 True Agile BI 솔루션SiSense 사이센스 True Agile BI 솔루션
SiSense 사이센스 True Agile BI 솔루션
 
[웨비나] 우리가 데이터 메시에 주목해야 할 이유
[웨비나] 우리가 데이터 메시에 주목해야 할 이유[웨비나] 우리가 데이터 메시에 주목해야 할 이유
[웨비나] 우리가 데이터 메시에 주목해야 할 이유
 
Case Study를 통해 본 데이터사이언스 협업 플랫폼의 필요성 (옥주영 컨설턴트, Hancom MDS) :: AWS Techforum ...
Case Study를 통해 본 데이터사이언스 협업 플랫폼의 필요성 (옥주영 컨설턴트, Hancom MDS) :: AWS Techforum ...Case Study를 통해 본 데이터사이언스 협업 플랫폼의 필요성 (옥주영 컨설턴트, Hancom MDS) :: AWS Techforum ...
Case Study를 통해 본 데이터사이언스 협업 플랫폼의 필요성 (옥주영 컨설턴트, Hancom MDS) :: AWS Techforum ...
 
DeView2013 Big Data Platform Architecture with Hadoop - Hyeong-jun Kim
DeView2013 Big Data Platform Architecture with Hadoop - Hyeong-jun KimDeView2013 Big Data Platform Architecture with Hadoop - Hyeong-jun Kim
DeView2013 Big Data Platform Architecture with Hadoop - Hyeong-jun Kim
 
빅데이터 기술 현황과 시장 전망(2014)
빅데이터 기술 현황과 시장 전망(2014)빅데이터 기술 현황과 시장 전망(2014)
빅데이터 기술 현황과 시장 전망(2014)
 
2017 주요 기술 흐름 및 개요
2017 주요 기술 흐름 및 개요2017 주요 기술 흐름 및 개요
2017 주요 기술 흐름 및 개요
 
빅데이터 처리기술의 이해
빅데이터 처리기술의 이해빅데이터 처리기술의 이해
빅데이터 처리기술의 이해
 

[DDC 2018] 통신 데이터 분석환경 구축사례 (SKT, 홍태희)

  • 1. 통신 데이터 분석환경 구축사례 ICT Infra센터 Infra DT팀
  • 2. 2ICT Infra센터 I. DW 탄생배경 II. DW 초기 분석 환경 III. Metatron 1.0 적용 IV. Data Infra 개선점 도출 V. Metatron 3.0 적용 추진 VI. Metatron 활용분야 및 장점 VII. Metatron 개선 및 보완점 목 차
  • 3. 3ICT Infra센터 I. Infra센터 Data Warehouse 탄생배경 추억의 광고 소환… 이 광고 기억 나시나요?
  • 4. 4ICT Infra센터 I. Infra센터 Data Warehouse 탄생배경 전국 85개시 빈틈없이 깔린 기지국만이 전부가 아니라던 그 광고…
  • 5. 5ICT Infra센터 I. Infra센터 Data Warehouse 탄생배경 다~ 알아서 잘 되게 해주는게 핵심 이라던 광고…
  • 6. 6ICT Infra센터 I. Infra센터 Data Warehouse 탄생배경 이 광고의 마지막 화면도 기억 하시나요?
  • 7. 7ICT Infra센터 I. Infra센터 Data Warehouse 탄생배경 이 광고의 마지막 화면은..
  • 8. 8ICT Infra센터 I. Infra센터 Data Warehouse 탄생배경 2014년 T-PANI 시스템부터 본격적인 오픈소스 빅데이터 플랫폼 사용 시작 하루 수십 TB 와 수천억건의 데이터 생성 장비 성능/고장 통계 중심의 데이터 활용/분석에서 고객 경험 품질 중심의 데이터 활용/분석 HADOOP  Customer Experience Index 생성 S-GW (LTE) GGSN (3G) MME (LTE) Flume (데이터수집) 로그 로그 HBase (NoSQL) Storm (실시간 처리플랫폼) ZooKeeper (분산코디네이터) 3 nodes 서비스 환경 RDB 분석가 CEI 지표 설계 사상 : 고객이 불편을 느끼면 떨어짐 Open source 상용솔루션
  • 9. 9ICT Infra센터 I. Infra센터 Data Warehouse 탄생배경 CEI 변화에 따른 상세 분석 필요  다른 NMS 데이터의 연계 분석 Needs 발생 2015년부터 서로 다른 NMS 시스템의 연계 분석 환경 구축 & 서비스 시작 S-GW (LTE) GGSN (3G) MME (LTE) Flume (데이터수집) 로그.. 로그.. Spark SQL Storm (실시간 처리플랫폼) Data Warehouse ZooKeeper (분산코디네이터) 3 nodes 상용 BI 솔루션 분석 환경 서비스 환경 Open source 상용솔루션 RDB HADOOP  Customer Experience Index 생성 분석가 NMS 1 NMS 2 NMS N … HBase (NoSQL)
  • 10. 10ICT Infra센터 II. DW 초기 분석 환경 초기 DW 분석 환경은 Global BI Solution 을 적용하여 분석 환경을 제공함 Node Data Node Data Hive MetaStore JDBC Driver Slave Nodes Node Data … Node Data Thrift Server JDBC Driver BI Solution Client BI Solution Server Repository DB Global BI Solution
  • 11. 11ICT Infra센터 II. DW 초기 분석 환경 Global BI Solution 장점 • 시각화 차트 기능 강력함 • 다양한 차트 속성 컨트롤 가능 • 엑셀보다 큰 데이터 처리 가능 (메모리에서 열리는 만큼) • 엑셀 등 다른 툴 호환성 높음 • 막강한 필터 기능 • 일단 열리기만 한다면 강력한 상 세분석(Drill Down) 기능 제공
  • 12. 12ICT Infra센터 II. DW 초기 분석 환경 Global BI Solution 단점 • 데이터베이스의 응답속도는 BI Solution 의 영역이 아님  Spark SQL, Hive 등의 경우 응답 속도가 느림 • 사내 인증 체계 적용, 데이터에 대한 권한 관리, 데이터 마스킹 처리 등 보안 측면 취약함  All or Nothing • 조회한 데이터의 양이 큰 경우 제어 가 불가능함 • SQL 작성을 지원하나 쓰기 어려움 • 개인용 Sandbox 개념 없음 BI Solution Client BI Solution Server Repository DB Global BI Solution RDB
  • 13. 13ICT Infra센터 II. DW 초기 분석 환경 글로벌 BI Solution 의 단점을 극복하기 위해 Metatron 1.0 적용 시작
  • 14. 14ICT Infra센터 III. Metatron 1.0 적용 Druid Cluster Deep Storage Historical Nodes Real-Time Nodes Broker Nodes Zookeeper Coordinator Nodes DW/Mart Data Batch & Reailtime 일반사용자用 Workbook 은 웹 기반의 BI 툴 기능 제공으로 OLAP 과 유사하게 Drag-&-Drop 기능을 활용하여 차트 기 반의 쉬운 데이터 분석 기능을 제공함 중급사용자用 Workbench 는 Hive 엔진을 사용하여 SQL 쿼리 기반 분석이 가능하며 HDFS 에 저장된 데이터 분석 고급사용자用 Zeppelin, Jupyter 등의 웹기반 분석 환경을 제공하며 Python, R, Scala 등의 Language 를 활용한 고급 분석 에 활용 가능하고 HDFS 와 Druid 둘다 분석이 가능 (Data Discovery) Workbench HDFS 데이터 분석 DW Hadoop Sqoop Hive On Tez SparkSQL Thrift Server Yarn SparkSQL HDFS Workbook Druid 데이터 분석 Notebook Druid 데이터 분석 HDFS 데이터 분석 2 1 3 적용 당시 Metatron은 상용 솔루션(현재는 오픈소스), 워크벤치 기능 없음(구현해서 적용)  2017년 Metatron 1.0 기반 분석환경 제공 (기존 상용 솔루션 Fade-out)
  • 15. 15ICT Infra센터 III. Metatron 1.0 적용 서비스 오픈 이후 Metatron 1.0 사용자 패턴분석
  • 16. 16ICT Infra센터 III. Metatron 1.0 적용 로그인 워크벤치 SQL 작성 결과 다운로드 • 대부분의 사용자는 워크벤치(SQL)만 사용  큰 데이터간의 조인, 집계 후 분석은 엑셀로… • 대부분의 사용자가 일부 데이터만 사용  원래 본인의 업무랑 상관없는 데이터는 쳐다보지 않음… • 매우 많이 쓰거나 아예 안(or 못)쓰거나…  SQL 교육 과정을 만들고 열심히 전파하여 지속적으로 사용자수 증가 하지만 SQL 못쓰는 사람은 아예 사용하지 않는 경우가 많음
  • 17. 17ICT Infra센터 IV. Data Infra 개선점 도출 더 많은 구성원이 Data 를 더 잘 활용할 수 있는 환경을 만들기 위한 개선점 도출 Metadata • 필요한 Data 가 어디에 어떻게 관리되는지 모름 • Metadata 현행화 필요 • Data 분석을 위해 여러 시스템으로의 접근이 불편 • Metadata 검색 결과에 대한 해석이 불편하고 난해 • 분석 Tool 과 Metadata 정보의 연계 필요 • 구성원이 직접 Metadata 를 현행화할 수 있는 기능 필요 • 사내/외 정보(교통량, 날씨, 등산로 등)의 데이터 수집 대상 확대 • 실시간 Data 연동 및 분석 환경 • Data 활용성 향상을 위한 각종 매뉴얼/도움/공지 기능 필요 • Data 기반 업무 수행을 위한 단일화된 채널 접근 기능 • Metatron 기능 개선 • Metatron 성능 향상 요망 • 분석 기능 확장/시각화 기능 강화 필요 • 초/중/고급 사용자별 분석 기능 제공 요청 접근채널 공유/협업 Metatron 기능 개선 Data 수집 확대 (설문 대상 및 기간 : Data Steward 및 Metatron Power User 약 100명, ‘18.4.2 ~ 4.6 )
  • 18. 18ICT Infra센터 IV. Data Infra 개선점 도출 분석 툴 측면의 개선 방향 핵심 포인트 1.1. 멀티 데이터 소스 지원 • 여러개의데이터소스를차트중심으로연계분석 • 하나의대시보드에여러개의데이터소스표현필요 1.2. 지원 차트의 유형 확장 • MapChart등사용성이빈번한신규차트지원확장 1.3 차트 자체 기능 강화 및 UX 개선 • 지원되는차트의상세속성기능강화 3.1. 센터 Data Poral과 연계 • 메타트론활용시정보검색등센터 DataPoral과의연계강화 3.2. 포털과 컨텐츠 연계 • 파워유저를통해생성된컨텐츠를 포털을통해잘노출될수있도록연계 차트기능개선 1. Chart Usability 메타정보와연계 2. MDMS 데이터포털과연계 3. Data Portal 2.1. MDMS 지원 • 메테데이터를잘관리할수있는기능제공 2.2. Metadata 와 분석 기능 연계 • 워크북분석에서메타정보노출및연계 • 워크벤치에서메타정보노출및연계
  • 19. 19ICT Infra센터 Metatron 3.0 적용 Metatron Project팀 및 기능 개선 추진, 잘 정리된 Metadata 와 분석 툴의 정보 연계 기능 강화 V. Metatron 3.0 적용 추진 분산 데이터베이스 Druid DW/Mart Data Batch Workbench HDFS 데이터 분석 분산 파일시스템 HDFS Workbook Druid 데이터 분석 Notebook Druid 데이터 분석 HDFS 데이터 분석 【 주요 추진내용 】 • 시각화 차트 중심 분석 기능WORKBOOK 전면 개편 • 데이터 전처리 기능 강화를 통해 개인 데이터와 DW 데이터 연계 강화 • Big Data 에 대한 Map Chart 지원 기능 개발 Metatron 3.0 적용 기반 시각화 분석 기능 강화1 • Metatron 내 MDMS주1 기능 추가로 메타데이터와 데이터 분석 툴의 유연한 연계를 통해 분석과정 효율성을 증대 시킴 • 메타데이터 현행화 지원을 위한 관리 기능 제공 메타데이터 연계를 통해 분석과정 효율성 강화2 【 Metatron 3.0 】 • 중/고급 사용자가 생성한 Metatron 컨텐츠를 IDCube 에 자연스럽게 노출 시킬 수 있도록 컨텐츠를 연계하여 초급 사용자들도 쉽게 리포트/분석 기능을 사용할 수 있음 IDCube 와의 연계를 통해 Easy-to-Use 환경 제공3 6,700 종 테이블 저장 252 종 테이터마트 저장 ※ ※ 주1 : MDMS (MetaData Management System)
  • 20. 20ICT Infra센터 VI. Metatron 활용 분야 및 장점 Metatron 3.0 장점 • 드루이드와 긴밀하게 연결됨 • 워크벤치 기능 지원, 차트 연계 가능 • 권한 관리 기능 지원 • 자체 MDMS 기능 지원 • Multi Data Source 지원 • 개인 Database (Sandbox 지원) • Data Preparation 기능 지원 • 프리젠테이션 모드 지원
  • 21. 21ICT Infra센터 VI. Metatron 활용 분야 및 장점 워크벤치 : 컨넥션 및 데이터 권한 제어1 • Hive, Presto 등 Hadoop 에 저장된 매우 큰 데이터를 분석/추출할 수 있음 • Presto 쿼리 엔진을 통해 RDB 와 Hadoop 데이터의 Join 을 쉽게할 수 있음 • 컨넥션 별로 권한을 차별화하여 원하 는 워크스페이스에 할당할 수 있음  워크스페이스별 유저 및 유저그룹 할당 가능 • Hive 의 경우 role 설정 및 LDAP 연계 등을 통해 Table 단위의 권한 부여/관 리가 가능
  • 22. 22ICT Infra센터 VI. Metatron 활용 분야 및 장점 워크벤치 : 편의기능2 • 오픈소스에서는 찾아보기 힘든 편의 기능 프로그레스, 쿼리문 자동추천, SQL Beautifier 등 제공
  • 23. 23ICT Infra센터 VI. Metatron 활용 분야 및 장점 워크벤치 : Sandbox 개념의 개인 DB 제공3 • 워크벤치 핵심 기능으로 모든 유저에게 개인 DB (Hive) 제공  워크벤치를 통해 실행한 결과 파일을 내 개인DB 에 테이블로 저장 가능  개인적으로 관리하는 엑셀 파일을 내 DB 에 업로드하여 타 데이터와 연계 분석 가능
  • 24. 24ICT Infra센터 VI. Metatron 활용 분야 및 장점 워크벤치 : Sandbox 개념의 개인 DB 제공4 아쉽지만 이 핵심 기능은 아직 Github master branch 에 merge 되지 않았습니다. ^^; 저희만 사용 중이며 PR 요청 상태 @Kyungtaak Noh 빨리 반영해 주세요~ ㅎㅎ
  • 25. 25ICT Infra센터 VI. Metatron 활용 분야 및 장점 워크벤치 : 메타정보 연계5 • 메타데이터 관리기능을 제공하여 분석 기능과 연계함 (관리자 권한)
  • 26. 26ICT Infra센터 VI. Metatron 활용 분야 및 장점 워크벤치 : 메타정보 연계5 • MDMS 에서 관리된 메타 정보가 워크벤치 UX 에 노출되어 관련 정보 바로 확인
  • 27. 27ICT Infra센터 VI. Metatron 활용 분야 및 장점 워크벤치 : 주 활용분야6 분산 데이터베이스 Druid DW/Mart Data Batch Workbench HDFS 데이터 분석 분산 파일시스템 HDFS Workbook Druid 데이터 분석 Notebook Druid 데이터 분석 HDFS 데이터 분석 【 Metatron 3.0 】 6,700 종 테이블 저장 252 종 테이터마트 저장 • 무식하게 큰 데이터들이 많음 • 큰 데이터 들끼리 조인도 해야 됨 • 집계를 하여 조회를 한 데이터양도 큰 경우가 있음 • 조건을 바꿔가며 내가 원하는 데이터 를 추출하여 엑셀로 보고 싶음 • 메타트론에서는 쿼리 결과를 다운로드 뿐만아니고 차트로 바로 연계하여 분 석할 수 있음 (관리자만…^^;;)
  • 28. 28ICT Infra센터 VI. Metatron 활용 분야 및 장점 하지만 SQL 을 안(못)쓰는 사람에게는… 이런 기능이 필요합니다.
  • 29. 29ICT Infra센터 VI. Metatron 활용 분야 및 장점 워크북7 • 파워포인트 스타일의 UX 제공, Drag & Drop 과 차트 중심의 데이터 분석 기능
  • 30. 30ICT Infra센터 VI. Metatron 활용 분야 및 장점 이거 엑셀(Excel) 이나 다른 툴에서 다 되는거잖아? 라는 분에게...
  • 31. 31ICT Infra센터 VI. Metatron 활용 분야 및 장점 봐야되는 데이터가 100GB 쯤 되면 어떻게? 실제 100GB 는 도메인에 따라 매우 적은 양…
  • 32. 32ICT Infra센터 VI. Metatron 활용 분야 및 장점 분산 데이터베이스 Druid DW/Mart Data Batch Workbench HDFS 데이터 분석 분산 파일시스템 HDFS Workbook Druid 데이터 분석 Notebook Druid 데이터 분석 HDFS 데이터 분석 【 Metatron 3.0 】 테이블 저장 테이터마트 저장 • 잘 만들어 놓은 대시보드는 오늘도 보 고 내일도 봄… 부서 이동 전까지는 쭉~ • 잘만 구성해 놓으면 마치 모니터링 기 능 처럼 사용할 수 있음  실제 모니터링 기능에 대한 Needs 많음 • 새로운 데이터가 생기거나 보고싶은 View 가 달라졌을 때마다 개발하지 않 아도 됨 • 잘 만들어 놓으면 다른 사람이랑 같이 활용 가능함 워크북7 • SQL 모르는데 엑셀에서 안 열리는 데이터를 봐야할 때 쓰면 됨
  • 33. 33ICT Infra센터 VI. Metatron 활용 분야 및 장점 메타트론 배우는 거 너무 어렵다….라는 분들에게?
  • 34. 34ICT Infra센터 VI. Metatron 활용 분야 및 장점 • 메타트론으로 만들어진 대시보드, 워크북 등의 컨텐츠를 타 사이트에 연계 가능 메타트론 사용자 월별 트렌드를 보기위해 만든 대시보드(실사용중) 이 대시보드를 메타트론이 아닌 다른 사이트에서 사용하고 싶음 ’18년 10월 UV 가 814명 워크북 : 데이터포털에 등록/연계8
  • 35. 35ICT Infra센터 VI. Metatron 활용 분야 및 장점 워크북 : 데이터포털에 등록/연계8 • 센터 데이터 포털IDCube에 대시보드를 리포트로 등록하여 포털에서 사용 가능
  • 36. 36ICT Infra센터 VI. Metatron 활용 분야 및 장점 워크북 : 데이터포털에 등록/연계8 • 센터 데이터 포털IDCube에 대시보드를 리포트로 등록하여 포털에서 사용 가능 아까 그 대시보드임
  • 37. 37ICT Infra센터 VI. Metatron 활용 분야 및 장점 워크북 : 데이터포털에 등록/연계8 • 메타트론 접속 안하고도, 메타트론 컨텐츠를 쉽게 활용할 수 있음
  • 38. 38ICT Infra센터 VI. Metatron 활용 분야 및 장점 Infra센터의 메타트론 활용 분야9 Infra센터 품질 상세분석 모형 개발 업무 자동 기반 확보 • 다양한 데이터의 연계를 통한 품질 상 세분석이 필요한 경우 활용 • 평소 엑셀 노가다를 통해 Vlookup, Pivot 돌리는데 시간 많이 허비하던 작 업 자동화에 활용 • 오늘 보다 낳은 내일을 만들기 위한 모 형 개발에 활용 • 품질 상세분석, 업무 자동기반 확보, 모형 개발 등에 메타트론 활용 중 • 향후 Anomally 등 실시간 모니터링 기능도 보완 예정
  • 39. 39ICT Infra센터 VI. Metatron 활용 분야 및 장점 향후 강점이 될 기능 : Map Chart10 • 현재 Map Chart 초기 버전 적용 상태, 공간 처리 기능 등 보완되면 활용도가 높을 것 으로 예상 
  • 40. 40ICT Infra센터 VII. Metatron 개선 및 보완점 향후 개선 및 보완되었으면 하는 점들… • 드루이드와 긴밀하게 연결됨(워크북)  장점이자 단점이며, 향후 RDB 등 지원되는 DB 확장 필요(써놯지만 나중에..) • 수동적인 Versioning 정책  master 에 많은 commiter 들이 기능 contribution 할 수 있도록 정책 변경 필요 • 벌레 박멸 필요  많은 버그들이 존재하며 빠른 버그 픽스가 필요 • 차트 속성 강화 필요  드루이드와 연계하여 타 BI Solution 대비 더 큰 데이터의 빠른 처리에 강점이 있 으나 개별 차트의 속성 설정 등 세부 기능에서는 상대적으로 부족함 • 노트북 연계 기능 강화  현재 노트북은 Tightly 연계라기 보단 그냥 링크임 @이문수님 오늘 키노트 세션 발표 오셨던데 제플린이랑 어떻게 잘 안될까요? 가셨나? ^^;