ETL Tool
(SSIS, etc)
EDW
(SQLSvr, Teradata, etc)
Extract
Original Data
Load
Transformed
Data
Transform
BI Tools
Data Marts
Data Lake(s)
Dashboards
Apps
진화하는 분석 방식
7.
ETL Tool
(SSIS, etc)
EDW
(SQLSvr, Teradata, etc)
Extract
Original Data
Load
Transformed
Data
Transform
BI Tools
Ingest (EL)
Original Data
Data Marts
Data Lake(s)
Dashboards
Apps
진화하는 분석 방식
8.
ETL Tool
(SSIS, etc)
EDW
(SQLSvr, Teradata, etc)
Extract
Original Data
Load
Transformed
Data
Transform
BI Tools
Ingest (EL)
Original Data
Scale-out S
torage & C
ompute
(HDFS, Blob Storage,
etc)
Transform & Load
Data Marts
Data Lake(s)
Dashboards
Apps
Streaming data
진화하는 분석 방식
9.
데이터 허브
(Storage &Compute)
데이터 소스
(Import From)
Move data
among Hubs
데이터 허브
(Storage & Compute)
데이터 소스
(Import From)
Ingest
진화하는 분석 방식
연결&수집 변형&보강 배포
정보 생산:
Ingest
이동
BI Tools
Data Marts
Data Lake(s)
Dashboards
Apps
ADF의 주요 개념
Activity에의해
소비
Dataset
생산
수행(on)
Activity
논리 그룹
Linked Service
에 저장된 데이
터 아이템 표현
Data Factory
개발자/IT Pro를 위한 플랫폼으로
데이터 처리, 저장소 그리고 이동 서비스를 작성하고
분석 파이프라인을 생성 및 조작할 수 있다.
13.
데이터 소스
BI에서 소비
앱에통합
Azure Data Factory
조정과 관리
• 파이프라인에서 데이터 변형 네트워크를 작
성/관리
• 단일 시각에서:
• 전체 데이터와 조작 계보(operational lineage )
• 파이프라인과 데이터집합 상태 모니터
• 데이터 생성 정책 제어
데이터 저장과 처리 환경
• 소유하고 있는 데이터로 작업
• 온프렘 SQL Server
• Azure DB, Azure Blobs, Azure table
• 데이터 처리의 작성 및 연계(orchestrate)
• HDInsight, Custom Code, etc.
관계형 & 비관계형
온프렘 / 클라우드
배치 / 스트림
Hadoop
(Hive, Pig, etc.)
Custom code
데이터 이동
정보 자산원시 데이터 연계,
모니터
Azure Data FactoryTop 사용 사례
18
사용 사례 산업 분야
사용자와 제품 프로파일링 상호 동작하는 엔터테인먼트 / 소매
마케팅 캠페인 분석 상호 동작하는 엔터테인먼트
고객 감성 분석 상호 동작하는 엔터테인먼트 / 소매
정정 및 예방 정비와 보수 작업 제조 (IoT)
개인화된 제품 추천 소매
보함 계리 모델링과 보고서 자동화 금융 서비스
재무 위험 모델링과 분석 금융 서비스
운영 원격측정과 상태 보고 온라인 서비스
고객 구매 활동 분석 소매
가격 최적화 소매
시나리오 분석 :
고객프로파일링 (게임 로그 분석)
Samples on GitHub
https://azure.microsoft.com/en-us/documentation/articles/data-factory-samples/
20.
게임 콘솔
핸드헬드 장치
PC
User
시나리오: 게임 고객 프로파일링
Game logs
신규 사용
자 패턴
사용량/지역
활용 방안 : 비즈니스 개선 및 고객에게 더 나은 환경 제공
• 탁월한 새 기능 개발
• 교차 판매 기회 포착
마케팅 캠페인 효과 분석
사용자 가입
마케팅 활동
Storage
21.
고객 프로파일링 –게임 사용 분석
2277,2013-06-01 02:26:54.3943450,111,164.234.187.32,24.84.225.233,true,8,1,2058
2277,2013-06-01 03:26:23.2240000,111,164.234.187.32,24.84.225.233,true,8,1,2058-2123-2009-2068-2166
2277,2013-06-01 04:22:39.4940000,111,164.234.187.32,24.84.225.233,true,8,1,
2277,2013-06-01 05:43:54.1240000,111,164.234.187.32,24.84.225.233,true,8,1,2058-225545-2309-2068-2166
2277,2013-06-01 06:11:23.9274300,111,164.234.187.32,24.84.225.233,true,8,1,223-2123-2009-4229-9936623
2277,2013-06-01 07:37:01.3962500,111,164.234.187.32,24.84.225.233,true,8,1,
2277,2013-06-01 08:12:03.1109790,111,164.234.187.32,24.84.225.233,true,8,1,234322-2123-2234234-12432-34432
3
…
로그 파일 일부 (수십 TB/day)
사용자 테이블
UserID FirstName LastName Country …
2277 Pratik Patel USA
664432 Dave Nettleton USA
8853 Mike Flasko Canada
지역별 신규 사용자 활동/Week
profileid day state duration rank weaponsused interactedwith
1148 6/2/2013Oregon 216 33 1 5
1004 6/2/2013Missouri 22 40 6 2
292 6/1/2013Georgia 201 137 1 5
1059 6/2/2013Oregon 27 104 5 2
675 6/2/2013California 65 164 3 2
1348 6/3/2013Nebraska 21 95 5 2
예: 게임 로그,고객 프로파일링
온프렘 SQL Server Azure Blob Storage
1000’s 로그 파일신규 사용자 뷰
Azure Data Factory
HDInsight
26.
예: 게임 로그,고객 프로파일링
온프렘 SQL Server Azure Blob Storage
1000’s 로그 파일New Users View
Azure Data FactoryViewOf
GameUsage
ViewOf
NewUsers
New User Activity
HDInsight
27.
예: 게임 로그,고객 프로파일링
온프렘 SQL Server Azure Blob Storage
1000’s 로그 파일New Users View
Copy “NewUsers” to
Blob Storage
CloudNewUsers
Azure Data FactoryViewOf
GameUsage
ViewOf
NewUsers
New User Activity
ViewOf
Pipeline
HDInsight
28.
예: 게임 로그,고객 프로파일링
온프렘 SQL Server Azure Blob Storage
1000’s 로그 파일New Users View
CloudNewUsers
Azure Data FactoryViewOf
GameUsage
ViewOf
Mask &
Geo-Code
NewUsers
Geo Dictionary
Geo Coded Game
Usage
HDInsight
New User Activity
Pipeline
Pipeline
Copy “NewUsers” to
Blob Storage
29.
예: 게임 로그,고객 프로파일링
온프렘 SQL Server Azure Blob Storage
1000’s 로그 파일New User View
Copy “NewUsers” to
Blob Storage
CloudNewUsers
Azure Data FactoryViewOf
Game Usage
ViewOf
RunsOn
Mask &
Geo-Code
NewUsers
Geo Dictionary
Geo Coded Game
Usage
Join & Aggregate
HDInsight
New User Activity
ViewOf
Pipeline
Pipeline
Pipeline
• Slice :
•하나의 논리적 시간. 하나 이상의 activity가 수행되면서 생성되는 데이터 파티셔닝 기반.
• 데이터집합 정의에서 availability 속성으로 정의됨
• Activity가 수행되면 가장 작은 단위는 Slice 데이터를 생산 및 변경함.
Dataset Slice
"availability": { "frequency": "Day", interval": 1 }
Hourly
12-1
1-2
2-3
GameUsageActivity: (예: Hive)
• Is mydata successfully getting produced?
• Is it produced on time?
• Am I alerted quickly of failures?
• What about troubleshooting information?
• Are there any policy warnings or errors?
Step 5: 모니터와 관리
• ADF activity내에포장된 어떤 .NET code도 수행 가능
• 신규 소스/대상 연결에 사용될 수 있음
• 사용자 정의 변형 activity 생성에 사용될 수 있음
• 예) twitter에서 데이터를 가져오고, Azure ML 모델을 호출하는 사용자 정의
Activity 사용하기
• 사용자 정의 activity 생성용 SDK :
사용자 정의 Activity