100PBを越えるデータプラットフォームの実情
Jan 27th, 2022
李 龍得
Cloud Platform Department
Rakuten Group, Inc.
自己紹介
データストレージ・プロセッシング課
ヴァイスシニアマネージャー、シニアアーキテクト
日本では20年間、NHK, NTTなどを含む様々な企業で勤務。
楽天にはレコメンドエンジンの開発者として入社し、現在は新しいビッグ
データ技術の研究と検証、ビッグデータシステムの利用者のサポートをして
いる。
講義歴
Colloquium Lecturer at KAIST
プログラム委員
BigComp2017/2019
EDB 2016
主な資格
Certified Scrum Master (CSM)
Certified Project Management Professional (PMP #1255421)
3
CPU : Z80 (2MHz)
MEM : 1KB
MZ- 80K 1978
CPU : Intel Core i5 (2.9 GHz)
MEM : 16GB
USB Gigabit Ethernet
Mac Air 2018
パソコンの進化
4
インターネットによるデータの拡大化
インターネットとは、インターネットプロトコルスイート(TCP / IP)を使用して世界中のデバイスを繋げるグローバルコン
ピュータネットワークシステムです。これは、プライベート、パブリック、アカデミック、ビジネス、および政府のネット
ワークなどで構成されるネットワークのネットワークであり、さまざまな電子、ワイヤレス、および光のネットワークテクノ
ロジーによってローカルからグローバル範囲にリンクされています。
G Lobalization
C hances
インターネットの起源は、1960年代に米国連邦政府から委託
された、コンピュータネットワークとの堅牢で障害に強い通
信を構築するための調査にまでさかのぼります。
https://en.wikipedia.org/wiki/Internet#World_Wide_Web
Vast Information
Structure
Volume
Unstructured 80%
Structured 20%
35.2 ZB in 2020
* From IDC white paper & EMC
5
6
7
多様なサービス
業界大手の利用者数
データ間の相乗効果(シナジー)
桁違いの大きいデータ
楽天ビックデータの特徴
様々なデータから価値を生み出したいデータ
分析者(Data Schientist, Data Analyst)としては
最適な環境。
エンジニアとしては、数百ペタバイトに登る
巨大なデータを保存・管理し、データ分析者
がより早く・便利に使えるよう、サポートす
るインフラに触ることができる。他ではなか
なか経験できない環境(System Infrastructure
Engineer, Data Engineer)
8
楽天でデータエンジニアとして働くやりがい
1. インフラ・サーバ管理者と連携するための基本知識、
データサイエンティスト・データ分析者と連携するための基本知識が身につく
Ingest data
Analysis
Result Analysis
& improve
Activate Build and
Implement
Continuous
Optimization
Data Scientist
Data analysis
Build models
Implement models
Result analysis…
Dev/Ops Engineer
M/W tuning,
Develop application,
System operation…
Data Engineer
Distributed System
Data Pipeline
Data Wrangling
…
PDM/PJM
コンピテンシーと行動特性
U se-case & Comparison
T echnical Aptitude
O pen-Mind
F orecasting & Prediction
C ollaborative Communication
データエンジニア
データエンジニアは、データを必要として
いるユーザのために、常に簡単かつ安全に
データが使えるように準備します。
コンピテンシーと行動特性
Quantitative Skills
T echnical Aptitude
C uriosity
C reativity
S keptical
C ollaborative Communication
データサイエンティスト
データサイエンティストは、データセット
から新しい洞察・価値を見つけることに焦
点を当てています。
11
2. 大規模データを常に処理しているデータストリーム・データレークシステムを構築・管理するために必要な
OS/HWへの知識が身につきます。
楽天でデータエンジニアとして働くやりがい
12
Hadoop Service
12
NA EU JP
Hortonwork Data Platform
VCore
CPU
80,000+
TB
MEM
600+
PETA
DATA
150+
RAM
13
CPD Kafka Jan/2021
複数のKafkaクラスタを用いて、通常の場合ピーク時は1.5 Million+ Message/sec ( 10 GB+/sec IN/OUT)のデー
タを処理しています。楽天スーパーセール(2021年)では、通常の2.5倍のデータ量を処理しています。
62 Kafka Clusters (800 Core, 20TB Mem, 4728 Topics)
14
3. 様々なサービスを提供している楽天であるからこそ、経験できる色んなデータ活用方法があります。
楽天でデータエンジニアとして働くやりがい
100PBを越えるデータプラットフォームの実情

100PBを越えるデータプラットフォームの実情