Advertisement

More Related Content

Slideshows for you(20)

Similar to 100PBを越えるデータプラットフォームの実情(20)

Advertisement
Advertisement

100PBを越えるデータプラットフォームの実情

  1. 100PBを越えるデータプラットフォームの実情 Jan 27th, 2022 李 龍得 Cloud Platform Department Rakuten Group, Inc.
  2. 自己紹介 データストレージ・プロセッシング課 ヴァイスシニアマネージャー、シニアアーキテクト 日本では20年間、NHK, NTTなどを含む様々な企業で勤務。 楽天にはレコメンドエンジンの開発者として入社し、現在は新しいビッグ データ技術の研究と検証、ビッグデータシステムの利用者のサポートをして いる。 講義歴 Colloquium Lecturer at KAIST プログラム委員 BigComp2017/2019 EDB 2016 主な資格 Certified Scrum Master (CSM) Certified Project Management Professional (PMP #1255421)
  3. 3 CPU : Z80 (2MHz) MEM : 1KB MZ- 80K 1978 CPU : Intel Core i5 (2.9 GHz) MEM : 16GB USB Gigabit Ethernet Mac Air 2018 パソコンの進化
  4. 4 インターネットによるデータの拡大化 インターネットとは、インターネットプロトコルスイート(TCP / IP)を使用して世界中のデバイスを繋げるグローバルコン ピュータネットワークシステムです。これは、プライベート、パブリック、アカデミック、ビジネス、および政府のネット ワークなどで構成されるネットワークのネットワークであり、さまざまな電子、ワイヤレス、および光のネットワークテクノ ロジーによってローカルからグローバル範囲にリンクされています。 G Lobalization C hances インターネットの起源は、1960年代に米国連邦政府から委託 された、コンピュータネットワークとの堅牢で障害に強い通 信を構築するための調査にまでさかのぼります。 https://en.wikipedia.org/wiki/Internet#World_Wide_Web Vast Information Structure Volume Unstructured 80% Structured 20% 35.2 ZB in 2020 * From IDC white paper & EMC
  5. 5
  6. 6
  7. 7 多様なサービス 業界大手の利用者数 データ間の相乗効果(シナジー) 桁違いの大きいデータ 楽天ビックデータの特徴 様々なデータから価値を生み出したいデータ 分析者(Data Schientist, Data Analyst)としては 最適な環境。 エンジニアとしては、数百ペタバイトに登る 巨大なデータを保存・管理し、データ分析者 がより早く・便利に使えるよう、サポートす るインフラに触ることができる。他ではなか なか経験できない環境(System Infrastructure Engineer, Data Engineer)
  8. 8 楽天でデータエンジニアとして働くやりがい 1. インフラ・サーバ管理者と連携するための基本知識、 データサイエンティスト・データ分析者と連携するための基本知識が身につく Ingest data Analysis Result Analysis & improve Activate Build and Implement Continuous Optimization Data Scientist Data analysis Build models Implement models Result analysis… Dev/Ops Engineer M/W tuning, Develop application, System operation… Data Engineer Distributed System Data Pipeline Data Wrangling … PDM/PJM
  9. コンピテンシーと行動特性 U se-case & Comparison T echnical Aptitude O pen-Mind F orecasting & Prediction C ollaborative Communication データエンジニア データエンジニアは、データを必要として いるユーザのために、常に簡単かつ安全に データが使えるように準備します。
  10. コンピテンシーと行動特性 Quantitative Skills T echnical Aptitude C uriosity C reativity S keptical C ollaborative Communication データサイエンティスト データサイエンティストは、データセット から新しい洞察・価値を見つけることに焦 点を当てています。
  11. 11 2. 大規模データを常に処理しているデータストリーム・データレークシステムを構築・管理するために必要な OS/HWへの知識が身につきます。 楽天でデータエンジニアとして働くやりがい
  12. 12 Hadoop Service 12 NA EU JP Hortonwork Data Platform VCore CPU 80,000+ TB MEM 600+ PETA DATA 150+ RAM
  13. 13 CPD Kafka Jan/2021 複数のKafkaクラスタを用いて、通常の場合ピーク時は1.5 Million+ Message/sec ( 10 GB+/sec IN/OUT)のデー タを処理しています。楽天スーパーセール(2021年)では、通常の2.5倍のデータ量を処理しています。 62 Kafka Clusters (800 Core, 20TB Mem, 4728 Topics)
  14. 14 3. 様々なサービスを提供している楽天であるからこそ、経験できる色んなデータ活用方法があります。 楽天でデータエンジニアとして働くやりがい
Advertisement