Copyright  (C)  2015  Yahoo  Japan  Corporation.  All  Rights  Reserved.  無断引⽤用・転載禁⽌止
ヤフー(株)
D&S統括本部
データインフラ本部  浅野  遼平
2015年年11⽉月23⽇日
ヤフーの次世代パイプラインについて
Copyright  (C)  2015  Yahoo  Japan  Corporation.  All  Rights  Reserved.  無断引⽤用・転載禁⽌止
Copyright  (C)  2015  Yahoo  Japan  Corporation.  All  Rights  Reserved.  無断引⽤用・転載禁⽌止
発表者紹介
パイプラインチーム
兼務データセンターネットワークチーム
2013年年新卒⼊入社
パイプライン歴:2年年
ネットワーク歴:1年年
浅野  遼平
所属
経歴
データセンターで僕の年年収
より⾼高い機器にさわって
緊張していた時の写真
発表者
アジェンダ
1. パイプラインの重要性
2. 旧システムの課題
3. 次世代のシステムの紹介
Copyright  (C)  2015  Yahoo  Japan  Corporation.  All  Rights  Reserved.  無断引⽤用・転載禁⽌止
データインフラ基盤では
パイプラインも重要です
画像:アフロ
Copyright  (C)  2015  Yahoo  Japan  Corporation.  All  Rights  Reserved.  無断引⽤用・転載禁⽌止
データパイプラインとは?
分散したデータを効率率率良良く解析基盤にあつめるためのシステム
分散したサーバと
そのデータ
PIPELINE
Copyright  (C)  2015  Yahoo  Japan  Corporation.  All  Rights  Reserved.  無断引⽤用・転載禁⽌止
データを
解析する
データを
取得
課題解決
する
好循環のどこが⽋欠けてもサイクルは回りません
パイプラインは
データソリューションの好循環を⽣生みだす
データを転送・蓄積 サービスにフィードバック
データが増える
Copyright  (C)  2015  Yahoo  Japan  Corporation.  All  Rights  Reserved.  無断引⽤用・転載禁⽌止
Yahoo!  JAPAN  のパイプライン
DataHighway の実⼒力力
Copyright  (C)  2015  Yahoo  Japan  Corporation.  All  Rights  Reserved.  無断引⽤用・転載禁⽌止
データ量量と安定性が抜群
データ量量 約125TB/⽇日
累累積停⽌止時間   約3時間/年年  (2014年年実績値)
クライアント側
ログ送信プログラム
7年年ほぼ致命的なバグなし
このSLA・低事故率率率で、YJのログ転送を7年年間⽀支える
Copyright  (C)  2015  Yahoo  Japan  Corporation.  All  Rights  Reserved.  無断引⽤用・転載禁⽌止
パイプラインをさらに進化させるための課題
画像:アフロ
Copyright  (C)  2015  Yahoo  Japan  Corporation.  All  Rights  Reserved.  無断引⽤用・転載禁⽌止
ヤフーのパイプラインが抱える課題
課題2:  クローズなシステムの限界
課題1:  データ量量と種類は指数関数的に増える
Copyright  (C)  2015  Yahoo  Japan  Corporation.  All  Rights  Reserved.  無断引⽤用・転載禁⽌止
課題1  :  データ量量と種類は指数関数的に増える  
0 212:, 2 0 0 :    0    0 0 0
( )
,2 31 0
9 85746
  
  
001 4 3 9
43
5
5
ヤフー社内でも爆増
Copyright  (C)  2015  Yahoo  Japan  Corporation.  All  Rights  Reserved.  無断引⽤用・転載禁⽌止
課題1  :  売上はデータ量量の爆増的に増えない  
データ量量は指数関数で増えても・・・
0 212:, 2 0 0 :    0    0 0 0
( )
,2 31 0
9 85746 売上は指数関数的に増えない
Copyright  (C)  2015  Yahoo  Japan  Corporation.  All  Rights  Reserved.  無断引⽤用・転載禁⽌止
課題1  :  データ量量と種類は指数関数的に増える  
0 212:, 2 0 0 :    0    0 0 0
( )
,2 31 0
9 85746
  
  
001 4 3 9
43
5
5
ヤフー社内でも爆増
受けられるトラフィックは線形の成⻑⾧長ではなく…
              指数関数に成長させたい!
Copyright  (C)  2015  Yahoo  Japan  Corporation.  All  Rights  Reserved.  無断引⽤用・転載禁⽌止
課題2  :  クローズなシステムの限界
•  試⾏行行回数が少ない
•  システムそのものの開発スピードが遅い
•  インターフェースがオープンではないため、
ガラパゴス化する
Copyright  (C)  2015  Yahoo  Japan  Corporation.  All  Rights  Reserved.  無断引⽤用・転載禁⽌止
難しい課題を解決するためにやっていること
画像:アフロ
Copyright  (C)  2015  Yahoo  Japan  Corporation.  All  Rights  Reserved.  無断引⽤用・転載禁⽌止
爆増対策  :  売上はデータ量量の爆増的に増えない  
データ量量は指数関数で増えても・・・
0 212:, 2 0 0 :    0    0 0 0
( )
,2 31 0
9 85746 売上は指数関数的に増えない
技術⼒力力でカバーする
Copyright  (C)  2015  Yahoo  Japan  Corporation.  All  Rights  Reserved.  無断引⽤用・転載禁⽌止
爆増対策:掛け算で考える
サ ー バ を 増 や す だ け で な く 、 様 々 な レ イ ヤ で 技 術 的 に 向 上 さ せ る
い ま ま で : サ ー バ を ⾜足 す
.    .    .   
400  台
+40  台
+
こ れ か ら : 各 レ イ ヤ を 技 術 で 効 率率率 化
アプリケーション    
データセンター
OS
ネットワーク
ハードウェア    
プラットフォーム    
x2
x2
x2
x2
x2
x2
64  倍
.    .    .   
Copyright  (C)  2015  Yahoo  Japan  Corporation.  All  Rights  Reserved.  無断引⽤用・転載禁⽌止
オープンな技術を使う
クローズ オープン
試⾏行行回数 少ない 多い
開発スピード 遅い 速い
インタフェース ガラパゴス 豊富
Copyright  (C)  2015  Yahoo  Japan  Corporation.  All  Rights  Reserved.  無断引⽤用・転載禁⽌止
次世代パイプライン
Soft              :  Kafka  ,  MirrorMaker
Hard            :  OCP  ,  sw
Network  :  Fabric  network
Copyright  (C)  2015  Yahoo  Japan  Corporation.  All  Rights  Reserved.  無断引⽤用・転載禁⽌止
Kafkaとは	
•  低遅延で⾼高スループット
•  耐障害性が⾼高い
•  トピックやパーティションの概念念
•  インターフェースが豊富
•  スケールアウトが容易易・低コスト
•  開発コミュニティが活発である
メッセージングブローカーで、データを分散・分割・レプリケーションを⾏行行い、
管理理することができるサービス。
クライアントとサーバの通信は、⾔言語にとらわれず  
TCP  protocol  によってシンプルに⾏行行われる。
次世代パイプライン
Copyright  (C)  2015  Yahoo  Japan  Corporation.  All  Rights  Reserved.  無断引⽤用・転載禁⽌止
次世代パイプライン
producer:メッセージを書き込む
consumer  :メッセージを読み込む
broker  :メッセージをストアする
cluster  :  複数のbroker  で形成する
Kafkaのコンポーネント	
producer producer producer
broker
consumer consumer consumer
Copyright  (C)  2015  Yahoo  Japan  Corporation.  All  Rights  Reserved.  無断引⽤用・転載禁⽌止
次世代パイプライン
MirrorMaker
kafka  cluster
•  あるKafkaクラスタから、
他のKafkaクラスタに対して、
対象のログを転送しミラーする
•  Scala製
•  ConsumerとProducerが
組み合わさった構造  
Mirror  Maker
kafka  cluster
Copyright  (C)  2015  Yahoo  Japan  Corporation.  All  Rights  Reserved.  無断引⽤用・転載禁⽌止
次世代パイプライン
Copyright  (C)  2015  Yahoo  Japan  Corporation.  All  Rights  Reserved.  無断引⽤用・転載禁⽌止
次世代パイプライン
n  Local cluster 	
•  Daily Traffic : 44.5 TB(圧縮済み)	
•  サーバ台数:35台	
•  レプリケーションファクター:3	
n Aggregate cluster 	
•  Daily Traffic : 135 TB(圧縮済み)	
•  サーバ台数:83台	
•  レプリケーションファクター:3
Copyright  (C)  2015  Yahoo  Japan  Corporation.  All  Rights  Reserved.  無断引⽤用・転載禁⽌止
まとめ
課題と解決策
•  データの爆増
→  各レイヤで技術的に解決する
•  クローズなシステム
→  オープンなシステムに
次世代パイプラインの特徴
•  ユーザレスポンスを意識識した構成に
Copyright  (C)  2015  Yahoo  Japan  Corporation.  All  Rights  Reserved.  無断引⽤用・転載禁⽌止
最後に
このパイプラインで得られた知⾒見見や課題を
Kafka  に  FB  やコントリビュートし、
データパイプラインの発展に
貢献していきます

ヤフーの次世代パイプラインについて#yjdsw3

  • 1.
    Copyright  (C)  2015 Yahoo  Japan  Corporation.  All  Rights  Reserved.  無断引⽤用・転載禁⽌止 ヤフー(株) D&S統括本部 データインフラ本部  浅野  遼平 2015年年11⽉月23⽇日 ヤフーの次世代パイプラインについて Copyright  (C)  2015  Yahoo  Japan  Corporation.  All  Rights  Reserved.  無断引⽤用・転載禁⽌止
  • 2.
    Copyright  (C)  2015 Yahoo  Japan  Corporation.  All  Rights  Reserved.  無断引⽤用・転載禁⽌止 発表者紹介 パイプラインチーム 兼務データセンターネットワークチーム 2013年年新卒⼊入社 パイプライン歴:2年年 ネットワーク歴:1年年 浅野  遼平 所属 経歴 データセンターで僕の年年収 より⾼高い機器にさわって 緊張していた時の写真 発表者
  • 3.
  • 4.
    Copyright  (C)  2015 Yahoo  Japan  Corporation.  All  Rights  Reserved.  無断引⽤用・転載禁⽌止 データインフラ基盤では パイプラインも重要です 画像:アフロ
  • 5.
    Copyright  (C)  2015 Yahoo  Japan  Corporation.  All  Rights  Reserved.  無断引⽤用・転載禁⽌止 データパイプラインとは? 分散したデータを効率率率良良く解析基盤にあつめるためのシステム 分散したサーバと そのデータ PIPELINE
  • 6.
    Copyright  (C)  2015 Yahoo  Japan  Corporation.  All  Rights  Reserved.  無断引⽤用・転載禁⽌止 データを 解析する データを 取得 課題解決 する 好循環のどこが⽋欠けてもサイクルは回りません パイプラインは データソリューションの好循環を⽣生みだす データを転送・蓄積 サービスにフィードバック データが増える
  • 7.
    Copyright  (C)  2015 Yahoo  Japan  Corporation.  All  Rights  Reserved.  無断引⽤用・転載禁⽌止 Yahoo!  JAPAN  のパイプライン DataHighway の実⼒力力
  • 8.
    Copyright  (C)  2015 Yahoo  Japan  Corporation.  All  Rights  Reserved.  無断引⽤用・転載禁⽌止 データ量量と安定性が抜群 データ量量 約125TB/⽇日 累累積停⽌止時間   約3時間/年年  (2014年年実績値) クライアント側 ログ送信プログラム 7年年ほぼ致命的なバグなし このSLA・低事故率率率で、YJのログ転送を7年年間⽀支える
  • 9.
    Copyright  (C)  2015 Yahoo  Japan  Corporation.  All  Rights  Reserved.  無断引⽤用・転載禁⽌止 パイプラインをさらに進化させるための課題 画像:アフロ
  • 10.
    Copyright  (C)  2015 Yahoo  Japan  Corporation.  All  Rights  Reserved.  無断引⽤用・転載禁⽌止 ヤフーのパイプラインが抱える課題 課題2:  クローズなシステムの限界 課題1:  データ量量と種類は指数関数的に増える
  • 11.
    Copyright  (C)  2015 Yahoo  Japan  Corporation.  All  Rights  Reserved.  無断引⽤用・転載禁⽌止 課題1  :  データ量量と種類は指数関数的に増える   0 212:, 2 0 0 :   0   0 0 0 ( ) ,2 31 0 9 85746     001 4 3 9 43 5 5 ヤフー社内でも爆増
  • 12.
    Copyright  (C)  2015 Yahoo  Japan  Corporation.  All  Rights  Reserved.  無断引⽤用・転載禁⽌止 課題1  :  売上はデータ量量の爆増的に増えない   データ量量は指数関数で増えても・・・ 0 212:, 2 0 0 :   0   0 0 0 ( ) ,2 31 0 9 85746 売上は指数関数的に増えない
  • 13.
    Copyright  (C)  2015 Yahoo  Japan  Corporation.  All  Rights  Reserved.  無断引⽤用・転載禁⽌止 課題1  :  データ量量と種類は指数関数的に増える   0 212:, 2 0 0 :   0   0 0 0 ( ) ,2 31 0 9 85746     001 4 3 9 43 5 5 ヤフー社内でも爆増 受けられるトラフィックは線形の成⻑⾧長ではなく…              指数関数に成長させたい!
  • 14.
    Copyright  (C)  2015 Yahoo  Japan  Corporation.  All  Rights  Reserved.  無断引⽤用・転載禁⽌止 課題2  :  クローズなシステムの限界 •  試⾏行行回数が少ない •  システムそのものの開発スピードが遅い •  インターフェースがオープンではないため、 ガラパゴス化する
  • 15.
    Copyright  (C)  2015 Yahoo  Japan  Corporation.  All  Rights  Reserved.  無断引⽤用・転載禁⽌止 難しい課題を解決するためにやっていること 画像:アフロ
  • 16.
    Copyright  (C)  2015 Yahoo  Japan  Corporation.  All  Rights  Reserved.  無断引⽤用・転載禁⽌止 爆増対策  :  売上はデータ量量の爆増的に増えない   データ量量は指数関数で増えても・・・ 0 212:, 2 0 0 :   0   0 0 0 ( ) ,2 31 0 9 85746 売上は指数関数的に増えない 技術⼒力力でカバーする
  • 17.
    Copyright  (C)  2015 Yahoo  Japan  Corporation.  All  Rights  Reserved.  無断引⽤用・転載禁⽌止 爆増対策:掛け算で考える サ ー バ を 増 や す だ け で な く 、 様 々 な レ イ ヤ で 技 術 的 に 向 上 さ せ る い ま ま で : サ ー バ を ⾜足 す .   .   .   400  台 +40  台 + こ れ か ら : 各 レ イ ヤ を 技 術 で 効 率率率 化 アプリケーション     データセンター OS ネットワーク ハードウェア     プラットフォーム     x2 x2 x2 x2 x2 x2 64  倍 .   .   .  
  • 18.
    Copyright  (C)  2015 Yahoo  Japan  Corporation.  All  Rights  Reserved.  無断引⽤用・転載禁⽌止 オープンな技術を使う クローズ オープン 試⾏行行回数 少ない 多い 開発スピード 遅い 速い インタフェース ガラパゴス 豊富
  • 19.
    Copyright  (C)  2015 Yahoo  Japan  Corporation.  All  Rights  Reserved.  無断引⽤用・転載禁⽌止 次世代パイプライン Soft              :  Kafka  ,  MirrorMaker Hard            :  OCP  ,  sw Network  :  Fabric  network
  • 20.
    Copyright  (C)  2015 Yahoo  Japan  Corporation.  All  Rights  Reserved.  無断引⽤用・転載禁⽌止 Kafkaとは •  低遅延で⾼高スループット •  耐障害性が⾼高い •  トピックやパーティションの概念念 •  インターフェースが豊富 •  スケールアウトが容易易・低コスト •  開発コミュニティが活発である メッセージングブローカーで、データを分散・分割・レプリケーションを⾏行行い、 管理理することができるサービス。 クライアントとサーバの通信は、⾔言語にとらわれず   TCP  protocol  によってシンプルに⾏行行われる。 次世代パイプライン
  • 21.
    Copyright  (C)  2015 Yahoo  Japan  Corporation.  All  Rights  Reserved.  無断引⽤用・転載禁⽌止 次世代パイプライン producer:メッセージを書き込む consumer  :メッセージを読み込む broker  :メッセージをストアする cluster  :  複数のbroker  で形成する Kafkaのコンポーネント producer producer producer broker consumer consumer consumer
  • 22.
    Copyright  (C)  2015 Yahoo  Japan  Corporation.  All  Rights  Reserved.  無断引⽤用・転載禁⽌止 次世代パイプライン MirrorMaker kafka  cluster •  あるKafkaクラスタから、 他のKafkaクラスタに対して、 対象のログを転送しミラーする •  Scala製 •  ConsumerとProducerが 組み合わさった構造   Mirror  Maker kafka  cluster
  • 23.
    Copyright  (C)  2015 Yahoo  Japan  Corporation.  All  Rights  Reserved.  無断引⽤用・転載禁⽌止 次世代パイプライン
  • 24.
    Copyright  (C)  2015 Yahoo  Japan  Corporation.  All  Rights  Reserved.  無断引⽤用・転載禁⽌止 次世代パイプライン n  Local cluster •  Daily Traffic : 44.5 TB(圧縮済み) •  サーバ台数:35台 •  レプリケーションファクター:3 n Aggregate cluster •  Daily Traffic : 135 TB(圧縮済み) •  サーバ台数:83台 •  レプリケーションファクター:3
  • 25.
    Copyright  (C)  2015 Yahoo  Japan  Corporation.  All  Rights  Reserved.  無断引⽤用・転載禁⽌止 まとめ 課題と解決策 •  データの爆増 →  各レイヤで技術的に解決する •  クローズなシステム →  オープンなシステムに 次世代パイプラインの特徴 •  ユーザレスポンスを意識識した構成に
  • 26.
    Copyright  (C)  2015 Yahoo  Japan  Corporation.  All  Rights  Reserved.  無断引⽤用・転載禁⽌止 最後に このパイプラインで得られた知⾒見見や課題を Kafka  に  FB  やコントリビュートし、 データパイプラインの発展に 貢献していきます