あんまり知られていない
InfiniBandの話
2018/5/9 さくらインターネット株式会社 さくらインターネット研究所 鷲北 賢
(C) Copyright 1996-2017 SAKURA Internet Inc
自己紹介
• 鷲北 賢(わしきた けん)
• 1998年4月入社
• バックボーンのお守りからサービス開発まで
─ 初期の専用サーバ、データセンター構築
─ オンラインゲームプロジェクト
─ CTO兼取締役、などなど
• 2009年より、さくらインターネット研究所 所長
─ 仮想化技術の研究(Linux KVM)
─ さくらのVPS開発ヘルプ
• 2011年~2018年、さくらのクラウド開発兼務
• 現在新規プロジェクト立ち上げ中…
• @ken_washikita
• https://facebook.com/ken_washikita
2
InfiniBand?
3
InfiniBandとさくらインターネット
• 研究所の取り組みは2010年ごろ
─ 「高速インターネットアクセス研究」の一環で
─ ハイバンド・アクセス・デバイスを片っ端から試す
─ 当時は10GbEは登場していたものの、そこそこ高かった
─ InfiniBandは40Gbpsを達成しており
かつ10GbEと同程度の価格帯だった
4
InfiniBandの特長
• ハイバンド(帯域が大きい)
─ 比較的。最近はEthernetも追いついてきた
• 低レイテンシ
─ 数マイクロ秒以下、百ナノ秒単位
─ Ethernetはミリ秒単位、一千倍以上速い
• フレームサイズが大きい
─ 64KB
─ IPは1500バイト
• RDMA(Remote Direct Memory Access)
─ 他のプロセッサのメモリへIBを通してアクセスできる機能
─ 低レイテンシ&ハイバンドで高速アクセス可能
5
参考:Wikipedia
利用例
• HPC(High-performance Computing)
─ スーパーコンピュータ的なもの
─ 最近のトレンドはマルチサーバ/マルチプロセッサ
─ 多数(数百~数千台)のプロセッサを接続して分散処理
─ その接続(インターコネクト)にIBが欠かせない
• 映像分野(画像処理)
─ 4K、8Kの時代になってデータサイズが爆発
─ 素材も3D化、高精細化し、ますます巨大に
─ 巨大なデータを高速転送するために、IBがフィットする
ケースも多々あり
6
こんな事例も
7
さて
8
2011年3月
• さくらのクラウド、開発スタート
─ 開発部門はVPSで大忙し
─ 新規事業室と研究所のジョイントフォースが担当
─ 11月、石狩データセンター開所と同時にリリース
• ネットワーク・インフラどうしよう?
─ バックプレーンに必要な帯域が予測できない
─ かといって無駄にお金を使えない
─ 10GbE、40GbEはまだ高い…
─ InfiniBand(QDR)使おうぜ! 実効20Gbps出るし!
• 大学の先生に盛大にdisられる
─ アカデミックでは散々な目にあっていらっしゃるそうで
9
IP over InfiniBand
• RFC4755
• 簡単に言うと、ドライバ入れればIPが使えるってこと
[root@sac-is1a-sv001 ~]# ip a show dev ib0
5: ib0: <BROADCAST,MULTICAST,SLAVE,UP,LOWER_UP> mtu 65520 qdisc
pfifo_fast master bond0 state UP qlen 256
link/infiniband
80:00:02:08:fe:80:00:00:00:00:00:00:00:02:c9:03:00:4e:53:cf brd
00:ff:ff:ff:ff:12:40:1b:ff:ff:00:00:00:00:00:00:ff:ff:ff:ff
─ MTU:65520
─ MACがチョー長い
─ (クラウドの都合でbond化してます)
─ 最近のディストリはドライバを標準搭載しています
10
IP over InfiniBand
• バースト転送性能は圧倒的
• 10,000発のflood pingの場合、10倍以上の差になる
11
InfiniBand
Ethernet
IP over InfiniBand
• ちょっとしたクセもある
• 平均的なRTTは
IBの方がよい
• 一発目だけ極端
に数値が悪い
• セグメント管理
の方式が異なる
ため
12
InfiniBand
Ethernet
SM(Subnet Manager)
• InfiniBandネットワークに欠かせない構成要素
• サブネット全体の物理トポロジを検出/管理する
─ 全エンドノード、スイッチ、ルータにIDを付与
─ すべてのパスについて最短経路を計算
• マルチパスがあれば自動でロードバランスする
• SMがフォワーディングテーブルをSWに設定
• 定期的にサブネット内を監視(Sweep)
─ 変更があれば動的に対応する
─ 監視間隔はデフォルトで10秒、変更可能
• SMは複数設置できる
─ 1つをマスタとし、他はスタンバイ
─ 優先順位も設定可能
13
参考:Infiniband Day02 Infiniband入門 xsigo systems
http://www.viops.jp/ibday02-BASIC-xsigo.pdf
さくらのクラウド・ネットインフラ
14
ホスト
ホスト
ホスト
ホスト
ホスト
ホスト
ホスト
VM
VM
VM
ホスト
VM
VM
VM
ストレージ
ネットワーク
InfiniBand
Xsigo
ストレージ
ストレージ
すごいね!
15
でもね
16
いいことばかりではない
• 2011年の10GbEは高かったが、今は安い
─ 価格優位性はほとんどなくなった
• 運用ノウハウや管理コストはバカにならない
─ 新しいカード(HCA)、新しいスイッチに適応しないと
─ 結構大変だった
• IPとの親和性
─ 必ずしも100%しっくりするわけではない
─ 特にIB/IPブリッジ部分がウィークポイント
• クラウドの運用実績から分かったこと
─ バックプレーン、特にサーバのコネクティビティは10GbE
で十分
─ IBはやめることにしました
17
ザソネソ
18
おしまい
……?
19
高火力GPUサーバ
20
高火力ユーザがIBを欲している
• 高火力においてインターコネクトはHPCに通じる
• ユーザ層がアカデミアに通じる
• InfiniBandを希望/指定されるケースが多数
─ FDR(56Gbps)接続、10台から40台ぐらいの規模
─ 機械学習用のGPUサーバファーム
─ MPIで利用するケース
─ 独自ソフトウェアでカリカリ利用するケース
─ RDMAを用いてGPUをダイレクトに利用するケース
• SM使っていません
─ シングルスイッチなので不要
─ 障害があっても組み直してやり直せばいいや、とか
─ (うらやましい…)
21
InfiniBand!
22
おしまい
23

Sakura infini band-20180424