SlideShare a Scribd company logo
シーサーでの InfiniBand 導入事例

Infiniband DAY [06]


                シーサー株式会社 石川直人
何につかってるか
● ストレージのファブリックにInfiniBand SRP
  ○ 仮想化環境 XenServer のストレージとして
  ○ 運用開始1年半くらい
● DBサーバーのサーバー間通信にIPoIB
  ○ 自社サービス Seesaaブログで利用
  ○ MySQL Master / Slaveの通信
  ○ 運用開始10ヶ月程度
XenServerでSRPを使う
● SRP (SCSI RDMA Protocol)
  ○ InfiniBand ULPの1つ
  ○ 比較的早いプロトコル
  ○ マルチパスの利用可
● XenServer ではSRPのサポート無し
● XenServer 5.5
  ○ OFED 1.4.2
● Scientific Linux 6.2 (ストレージ)
  ○ OFED 1.5.4
  ○ SCST 2.2.0 SRP target
10GbE 24port    10GbE 24port             共用&管理ネットワーク

XenServer 5.5 sp2


            HP DL380                                          HP DL380
       Xeon E5620x2                                       Xeon E5620x2
       144GB MEM                                          144GB MEM
       IB QDR 2port x1                                    IB QDR 2port x1
       10GbE 2port x2                                     10GbE 2port x2




                                                                   InfiniBand SRP SAN
                         IB QDR 36port    IB QDR 36port           マルチパスによる冗長化



SL6.2 DRBD SCST

           HP DL180                                           HP DL180

       Xeon E5645x2                                       Xeon E5645x2
       24GB MEM                          IPoIB            24GB MEM
       900GB 10KRPMx25                   DRBD             900GB 10KRPMx25
       1.2TB ioDrive                                      1.2TB ioDrive
       IB QDR 2port x1                                    IB QDR 2port x1
主なセットアップ項目
●XenServer へのOFEDインストール
   ○ XenServer 5.5 / OFED 1.4.2
   ○ DDK (Driver Development Kit)上でOFED をmake
●SRPターゲット
   ○ SL6.2 / OFED 1.5.4 / scst 2.2.0
●DRBD セットアップ
   ○ デュアルプライマリ
●DM-multipath の設定
   ○ XenServer 側は srp イニシエータ設定でマルチパス有
     効に(SRPHA_ENABLE=yes)
XenServer + SRP 稼働状況
● パフォーマンス
 ○ スループットはストレージの限界値近くでた
 ○ fio 4kランダムリード
    ■ ioDrive
     ●   SRP で半分劣化→VMで3割劣化
     ●   100kiops -> 50k -> 35k
   ■ HDD
     ●   5000程度のiops
     ●   SRP -> Dom0 -> VM まで顕著な劣化はなかった
● 稼働1年半でSRPに起因するトラブル無し
 ○ 稼働するVMは中規模サービスのDB/ファイルサーバー
   が複数個
 ○ 手動フェールオーバー等のオペレーションはしてない
XenServer + SRP その他
● XenServer 5.5 が安定していた
  ○ srpモジュール組み込み、 multipath の挙動
  ○ マイグレーション時のNW断
● iSCSI on IPoIB
  ○ スループットは出る
  ○ ランダムIOはSRPより劣る
● XenServer でiSER
  ○ ib_iser 組み込み失敗(5.5,5.6,6.0)
● XenServer 6.0 srp
  ○ scsi_transport_srpを有効にすれば利用可
  ○ multipath 時のフェールオーバーに時間がかかる
  ○ マイグレーション時に完全停止が発生してしまう
SeesaaブログでInfiniBandを使う
● サービス規模
 ○ 月間で2600万ユニークユーザ、16億PV
● データベースにMySQLを利用
 ○   5.1.x / utf8 / 全てMyISAM
 ○   テーブルのサイズ合計は1TB程度
 ○   マスター+スレーブ3台の計4台 
 ○   ストレージにioDrive
 ○   クラスタリング等はおこなっていない
● InfiniBand を用いて障害復旧時間の短縮
 ○ マスタ障害時はスレーブから復旧
 ○ リモートからのコピー時間=復旧時間
ブログMySQL構成
レプリケーションは一                    1Gbps Swtich
日一回短時間でおこ
なう
                                             冗長化


       db1             db2                db101            db102
      マスタDB        スレーブ/バックアップ          スレーブ/参照用         スレーブ/参照用


                                                     IPoIB
                                                     40Gbps
  HP DL360 G7                 Infiniband QDR switch  の帯域幅
  Xeon X5650x2
  8GBx6=48GB MEM                                    負荷の高いテーブルを ioDrive 領域に、
                                                    低いテーブルを HDD領域に配置
  SAS 2.5 146GB 15KRPMx2 raid1
  SAS 2.5 600GB 10KRPMx5 raid10 + ioDriveDuo 1.2TB
  Scientific Linux 6.2 / OFED 1.5.4
MySQL + IPoIB 稼働状況
● マスタ・スレーブ間の通信はIPoIB
 ○ 10ヶ月程度の運用でネットワークの障害は無い
● 障害時のオペレーション
 ○   レプリケーションの再構築が主な作業
 ○   再構築には生ファイルのコピーをおこなう
 ○   コピーには rsync ではなくnfsを利用している
 ○   nfs 上の cp -a で GB/sec のスループット
 ○   =1TBで15分程度
OFED IPoIB セットアップ
# OFEDの取得とインストール
wget http://www.openfabrics.org/downloads/OFED/ofed-1.5.4/OFED-1.5.4.tgz
tar zxvf OFED-1.5.4.tgz && cd OFED-1.5.4
vi ofed.conf # インストールパッケージの指定 ipoib=y
./install.pl -c ofed.conf # RPMが作成され、インストールがおこなわれる
vi /etc/infiniband/openib.conf # IPOIB_LOAD=yes

# /etc/init.d/openibd にて ibX でネットワークインターフェースが作成されます
cat /etc/sysconfig/network-scripts/ifcfg-ib0
DEVICE=ib0
TYPE=Infiniband
BOOTPROTO=static
IPADDR=10.11.1.11
PREFIX=24
NETWORK=10.11.1.0
BROADCAST=10.11.1.255
ONBOOT=yes
まとめ
● InfiniBand を用いることにより
  ○ 仮想化環境では高いスループットと低遅延なストレージ
    を構築、運用ができている
  ○ データベース環境では40Gbpsのスループットを生かし、
    障害復旧の時間を狭められるためシンプルな構成と運
    用が可能

More Related Content

What's hot

10GbE時代のネットワークI/O高速化
10GbE時代のネットワークI/O高速化10GbE時代のネットワークI/O高速化
10GbE時代のネットワークI/O高速化
Takuya ASADA
 
Ethernetの受信処理
Ethernetの受信処理Ethernetの受信処理
Ethernetの受信処理
Takuya ASADA
 
GNS3上の仮想アプライアンス+GitLabRunner+BDDによるテスト自動化
GNS3上の仮想アプライアンス+GitLabRunner+BDDによるテスト自動化GNS3上の仮想アプライアンス+GitLabRunner+BDDによるテスト自動化
GNS3上の仮想アプライアンス+GitLabRunner+BDDによるテスト自動化
Shigeru Tsubota
 
DPDKを拡張してみた話し
DPDKを拡張してみた話しDPDKを拡張してみた話し
DPDKを拡張してみた話し
Lagopus SDN/OpenFlow switch
 
Ubuntuとコンテナ技術 What is LXD? and Why? 2015-12-08
Ubuntuとコンテナ技術 What is LXD? and Why? 2015-12-08Ubuntuとコンテナ技術 What is LXD? and Why? 2015-12-08
Ubuntuとコンテナ技術 What is LXD? and Why? 2015-12-08
Nobuto Murata
 
FreeBSD 12.0 RELEASE!
FreeBSD 12.0 RELEASE!FreeBSD 12.0 RELEASE!
FreeBSD 12.0 RELEASE!
Yuichiro Naito
 
Trema での Open vSwitch
Trema での Open vSwitchTrema での Open vSwitch
Trema での Open vSwitch
kazuyas
 
FreeBSD jail+vnetと戯れた話
FreeBSD jail+vnetと戯れた話FreeBSD jail+vnetと戯れた話
FreeBSD jail+vnetと戯れた話
Masaru Oki
 
FreeBSD Capsicum
FreeBSD CapsicumFreeBSD Capsicum
FreeBSD Capsicum
Yuichiro Naito
 
WireGurad in the FreeBSD kernel
WireGurad in the FreeBSD kernelWireGurad in the FreeBSD kernel
WireGurad in the FreeBSD kernel
Yuichiro Naito
 
Raspberry PiでNode.js(ミニラックサーバ構築編)
Raspberry PiでNode.js(ミニラックサーバ構築編)Raspberry PiでNode.js(ミニラックサーバ構築編)
Raspberry PiでNode.js(ミニラックサーバ構築編)
Amuro Nishizawa
 
軽量高機能webサーバーnginx
軽量高機能webサーバーnginx軽量高機能webサーバーnginx
軽量高機能webサーバーnginx
ngi group.
 
OpenvswitchでVPS
OpenvswitchでVPSOpenvswitchでVPS
OpenvswitchでVPS
Daisuke Nakajima
 
OSvの概要と実装
OSvの概要と実装OSvの概要と実装
OSvの概要と実装
Takuya ASADA
 
Open vSwitchソースコードの全体像
Open vSwitchソースコードの全体像 Open vSwitchソースコードの全体像
Open vSwitchソースコードの全体像
Sho Shimizu
 
Unbound/NSD最新情報(OSC 2014 Tokyo/Spring)
Unbound/NSD最新情報(OSC 2014 Tokyo/Spring)Unbound/NSD最新情報(OSC 2014 Tokyo/Spring)
Unbound/NSD最新情報(OSC 2014 Tokyo/Spring)
Takashi Takizawa
 
CouchDB JP & BigCouch
CouchDB JP & BigCouchCouchDB JP & BigCouch
CouchDB JP & BigCouch
Yohei Sasaki
 
“bcache”を使ってSSDの速さと HDDの大容量のいいとこどり 2015-12-12
“bcache”を使ってSSDの速さと HDDの大容量のいいとこどり 2015-12-12“bcache”を使ってSSDの速さと HDDの大容量のいいとこどり 2015-12-12
“bcache”を使ってSSDの速さと HDDの大容量のいいとこどり 2015-12-12
Nobuto Murata
 
Rps・rfs等最新linux kernel事例
Rps・rfs等最新linux kernel事例Rps・rfs等最新linux kernel事例
Rps・rfs等最新linux kernel事例
Takuya ASADA
 
Lagopus as open flow hybrid switch 実践編
Lagopus as open flow hybrid switch 実践編Lagopus as open flow hybrid switch 実践編
Lagopus as open flow hybrid switch 実践編
Masaru Oki
 

What's hot (20)

10GbE時代のネットワークI/O高速化
10GbE時代のネットワークI/O高速化10GbE時代のネットワークI/O高速化
10GbE時代のネットワークI/O高速化
 
Ethernetの受信処理
Ethernetの受信処理Ethernetの受信処理
Ethernetの受信処理
 
GNS3上の仮想アプライアンス+GitLabRunner+BDDによるテスト自動化
GNS3上の仮想アプライアンス+GitLabRunner+BDDによるテスト自動化GNS3上の仮想アプライアンス+GitLabRunner+BDDによるテスト自動化
GNS3上の仮想アプライアンス+GitLabRunner+BDDによるテスト自動化
 
DPDKを拡張してみた話し
DPDKを拡張してみた話しDPDKを拡張してみた話し
DPDKを拡張してみた話し
 
Ubuntuとコンテナ技術 What is LXD? and Why? 2015-12-08
Ubuntuとコンテナ技術 What is LXD? and Why? 2015-12-08Ubuntuとコンテナ技術 What is LXD? and Why? 2015-12-08
Ubuntuとコンテナ技術 What is LXD? and Why? 2015-12-08
 
FreeBSD 12.0 RELEASE!
FreeBSD 12.0 RELEASE!FreeBSD 12.0 RELEASE!
FreeBSD 12.0 RELEASE!
 
Trema での Open vSwitch
Trema での Open vSwitchTrema での Open vSwitch
Trema での Open vSwitch
 
FreeBSD jail+vnetと戯れた話
FreeBSD jail+vnetと戯れた話FreeBSD jail+vnetと戯れた話
FreeBSD jail+vnetと戯れた話
 
FreeBSD Capsicum
FreeBSD CapsicumFreeBSD Capsicum
FreeBSD Capsicum
 
WireGurad in the FreeBSD kernel
WireGurad in the FreeBSD kernelWireGurad in the FreeBSD kernel
WireGurad in the FreeBSD kernel
 
Raspberry PiでNode.js(ミニラックサーバ構築編)
Raspberry PiでNode.js(ミニラックサーバ構築編)Raspberry PiでNode.js(ミニラックサーバ構築編)
Raspberry PiでNode.js(ミニラックサーバ構築編)
 
軽量高機能webサーバーnginx
軽量高機能webサーバーnginx軽量高機能webサーバーnginx
軽量高機能webサーバーnginx
 
OpenvswitchでVPS
OpenvswitchでVPSOpenvswitchでVPS
OpenvswitchでVPS
 
OSvの概要と実装
OSvの概要と実装OSvの概要と実装
OSvの概要と実装
 
Open vSwitchソースコードの全体像
Open vSwitchソースコードの全体像 Open vSwitchソースコードの全体像
Open vSwitchソースコードの全体像
 
Unbound/NSD最新情報(OSC 2014 Tokyo/Spring)
Unbound/NSD最新情報(OSC 2014 Tokyo/Spring)Unbound/NSD最新情報(OSC 2014 Tokyo/Spring)
Unbound/NSD最新情報(OSC 2014 Tokyo/Spring)
 
CouchDB JP & BigCouch
CouchDB JP & BigCouchCouchDB JP & BigCouch
CouchDB JP & BigCouch
 
“bcache”を使ってSSDの速さと HDDの大容量のいいとこどり 2015-12-12
“bcache”を使ってSSDの速さと HDDの大容量のいいとこどり 2015-12-12“bcache”を使ってSSDの速さと HDDの大容量のいいとこどり 2015-12-12
“bcache”を使ってSSDの速さと HDDの大容量のいいとこどり 2015-12-12
 
Rps・rfs等最新linux kernel事例
Rps・rfs等最新linux kernel事例Rps・rfs等最新linux kernel事例
Rps・rfs等最新linux kernel事例
 
Lagopus as open flow hybrid switch 実践編
Lagopus as open flow hybrid switch 実践編Lagopus as open flow hybrid switch 実践編
Lagopus as open flow hybrid switch 実践編
 

Viewers also liked

低遅延Ethernetとファブリックによるデータセンタ・ネットワーク
低遅延Ethernetとファブリックによるデータセンタ・ネットワーク低遅延Ethernetとファブリックによるデータセンタ・ネットワーク
低遅延Ethernetとファブリックによるデータセンタ・ネットワーク
Naoto MATSUMOTO
 
いまパブリッククラウドで起きているコト
いまパブリッククラウドで起きているコトいまパブリッククラウドで起きているコト
いまパブリッククラウドで起きているコト
Naoto MATSUMOTO
 
HBaseでグラフ構造を扱う(開発中)
HBaseでグラフ構造を扱う(開発中)HBaseでグラフ構造を扱う(開発中)
HBaseでグラフ構造を扱う(開発中)
Toshihiro Suzuki
 
RDMA for Windows Server 2012
RDMA for Windows Server 2012RDMA for Windows Server 2012
RDMA for Windows Server 2012
Naoto MATSUMOTO
 
ベンチマーク勉強会#03
ベンチマーク勉強会#03ベンチマーク勉強会#03
ベンチマーク勉強会#03
milk hanakara
 
0円でできる自宅InfiniBandプログラム
0円でできる自宅InfiniBandプログラム0円でできる自宅InfiniBandプログラム
0円でできる自宅InfiniBandプログラム
Minoru Nakamura
 
SC16 NVIDIA NEWS
SC16 NVIDIA NEWSSC16 NVIDIA NEWS
SC16 NVIDIA NEWS
Kuninobu SaSaki
 
Dentoo.LT12 並列処理・MPIの第一歩 20151025
Dentoo.LT12 並列処理・MPIの第一歩 20151025Dentoo.LT12 並列処理・MPIの第一歩 20151025
Dentoo.LT12 並列処理・MPIの第一歩 20151025
HPCシステムズ株式会社
 
x86-64/Linuxに独自メモリ空間を勝手増設
x86-64/Linuxに独自メモリ空間を勝手増設x86-64/Linuxに独自メモリ空間を勝手増設
x86-64/Linuxに独自メモリ空間を勝手増設
Minoru Nakamura
 
How to make good Xeon Phi
How to make good Xeon PhiHow to make good Xeon Phi
How to make good Xeon Phi
Naoto MATSUMOTO
 
災害コミュニケーションと視覚情報の共有
災害コミュニケーションと視覚情報の共有災害コミュニケーションと視覚情報の共有
災害コミュニケーションと視覚情報の共有
Naoto MATSUMOTO
 
USiZEにおけるVyatta活用事例
USiZEにおけるVyatta活用事例USiZEにおけるVyatta活用事例
USiZEにおけるVyatta活用事例
Naoto MATSUMOTO
 
研究所コンテンツは海外へどう拡散しているか?
研究所コンテンツは海外へどう拡散しているか?研究所コンテンツは海外へどう拡散しているか?
研究所コンテンツは海外へどう拡散しているか?
Naoto MATSUMOTO
 
プログラマ目線から見たRDMAのメリットと その応用例について
プログラマ目線から見たRDMAのメリットとその応用例についてプログラマ目線から見たRDMAのメリットとその応用例について
プログラマ目線から見たRDMAのメリットと その応用例について
Masanori Itoh
 
Persistent-Memory-Programming-Model
Persistent-Memory-Programming-ModelPersistent-Memory-Programming-Model
Persistent-Memory-Programming-Model
Minoru Nakamura
 
Jvm reading-synchronization
Jvm reading-synchronizationJvm reading-synchronization
Jvm reading-synchronization
Minoru Nakamura
 
MPIによる並列計算
MPIによる並列計算MPIによる並列計算
MPIによる並列計算
HPCシステムズ株式会社
 
JVM-Reading-ConcurrentMarkSweep
JVM-Reading-ConcurrentMarkSweepJVM-Reading-ConcurrentMarkSweep
JVM-Reading-ConcurrentMarkSweep
Minoru Nakamura
 

Viewers also liked (20)

低遅延Ethernetとファブリックによるデータセンタ・ネットワーク
低遅延Ethernetとファブリックによるデータセンタ・ネットワーク低遅延Ethernetとファブリックによるデータセンタ・ネットワーク
低遅延Ethernetとファブリックによるデータセンタ・ネットワーク
 
いまパブリッククラウドで起きているコト
いまパブリッククラウドで起きているコトいまパブリッククラウドで起きているコト
いまパブリッククラウドで起きているコト
 
HBaseでグラフ構造を扱う(開発中)
HBaseでグラフ構造を扱う(開発中)HBaseでグラフ構造を扱う(開発中)
HBaseでグラフ構造を扱う(開発中)
 
RDMA for Windows Server 2012
RDMA for Windows Server 2012RDMA for Windows Server 2012
RDMA for Windows Server 2012
 
ベンチマーク勉強会#03
ベンチマーク勉強会#03ベンチマーク勉強会#03
ベンチマーク勉強会#03
 
0円でできる自宅InfiniBandプログラム
0円でできる自宅InfiniBandプログラム0円でできる自宅InfiniBandプログラム
0円でできる自宅InfiniBandプログラム
 
SC16 NVIDIA NEWS
SC16 NVIDIA NEWSSC16 NVIDIA NEWS
SC16 NVIDIA NEWS
 
Jvm reading-parallel gc
Jvm reading-parallel gcJvm reading-parallel gc
Jvm reading-parallel gc
 
Dentoo.LT12 並列処理・MPIの第一歩 20151025
Dentoo.LT12 並列処理・MPIの第一歩 20151025Dentoo.LT12 並列処理・MPIの第一歩 20151025
Dentoo.LT12 並列処理・MPIの第一歩 20151025
 
x86-64/Linuxに独自メモリ空間を勝手増設
x86-64/Linuxに独自メモリ空間を勝手増設x86-64/Linuxに独自メモリ空間を勝手増設
x86-64/Linuxに独自メモリ空間を勝手増設
 
How to make good Xeon Phi
How to make good Xeon PhiHow to make good Xeon Phi
How to make good Xeon Phi
 
災害コミュニケーションと視覚情報の共有
災害コミュニケーションと視覚情報の共有災害コミュニケーションと視覚情報の共有
災害コミュニケーションと視覚情報の共有
 
USiZEにおけるVyatta活用事例
USiZEにおけるVyatta活用事例USiZEにおけるVyatta活用事例
USiZEにおけるVyatta活用事例
 
研究所コンテンツは海外へどう拡散しているか?
研究所コンテンツは海外へどう拡散しているか?研究所コンテンツは海外へどう拡散しているか?
研究所コンテンツは海外へどう拡散しているか?
 
プログラマ目線から見たRDMAのメリットと その応用例について
プログラマ目線から見たRDMAのメリットとその応用例についてプログラマ目線から見たRDMAのメリットとその応用例について
プログラマ目線から見たRDMAのメリットと その応用例について
 
Persistent-Memory-Programming-Model
Persistent-Memory-Programming-ModelPersistent-Memory-Programming-Model
Persistent-Memory-Programming-Model
 
JVM-Reading-ParalleGC
JVM-Reading-ParalleGCJVM-Reading-ParalleGC
JVM-Reading-ParalleGC
 
Jvm reading-synchronization
Jvm reading-synchronizationJvm reading-synchronization
Jvm reading-synchronization
 
MPIによる並列計算
MPIによる並列計算MPIによる並列計算
MPIによる並列計算
 
JVM-Reading-ConcurrentMarkSweep
JVM-Reading-ConcurrentMarkSweepJVM-Reading-ConcurrentMarkSweep
JVM-Reading-ConcurrentMarkSweep
 

Similar to シーサーでのInfiniBand導入事例

Windows Azure の中でも動いている InfiniBand って何?
Windows Azure の中でも動いている InfiniBand って何?Windows Azure の中でも動いている InfiniBand って何?
Windows Azure の中でも動いている InfiniBand って何?
Sunao Tomita
 
[dbts-2014-tokyo] 目指せExadata!! Oracle DB高速化を目指した構成
[dbts-2014-tokyo] 目指せExadata!! Oracle DB高速化を目指した構成[dbts-2014-tokyo] 目指せExadata!! Oracle DB高速化を目指した構成
[dbts-2014-tokyo] 目指せExadata!! Oracle DB高速化を目指した構成
Yahoo!デベロッパーネットワーク
 
Sheepdogを使ってみて分かったこと(第六回ストレージ研究会発表資料)
Sheepdogを使ってみて分かったこと(第六回ストレージ研究会発表資料)Sheepdogを使ってみて分かったこと(第六回ストレージ研究会発表資料)
Sheepdogを使ってみて分かったこと(第六回ストレージ研究会発表資料)
Masahiro Tsuji
 
Router board勉強会vol2(配布用)
Router board勉強会vol2(配布用)Router board勉強会vol2(配布用)
Router board勉強会vol2(配布用)
milk hanakara
 
osoljp201105_ZFSjiman_nslope
osoljp201105_ZFSjiman_nslopeosoljp201105_ZFSjiman_nslope
osoljp201105_ZFSjiman_nslope
Noriyasu Sakaue
 
OSC 2011 Tokyo/Fall 自宅SAN友の会 (Infinibandお試し編)
OSC 2011 Tokyo/Fall 自宅SAN友の会 (Infinibandお試し編)OSC 2011 Tokyo/Fall 自宅SAN友の会 (Infinibandお試し編)
OSC 2011 Tokyo/Fall 自宅SAN友の会 (Infinibandお試し編)
Satoshi Shimazaki
 
Crooz meet fusion io3 open
Crooz meet fusion io3 openCrooz meet fusion io3 open
Crooz meet fusion io3 open
takaoka susumu
 
TripleOの光と闇
TripleOの光と闇TripleOの光と闇
TripleOの光と闇
Manabu Ori
 
hbstudy25 劇的ビフォーアフター
hbstudy25 劇的ビフォーアフターhbstudy25 劇的ビフォーアフター
hbstudy25 劇的ビフォーアフター
semind
 
KVM Cluster with DRBD, ioDrive2 and Infiniband (130802 OSC京都)
KVM Cluster with DRBD, ioDrive2 and Infiniband (130802 OSC京都)KVM Cluster with DRBD, ioDrive2 and Infiniband (130802 OSC京都)
KVM Cluster with DRBD, ioDrive2 and Infiniband (130802 OSC京都)
株式会社サードウェア
 
ゆるふわLinux-HA 〜PostgreSQL編〜
ゆるふわLinux-HA 〜PostgreSQL編〜ゆるふわLinux-HA 〜PostgreSQL編〜
ゆるふわLinux-HA 〜PostgreSQL編〜
Taro Matsuzawa
 
An Intelligent Storage?
An Intelligent Storage?An Intelligent Storage?
An Intelligent Storage?
Kohei KaiGai
 
OpenStackでつくる開発環境と外道塾
OpenStackでつくる開発環境と外道塾OpenStackでつくる開発環境と外道塾
OpenStackでつくる開発環境と外道塾
外道 父
 
FPGA+SoC+Linux実践勉強会資料
FPGA+SoC+Linux実践勉強会資料FPGA+SoC+Linux実践勉強会資料
FPGA+SoC+Linux実践勉強会資料
一路 川染
 
UnboundとNSDの紹介 BIND9との比較編
UnboundとNSDの紹介 BIND9との比較編UnboundとNSDの紹介 BIND9との比較編
UnboundとNSDの紹介 BIND9との比較編
hdais
 
ヤフーを支えるフラッシュストレージ
ヤフーを支えるフラッシュストレージヤフーを支えるフラッシュストレージ
ヤフーを支えるフラッシュストレージ
Yahoo!デベロッパーネットワーク
 

Similar to シーサーでのInfiniBand導入事例 (20)

Windows Azure の中でも動いている InfiniBand って何?
Windows Azure の中でも動いている InfiniBand って何?Windows Azure の中でも動いている InfiniBand って何?
Windows Azure の中でも動いている InfiniBand って何?
 
[dbts-2014-tokyo] 目指せExadata!! Oracle DB高速化を目指した構成
[dbts-2014-tokyo] 目指せExadata!! Oracle DB高速化を目指した構成[dbts-2014-tokyo] 目指せExadata!! Oracle DB高速化を目指した構成
[dbts-2014-tokyo] 目指せExadata!! Oracle DB高速化を目指した構成
 
Sheepdogを使ってみて分かったこと(第六回ストレージ研究会発表資料)
Sheepdogを使ってみて分かったこと(第六回ストレージ研究会発表資料)Sheepdogを使ってみて分かったこと(第六回ストレージ研究会発表資料)
Sheepdogを使ってみて分かったこと(第六回ストレージ研究会発表資料)
 
Router board勉強会vol2(配布用)
Router board勉強会vol2(配布用)Router board勉強会vol2(配布用)
Router board勉強会vol2(配布用)
 
osoljp201105_ZFSjiman_nslope
osoljp201105_ZFSjiman_nslopeosoljp201105_ZFSjiman_nslope
osoljp201105_ZFSjiman_nslope
 
OSC 2011 Tokyo/Fall 自宅SAN友の会 (Infinibandお試し編)
OSC 2011 Tokyo/Fall 自宅SAN友の会 (Infinibandお試し編)OSC 2011 Tokyo/Fall 自宅SAN友の会 (Infinibandお試し編)
OSC 2011 Tokyo/Fall 自宅SAN友の会 (Infinibandお試し編)
 
Crooz meet fusion io3 open
Crooz meet fusion io3 openCrooz meet fusion io3 open
Crooz meet fusion io3 open
 
TripleOの光と闇
TripleOの光と闇TripleOの光と闇
TripleOの光と闇
 
retrobsd-2012-JUL-07 at JNUG BSD BoF
retrobsd-2012-JUL-07 at JNUG BSD BoFretrobsd-2012-JUL-07 at JNUG BSD BoF
retrobsd-2012-JUL-07 at JNUG BSD BoF
 
WalBの紹介
WalBの紹介WalBの紹介
WalBの紹介
 
hbstudy25 劇的ビフォーアフター
hbstudy25 劇的ビフォーアフターhbstudy25 劇的ビフォーアフター
hbstudy25 劇的ビフォーアフター
 
KVM Cluster with DRBD, ioDrive2 and Infiniband (130802 OSC京都)
KVM Cluster with DRBD, ioDrive2 and Infiniband (130802 OSC京都)KVM Cluster with DRBD, ioDrive2 and Infiniband (130802 OSC京都)
KVM Cluster with DRBD, ioDrive2 and Infiniband (130802 OSC京都)
 
ゆるふわLinux-HA 〜PostgreSQL編〜
ゆるふわLinux-HA 〜PostgreSQL編〜ゆるふわLinux-HA 〜PostgreSQL編〜
ゆるふわLinux-HA 〜PostgreSQL編〜
 
Kernel vm-2014-05-25
Kernel vm-2014-05-25Kernel vm-2014-05-25
Kernel vm-2014-05-25
 
An Intelligent Storage?
An Intelligent Storage?An Intelligent Storage?
An Intelligent Storage?
 
OpenStackでつくる開発環境と外道塾
OpenStackでつくる開発環境と外道塾OpenStackでつくる開発環境と外道塾
OpenStackでつくる開発環境と外道塾
 
Osc 20130223
Osc 20130223Osc 20130223
Osc 20130223
 
FPGA+SoC+Linux実践勉強会資料
FPGA+SoC+Linux実践勉強会資料FPGA+SoC+Linux実践勉強会資料
FPGA+SoC+Linux実践勉強会資料
 
UnboundとNSDの紹介 BIND9との比較編
UnboundとNSDの紹介 BIND9との比較編UnboundとNSDの紹介 BIND9との比較編
UnboundとNSDの紹介 BIND9との比較編
 
ヤフーを支えるフラッシュストレージ
ヤフーを支えるフラッシュストレージヤフーを支えるフラッシュストレージ
ヤフーを支えるフラッシュストレージ
 

More from Naoto MATSUMOTO

Alder Lake-S CPU Temperature Monitoring
Alder Lake-S CPU Temperature MonitoringAlder Lake-S CPU Temperature Monitoring
Alder Lake-S CPU Temperature Monitoring
Naoto MATSUMOTO
 
CPU製品出荷状況と消費電力の見える化
CPU製品出荷状況と消費電力の見える化CPU製品出荷状況と消費電力の見える化
CPU製品出荷状況と消費電力の見える化
Naoto MATSUMOTO
 
5Gの見える化
5Gの見える化5Gの見える化
5Gの見える化
Naoto MATSUMOTO
 
2023年以降のサーバークラスタリング設計(メモ)
2023年以降のサーバークラスタリング設計(メモ)2023年以降のサーバークラスタリング設計(メモ)
2023年以降のサーバークラスタリング設計(メモ)
Naoto MATSUMOTO
 
防災を考慮した水中調査の一考察
防災を考慮した水中調査の一考察防災を考慮した水中調査の一考察
防災を考慮した水中調査の一考察
Naoto MATSUMOTO
 
旅するパケットの見える化
旅するパケットの見える化旅するパケットの見える化
旅するパケットの見える化
Naoto MATSUMOTO
 
LTE-M/NB IoTを試してみる nRF9160/Thingy:91
LTE-M/NB IoTを試してみる nRF9160/Thingy:91LTE-M/NB IoTを試してみる nRF9160/Thingy:91
LTE-M/NB IoTを試してみる nRF9160/Thingy:91
Naoto MATSUMOTO
 
災害時における無線モニタリングによる社会インフラの見える化
災害時における無線モニタリングによる社会インフラの見える化災害時における無線モニタリングによる社会インフラの見える化
災害時における無線モニタリングによる社会インフラの見える化
Naoto MATSUMOTO
 
BeautifulSoup / selenium Deep dive
BeautifulSoup / selenium Deep diveBeautifulSoup / selenium Deep dive
BeautifulSoup / selenium Deep dive
Naoto MATSUMOTO
 
AMDGPU ROCm Deep dive
AMDGPU ROCm Deep diveAMDGPU ROCm Deep dive
AMDGPU ROCm Deep dive
Naoto MATSUMOTO
 
Network Adapter Deep dive
Network Adapter Deep diveNetwork Adapter Deep dive
Network Adapter Deep dive
Naoto MATSUMOTO
 
RTL2838 DVB-T Deep dive
RTL2838 DVB-T Deep diveRTL2838 DVB-T Deep dive
RTL2838 DVB-T Deep dive
Naoto MATSUMOTO
 
x86_64 Hardware Deep dive
x86_64 Hardware Deep divex86_64 Hardware Deep dive
x86_64 Hardware Deep dive
Naoto MATSUMOTO
 
ADS-B, AIS, APRS cheatsheet
ADS-B, AIS, APRS cheatsheetADS-B, AIS, APRS cheatsheet
ADS-B, AIS, APRS cheatsheet
Naoto MATSUMOTO
 
curl --http3 cheatsheet
curl --http3 cheatsheetcurl --http3 cheatsheet
curl --http3 cheatsheet
Naoto MATSUMOTO
 
3/4G USB modem Cheat Sheet
3/4G USB modem Cheat Sheet3/4G USB modem Cheat Sheet
3/4G USB modem Cheat Sheet
Naoto MATSUMOTO
 
How To Train Your ARM(SBC)
How To  Train Your ARM(SBC)How To  Train Your ARM(SBC)
How To Train Your ARM(SBC)
Naoto MATSUMOTO
 
全国におけるCOVID-19対策の見える化 ~宿泊業の場合~
全国におけるCOVID-19対策の見える化 ~宿泊業の場合~全国におけるCOVID-19対策の見える化 ~宿泊業の場合~
全国におけるCOVID-19対策の見える化 ~宿泊業の場合~
Naoto MATSUMOTO
 
我が国の電波の使用状況/携帯電話向け割当 (2019年3月1日現在)
我が国の電波の使用状況/携帯電話向け割当 (2019年3月1日現在)我が国の電波の使用状況/携帯電話向け割当 (2019年3月1日現在)
我が国の電波の使用状況/携帯電話向け割当 (2019年3月1日現在)
Naoto MATSUMOTO
 
私たちに訪れる(かもしれない)未来と計算機によるモノコトの見える化
私たちに訪れる(かもしれない)未来と計算機によるモノコトの見える化私たちに訪れる(かもしれない)未来と計算機によるモノコトの見える化
私たちに訪れる(かもしれない)未来と計算機によるモノコトの見える化
Naoto MATSUMOTO
 

More from Naoto MATSUMOTO (20)

Alder Lake-S CPU Temperature Monitoring
Alder Lake-S CPU Temperature MonitoringAlder Lake-S CPU Temperature Monitoring
Alder Lake-S CPU Temperature Monitoring
 
CPU製品出荷状況と消費電力の見える化
CPU製品出荷状況と消費電力の見える化CPU製品出荷状況と消費電力の見える化
CPU製品出荷状況と消費電力の見える化
 
5Gの見える化
5Gの見える化5Gの見える化
5Gの見える化
 
2023年以降のサーバークラスタリング設計(メモ)
2023年以降のサーバークラスタリング設計(メモ)2023年以降のサーバークラスタリング設計(メモ)
2023年以降のサーバークラスタリング設計(メモ)
 
防災を考慮した水中調査の一考察
防災を考慮した水中調査の一考察防災を考慮した水中調査の一考察
防災を考慮した水中調査の一考察
 
旅するパケットの見える化
旅するパケットの見える化旅するパケットの見える化
旅するパケットの見える化
 
LTE-M/NB IoTを試してみる nRF9160/Thingy:91
LTE-M/NB IoTを試してみる nRF9160/Thingy:91LTE-M/NB IoTを試してみる nRF9160/Thingy:91
LTE-M/NB IoTを試してみる nRF9160/Thingy:91
 
災害時における無線モニタリングによる社会インフラの見える化
災害時における無線モニタリングによる社会インフラの見える化災害時における無線モニタリングによる社会インフラの見える化
災害時における無線モニタリングによる社会インフラの見える化
 
BeautifulSoup / selenium Deep dive
BeautifulSoup / selenium Deep diveBeautifulSoup / selenium Deep dive
BeautifulSoup / selenium Deep dive
 
AMDGPU ROCm Deep dive
AMDGPU ROCm Deep diveAMDGPU ROCm Deep dive
AMDGPU ROCm Deep dive
 
Network Adapter Deep dive
Network Adapter Deep diveNetwork Adapter Deep dive
Network Adapter Deep dive
 
RTL2838 DVB-T Deep dive
RTL2838 DVB-T Deep diveRTL2838 DVB-T Deep dive
RTL2838 DVB-T Deep dive
 
x86_64 Hardware Deep dive
x86_64 Hardware Deep divex86_64 Hardware Deep dive
x86_64 Hardware Deep dive
 
ADS-B, AIS, APRS cheatsheet
ADS-B, AIS, APRS cheatsheetADS-B, AIS, APRS cheatsheet
ADS-B, AIS, APRS cheatsheet
 
curl --http3 cheatsheet
curl --http3 cheatsheetcurl --http3 cheatsheet
curl --http3 cheatsheet
 
3/4G USB modem Cheat Sheet
3/4G USB modem Cheat Sheet3/4G USB modem Cheat Sheet
3/4G USB modem Cheat Sheet
 
How To Train Your ARM(SBC)
How To  Train Your ARM(SBC)How To  Train Your ARM(SBC)
How To Train Your ARM(SBC)
 
全国におけるCOVID-19対策の見える化 ~宿泊業の場合~
全国におけるCOVID-19対策の見える化 ~宿泊業の場合~全国におけるCOVID-19対策の見える化 ~宿泊業の場合~
全国におけるCOVID-19対策の見える化 ~宿泊業の場合~
 
我が国の電波の使用状況/携帯電話向け割当 (2019年3月1日現在)
我が国の電波の使用状況/携帯電話向け割当 (2019年3月1日現在)我が国の電波の使用状況/携帯電話向け割当 (2019年3月1日現在)
我が国の電波の使用状況/携帯電話向け割当 (2019年3月1日現在)
 
私たちに訪れる(かもしれない)未来と計算機によるモノコトの見える化
私たちに訪れる(かもしれない)未来と計算機によるモノコトの見える化私たちに訪れる(かもしれない)未来と計算機によるモノコトの見える化
私たちに訪れる(かもしれない)未来と計算機によるモノコトの見える化
 

Recently uploaded

Kyndryl Developer Services のご紹介 2024年7月
Kyndryl Developer Services のご紹介  2024年7月Kyndryl Developer Services のご紹介  2024年7月
Kyndryl Developer Services のご紹介 2024年7月
Takayuki Nakayama
 
【AI論文解説】LLMの事前学習をvisionに適用する手法Autoregressive Image Models
【AI論文解説】LLMの事前学習をvisionに適用する手法Autoregressive Image Models【AI論文解説】LLMの事前学習をvisionに適用する手法Autoregressive Image Models
【AI論文解説】LLMの事前学習をvisionに適用する手法Autoregressive Image Models
Sony - Neural Network Libraries
 
"ros2rapper", Hardware implimentation of ROS2 communication Protocol without ...
"ros2rapper", Hardware implimentation of ROS2 communication Protocol without ..."ros2rapper", Hardware implimentation of ROS2 communication Protocol without ...
"ros2rapper", Hardware implimentation of ROS2 communication Protocol without ...
たけおか しょうぞう
 
最速の組織を目指して全社で大規模スクラムを導入してみた話 #dxd2024 #medicalforce
最速の組織を目指して全社で大規模スクラムを導入してみた話 #dxd2024 #medicalforce最速の組織を目指して全社で大規模スクラムを導入してみた話 #dxd2024 #medicalforce
最速の組織を目指して全社で大規模スクラムを導入してみた話 #dxd2024 #medicalforce
chisatotakane
 
【AI論文解説】クラスタリングベースアプローチによる大規模データセット自動キュレーション
【AI論文解説】クラスタリングベースアプローチによる大規模データセット自動キュレーション【AI論文解説】クラスタリングベースアプローチによる大規模データセット自動キュレーション
【AI論文解説】クラスタリングベースアプローチによる大規模データセット自動キュレーション
Sony - Neural Network Libraries
 
Matsuo-Iwasawa lab. Research Unit Introduction
Matsuo-Iwasawa lab. Research Unit IntroductionMatsuo-Iwasawa lab. Research Unit Introduction
Matsuo-Iwasawa lab. Research Unit Introduction
Matsuo Lab
 
Matsuo-Iwasawa Lab. | Research unit Introduction
Matsuo-Iwasawa Lab. | Research unit IntroductionMatsuo-Iwasawa Lab. | Research unit Introduction
Matsuo-Iwasawa Lab. | Research unit Introduction
Matsuo Lab
 
Imitation learning for robotics 勉強会資料(20240701)
Imitation learning for robotics 勉強会資料(20240701)Imitation learning for robotics 勉強会資料(20240701)
Imitation learning for robotics 勉強会資料(20240701)
Natsutani Minoru
 
LoRaWAN AI Image Sensorエンドデバイス AIG01カタログ
LoRaWAN AI Image Sensorエンドデバイス AIG01カタログLoRaWAN AI Image Sensorエンドデバイス AIG01カタログ
LoRaWAN AI Image Sensorエンドデバイス AIG01カタログ
CRI Japan, Inc.
 
論文紹介:Task-aligned Part-aware Panoptic Segmentation through Joint Object-Part ...
論文紹介:Task-aligned Part-aware Panoptic Segmentation through Joint Object-Part ...論文紹介:Task-aligned Part-aware Panoptic Segmentation through Joint Object-Part ...
論文紹介:Task-aligned Part-aware Panoptic Segmentation through Joint Object-Part ...
Toru Tamaki
 
論文紹介:BAM-DETR: Boundary-Aligned Moment Detection Transformer for Temporal Sen...
論文紹介:BAM-DETR: Boundary-Aligned Moment Detection Transformer for Temporal Sen...論文紹介:BAM-DETR: Boundary-Aligned Moment Detection Transformer for Temporal Sen...
論文紹介:BAM-DETR: Boundary-Aligned Moment Detection Transformer for Temporal Sen...
Toru Tamaki
 
Matsuo-Iwasawa Lab. Research unit Introduction
Matsuo-Iwasawa Lab. Research unit IntroductionMatsuo-Iwasawa Lab. Research unit Introduction
Matsuo-Iwasawa Lab. Research unit Introduction
Matsuo Lab
 

Recently uploaded (12)

Kyndryl Developer Services のご紹介 2024年7月
Kyndryl Developer Services のご紹介  2024年7月Kyndryl Developer Services のご紹介  2024年7月
Kyndryl Developer Services のご紹介 2024年7月
 
【AI論文解説】LLMの事前学習をvisionに適用する手法Autoregressive Image Models
【AI論文解説】LLMの事前学習をvisionに適用する手法Autoregressive Image Models【AI論文解説】LLMの事前学習をvisionに適用する手法Autoregressive Image Models
【AI論文解説】LLMの事前学習をvisionに適用する手法Autoregressive Image Models
 
"ros2rapper", Hardware implimentation of ROS2 communication Protocol without ...
"ros2rapper", Hardware implimentation of ROS2 communication Protocol without ..."ros2rapper", Hardware implimentation of ROS2 communication Protocol without ...
"ros2rapper", Hardware implimentation of ROS2 communication Protocol without ...
 
最速の組織を目指して全社で大規模スクラムを導入してみた話 #dxd2024 #medicalforce
最速の組織を目指して全社で大規模スクラムを導入してみた話 #dxd2024 #medicalforce最速の組織を目指して全社で大規模スクラムを導入してみた話 #dxd2024 #medicalforce
最速の組織を目指して全社で大規模スクラムを導入してみた話 #dxd2024 #medicalforce
 
【AI論文解説】クラスタリングベースアプローチによる大規模データセット自動キュレーション
【AI論文解説】クラスタリングベースアプローチによる大規模データセット自動キュレーション【AI論文解説】クラスタリングベースアプローチによる大規模データセット自動キュレーション
【AI論文解説】クラスタリングベースアプローチによる大規模データセット自動キュレーション
 
Matsuo-Iwasawa lab. Research Unit Introduction
Matsuo-Iwasawa lab. Research Unit IntroductionMatsuo-Iwasawa lab. Research Unit Introduction
Matsuo-Iwasawa lab. Research Unit Introduction
 
Matsuo-Iwasawa Lab. | Research unit Introduction
Matsuo-Iwasawa Lab. | Research unit IntroductionMatsuo-Iwasawa Lab. | Research unit Introduction
Matsuo-Iwasawa Lab. | Research unit Introduction
 
Imitation learning for robotics 勉強会資料(20240701)
Imitation learning for robotics 勉強会資料(20240701)Imitation learning for robotics 勉強会資料(20240701)
Imitation learning for robotics 勉強会資料(20240701)
 
LoRaWAN AI Image Sensorエンドデバイス AIG01カタログ
LoRaWAN AI Image Sensorエンドデバイス AIG01カタログLoRaWAN AI Image Sensorエンドデバイス AIG01カタログ
LoRaWAN AI Image Sensorエンドデバイス AIG01カタログ
 
論文紹介:Task-aligned Part-aware Panoptic Segmentation through Joint Object-Part ...
論文紹介:Task-aligned Part-aware Panoptic Segmentation through Joint Object-Part ...論文紹介:Task-aligned Part-aware Panoptic Segmentation through Joint Object-Part ...
論文紹介:Task-aligned Part-aware Panoptic Segmentation through Joint Object-Part ...
 
論文紹介:BAM-DETR: Boundary-Aligned Moment Detection Transformer for Temporal Sen...
論文紹介:BAM-DETR: Boundary-Aligned Moment Detection Transformer for Temporal Sen...論文紹介:BAM-DETR: Boundary-Aligned Moment Detection Transformer for Temporal Sen...
論文紹介:BAM-DETR: Boundary-Aligned Moment Detection Transformer for Temporal Sen...
 
Matsuo-Iwasawa Lab. Research unit Introduction
Matsuo-Iwasawa Lab. Research unit IntroductionMatsuo-Iwasawa Lab. Research unit Introduction
Matsuo-Iwasawa Lab. Research unit Introduction
 

シーサーでのInfiniBand導入事例

  • 1. シーサーでの InfiniBand 導入事例 Infiniband DAY [06] シーサー株式会社 石川直人
  • 2. 何につかってるか ● ストレージのファブリックにInfiniBand SRP ○ 仮想化環境 XenServer のストレージとして ○ 運用開始1年半くらい ● DBサーバーのサーバー間通信にIPoIB ○ 自社サービス Seesaaブログで利用 ○ MySQL Master / Slaveの通信 ○ 運用開始10ヶ月程度
  • 3. XenServerでSRPを使う ● SRP (SCSI RDMA Protocol) ○ InfiniBand ULPの1つ ○ 比較的早いプロトコル ○ マルチパスの利用可 ● XenServer ではSRPのサポート無し ● XenServer 5.5 ○ OFED 1.4.2 ● Scientific Linux 6.2 (ストレージ) ○ OFED 1.5.4 ○ SCST 2.2.0 SRP target
  • 4. 10GbE 24port 10GbE 24port 共用&管理ネットワーク XenServer 5.5 sp2 HP DL380 HP DL380 Xeon E5620x2 Xeon E5620x2 144GB MEM 144GB MEM IB QDR 2port x1 IB QDR 2port x1 10GbE 2port x2 10GbE 2port x2 InfiniBand SRP SAN IB QDR 36port IB QDR 36port マルチパスによる冗長化 SL6.2 DRBD SCST HP DL180 HP DL180 Xeon E5645x2 Xeon E5645x2 24GB MEM IPoIB 24GB MEM 900GB 10KRPMx25 DRBD 900GB 10KRPMx25 1.2TB ioDrive 1.2TB ioDrive IB QDR 2port x1 IB QDR 2port x1
  • 5. 主なセットアップ項目 ●XenServer へのOFEDインストール ○ XenServer 5.5 / OFED 1.4.2 ○ DDK (Driver Development Kit)上でOFED をmake ●SRPターゲット ○ SL6.2 / OFED 1.5.4 / scst 2.2.0 ●DRBD セットアップ ○ デュアルプライマリ ●DM-multipath の設定 ○ XenServer 側は srp イニシエータ設定でマルチパス有 効に(SRPHA_ENABLE=yes)
  • 6. XenServer + SRP 稼働状況 ● パフォーマンス ○ スループットはストレージの限界値近くでた ○ fio 4kランダムリード ■ ioDrive ● SRP で半分劣化→VMで3割劣化 ● 100kiops -> 50k -> 35k ■ HDD ● 5000程度のiops ● SRP -> Dom0 -> VM まで顕著な劣化はなかった ● 稼働1年半でSRPに起因するトラブル無し ○ 稼働するVMは中規模サービスのDB/ファイルサーバー が複数個 ○ 手動フェールオーバー等のオペレーションはしてない
  • 7. XenServer + SRP その他 ● XenServer 5.5 が安定していた ○ srpモジュール組み込み、 multipath の挙動 ○ マイグレーション時のNW断 ● iSCSI on IPoIB ○ スループットは出る ○ ランダムIOはSRPより劣る ● XenServer でiSER ○ ib_iser 組み込み失敗(5.5,5.6,6.0) ● XenServer 6.0 srp ○ scsi_transport_srpを有効にすれば利用可 ○ multipath 時のフェールオーバーに時間がかかる ○ マイグレーション時に完全停止が発生してしまう
  • 8. SeesaaブログでInfiniBandを使う ● サービス規模 ○ 月間で2600万ユニークユーザ、16億PV ● データベースにMySQLを利用 ○ 5.1.x / utf8 / 全てMyISAM ○ テーブルのサイズ合計は1TB程度 ○ マスター+スレーブ3台の計4台  ○ ストレージにioDrive ○ クラスタリング等はおこなっていない ● InfiniBand を用いて障害復旧時間の短縮 ○ マスタ障害時はスレーブから復旧 ○ リモートからのコピー時間=復旧時間
  • 9. ブログMySQL構成 レプリケーションは一 1Gbps Swtich 日一回短時間でおこ なう 冗長化 db1 db2 db101 db102 マスタDB スレーブ/バックアップ スレーブ/参照用 スレーブ/参照用 IPoIB 40Gbps HP DL360 G7 Infiniband QDR switch の帯域幅 Xeon X5650x2 8GBx6=48GB MEM 負荷の高いテーブルを ioDrive 領域に、 低いテーブルを HDD領域に配置 SAS 2.5 146GB 15KRPMx2 raid1 SAS 2.5 600GB 10KRPMx5 raid10 + ioDriveDuo 1.2TB Scientific Linux 6.2 / OFED 1.5.4
  • 10. MySQL + IPoIB 稼働状況 ● マスタ・スレーブ間の通信はIPoIB ○ 10ヶ月程度の運用でネットワークの障害は無い ● 障害時のオペレーション ○ レプリケーションの再構築が主な作業 ○ 再構築には生ファイルのコピーをおこなう ○ コピーには rsync ではなくnfsを利用している ○ nfs 上の cp -a で GB/sec のスループット ○ =1TBで15分程度
  • 11. OFED IPoIB セットアップ # OFEDの取得とインストール wget http://www.openfabrics.org/downloads/OFED/ofed-1.5.4/OFED-1.5.4.tgz tar zxvf OFED-1.5.4.tgz && cd OFED-1.5.4 vi ofed.conf # インストールパッケージの指定 ipoib=y ./install.pl -c ofed.conf # RPMが作成され、インストールがおこなわれる vi /etc/infiniband/openib.conf # IPOIB_LOAD=yes # /etc/init.d/openibd にて ibX でネットワークインターフェースが作成されます cat /etc/sysconfig/network-scripts/ifcfg-ib0 DEVICE=ib0 TYPE=Infiniband BOOTPROTO=static IPADDR=10.11.1.11 PREFIX=24 NETWORK=10.11.1.0 BROADCAST=10.11.1.255 ONBOOT=yes
  • 12. まとめ ● InfiniBand を用いることにより ○ 仮想化環境では高いスループットと低遅延なストレージ を構築、運用ができている ○ データベース環境では40Gbpsのスループットを生かし、 障害復旧の時間を狭められるためシンプルな構成と運 用が可能