最近のたまおきの取り組み
〜OpenStack+αの実現に向けて〜
日本仮想化技術株式会社
VitrualTech.jp
たまおき のぶゆき
自己紹介
• 日本仮想化技術の中の人
• オープンスタック関連の
ビジネス創出中
– EnterpriseCloud.jp の管理者
– 『OpenStack最新情報セミナー』
の企画・運営
2
本日のお題
• OpenStackにまつわる課題
• OpenStack+αによる解決
– 仮想ネットワークの高速化
– GPU on OpenStack
– ログ解析の高度化
• OpenStack共同検証ラボのご紹介
3
OPENSTACKにまつわる課題
4
OpenStackを取り巻く状況の変化
• OpenStack基盤は「作る」から「動かす」に
– 鉄板構成が浸透してきた
– 運用上の課題解決がポイントに
– 新技術の取り込みや運用課題の改善提案を
取り組み機運がでてきた
5
参考) OpenStack基盤について
6
クラウドコントローラ
仮想マシン 仮想マシン
ベアメタルサーバ ベアメタルサーバ
L2/L3スイッチ
ア
ン
ダ
ー
ク
ラ
ウ
ド
ク
ラ
ウ
ド
ソ
フ
ト
ウ
ェ
ア
OpenStack基盤
ログ解析
ツール
監視・モニタ
リングツール
インシデント
管理ツール
問題管理
ツール
自動化
ツール
構成管理
ツール
OpenStack基盤の運用についての課題
OpenStack基盤の運用についての課題(一例) 注1
• OpenStackについての課題
– OpenStackに障害検知の仕組みがない 注2
– OpenStackのメータリング機能(リソース使用状況を可視化)が使えない 注3
– 仮想ネットワークの監視やQoS管理についてのノウハウが足りない 注4
• OpenStack基盤の運用・監視における課題
– 監視ツールのアラーム設定やログ管理ツールのBlack/White listや問題発生時に
参照するナレッジベースを手動で管理している
– アラーム設定やナレッジベースの更新はOpenStackの熟練者にしかできない
– 正常時の監視についてのノウハウが足りない 注5
7
注1: OpenStack基盤の運用におけるよくある課題を列記
注2: OPNFVのDoctorプロジェクトに期待
注3: Ceilometer + Gnocchi に期待
注4: 商用のSDN製品を使えば解決、OVSとかLinux Bridgeでどうするか
注5: SREなどの考え方の伝播やChaos Monkeyなどのツールの活用に期待
OpenStack基盤の運用についての課題
OpenStack基盤の運用についての課題(一例)
• OpenStack基盤のログ管理についての課題
– OpenStack基盤から出力されるログの量が多すぎる 注6
– システムで一意で一貫性のあるログが出力されない
– ログから原因を特定するのが難しい(OpenStackについての高度な知見が必要)注7
• 運用オペレーションについての課題
– インシデント管理の対応記録とナレッジベースの紐付けが不十分
– OpenStack基盤の構成管理情報がExcel管理で他システムから参照できない
– アラーム設定やBlack/White listやナレッジベースはOpenStackのバージョンや機器
構成が変わるたびに見直さないといけない 注8
8
注6: 本番環境でもログレベルをDebugで運用しているため
注7: ログファイルにてトランザクションIDが引き継がれない場合があることが原因
注8: 今後の改善に期待
OPENSTACK+Αによる解決
9
α
OpenStack + α とは
10
クラウドコントローラ
仮想マシン 仮想マシン
ベアメタルサーバ ベアメタルサーバ
L2/L3スイッチ
ア
ン
ダ
ー
ク
ラ
ウ
ド
ク
ラ
ウ
ド
ソ
フ
ト
ウ
ェ
ア
OpenStack基盤
ログ解析
ツール
監視・モニタ
リングツール
インシデント
管理ツール
問題管理
ツール
自動化
ツール
構成管理
ツール
OpenStack + α とは
11
クラウドコントローラ
仮想マシン 仮想マシン
ベアメタルサーバ ベアメタルサーバ
L2/L3スイッチ
ア
ン
ダ
ー
ク
ラ
ウ
ド
ク
ラ
ウ
ド
ソ
フ
ト
ウ
ェ
ア
OpenStack基盤
ログ解析
ツール
監視・モニタ
リングツール
インシデント
管理ツール
問題管理
ツール
自動化
ツール
構成管理
ツール
①仮想ネット
ワークの
高速化
②GPU on
OpenStack
③ログ解析
の高度化
①仮想ネットワークの高速化
12
Smart NIC による高速化
• NICにCPUが載ったもの
• 重いネットワーク処理をHWオフロード
– OVSやvRouterやIPSecなど
13
CPU
NIC
NIC
VF
VF
VF
VF
VF
VF
VF
VF
VF
VF
PF 1
VF
PF 2
VF
Smart NIC ホストOS ゲストOS
PF: Physical function
VF: Virtual function
仮想ネットワークの高速化手法
14
OVS + DPDK SR-IOV Smart NIC
OVS(Open vSwitch)での仮想ネットワークの高速化手法
NIC NIC Smart NIC
OVS flowtable
OVS Management
DPDK
VM VM
OVS Management
VM VM
OVS flowtable
OVS Management
VM VM
VF
DPDKを使用した仮想ス
イッチの高速化
パススルー技術を活用し
たネットワークの高速化
HWオフロードを使用した
仮想スイッチの高速化
Open vSwitch 2.3 から
DPDK 機能を内包
6Wind 社などが商用製
品を提供
SR-IOV を有効化するた
めに、BIOS と Linux
カーネルを一部変更
HWオフロードNICを使用
Netronome社やCavium
社などが商用製品を提
供
VirtIO VirtIO VirtIO VirtIOVFVF
OVS flowtable
仮想ネットワークの高速化手法
15
OVS + DPDK SR-IOV SmartNIC
OVS(Open vSwitch)での仮想ネットワークの高速化手法
性能:△ 性能:○ 性能:○
管理のしやすさ:○ 管理のしやすさ:△(×) 管理のしやすさ:○
導入が容易
ユーザは意識せず使用
専用設備を必要としない
帯域上限まで使える
VMに負荷をかけない
専用設備を必要としない
帯域上限まで使える?
ユーザは意識せず使用
VMに負荷をかけない
VFの割当・変更は不要
実績:△ 実績:△ 実績:×
帯域上限まで使えない
DPDK処理用のVM
(CPU処理)を割り当てる
VFの割当・変更が手動
VMのマイグレーション作
業が面倒
OpenStack連携が未熟
専用設備を必要とする
実績は乏しい
Cons
Pros
②GPU ON OPENSTACK
16
参考:人工知能と機械/深層学習の整理
人工知能 > 機械学習 > 深層学習
• 人工知能: Artificial Intelligence
– 知的と考えられるような処理、すなわち記号論理処理やパターン
認識、分類、推論、統計解析、予測などを実行するさまざまな情
報技術の集合体
• 機械学習: Machine Learning
– 訓練データからルールを発見し、モデルを獲得させて、それを
使って認識や分類、予測を行なうアルゴリズム
• 深層学習: Deep Learning
– 機械学習の手法の一つの「ニューラルネットワーク」を複数層に
重ねたもの
17
人工知能とは何か? 機械学習、深層学習の違いとは?
http://pc.watch.impress.co.jp/docs/column/ai_nyumon/1021030.html
機械学習や深層学習への期待
18
KDDI総合研究所 人工知能を活用したネットワーク自動運用システムの実証に成功
http://www.kddi-research.jp/newsrelease/2016/022201.html
機械学習や深層学習への期待
19
Huawei社 MIND: Machine Learning based Network Dynamics
http://events.linuxfoundation.org/sites/events/files/slides/ONS_MIND_Huawei.pdf
GPU on OpenStack
20
コントローラノード 仮想マシン
コンピュートノード
Nova API
Nova Compute
App
KVM
IOMMU/VT-d
GPU
AMQP
Nova Scheduler
GPUパススルー技術を活用して、仮想マシンにGPUを割り当てる
(GPUインスタンス)
GPU Driver
③ログ解析の高度化
21
大量のログ情報との戦い
22
引用:http://www.slideshare.net/VirtualTech-JP/ntt-openstack-summit-2015-tokyo-after-one-year-of-openstack-cloud-operation-ntt-docomo
ログ出力数
80M行&100GB/日
(内クリティカル0)
OpenStack共同検証ラボの昨年度の取り組み
fluentd+elasticによるログ分析
23
ログ分析サーバ
監視サーバ
(Agent)
(Server)
ログ収集/
タグ付け/転送・
Whiteリスト定義
ログ集約・
Elasticserchへ
ログ格納
ログ
蓄積/分析
分析結果
可視化・
Blackリスト定義
GitHub: openstack-lab/OPS-Manager にて公開中
https://github.com/openstack-lab/OPS-Manager
ログ解析にまつわる課題
PP6-7からログ解析にまつわる課題を抽出
– 監視ツールのアラーム設定やログ管理ツールのBlack/
White listや問題発生時に参照するナレッジベースを手
動で管理している
– アラーム設定やナレッジベースの更新はIaaS環境の熟練
者にしかできない
– IaaS環境から出力されるログの量が多すぎる
– システムで一意で一貫性のあるログが出力されない
– アラーム設定やBlack/White listやナレッジベースは
OpenStackのバージョンや機器構成が変わるたびに見直
さないといけない
24
Elastic + prelert による異常検知
25
「Prelertでプログラミングレスな異常検知に挑戦!」より引用
http://acro-engineer.hatenablog.com/entry/2016/11/02/120000
Moogsoftによるログ解析
イベント
入力
フィルター
頻出するイベントは排除する、
などの独自のロジックにより
98%のノイズを削除
時系列による
分類
類似事象
による
分類
構成管理に
紐付いた
分類
アノマリー検知
レシピに
よる分類
ナレッジに
よる分類
シチュエ
ーション
A
シチュエ
ーション
B
シチュエーション
作成
多角的のアノマリー検知
により、99.5%のノイズを
削除
プライオリティ付け
&通知
Black List / White List 運用に替わる方式への期待
OPENSTACK共同検証ラボ
のご紹介
27
OpenStack共同検証ラボ
28
ブロードバンドタワー様と立ち上げ。現在7社でコラボ中。
OpenStack共同検証ラボとは
• ブロードバンドタワー様のデータセンター施設を
利用し、検証環境を用意いたします。
• 『OpenStack共同検証ラボ』に協賛いただく会社を
募り、協賛企業の皆様と共に検証を行います。
– 協賛企業の皆様は検証テーマを提案できます。
– 本ラボが提案した検証テーマに参画いただくことも可
能です。
• 『OpenStack共同検証ラボ』で得たノウハウや知
見をドキュメント化し、ドキュメントを一般公開い
たします。
29
昨年度実施した評価・検証(一例)
OpenStack共同検証ラボ
https://enterprisecloud.jp/openstack-lab/
GitHub
https://github.com/openstack-lab/OPS-Manager
31
32

最近のたまおきの取り組み 〜OpenStack+αの実現に向けて〜 - OpenStack最新情報セミナー(2017年3月)