ブロケード FC ファブリックスイッチ
オペレーション講座(後編)
Agenda
• SANスイッチの監視設定
‒ SNMP
‒ Syslog
• トラブルシュートのための操作
‒ 接続トラブル
‒ ファブリックトラブル
‒ パフォーマンストラブル
‒ その他
Brocade FC Switch Operation 2/2 2
SANスイッチの監視設定
Brocade FC Switch Operation 2/2 3
SNMP
汎用的な機器監視プロトコル
• SNMP v1/v3に対応
• SNMPエージェント (スイッチ)の設定
‒ SNMPマネージャやメッセージレベル、コミュニティの設定
‒ 特定のMIBの有効 (On)/無効 (Off)を設定
‒ 6つのSNMPコミュニティ (SNMPマネージャ)を登録可能
• SNMPマネージャの設定
‒ コミュニティ名の設定
‒ MIBのインストール
• SNMPv1のセキュリティ
‒ コミュニティー名の認証
• SNMPv3のセキュリティ
‒ ユーザー名の照合
‒ MD5 or SHAアルゴリズムの認証
‒ DES暗号化
Brocade FC Switch Operation 2/2 4
FCスイッチ
(エージェント
)
SNMPマネージャ
トラップ
ポーリング
SNMP設定画面 (Web Tools)
Web Toolsログイン→Switch Adminメニュー
[SNMPリクエストに対するセキュリティレベル]
0 No security.
1 Authentication only.
2 Authentication and Privacy.
3 OFF
SNMPの設定
SANスイッチ側の設定概要
• SNMP V1/V3 プロトコルの有効化
• SNMP V1/V3 設定
‒ Trap Recipient(SNMPマネージャ)設定
‒ Community/Access Control設定
• Mib capability の設定
• System Groupパラメータの設定
Brocade FC Switch Operation 2/2 5
SNMP V1/V3 プロトコルの有効化
SNMP v1の設定例
Brocade FC Switch Operation 2/2 6
switch:admin> snmpconfig --enable snmpv1
switch:admin> snmpconfig –-set snmpv1
SNMP community and trap recipient configuration:
Community (rw): [Secret C0de]
Trap Recipient's IP address : [0.0.0.0] 172.24.197.15
Trap recipient Severity level : (0..5) [4]
Trap recipient Port : (0..65535) [162]
Community (rw): [OrigEquipMfr]
Trap Recipient's IP address : [0.0.0.0]
Community (rw): [private]
Trap Recipient's IP address : [0.0.0.0]
Community (ro): [public]
Trap Recipient's IP address : [0.0.0.0] 172.24.197.15
SNMPv1は6つのコミュニティが設定可能
Severity Level
0:None
1:Critical
2:Error
3:Warning
4:Informational
5:Debug
イベント発生したとき、イベントのレ
ベルに応じて通知するイベントを選択
可能
(swEventTrap,connUnitEventTrap,s
wFabricWatchTrap)
SNMP V1/V3 プロトコルの有効化
SNMP v3の設定例
Brocade FC Switch Operation 2/2 7
Switch:admin> snmpconfig --enable snmpv3
Switch:admin> snmpconfig --set snmpv3
SNMP Informs Enabled (true, t, false, f): [false]
SNMPv3 user configuration(snmp user not configured in FOS user database will have physical
AD and admin role as the default):
User (rw): [snmpadmin1]
Auth Protocol [MD5(1)/SHA(2)/noAuth(3)]: (1..3) [3] 1
New Auth Passwd:
Priv Protocol [DES(1)/noPriv(2)/AES128(3)/AES256(4)]): (1..4) [2] 4
New Priv Passwd:
User (rw): [snmpadmin2]
Auth Protocol [MD5(1)/SHA(2)/noAuth(3)]: (1..3) [3]
Priv Protocol [DES(1)/noPriv(2)/AES128(3)/AES256(4)]): (2..2) [2]
途中省略
SNMPv3 trap recipient configuration:
Trap Recipient's IP address : [172.24.197.184]
UserIndex: (1..6) [1]
Trap recipient Severity level : (0..5) [4]
Trap recipient Port : (0..65535) [162]
以下省略
Recipientは6つ設定可能
SNMPv3用のユーザーと認証プロトコル、
暗号方法を設定
ユーザー名は最大32文字以内で変更可能
プロトコルパスワードは1~20文字以内
Informsを使うときのみ設定
(Recipientへ受領確認要求)
UserIndexは上記SNMPユーザーを番号で指定
SNMP V1/V3 設定(ACL)
アクセスを許可する端末の設定
Brocade FC Switch Operation 2/2 8
switch:admin> snmpconfig --set accessControl
SNMP access list configuration:
Access host subnet area in dot notation: [0.0.0.0] 192.168.0.0
Read/Write? (true, t, false, f): [true]
Access host subnet area in dot notation: [0.0.0.0] 2001:0db8:1234:1::1/128
Read/Write? (true, t, false, f): [true] f
以下省略
Committing configuration...done.
switch:admin> snmpconfig --show accessControl
SNMP access list configuration:
Entry 0: Access host subnet area 192.168.0.0 (rw)
Entry 1: Access host subnet area 2001:0db8:1234:1::1/128 (ro)
以下省略
Mib capability の設定
使用するMIB(通知するトラップ)の選択
Brocade FC Switch Operation 2/2 9
switch:admin> snmpconfig --set mibCapability
The SNMP Mib/Trap Capability has been set to support
SW-TRAP (yes, y, no, n): [yes]
swFCPortScn (yes, y, no, n): [yes]
swEventTrap (yes, y, no, n): [yes]
Desired Serverity Level (1- critical 2- error 3 ¥
-warning 4- informational 0 -None): 4
以下省略
switch:admin> snmpconfig --show mibCapability
FE-MIB: YES
途中省略
SW-TRAP: NO
swFault: NO
swEventTrap: YES
DesiredSeverity:4
System Groupの設定
機器の設置場所、連絡先などの情報を設定
Brocade FC Switch Operation 2/2 10
Switch:admin> snmpconfig --set systemgroup
Customizing MIB-II system variables ...
At each prompt, do one of the following:
o <Return> to accept current value,
o enter the appropriate new value,
o <Control-D> to skip the rest of configuration, or
o <Control-C> to cancel any change.
To correct any input mistake:
<Backspace> erases the previous character,
<Control-U> erases the whole line,
sysDescr: [Fibre Channel Switch.]
sysLocation: [End User Premise.]
sysContact: [Field Support.]
authTrapsEnabled (true, t, false, f): [false]
Brocadeが提供するMIBファイル
MyBrocade Webサイトから取得可能
Brocade FC Switch Operation 2/2 11
MIBファイル MIBモジュール名 MIBオブジェクトの機能
bcCustomOperation.mib BCCUSTOM-OPR-MIB Huawei内蔵スイッチ固有のMIB
bd.mib BD-MIB Bottleneck Detection
BRCD_REG.mib Brocade-REG-MIB Brocade固有のMIB
BRCD_TC.mib Brocade-TC Brocade固有のMIB
BROCADE-MAPS-MIB.mib BROCADE-MAPS-MIB Brocade固有のMIB
brcdfcip.mib Brocade-FCIP-EXT-MIB FCIPデバイス管理固有のMIB
CPQ_HOST.mib CPQHOST-MIB Compaq固有のMIB
CPQ_RACK.mib CPQRACK-MIB Compaq固有のMIB
FA.mib FCMGMT-MIB Brocadeから提供しているFibre Alliance MIB
faext.mib FA-EXT-MIB FA-MIBの拡張セット
FICON.mib LINK-INCIDENT-MIB FICONデバイスの管理
fod.mib IBM-FEATURE-ACTIVATION-MIB IBMが提供するFeatures On Demandのライセンスキー管理
HA.mib HA-MIB FRUの状態を示すMIB
IBMBladeCenter.mib SW-MIBの一部 IBM BladeCenter内蔵スイッチ固有のMIB
SW.mib SW-MIB Brocade固有のMIB
必須
MIBの相互依存性
Brocade FC Switch Operation 2/2 12
Syslog
スイッチ本体のRASログを外部サーバで保存
• Syslogサーバ (syslogd)が必要
‒ UNIX/Windows用Syslogd
• スイッチのRASログをSyslogサーバへ出力することによ
り、ログを永続的に記録することが可能
‒ RAS Log:スイッチ内部で記録されるメッセージログのこと
‒ スイッチ本体で保存可能なメッセージ数は1024エントリ
‒ スイッチ本体の古いメッセージから順次上書きされる
• Syslogクライアント (スイッチ)の設定
‒ CLI/WebToolsから設定
‒ 6つのsyslogサーバまで設定可能
• ダイレクタ製品の場合、AuditメッセージはActive CPか
らのみ送信
Brocade FC Switch Operation 2/2 13
FCスイッチ
(クライアント)
Syslogサーバ
error,warning etc.
Syslog の設定
SANスイッチ側の設定概要
• Syslog サーバの IP アドレス設定
• Syslog ファシリティの設定
Brocade FC Switch Operation 2/2 14
Syslog サーバの IP アドレス設定
設定例
Brocade FC Switch Operation 2/2 15
switch:admin> syslogdipshow
syslog.1 172.24.182.54
syslog.2 172.24.197.184
switch:admin> syslogdipadd 192.168.0.1
Syslog IP address 192.168.0.1 added
switch:admin> syslogdipshow
syslog.1 172.24.182.54
syslog.2 172.24.197.184
syslog.3 192.168.0.1
switch:admin> syslogdipremove 172.24.197.184
Syslog IP address 172.24.197.184 removed
switch:admin> syslogdipshow
syslog.1 172.24.182.54
syslog.2 192.168.0.1
switch:admin>
Syslog ファシリティの設定
設定例
Brocade FC Switch Operation 2/2 16
switch:admin> syslogdfacility -l 1
Syslog facility changed to LOG_LOCAL1
switch:admin> syslogdfacility
LOG_LOCAL1
Brocade SANスイッチ監視のヒント
SNMP,Syslogで何を監視すべきか
• 機器障害の監視がしたい
‒ 重要障害はスイッチ本体のRAS Logに記載される
• 一番シンプルな監視はRAS Logのエントリーの監視
• SNMPではRAS Logの内容はswEventで通知される
‒ 各種メッセージ専用のTrapは無い
‒ swEventで通知されたメッセージの詳細内容はMessage Referenceを参照
• FCポートのリンクアップ/ダウンの監視
‒ FCポートのリンクアップ/ダウンはRAS Logに記載されないので直接監視することは出来ない
• リンクアップ/ダウンは結果であって障害原因ではない
• 原因側(サーバ・ストレージの障害やSFPの障害)を監視すべき
‒ SNMPの場合、swFCPortScn (SW-Trap) でFCポートの状態遷移を監視する
‒ Syslogの場合、Port State変更のメッセージを強制的に発生させなければならない
• Fabric Watch/Fabric Visionが必要
• Port State Changeカウンターが増加したときにRAS Logへ記載するルールを設定する
Brocade FC Switch Operation 2/2 17
トラブルシュートのための操作
© 2015 BROCADE COMMUNICATIONS SYSTEMS, INC. INTERNAL USE ONLY18
HBA
Driver
MPIO/devmapper
Filesystem/Apps
トラブルシューティングの基礎
SANスイッチ、サーバ、ストレージ、アプリ全体でアプローチ
• 時刻同期はトラブル早期解決の第一歩
‒ トラブルの被疑箇所は多岐にわたるため、各種ログの比較検
討が重要
‒ 障害発生当時のログを付き合わせはタイムスタンプが基準
• サーバ・ストレージ・SANスイッチそれぞれで時間差があるとログ比較が難しい
• NTP等で機器間の時差をなくしておくべき
• 適切な情報収集と事象の明確化
‒ 何も知らない第三者(ベンダー等)へ的確に問題を伝え、情
報を提供すること
• 事象は何か?(いつ、何が、どうした、再現性、etc)
• 運用環境の情報
• 障害時のログ
Brocade FC Switch Operation 2/2 19
App ログ、
Kernelメッセージ
SAN スイッチ
RAS ログ
ストレージ
各種 ログ
情報の収集
SANで起こり得る問題とSANスイッチにおける調査内容
Brocade FC Switch Operation 2/2 20
問題の種類 調査事項 ツール
エンドデバイス接続
(デバイス認識不可)
•Link, login
•Fabric (ゾーニング、セキュリティ)
•End-to-End デバイス接続
•Switch LED
•Switch コマンド
•エンドデバイスのパラメータ
スイッチ接続
(ファブリック構成)
•可用性がないLink
•不正なゾーニング、ACL、VF設定
•不正なスイッチパラメータ
•Switch LED
•製品情報
•Switch コマンド
•Web、GUIモニタリング機能、管理ソフトツール
パフォーマンス
(I/Oが遅い)
•BBクレジットの状況
•トラフィック量
•Switch コマンド
•管理ソフトツール
ファームウェア保守
•ネットワーク接続
•FTPパラメータ
•スイッチパラメータ
•ホスト側のツール、FTPパラメータの調査
•スイッチのFTPパラメータの確認
セキュリティ
(スイッチアクセス)
•ネットワーク接続
•Switch認証、設定パラメータ
•ホスト側のツール
•Switchのネットワークパラメータ、ユーザー認証
supportSave の取得
可能な限りトラブル発生直後に取得
• supportSave
‒ ベンダーサポートが解析に必要な情報を取得
• RASlog, TRACE, supportShow, Core file, FFDC data等を一つのコマンドで取得
• supportSaveはadmin権限のあるアカウントで実施
• supportFtpコマンドで事前にFTP/SCPサーバ・アカウントを設定しておくと便利
‒ supportSave実行時にサーバ情報の入力を省略可能 “supportsave –c –n” で一発取得
‒ trace dumpの自動保存
• 各種テキスト・バイナリファイルが大量に生成される(50ファイル以上)
‒ 一つのファイルにまとめてベンダーへ提出
‒ コマンド実行結果も出力される(*.txt.gzで保存)
Brocade FC Switch Operation 2/2 21
FFDC : First Failure Data Capture
取得結果の一部
supportFtp コマンド
supportSave,traceDumpの出力先を事前設定
Brocade FC Switch Operation 2/2 22
switch:admin> supportftp –s (FTPサーバパラメータの設定)
Host IP Addr[]:172.24.197.10
User Name[]:ftpuser
Password[]:*******
Remote Dir[]:/autosupport
Auto upload protocol[]:ftp
supportftp: parameters changed
switch:admin> supportftp –e (Trace dumpの自動保存機能ON)
Support auto file transfer enabled.
switch:admin> supportftp -t 2 (ftpサーバの接続確認間隔設定)
supportftp: ftp check period changed
B6510-01:FID128:admin> supportftp –S (設定表示)
Host IP Addr: 172.24.197.10
User name: ftp
Remote Dir: /autosupport
Auto Upload protocol: ftp
FTP Auto check: 2 Hours
Auto-FTP: On
switch:admin>
errShow / errDump コマンド
RAS Logを表示するコマンド
• スイッチに保存されているエラーやイベントを表示
‒ ErrShow : 一画面ごとのPauseあり
‒ ErrDump : 一画面ごとのPauseなし
• ログは1024エントリ分を保持し、古いものから上書きされる
‒ ログのクリアは errClear コマンド
• Message ID の詳細はFabric OS Message Reference を参照する
Brocade FC Switch Operation 2/2 23
B6510-01:FID128:admin> errdump
Fabric OS: v7.2.1d
2015/05/12-18:24:07, [FW-1424], 4, FID 128, WARNING, B6510-01, Switch status changed from HEALTHY to MARGINAL.
2015/05/12-18:24:07, [FW-1439], 5, FID 128, WARNING, B6510-01, Switch status change contributing factor Switch offline.
2015/05/12-18:25:08, [FW-1425], 6, FID 128, INFO, B6510-01, Switch status changed from MARGINAL to HEALTHY.
2015/05/12-18:25:20, [ZONE-1004], 7, FID 128, INFO, B6510-01, Base PID: 0x070c00, Port Index: 1, Port: 1: enforcement changed to Session-based ARD
Zoning.
2015/05/12-19:10:47, [SNMP-1005], 8, FID 128, INFO, B6510-01, SNMP configuration attribute, SNMPv3 User Name 6, has changed from [snmpuser3] to
[admin].
MessageID Severity
• 接続系トラブル
• ファブリック系トラブル
• パフォーマンス系トラブル
• その他
Brocade FC Switch Operation 2/2 24
ポート初期化
• 機器が接続されている正常なポートはF_PortかE_Portになる
‒ G_Portでかつオンライン状態を維持する場合は問題がある
• E_PortやF_Portに遷移することに失敗している?
‒ FLOGI失敗
• サーバHBAドライバ不具合?
• SFP+トランシーバ・ケーブル不具合?
• ポートLEDの状態確認
• switchShowコマンドでポート状態を確認
Brocade FC Switch Operation 2/2 25
switch:admin> switchshow
途中省略
Index Port Address Media Speed State Proto
==================================================
0 0 070000 id N8 Online FC E-Port 10:00:00:05:1e:08:ce:99 "B5300"
1 1 070c00 id N8 Online FC F-Port 50:0a:09:81:89:fb:8f:f9
2 2 070200 id N8 Online FC F-Port 50:0a:09:81:99:fb:8f:f9
3 3 070300 -- N16 No_Module FC
以下省略
y/n
y/n
G - Port
yes
no
F - Port
Fabric
pt-to-pt
E - Port
switch
y/n
no
yes
U - Port
FL - Port
ポートに何か接続されている?
ループデバイス接続?
デバイスorスイッチ接続?
リンク失敗
• リンク失敗はサーバ、ストレージ、スイッチとスイッチの間で発生する。
‒ switchShow コマンドでリンク失敗の理由を確認
• 発生しやすい原因
‒ ポートスピードのオートネゴシエーション
• 通常はオートネゴシエーションで問題ないが、ネゴシエーションに失敗するときは速度の固定設定
‒ ループ(FC-AL)初期化の失敗
• Gen5 FCではFC-ALはサポートしない
• 8Gbps FC以前の場合、スイッチポートをFL_Portに固定
‒ Point to Point初期化の失敗
• ループ初期化時に判定が失敗する
• ポートをG_Portに固定し、ループ初期化手順を省略する
Brocade FC Switch Operation 2/2 26
switchShow 当該スイッチのポートステータスを表示
portCfgShow スイッチポートの設定状態を一覧表示
portCfgSpeed スイッチポートの速度設定
portCfgLport スイッチポートをFLに固定
portCfgGPort ポート初期化でLoop判別しない
関連コマンド
ポートログによるリンク初期化確認
• 通常、switchShowでポートの状態を確認することでリンク初期化の
成否を判断するが、ポートログでも確認できる。
Brocade FC Switch Operation 2/2 27
B6510-01:FID128:admin> portlogdumpport 1
time task event port cmd args
-------------------------------------------------
Thu May 28 16:55:58 2015
16:55:58.892 SPEE sn 1 WS 00000009,00000000,00000000
16:55:58.901 SPEE sn 1 NM 00000009,00000000,00000000
16:55:58.921 SPEE sn 1 NF 00000009,00000000,00000000
16:55:59.143 SPEE sn 1 NC 00000008,00000000,00000000
16:55:59.144 INTR pstate 1 OL1
16:55:59.454 INTR pstate 1 LF2
16:55:59.636 INTR pstate 1 AC
sn : speed negotiation
NC : Negotiation has Completed
0x08 : 8Gbps でLink Up
(16Gbpsは0x10)
pstate : PortState MachineValues
AC : Active state
CmdにACが表示されているとPointto Pointで初
期化完了を意味する
Marginal Links(リンク不安定)
• Marginal Linkは、スイッチとデバイスの間の接続が要求されるスペック
を満たしていないに発生する
• Marginal Linkの原因を調べるには、リンクを形成する多くのコンポーネ
ントのテスト、分析が必要となる
• Marginal Linkのトラブルシュートには、ケーブル、SFPの交換、エラー
カウンターの調査、リンク、ポート、end-to-endの経路の診断が含まれ
る
‒ PortErrShowコマンドを実行する
‒ CRCエラーやENC_OUTエラーが高いポートが無いか、あるいはエラーの数が
常に上昇傾向にあるポートが無いかを調べる
• カウンターが上昇するまで、5分ごとにサンプルをとる
Brocade FC Switch Operation 2/2 28
Marginal Links(続き)
• 疑わしいリンクについて、
‒ ケーブルを別のポートに接続してみる
‒ SFPを挿し直す
‒ 問題が解消した場合、スイッチのポートかSFPに問題がある
‒ 問題が解消しない場合、ケーブルに問題がある(ケーブルを交換)
Brocade FC Switch Operation 2/2 29
PortErrShowコマンド
• 各ポートのエラーの積算総数を表示
‒ エラーの増加傾向を調べる
• エラー発生時間を特定できないので、数値の有無だけで障害かどうか判断できない
• 障害調査時にstatsClearコマンドで一度値をクリアし、増分を調査する
‒ 主な項目の概要
• frames tx/rx:転送/受信したフレームの数
• crc_err:CRCエラーのフレーム数
‒ このカウンターが上昇する場合、物理層が疑われる(ケーブル、パッチパネル、SFP)
• enc_out:フレーム外で発生したエラーで、通常はプリミティブの問題を示す
‒ 8Gbpsブレードの場合、portcfgfillwordコマンドを検討する
• disc_c3:(discarded class 3)保持時間を過ぎ、破棄したフレームの数
Brocade FC Switch Operation 2/2 30
porterrshow:
frames enc crc too too bad enc disc link loss loss frjt fbsy
tx rx in err shrt long eof out c3 fail sync sig
=====================================================================
0: 464k 968k 0 0 0 0 0 83 0 21 14 0 0 0
1: 626k 488k 0 0 0 0 0 101 1 27 13 0 0 0
2: 392k 75k 0 0 0 0 0 358 0 12 1 0 0 0
3: 909k 547k 0 0 0 0 0 5.0m 0 9 20 0 0 0
4: 83k 276k 0 0 0 0 0 19k 1 15 7.3k 1 0 0
5: 165k 324k 0 0 0 0 0 66 2 9 0 0 0 0
6: 0 0 0 0 0 0 0 0 0 6 0 1 0 0
サーバからストレージが認識されない
サーバ、ストレージとスイッチ間のリンクは正常なのに・・・
• スイッチのネームサーバに対象デバイスが登録されていることを確認
‒ nsShow等ネームサーバ関連コマンド
‒ セキュリティーポリシー(SCC (Switch Connection Control) )の確認
• Zoning 設定を確認
‒ 当該サーバとストレージポート間でZoneが設定されているか?
‒ Zone設定が正しいか?
• fcping、portCamShow、nsZoneMemberコマンド等で確認
• サーバ及びストレージの設定を確認
‒ LUNマッピング/マスキングやアクセス制御など各サーバ・ストレージの設定
にて対象デバイスのアクセス可能であることを確認
Brocade FC Switch Operation 2/2 31
ネームサーバの確認
• デバイスは必ずネームサーバに登録される
• デバイス認識問題の確認
‒ 設定不備の確認の前にデバイスがファブリッ
クにログインしていることを確認しておく
Brocade FC Switch Operation 2/2 32
nsShow 当該スイッチのName server に登録されたノードの表示
nsAllShow ファブリック上の全ノードのFCアドレスを表示
nsCamShow
Name Server Cache Managerの情報を表示
→当該スイッチ以外に接続しているノードの表示
WebTools上からも確認可能
Name Server関連コマンド
• 接続系トラブル
• ファブリック系トラブル
• パフォーマンス系トラブル
• その他
Brocade FC Switch Operation 2/2 33
スイッチのカスケード接続ができない
• スイッチ同士を接続したポートLEDが1秒間隔で点滅
• switchShowの出力結果で”segmented”の状態になる
• ライセンスが両スイッチに入っているか?
‒ Full Fabric Licenseが必要(B300では要確認)
‒ licenseShowコマンドで確認
• ドメインIDの重複
‒ configureコマンドで修正/一方のスイッチを停止・起動
• ファブリックパラメータの不一致
‒ configShowコマンドで確認・比較
‒ configureコマンドで修正/configdefaultで初期設定に復元
• ゾーン情報の不一致
‒ 一方のスイッチの情報をクリアで解消
‒ Network Advisorでゾーン情報の合成
Brocade FC Switch Operation 2/2 34
B6510-01:FID128:admin> switchshow
switchName: B6510-01
switchType: 109.1
switchState: Online
switchMode: Native
switchRole: Principal
switchDomain: 7
switchId: fffc07
switchWwn: 10:00:00:05:33:7a:0d:38
zoning: ON (smpl_cfg)
途中省略
Index Port Address Media Speed State Proto
==================================================
0 0 070000 id N8 Online FC E-Port segmented,
10:00:00:05:1e:08:ce:99(domain overlap)(Trunk master)
※セキュリティ設定(SCC Policy)の記述に不備がある場合、下記の様なメッセージで接続に失敗す
る
0 0 010000 id N8 No_Sync FC Disabled (SW Security Violation - SCC Policy
Violation, Peer WWN not in ACL list)
Segmented状態と
その理由が表示さ
れる
• セキュリティ設定のミスマッチ
‒ 双方のスイッチでセキュリティ設定
(SCC:Switch Connection Control)の差異が
ある場合
ファブリックパラメータの比較
• ファブリックパラメータの不一致
を確認するには、それぞれのス
イッチでconfigshow –pattern
“fabric.ops” で得られる値を比較
する
• 値に差異があるときは
switchDisable実施後にconfigure
で該当パラメータの値を設定し、
switchEnableでスイッチを動作さ
せる
Brocade FC Switch Operation 2/2 35
B6510-01:FID128:admin> configshow -pattern "fabric.ops"
fabric.ops.BBCredit:16
fabric.ops.E_D_TOV:2000
fabric.ops.R_A_TOV:10000
fabric.ops.bladeFault_on_hwErrlevel:0
fabric.ops.dataFieldSize:2112
fabric.ops.max_hops:7
fabric.ops.mode.fcpProbeDisable:0
fabric.ops.mode.isolate:0
fabric.ops.mode.longDistance:0
fabric.ops.mode.noClassF:0
fabric.ops.mode.pidFormat:1
fabric.ops.mode.tachyonCompat:0
fabric.ops.mode.unicastOnly:0
fabric.ops.mode.useCsCtl:0
fabric.ops.vc.class.2:2
fabric.ops.vc.class.3:3
fabric.ops.vc.config:0xc0
fabric.ops.vc.linkCtrl:0
fabric.ops.vc.multicast:7
fabric.ops.wan_tov:0
• 接続系トラブル
• ファブリック系トラブル
• パフォーマンス系トラブル
• その他
Brocade FC Switch Operation 2/2 36
パフォーマンス低下の要因
• ストレージ内の特定のディスク・コントローラーにI/Oが集中
‒ ストレージのディスク構成、LUN配置の見直し
‒ コントローラーの増強
• ファブリック内のバッファ枯渇によるフロー制御(停止)の発生
‒ ISLがあるファブリック(複数スイッチで構成されるファブリック)
‒ 高速デバイスと低速デバイス(高遅延)の混在環境
• Slow Drain Device
Brocade FC Switch Operation 2/2 37
STOPSTOP
STOP
STOP
STOP
低速デバイスのフロー制御が
ISLポートのバッファ枯渇を
引き起こし、ファブリック全
体に波及することがある
→Slow Drain
パフォーマンス低下の検知
Bottleneck detection
• Slow Drain
‒ 世代混在のFCファブリック(スピードが異なる)場
合、顕在化することがある
• バッファクレジット型のフロー制御をするすべてのリンクレイ
ヤが持つ課題
‒ FOSv7.4以降のGen5FC製品では、slow drainデバ
イスを 1 Virtual Channel に隔離して、他のデバイ
スの通信を確保
• Bottleneck Monitor
‒ Bottleneckmonコマンドを使うと、F_Portや
E_Portの遅延や輻輳のボトルネックを検出できる
‒ Slow drain deviceはポートのegressで検出
‒ ライセンス不要
Brocade FC Switch Operation 2/2 38
Bottleneckmon コマンド
パフォーマンス低下発生を検知する
Brocade FC Switch Operation 2/2 39
switch:admin> bottleneckmon --enable –alert
switch:admin> bottleneckmon --config –alert -cthresh .8 -time 240 1-15
switch:admin> bottleneckmon --show -interval 5 -span 30 2/4
=============================================
Wed Jan 13 18:54:35 UTC 2010
=============================================
Percentage of
From To affected secs
==============================================
Jan 13 18:54:05 Jan 13 18:54:10 20.00%
Jan 13 18:54:10 Jan 13 18:54:15 60.00%
Jan 13 18:54:15 Jan 13 18:54:20 0.00%
Jan 13 18:54:20 Jan 13 18:54:25 0.00%
Jan 13 18:54:25 Jan 13 18:54:30 40.00%
Jan 13 18:54:30 Jan 13 18:54:35 80.00%
FabricWatchで
通知可能
Cthresh congestion threshold
Lthreash Latency threshold
パフォーマンス低下から自動復旧
Credit Recovery
• Credit Loss
‒ バッファクレジットの交換の ordered set (VC_RDY) が何らかの理由
で失われると発生
• 長距離接続環境等
• 発生すると、実質的なバッファ個数が減ってしまい、性能がダウン(最悪、通信途絶)
‒ Link Reset を発生させないと復旧しない
‒ Gen5 FC 製品では、Credit Recovery が自動的に行われる
• C2-1014メッセージが生成
Brocade FC Switch Operation 2/2 40
portStatsShowコマンド
ポート毎の統計情報を表示
Brocade FC Switch Operation 2/2 41
B6510-01:FID128:admin> portstatsshow 2
stat_wtx 119853225 4-byte words transmitted
stat_wrx 3831446267 4-byte words received
stat_ftx 11022853 Frames transmitted
途中省略
tim_txcrd_z 0 Time TX Credit Zero (2.5Us ticks)
tim_txcrd_z_vc 0- 3: 0 0 0 0
tim_txcrd_z_vc 4- 7: 0 0 0 0
tim_txcrd_z_vc 8-11: 0 0 0 0
tim_txcrd_z_vc 12-15: 0 0 0 0
er_enc_in 0 Encoding errors inside of frames
途中省略
er_rx_c3_timeout 0 Class 3 receive frames discarded due to timeout
er_tx_c3_timeout 0 Class 3 transmit frames discarded due to timeout
以下省略
バッファクレジット0の状態を
2.5μ秒維持したときにカウント
スイッチのバッファに保持されている
Class3フレームがタイムアウトで破棄さ
れた場合にカウント
• 接続系トラブル
• ファブリック系トラブル
• パフォーマンス系トラブル
• その他
Brocade FC Switch Operation 2/2 42
ClearLink D_Port によるファブリックの確認
• Gen5 FC で Brocade ブランドの 16,10Gbps SFP+, 8Gbps LW SFP+でサポート
‒ このポートはISLのリンクレベルの障害を診断できる
‒ 対応HBAとのリンク診断をサポート(要Fabric Visionライセンス)
‒ 診断用トラフィックを使用
‒ リンクの両端をD_Portに設定
‒ D_Portを設定する前にportdisableが必要
Brocade FC Switch Operation 2/2 43
B6510-01:FID128:admin> portdporttest --show 3
D-Port Information:
===================
Port: 3
Remote WWNN: 10:00:00:05:33:d4:42:da
Remote port: 0
Mode: Manual
No. of test frames: 1 Million
Test frame size: 1024 Bytes
FEC (enabled/option/active): Yes/No/No
CR (enabled/option/active): Yes/No/No
Start time: Tue Jun 2 19:02:33 2015
End time: Tue Jun 2 19:02:52 2015
Status: PASSED
================================================================================
Test Start time Result EST(HH:MM:SS) Comments
================================================================================
Electrical loopback 19:02:35 PASSED -------- ----------
Optical loopback 19:02:40 SKIPPED -------- ----------
Link traffic test 19:02:47 PASSED -------- ----------
================================================================================
Roundtrip link latency: 308 nano-seconds
Estimated cable distance: 5 meters
Buffers required: 1 (for 2112 byte frames at 16Gbps speed)
D_Port のテスト内容
• D_Portの使用ケース
‒ 新しいISLを、実際に使う前にテスト
‒ 新しいTrunk memberをtrunkに追加する前にテスト
‒ 長距離接続のケーブルとSFPのテスト
‒ ループバックポートのテスト
• D_Portの設定は、E_Portか、Fabric Vision ライセンスが追加されかつ
D_Portに対応したデバイスの接続される F_Port で設定可能
Brocade FC Switch Operation 2/2 44
ハードウエアの状態確認
• psShowコマンド
‒ スイッチのPower Supplyの状態を表示
• tempShowコマンド
‒ スイッチ内のセンサーの温度情報を表示
• fanShowコマンド
‒ スイッチ内のファンの回転数を表示
• sfpShowコマンド
‒ SFPトランシーバの情報を表示
• sensorShowコマンド
‒ 温度、ファン、電源の状態を簡易表示
• chassisShowコマンド
‒ FRU の情報を表示
Brocade FC Switch Operation 2/2 45
B6510-01:FID128:admin> sensorshow
sensor 1: (Temperature) is Ok, value is 45 C
sensor 2: (Fan ) is Ok,speed is 7670 RPM
sensor 3: (Fan ) is Ok,speed is 7500 RPM
sensor 4: (Power Supply) is Ok
sensor 5: (Power Supply) is Ok
B6510-01:FID128:admin> sfpshow 2
Identifier: 3 SFP
Connector: 7 LC
Transceiver: 7004404000000000 4,8,16_Gbps M5 sw Short_dist
Encoding: 6 64B66B
Baud Rate: 140 (units 100 megabaud)
Length 9u: 0 (units km)
途中省略
Vendor Name: BROCADE
Vendor OUI: 00:05:1e
途中省略
low high low high
Temperature: 46 Centigrade -5 85 0 75
Current: 7.944 mAmps 2.500 12.000 2.000 11.500
Voltage: 3335.4 mVolts 3000.0 3600.0 3100.0 3500.0
RX Power: -4.0 dBm (394.9uW) 31.6 uW 1258.9 uW 31.6 uW 794.3 uW
TX Power: -2.6 dBm (555.8 uW) 125.9 uW 1258.9 uW 251.2 uW 794.3 uW
ハードウエアコンポーネントの状態確認 - Web Tools
Brocade FC Switch Operation 2/2 46
ありがとうございました
本件に関するお問い合わせ
ブロケード コミュニケーションズ システムズ株式会社
https://www.brocadejapan.com/form/contact

ブロケード FC ファブリックスイッチ オペレーション講座(後編)

  • 1.
  • 2.
    Agenda • SANスイッチの監視設定 ‒ SNMP ‒Syslog • トラブルシュートのための操作 ‒ 接続トラブル ‒ ファブリックトラブル ‒ パフォーマンストラブル ‒ その他 Brocade FC Switch Operation 2/2 2
  • 3.
  • 4.
    SNMP 汎用的な機器監視プロトコル • SNMP v1/v3に対応 •SNMPエージェント (スイッチ)の設定 ‒ SNMPマネージャやメッセージレベル、コミュニティの設定 ‒ 特定のMIBの有効 (On)/無効 (Off)を設定 ‒ 6つのSNMPコミュニティ (SNMPマネージャ)を登録可能 • SNMPマネージャの設定 ‒ コミュニティ名の設定 ‒ MIBのインストール • SNMPv1のセキュリティ ‒ コミュニティー名の認証 • SNMPv3のセキュリティ ‒ ユーザー名の照合 ‒ MD5 or SHAアルゴリズムの認証 ‒ DES暗号化 Brocade FC Switch Operation 2/2 4 FCスイッチ (エージェント ) SNMPマネージャ トラップ ポーリング SNMP設定画面 (Web Tools) Web Toolsログイン→Switch Adminメニュー [SNMPリクエストに対するセキュリティレベル] 0 No security. 1 Authentication only. 2 Authentication and Privacy. 3 OFF
  • 5.
    SNMPの設定 SANスイッチ側の設定概要 • SNMP V1/V3プロトコルの有効化 • SNMP V1/V3 設定 ‒ Trap Recipient(SNMPマネージャ)設定 ‒ Community/Access Control設定 • Mib capability の設定 • System Groupパラメータの設定 Brocade FC Switch Operation 2/2 5
  • 6.
    SNMP V1/V3 プロトコルの有効化 SNMPv1の設定例 Brocade FC Switch Operation 2/2 6 switch:admin> snmpconfig --enable snmpv1 switch:admin> snmpconfig –-set snmpv1 SNMP community and trap recipient configuration: Community (rw): [Secret C0de] Trap Recipient's IP address : [0.0.0.0] 172.24.197.15 Trap recipient Severity level : (0..5) [4] Trap recipient Port : (0..65535) [162] Community (rw): [OrigEquipMfr] Trap Recipient's IP address : [0.0.0.0] Community (rw): [private] Trap Recipient's IP address : [0.0.0.0] Community (ro): [public] Trap Recipient's IP address : [0.0.0.0] 172.24.197.15 SNMPv1は6つのコミュニティが設定可能 Severity Level 0:None 1:Critical 2:Error 3:Warning 4:Informational 5:Debug イベント発生したとき、イベントのレ ベルに応じて通知するイベントを選択 可能 (swEventTrap,connUnitEventTrap,s wFabricWatchTrap)
  • 7.
    SNMP V1/V3 プロトコルの有効化 SNMPv3の設定例 Brocade FC Switch Operation 2/2 7 Switch:admin> snmpconfig --enable snmpv3 Switch:admin> snmpconfig --set snmpv3 SNMP Informs Enabled (true, t, false, f): [false] SNMPv3 user configuration(snmp user not configured in FOS user database will have physical AD and admin role as the default): User (rw): [snmpadmin1] Auth Protocol [MD5(1)/SHA(2)/noAuth(3)]: (1..3) [3] 1 New Auth Passwd: Priv Protocol [DES(1)/noPriv(2)/AES128(3)/AES256(4)]): (1..4) [2] 4 New Priv Passwd: User (rw): [snmpadmin2] Auth Protocol [MD5(1)/SHA(2)/noAuth(3)]: (1..3) [3] Priv Protocol [DES(1)/noPriv(2)/AES128(3)/AES256(4)]): (2..2) [2] 途中省略 SNMPv3 trap recipient configuration: Trap Recipient's IP address : [172.24.197.184] UserIndex: (1..6) [1] Trap recipient Severity level : (0..5) [4] Trap recipient Port : (0..65535) [162] 以下省略 Recipientは6つ設定可能 SNMPv3用のユーザーと認証プロトコル、 暗号方法を設定 ユーザー名は最大32文字以内で変更可能 プロトコルパスワードは1~20文字以内 Informsを使うときのみ設定 (Recipientへ受領確認要求) UserIndexは上記SNMPユーザーを番号で指定
  • 8.
    SNMP V1/V3 設定(ACL) アクセスを許可する端末の設定 BrocadeFC Switch Operation 2/2 8 switch:admin> snmpconfig --set accessControl SNMP access list configuration: Access host subnet area in dot notation: [0.0.0.0] 192.168.0.0 Read/Write? (true, t, false, f): [true] Access host subnet area in dot notation: [0.0.0.0] 2001:0db8:1234:1::1/128 Read/Write? (true, t, false, f): [true] f 以下省略 Committing configuration...done. switch:admin> snmpconfig --show accessControl SNMP access list configuration: Entry 0: Access host subnet area 192.168.0.0 (rw) Entry 1: Access host subnet area 2001:0db8:1234:1::1/128 (ro) 以下省略
  • 9.
    Mib capability の設定 使用するMIB(通知するトラップ)の選択 BrocadeFC Switch Operation 2/2 9 switch:admin> snmpconfig --set mibCapability The SNMP Mib/Trap Capability has been set to support SW-TRAP (yes, y, no, n): [yes] swFCPortScn (yes, y, no, n): [yes] swEventTrap (yes, y, no, n): [yes] Desired Serverity Level (1- critical 2- error 3 ¥ -warning 4- informational 0 -None): 4 以下省略 switch:admin> snmpconfig --show mibCapability FE-MIB: YES 途中省略 SW-TRAP: NO swFault: NO swEventTrap: YES DesiredSeverity:4
  • 10.
    System Groupの設定 機器の設置場所、連絡先などの情報を設定 Brocade FCSwitch Operation 2/2 10 Switch:admin> snmpconfig --set systemgroup Customizing MIB-II system variables ... At each prompt, do one of the following: o <Return> to accept current value, o enter the appropriate new value, o <Control-D> to skip the rest of configuration, or o <Control-C> to cancel any change. To correct any input mistake: <Backspace> erases the previous character, <Control-U> erases the whole line, sysDescr: [Fibre Channel Switch.] sysLocation: [End User Premise.] sysContact: [Field Support.] authTrapsEnabled (true, t, false, f): [false]
  • 11.
    Brocadeが提供するMIBファイル MyBrocade Webサイトから取得可能 Brocade FCSwitch Operation 2/2 11 MIBファイル MIBモジュール名 MIBオブジェクトの機能 bcCustomOperation.mib BCCUSTOM-OPR-MIB Huawei内蔵スイッチ固有のMIB bd.mib BD-MIB Bottleneck Detection BRCD_REG.mib Brocade-REG-MIB Brocade固有のMIB BRCD_TC.mib Brocade-TC Brocade固有のMIB BROCADE-MAPS-MIB.mib BROCADE-MAPS-MIB Brocade固有のMIB brcdfcip.mib Brocade-FCIP-EXT-MIB FCIPデバイス管理固有のMIB CPQ_HOST.mib CPQHOST-MIB Compaq固有のMIB CPQ_RACK.mib CPQRACK-MIB Compaq固有のMIB FA.mib FCMGMT-MIB Brocadeから提供しているFibre Alliance MIB faext.mib FA-EXT-MIB FA-MIBの拡張セット FICON.mib LINK-INCIDENT-MIB FICONデバイスの管理 fod.mib IBM-FEATURE-ACTIVATION-MIB IBMが提供するFeatures On Demandのライセンスキー管理 HA.mib HA-MIB FRUの状態を示すMIB IBMBladeCenter.mib SW-MIBの一部 IBM BladeCenter内蔵スイッチ固有のMIB SW.mib SW-MIB Brocade固有のMIB 必須
  • 12.
  • 13.
    Syslog スイッチ本体のRASログを外部サーバで保存 • Syslogサーバ (syslogd)が必要 ‒UNIX/Windows用Syslogd • スイッチのRASログをSyslogサーバへ出力することによ り、ログを永続的に記録することが可能 ‒ RAS Log:スイッチ内部で記録されるメッセージログのこと ‒ スイッチ本体で保存可能なメッセージ数は1024エントリ ‒ スイッチ本体の古いメッセージから順次上書きされる • Syslogクライアント (スイッチ)の設定 ‒ CLI/WebToolsから設定 ‒ 6つのsyslogサーバまで設定可能 • ダイレクタ製品の場合、AuditメッセージはActive CPか らのみ送信 Brocade FC Switch Operation 2/2 13 FCスイッチ (クライアント) Syslogサーバ error,warning etc.
  • 14.
    Syslog の設定 SANスイッチ側の設定概要 • Syslogサーバの IP アドレス設定 • Syslog ファシリティの設定 Brocade FC Switch Operation 2/2 14
  • 15.
    Syslog サーバの IPアドレス設定 設定例 Brocade FC Switch Operation 2/2 15 switch:admin> syslogdipshow syslog.1 172.24.182.54 syslog.2 172.24.197.184 switch:admin> syslogdipadd 192.168.0.1 Syslog IP address 192.168.0.1 added switch:admin> syslogdipshow syslog.1 172.24.182.54 syslog.2 172.24.197.184 syslog.3 192.168.0.1 switch:admin> syslogdipremove 172.24.197.184 Syslog IP address 172.24.197.184 removed switch:admin> syslogdipshow syslog.1 172.24.182.54 syslog.2 192.168.0.1 switch:admin>
  • 16.
    Syslog ファシリティの設定 設定例 Brocade FCSwitch Operation 2/2 16 switch:admin> syslogdfacility -l 1 Syslog facility changed to LOG_LOCAL1 switch:admin> syslogdfacility LOG_LOCAL1
  • 17.
    Brocade SANスイッチ監視のヒント SNMP,Syslogで何を監視すべきか • 機器障害の監視がしたい ‒重要障害はスイッチ本体のRAS Logに記載される • 一番シンプルな監視はRAS Logのエントリーの監視 • SNMPではRAS Logの内容はswEventで通知される ‒ 各種メッセージ専用のTrapは無い ‒ swEventで通知されたメッセージの詳細内容はMessage Referenceを参照 • FCポートのリンクアップ/ダウンの監視 ‒ FCポートのリンクアップ/ダウンはRAS Logに記載されないので直接監視することは出来ない • リンクアップ/ダウンは結果であって障害原因ではない • 原因側(サーバ・ストレージの障害やSFPの障害)を監視すべき ‒ SNMPの場合、swFCPortScn (SW-Trap) でFCポートの状態遷移を監視する ‒ Syslogの場合、Port State変更のメッセージを強制的に発生させなければならない • Fabric Watch/Fabric Visionが必要 • Port State Changeカウンターが増加したときにRAS Logへ記載するルールを設定する Brocade FC Switch Operation 2/2 17
  • 18.
    トラブルシュートのための操作 © 2015 BROCADECOMMUNICATIONS SYSTEMS, INC. INTERNAL USE ONLY18
  • 19.
    HBA Driver MPIO/devmapper Filesystem/Apps トラブルシューティングの基礎 SANスイッチ、サーバ、ストレージ、アプリ全体でアプローチ • 時刻同期はトラブル早期解決の第一歩 ‒ トラブルの被疑箇所は多岐にわたるため、各種ログの比較検 討が重要 ‒障害発生当時のログを付き合わせはタイムスタンプが基準 • サーバ・ストレージ・SANスイッチそれぞれで時間差があるとログ比較が難しい • NTP等で機器間の時差をなくしておくべき • 適切な情報収集と事象の明確化 ‒ 何も知らない第三者(ベンダー等)へ的確に問題を伝え、情 報を提供すること • 事象は何か?(いつ、何が、どうした、再現性、etc) • 運用環境の情報 • 障害時のログ Brocade FC Switch Operation 2/2 19 App ログ、 Kernelメッセージ SAN スイッチ RAS ログ ストレージ 各種 ログ
  • 20.
    情報の収集 SANで起こり得る問題とSANスイッチにおける調査内容 Brocade FC SwitchOperation 2/2 20 問題の種類 調査事項 ツール エンドデバイス接続 (デバイス認識不可) •Link, login •Fabric (ゾーニング、セキュリティ) •End-to-End デバイス接続 •Switch LED •Switch コマンド •エンドデバイスのパラメータ スイッチ接続 (ファブリック構成) •可用性がないLink •不正なゾーニング、ACL、VF設定 •不正なスイッチパラメータ •Switch LED •製品情報 •Switch コマンド •Web、GUIモニタリング機能、管理ソフトツール パフォーマンス (I/Oが遅い) •BBクレジットの状況 •トラフィック量 •Switch コマンド •管理ソフトツール ファームウェア保守 •ネットワーク接続 •FTPパラメータ •スイッチパラメータ •ホスト側のツール、FTPパラメータの調査 •スイッチのFTPパラメータの確認 セキュリティ (スイッチアクセス) •ネットワーク接続 •Switch認証、設定パラメータ •ホスト側のツール •Switchのネットワークパラメータ、ユーザー認証
  • 21.
    supportSave の取得 可能な限りトラブル発生直後に取得 • supportSave ‒ベンダーサポートが解析に必要な情報を取得 • RASlog, TRACE, supportShow, Core file, FFDC data等を一つのコマンドで取得 • supportSaveはadmin権限のあるアカウントで実施 • supportFtpコマンドで事前にFTP/SCPサーバ・アカウントを設定しておくと便利 ‒ supportSave実行時にサーバ情報の入力を省略可能 “supportsave –c –n” で一発取得 ‒ trace dumpの自動保存 • 各種テキスト・バイナリファイルが大量に生成される(50ファイル以上) ‒ 一つのファイルにまとめてベンダーへ提出 ‒ コマンド実行結果も出力される(*.txt.gzで保存) Brocade FC Switch Operation 2/2 21 FFDC : First Failure Data Capture 取得結果の一部
  • 22.
    supportFtp コマンド supportSave,traceDumpの出力先を事前設定 Brocade FCSwitch Operation 2/2 22 switch:admin> supportftp –s (FTPサーバパラメータの設定) Host IP Addr[]:172.24.197.10 User Name[]:ftpuser Password[]:******* Remote Dir[]:/autosupport Auto upload protocol[]:ftp supportftp: parameters changed switch:admin> supportftp –e (Trace dumpの自動保存機能ON) Support auto file transfer enabled. switch:admin> supportftp -t 2 (ftpサーバの接続確認間隔設定) supportftp: ftp check period changed B6510-01:FID128:admin> supportftp –S (設定表示) Host IP Addr: 172.24.197.10 User name: ftp Remote Dir: /autosupport Auto Upload protocol: ftp FTP Auto check: 2 Hours Auto-FTP: On switch:admin>
  • 23.
    errShow / errDumpコマンド RAS Logを表示するコマンド • スイッチに保存されているエラーやイベントを表示 ‒ ErrShow : 一画面ごとのPauseあり ‒ ErrDump : 一画面ごとのPauseなし • ログは1024エントリ分を保持し、古いものから上書きされる ‒ ログのクリアは errClear コマンド • Message ID の詳細はFabric OS Message Reference を参照する Brocade FC Switch Operation 2/2 23 B6510-01:FID128:admin> errdump Fabric OS: v7.2.1d 2015/05/12-18:24:07, [FW-1424], 4, FID 128, WARNING, B6510-01, Switch status changed from HEALTHY to MARGINAL. 2015/05/12-18:24:07, [FW-1439], 5, FID 128, WARNING, B6510-01, Switch status change contributing factor Switch offline. 2015/05/12-18:25:08, [FW-1425], 6, FID 128, INFO, B6510-01, Switch status changed from MARGINAL to HEALTHY. 2015/05/12-18:25:20, [ZONE-1004], 7, FID 128, INFO, B6510-01, Base PID: 0x070c00, Port Index: 1, Port: 1: enforcement changed to Session-based ARD Zoning. 2015/05/12-19:10:47, [SNMP-1005], 8, FID 128, INFO, B6510-01, SNMP configuration attribute, SNMPv3 User Name 6, has changed from [snmpuser3] to [admin]. MessageID Severity
  • 24.
    • 接続系トラブル • ファブリック系トラブル •パフォーマンス系トラブル • その他 Brocade FC Switch Operation 2/2 24
  • 25.
    ポート初期化 • 機器が接続されている正常なポートはF_PortかE_Portになる ‒ G_Portでかつオンライン状態を維持する場合は問題がある •E_PortやF_Portに遷移することに失敗している? ‒ FLOGI失敗 • サーバHBAドライバ不具合? • SFP+トランシーバ・ケーブル不具合? • ポートLEDの状態確認 • switchShowコマンドでポート状態を確認 Brocade FC Switch Operation 2/2 25 switch:admin> switchshow 途中省略 Index Port Address Media Speed State Proto ================================================== 0 0 070000 id N8 Online FC E-Port 10:00:00:05:1e:08:ce:99 "B5300" 1 1 070c00 id N8 Online FC F-Port 50:0a:09:81:89:fb:8f:f9 2 2 070200 id N8 Online FC F-Port 50:0a:09:81:99:fb:8f:f9 3 3 070300 -- N16 No_Module FC 以下省略 y/n y/n G - Port yes no F - Port Fabric pt-to-pt E - Port switch y/n no yes U - Port FL - Port ポートに何か接続されている? ループデバイス接続? デバイスorスイッチ接続?
  • 26.
    リンク失敗 • リンク失敗はサーバ、ストレージ、スイッチとスイッチの間で発生する。 ‒ switchShowコマンドでリンク失敗の理由を確認 • 発生しやすい原因 ‒ ポートスピードのオートネゴシエーション • 通常はオートネゴシエーションで問題ないが、ネゴシエーションに失敗するときは速度の固定設定 ‒ ループ(FC-AL)初期化の失敗 • Gen5 FCではFC-ALはサポートしない • 8Gbps FC以前の場合、スイッチポートをFL_Portに固定 ‒ Point to Point初期化の失敗 • ループ初期化時に判定が失敗する • ポートをG_Portに固定し、ループ初期化手順を省略する Brocade FC Switch Operation 2/2 26 switchShow 当該スイッチのポートステータスを表示 portCfgShow スイッチポートの設定状態を一覧表示 portCfgSpeed スイッチポートの速度設定 portCfgLport スイッチポートをFLに固定 portCfgGPort ポート初期化でLoop判別しない 関連コマンド
  • 27.
    ポートログによるリンク初期化確認 • 通常、switchShowでポートの状態を確認することでリンク初期化の 成否を判断するが、ポートログでも確認できる。 Brocade FCSwitch Operation 2/2 27 B6510-01:FID128:admin> portlogdumpport 1 time task event port cmd args ------------------------------------------------- Thu May 28 16:55:58 2015 16:55:58.892 SPEE sn 1 WS 00000009,00000000,00000000 16:55:58.901 SPEE sn 1 NM 00000009,00000000,00000000 16:55:58.921 SPEE sn 1 NF 00000009,00000000,00000000 16:55:59.143 SPEE sn 1 NC 00000008,00000000,00000000 16:55:59.144 INTR pstate 1 OL1 16:55:59.454 INTR pstate 1 LF2 16:55:59.636 INTR pstate 1 AC sn : speed negotiation NC : Negotiation has Completed 0x08 : 8Gbps でLink Up (16Gbpsは0x10) pstate : PortState MachineValues AC : Active state CmdにACが表示されているとPointto Pointで初 期化完了を意味する
  • 28.
    Marginal Links(リンク不安定) • MarginalLinkは、スイッチとデバイスの間の接続が要求されるスペック を満たしていないに発生する • Marginal Linkの原因を調べるには、リンクを形成する多くのコンポーネ ントのテスト、分析が必要となる • Marginal Linkのトラブルシュートには、ケーブル、SFPの交換、エラー カウンターの調査、リンク、ポート、end-to-endの経路の診断が含まれ る ‒ PortErrShowコマンドを実行する ‒ CRCエラーやENC_OUTエラーが高いポートが無いか、あるいはエラーの数が 常に上昇傾向にあるポートが無いかを調べる • カウンターが上昇するまで、5分ごとにサンプルをとる Brocade FC Switch Operation 2/2 28
  • 29.
    Marginal Links(続き) • 疑わしいリンクについて、 ‒ケーブルを別のポートに接続してみる ‒ SFPを挿し直す ‒ 問題が解消した場合、スイッチのポートかSFPに問題がある ‒ 問題が解消しない場合、ケーブルに問題がある(ケーブルを交換) Brocade FC Switch Operation 2/2 29
  • 30.
    PortErrShowコマンド • 各ポートのエラーの積算総数を表示 ‒ エラーの増加傾向を調べる •エラー発生時間を特定できないので、数値の有無だけで障害かどうか判断できない • 障害調査時にstatsClearコマンドで一度値をクリアし、増分を調査する ‒ 主な項目の概要 • frames tx/rx:転送/受信したフレームの数 • crc_err:CRCエラーのフレーム数 ‒ このカウンターが上昇する場合、物理層が疑われる(ケーブル、パッチパネル、SFP) • enc_out:フレーム外で発生したエラーで、通常はプリミティブの問題を示す ‒ 8Gbpsブレードの場合、portcfgfillwordコマンドを検討する • disc_c3:(discarded class 3)保持時間を過ぎ、破棄したフレームの数 Brocade FC Switch Operation 2/2 30 porterrshow: frames enc crc too too bad enc disc link loss loss frjt fbsy tx rx in err shrt long eof out c3 fail sync sig ===================================================================== 0: 464k 968k 0 0 0 0 0 83 0 21 14 0 0 0 1: 626k 488k 0 0 0 0 0 101 1 27 13 0 0 0 2: 392k 75k 0 0 0 0 0 358 0 12 1 0 0 0 3: 909k 547k 0 0 0 0 0 5.0m 0 9 20 0 0 0 4: 83k 276k 0 0 0 0 0 19k 1 15 7.3k 1 0 0 5: 165k 324k 0 0 0 0 0 66 2 9 0 0 0 0 6: 0 0 0 0 0 0 0 0 0 6 0 1 0 0
  • 31.
    サーバからストレージが認識されない サーバ、ストレージとスイッチ間のリンクは正常なのに・・・ • スイッチのネームサーバに対象デバイスが登録されていることを確認 ‒ nsShow等ネームサーバ関連コマンド ‒セキュリティーポリシー(SCC (Switch Connection Control) )の確認 • Zoning 設定を確認 ‒ 当該サーバとストレージポート間でZoneが設定されているか? ‒ Zone設定が正しいか? • fcping、portCamShow、nsZoneMemberコマンド等で確認 • サーバ及びストレージの設定を確認 ‒ LUNマッピング/マスキングやアクセス制御など各サーバ・ストレージの設定 にて対象デバイスのアクセス可能であることを確認 Brocade FC Switch Operation 2/2 31
  • 32.
    ネームサーバの確認 • デバイスは必ずネームサーバに登録される • デバイス認識問題の確認 ‒設定不備の確認の前にデバイスがファブリッ クにログインしていることを確認しておく Brocade FC Switch Operation 2/2 32 nsShow 当該スイッチのName server に登録されたノードの表示 nsAllShow ファブリック上の全ノードのFCアドレスを表示 nsCamShow Name Server Cache Managerの情報を表示 →当該スイッチ以外に接続しているノードの表示 WebTools上からも確認可能 Name Server関連コマンド
  • 33.
    • 接続系トラブル • ファブリック系トラブル •パフォーマンス系トラブル • その他 Brocade FC Switch Operation 2/2 33
  • 34.
    スイッチのカスケード接続ができない • スイッチ同士を接続したポートLEDが1秒間隔で点滅 • switchShowの出力結果で”segmented”の状態になる •ライセンスが両スイッチに入っているか? ‒ Full Fabric Licenseが必要(B300では要確認) ‒ licenseShowコマンドで確認 • ドメインIDの重複 ‒ configureコマンドで修正/一方のスイッチを停止・起動 • ファブリックパラメータの不一致 ‒ configShowコマンドで確認・比較 ‒ configureコマンドで修正/configdefaultで初期設定に復元 • ゾーン情報の不一致 ‒ 一方のスイッチの情報をクリアで解消 ‒ Network Advisorでゾーン情報の合成 Brocade FC Switch Operation 2/2 34 B6510-01:FID128:admin> switchshow switchName: B6510-01 switchType: 109.1 switchState: Online switchMode: Native switchRole: Principal switchDomain: 7 switchId: fffc07 switchWwn: 10:00:00:05:33:7a:0d:38 zoning: ON (smpl_cfg) 途中省略 Index Port Address Media Speed State Proto ================================================== 0 0 070000 id N8 Online FC E-Port segmented, 10:00:00:05:1e:08:ce:99(domain overlap)(Trunk master) ※セキュリティ設定(SCC Policy)の記述に不備がある場合、下記の様なメッセージで接続に失敗す る 0 0 010000 id N8 No_Sync FC Disabled (SW Security Violation - SCC Policy Violation, Peer WWN not in ACL list) Segmented状態と その理由が表示さ れる • セキュリティ設定のミスマッチ ‒ 双方のスイッチでセキュリティ設定 (SCC:Switch Connection Control)の差異が ある場合
  • 35.
    ファブリックパラメータの比較 • ファブリックパラメータの不一致 を確認するには、それぞれのス イッチでconfigshow –pattern “fabric.ops”で得られる値を比較 する • 値に差異があるときは switchDisable実施後にconfigure で該当パラメータの値を設定し、 switchEnableでスイッチを動作さ せる Brocade FC Switch Operation 2/2 35 B6510-01:FID128:admin> configshow -pattern "fabric.ops" fabric.ops.BBCredit:16 fabric.ops.E_D_TOV:2000 fabric.ops.R_A_TOV:10000 fabric.ops.bladeFault_on_hwErrlevel:0 fabric.ops.dataFieldSize:2112 fabric.ops.max_hops:7 fabric.ops.mode.fcpProbeDisable:0 fabric.ops.mode.isolate:0 fabric.ops.mode.longDistance:0 fabric.ops.mode.noClassF:0 fabric.ops.mode.pidFormat:1 fabric.ops.mode.tachyonCompat:0 fabric.ops.mode.unicastOnly:0 fabric.ops.mode.useCsCtl:0 fabric.ops.vc.class.2:2 fabric.ops.vc.class.3:3 fabric.ops.vc.config:0xc0 fabric.ops.vc.linkCtrl:0 fabric.ops.vc.multicast:7 fabric.ops.wan_tov:0
  • 36.
    • 接続系トラブル • ファブリック系トラブル •パフォーマンス系トラブル • その他 Brocade FC Switch Operation 2/2 36
  • 37.
    パフォーマンス低下の要因 • ストレージ内の特定のディスク・コントローラーにI/Oが集中 ‒ ストレージのディスク構成、LUN配置の見直し ‒コントローラーの増強 • ファブリック内のバッファ枯渇によるフロー制御(停止)の発生 ‒ ISLがあるファブリック(複数スイッチで構成されるファブリック) ‒ 高速デバイスと低速デバイス(高遅延)の混在環境 • Slow Drain Device Brocade FC Switch Operation 2/2 37 STOPSTOP STOP STOP STOP 低速デバイスのフロー制御が ISLポートのバッファ枯渇を 引き起こし、ファブリック全 体に波及することがある →Slow Drain
  • 38.
    パフォーマンス低下の検知 Bottleneck detection • SlowDrain ‒ 世代混在のFCファブリック(スピードが異なる)場 合、顕在化することがある • バッファクレジット型のフロー制御をするすべてのリンクレイ ヤが持つ課題 ‒ FOSv7.4以降のGen5FC製品では、slow drainデバ イスを 1 Virtual Channel に隔離して、他のデバイ スの通信を確保 • Bottleneck Monitor ‒ Bottleneckmonコマンドを使うと、F_Portや E_Portの遅延や輻輳のボトルネックを検出できる ‒ Slow drain deviceはポートのegressで検出 ‒ ライセンス不要 Brocade FC Switch Operation 2/2 38
  • 39.
    Bottleneckmon コマンド パフォーマンス低下発生を検知する Brocade FCSwitch Operation 2/2 39 switch:admin> bottleneckmon --enable –alert switch:admin> bottleneckmon --config –alert -cthresh .8 -time 240 1-15 switch:admin> bottleneckmon --show -interval 5 -span 30 2/4 ============================================= Wed Jan 13 18:54:35 UTC 2010 ============================================= Percentage of From To affected secs ============================================== Jan 13 18:54:05 Jan 13 18:54:10 20.00% Jan 13 18:54:10 Jan 13 18:54:15 60.00% Jan 13 18:54:15 Jan 13 18:54:20 0.00% Jan 13 18:54:20 Jan 13 18:54:25 0.00% Jan 13 18:54:25 Jan 13 18:54:30 40.00% Jan 13 18:54:30 Jan 13 18:54:35 80.00% FabricWatchで 通知可能 Cthresh congestion threshold Lthreash Latency threshold
  • 40.
    パフォーマンス低下から自動復旧 Credit Recovery • CreditLoss ‒ バッファクレジットの交換の ordered set (VC_RDY) が何らかの理由 で失われると発生 • 長距離接続環境等 • 発生すると、実質的なバッファ個数が減ってしまい、性能がダウン(最悪、通信途絶) ‒ Link Reset を発生させないと復旧しない ‒ Gen5 FC 製品では、Credit Recovery が自動的に行われる • C2-1014メッセージが生成 Brocade FC Switch Operation 2/2 40
  • 41.
    portStatsShowコマンド ポート毎の統計情報を表示 Brocade FC SwitchOperation 2/2 41 B6510-01:FID128:admin> portstatsshow 2 stat_wtx 119853225 4-byte words transmitted stat_wrx 3831446267 4-byte words received stat_ftx 11022853 Frames transmitted 途中省略 tim_txcrd_z 0 Time TX Credit Zero (2.5Us ticks) tim_txcrd_z_vc 0- 3: 0 0 0 0 tim_txcrd_z_vc 4- 7: 0 0 0 0 tim_txcrd_z_vc 8-11: 0 0 0 0 tim_txcrd_z_vc 12-15: 0 0 0 0 er_enc_in 0 Encoding errors inside of frames 途中省略 er_rx_c3_timeout 0 Class 3 receive frames discarded due to timeout er_tx_c3_timeout 0 Class 3 transmit frames discarded due to timeout 以下省略 バッファクレジット0の状態を 2.5μ秒維持したときにカウント スイッチのバッファに保持されている Class3フレームがタイムアウトで破棄さ れた場合にカウント
  • 42.
    • 接続系トラブル • ファブリック系トラブル •パフォーマンス系トラブル • その他 Brocade FC Switch Operation 2/2 42
  • 43.
    ClearLink D_Port によるファブリックの確認 •Gen5 FC で Brocade ブランドの 16,10Gbps SFP+, 8Gbps LW SFP+でサポート ‒ このポートはISLのリンクレベルの障害を診断できる ‒ 対応HBAとのリンク診断をサポート(要Fabric Visionライセンス) ‒ 診断用トラフィックを使用 ‒ リンクの両端をD_Portに設定 ‒ D_Portを設定する前にportdisableが必要 Brocade FC Switch Operation 2/2 43 B6510-01:FID128:admin> portdporttest --show 3 D-Port Information: =================== Port: 3 Remote WWNN: 10:00:00:05:33:d4:42:da Remote port: 0 Mode: Manual No. of test frames: 1 Million Test frame size: 1024 Bytes FEC (enabled/option/active): Yes/No/No CR (enabled/option/active): Yes/No/No Start time: Tue Jun 2 19:02:33 2015 End time: Tue Jun 2 19:02:52 2015 Status: PASSED ================================================================================ Test Start time Result EST(HH:MM:SS) Comments ================================================================================ Electrical loopback 19:02:35 PASSED -------- ---------- Optical loopback 19:02:40 SKIPPED -------- ---------- Link traffic test 19:02:47 PASSED -------- ---------- ================================================================================ Roundtrip link latency: 308 nano-seconds Estimated cable distance: 5 meters Buffers required: 1 (for 2112 byte frames at 16Gbps speed)
  • 44.
    D_Port のテスト内容 • D_Portの使用ケース ‒新しいISLを、実際に使う前にテスト ‒ 新しいTrunk memberをtrunkに追加する前にテスト ‒ 長距離接続のケーブルとSFPのテスト ‒ ループバックポートのテスト • D_Portの設定は、E_Portか、Fabric Vision ライセンスが追加されかつ D_Portに対応したデバイスの接続される F_Port で設定可能 Brocade FC Switch Operation 2/2 44
  • 45.
    ハードウエアの状態確認 • psShowコマンド ‒ スイッチのPowerSupplyの状態を表示 • tempShowコマンド ‒ スイッチ内のセンサーの温度情報を表示 • fanShowコマンド ‒ スイッチ内のファンの回転数を表示 • sfpShowコマンド ‒ SFPトランシーバの情報を表示 • sensorShowコマンド ‒ 温度、ファン、電源の状態を簡易表示 • chassisShowコマンド ‒ FRU の情報を表示 Brocade FC Switch Operation 2/2 45 B6510-01:FID128:admin> sensorshow sensor 1: (Temperature) is Ok, value is 45 C sensor 2: (Fan ) is Ok,speed is 7670 RPM sensor 3: (Fan ) is Ok,speed is 7500 RPM sensor 4: (Power Supply) is Ok sensor 5: (Power Supply) is Ok B6510-01:FID128:admin> sfpshow 2 Identifier: 3 SFP Connector: 7 LC Transceiver: 7004404000000000 4,8,16_Gbps M5 sw Short_dist Encoding: 6 64B66B Baud Rate: 140 (units 100 megabaud) Length 9u: 0 (units km) 途中省略 Vendor Name: BROCADE Vendor OUI: 00:05:1e 途中省略 low high low high Temperature: 46 Centigrade -5 85 0 75 Current: 7.944 mAmps 2.500 12.000 2.000 11.500 Voltage: 3335.4 mVolts 3000.0 3600.0 3100.0 3500.0 RX Power: -4.0 dBm (394.9uW) 31.6 uW 1258.9 uW 31.6 uW 794.3 uW TX Power: -2.6 dBm (555.8 uW) 125.9 uW 1258.9 uW 251.2 uW 794.3 uW
  • 46.
    ハードウエアコンポーネントの状態確認 - WebTools Brocade FC Switch Operation 2/2 46
  • 47.