ATTA2014基盤B導入（片桐）

科研基盤B
「実行時自動チューニング機能付き
疎行列反復解法ライブラリの
エクサスケール化」
ープロジェクト概要ー
片桐孝洋
東京大学情報基盤センター
第6回自動チューニング技術の現状と応用に関するシンポジウム
2014年12月25日（水） 10:10～10:45 / 10:10～10:25 プロジェクト概要
東京大学理学部1号館小柴ホール

Agenda
（片桐）
1. 2020年以降に進むべき道
2. エクサスケールで必要になる
数値計算ライブラリの課題
3. 本基盤Ｂの研究計画
4. 成果概要
（日立中研櫻井）
1. XabclibのICCGソルバの開発とOpenFOAM
への適用

２０２０年以降に進むべき道
• 2020年以降、ハードウェア技術の進歩が止まり、
スパコンの性能向上が止まる（といわれている）
• だが、ソフトウェアの品質向上はまだまだ不十分
• 人口（優秀な人材）も減っていく
• 数値計算においては．．．
– 計算誤差の累積（精度保証）
– 計算が収束しない（数値解析）
– 計算効率が悪い（高性能計算）
– プログラム開発のコストかかかる・プログラムができる
人材がいない（生産性）
– 手頃に使えるソフトがない（フリーソフトの普及）
– 気が利かない（人工知能？？）
→ 2020年以降も10年間ぐらいはAT研究が必要

性能可搬性(Performance Portability)とは？
4
 複数計算機環境での最適化を提供するパラダイム
（HPCI 技術ロードマップ白書、数値計算ライブラリのための自動チューニング2012 年3 月）
 2000年頃から日本で使われている技術用語
 同一プログラムで計算機環境が変わっても高性能を維持
A社計算機
コンパイラA
アプリケーション
B社計算機
コンパイラB
C社計算機
コンパイラC
自動チューニング（AT）機構
 同一プログラム
 アルゴリズム（実装）選択
AT機構の機能
 コード自動生成
 パラメタ最適化
（探索、学習）
 性能モニタ
 性能データベース
エクサに向けた
多様な
ハードウェア
環境
GPU メニーコアCPU マルチコアCPU

AT技術
【汎用ライブラリ】を専用化
AT技術は自動専用化（カスタマイズ）
のための技術
汎用化
高性能
ドメイン・スペシフィック
専用数値ライブラリ
専用言語（DSL）
汎用利用
数値ライブラリ
コンパイラ
低性能
専用化
ユーザ知識
ジェネレータ
コード・
ジェネレータ
専用言語
探索・最適化
機能設計
API設計
アプリ分野との
コ・デザインで決定

使えるAT技術を目指して：コ・デザイン！
1. 計算科学分野のアプリで「実用」となれ！
 実アプリケーションの性能要求をもとにATの効果を出す（コ・デザインの推進）
 ベンチマークはだめ（「ミニアプリ」を用いて、＜機能＞と＜API＞を決めよ）
 最終的には実アプリのコードを用いて性能評価せよ！
2. 運用中のスパコンでも適用できるべし！
 スパコン運用環境でAT機能付きソフトウェアが動作すること
 多数ユーザ（2000名超）を有するスパコンセンタでも使えること（低オーバーヘッド）
 ATのための計算機資源利用を極力少なくせよ
 他ユーザの処理を絶対に阻害しない（マシンを落としてはならない！）
3. ソフトウェア・スタックの要求を少なくすべし！
 エクサマシンの環境想定はできない
（好きなスクリプト言語が使えると思ってはいけない）
 いろいろソフトが必要だと、アプリ分野の人が自分でインストールできない
 動的な「コードジェネレータ」は使わない
 デーモンが必要、OSカーネル修正が必須だと困る（ベンダ保守契約の問題）
 スクリプト言語は重い（場合により動かない）
 バッチジョブシステム依存のシステムだと動かない …など
 「全てがユーザレベルで動作」する枠組みであるべし
6

一つの方向(FIBERフレームワーク[Katagiri et.al., 2003 ])
オリジナルコード
ディレクティブ
による記載
ユーザ
知識ライブラリ
開発者
① ライブラリ
公開前
Candidate
1
Candidate
2
Candidate
3
候補
n
オートチューナー
公開ライブラリ
自動
コード生成
②
：対象
計算機
実行時間④
ライブラリ
ユーザ
③
ライブラリ呼び出し
選択
⑤
⑥
自動
チューニング
された
コード実行
実行時
Xabclib、
ABCLib、
ppOpen‐AT
(ABCLibScript)
のAT方式

構成員
• 代表者
– 片桐孝洋（東京大学・情報基盤センター）
• 研究分担者
– 田中輝雄（工学院大学・情報工学部）
– 黒田久泰（愛媛大学・理工学研究科）
– 岩下武史（北海道大学・情報基盤センター）
– 佐藤雅彦（核融合科学研究所）
– 大島聡史（東京大学・情報基盤センター）
• 連携研究者
– 須田礼仁（東京大学・情報理工学系研究科）
– 今村俊幸（理化学研究所・計算科学研究機構）
– 櫻井隆雄（日立製作所・中央研究所）

概要
• エクサスケール環境では、高並列マルチコアCPUに加え、
演算アクセレータを持つ多様な計算機環境になる
–“MPI + X” の実行環境
• ノード内はスレッド並列化 + 演算アクセラレータ実行
• ノード外はMPIでプロセス並列化
–ハイブリッドMPI/OpenMP実行
• 実行時自動チューニング（AT）技術の方式研究
– 対象
• 疎行列反復解法の主要演算
• 上記を用いる数値計算ライブラリとシミュレーション
– 実用アプリケーションで求められる実行時ATの要求要件
を調査のうえ同定
– エクサスケール化を達成する実行時AT方式を開発
• エクサスケール環境における高効率実行のための
数値計算用AT基盤ソフトウェアの確立

研究の要点
• OpenATLib（既開発の疎行列反復解法用AT基盤）
のハイブリットMPI/OpenMP化と、そのAT技術開発
• 研究開発項目
1. OpenATLibのMPI実装：
OpenATLib、および、Xabclibで実装されている
数値反復解法をMPI化（MPI実装）
2. XabclibのGPU（メニーコア）化：
GPU（メニーコア）化に対応するため、疎行列‐ベクトル
積などの主要演算をGPU（メニーコア）化
3. 分散APIの開発：
MPIの通信時間を最小化する、ライブラリ・
インターフェースの開発
4. 分散APIで機能するAT方式開発：
上記分散APIで必要となるAT機能の開発

研究計画の概要
• AT方式開発グループ、数値計算ライブラリ適用グループ、
アプリケーション適用グループの３グループを編成
– エクサスケール化を達成する、実行時AT機能の仕様策定、
実装、および性能評価
• CPUとGPU(メニーコア、インテルMIC（Xeon Phi）を含む)の
計算機環境でのAT評価
• 開発工程を5フェーズに分ける
– 平成24年度
• 多様な計算機対応、ハイブリッドMPI/OpenMP実行を想定した
AT機能を実現する新OpenATLibの設計
– 平成25年度以降
• 設計をもとにプロトタイプを開発
• AT仕様を高度化
• 広範な適用対象の要求要件を満たす実行時AT機能を実現
– 平成26年度
• 性能評価
• 開発したOpenATLibのソースコードをフリーソフトウェアとして公開

図：新OpenATLib開発と既存要素技術の適用
要素技術の
AT方式適用
CPU‐GPU切り替え
（片桐）
実行時
データ形式変換
（片桐）
高効率GPU実装
（大島）
AT性能安定化
（田中）
AT時間削減
（須田）
新OpenATLib開発
エクサスケール環境向き
疎行列反復解法
ライブラリ
通信ライブラリMPI
の最適化
（片桐・黒田）
HxABCLibScript
SpMV形式変換
高効率SpMV実装
D‐Spline
実験計画法
並列版SpMV
の通信時間高速化
AT機能のAPI
として利用
ライブラリ・インターフェース
多様なプロセッサ対応
メモリアクセス回数の削減
通信量の削減
メモリアクセス回数の削減
ライブラリ・インターフェース
エクサスケールの課題
日立製作所

図：本研究における分担者・連携者と具体的な役割
●統括片桐孝洋（東大准教授）
●AT方式開発グループ（ATMD）
【多様な計算環境サブグループ】
★片桐孝洋（東大准教授、代表）：新OpenATLib実装、ハイブリッドMPI‐OpenMP最適化
大島聡史（東大助教、分担）：GPU実装、高効率SpMV実装
【理論研究サブグループ】
★田中輝雄（工学院大教授、分担）：d‐splineによるAT性能安定化
須田礼仁（東大教授、連携）：実験計画法によるAT時間削減
●数値計算ライブラリ適用グループ（NLAG）
★黒田久泰（愛媛大准教授、分担）：疎行列反復解法ライブラリ適用
今村俊幸（理研チームリーダ、連携）：固有値ライブラリ適用
●アプリケーション適用グループ（APAG）
★岩下武史（北大教授、分担）：電磁気シミュレーション適用
佐藤雅彦（核融合研助教、分担）：陰解法MHDコード適用
仕様・実装変更
実性能の提示
AT方式適用
性能評価
仕様の提示、AT機能要求
仕様変更、AT方式の実装
実性能の提示AT方式の適用評価

開発フェーズと工程
表：開発フェーズと工程
フェーズ平成 24 年度平成 25 年度平成 26 年度
(1)新 OpenATLib 設計
（2）AT 方式
要素技術開発
↓(1)反映
（3）新 OpenATLib
機能高度化
↓(1)(2)(4)反映 ↓（２）反映
（4）アプリケーション
適用評価
（5）開発コードの
公開・保守
パッケージ化↓
新 OpenATLib 設計フェーズ：平成 24 年度中期までに、非均質計算機対応、ハイブリッド M

pXabclib の新規開発
• ハイブリッドMPI/OpenMP実行ができる、
MPI版XabclibのpXabclibを新規開発
– 分散版のAPI (pOpenATLib)を開発
– AT機能の一部を実装（フル実装は将来課題）
• MPI通信について、通信に必要な処理時間を
削減する高性能実装を開発
– 送受信データのパック、アンパックの処理の実装
– 愛媛大学黒田久泰准教授との共同研究成果
• 将来的には、通信を最小化するデータ分散を
考慮したAPIを開発（後で少し言及）
– グラフ分割ツールMETISと連携
– 反復解法の収束特性も考慮
• ２０１４年１２月１７日トライアル版 V0.10公開済み

pXabclibの性能（ハイブリッドMPI/OpenMP、疎行列‐ベクトル積）
行列名次元数非ゼロ要素数備考
Transport 1,602,111 23,500,731 流体力学
 テスト行列（フロリダ大学コレクション）  評価環境
 東京大学情報基盤センター
FX10スーパコンピュータシステム
 Sparc64 IX‐fx
 1ノード16コア
 4ノード
3.64 3.50 3.38 3.50
3.30
1.73 1.73
1.33
0.93
0.69
0
0.5
1
1.5
2
2.5
3
3.5
4
P64T1(Pure
MPI)
P32T2 P16T4 P8T8 P4T16(Full
Hybrid
MPI/OpenMP)
Total SpMV time [sec.]
Total Communication Time [Sec.]
 実験条件
 BiCGStab法（非対称行列）
 前処理：ブロックJacobi
 データ分割：均等プロセス分割（N分割）
982
966
946
973
929
900
910
920
930
940
950
960
970
980
990
Iteration Number
反復回数
0.9 ms. 0.9 ms. 0.7 ms. 0.5 ms. 0.4 ms.
1回当たりの通信時間
ハイブリッドMPIで
実行時間減少
ハイブリッドMPIで
通信時間減少
疎行列‐ベクトル積時間[秒]（PXPY：X MPIプロセス、Yスレッド/MPIプロセス）

エクサスケールに向けたpXabclibのAT機能
• MPIプロセス単位、ダイナミック（オン・ザ・フライ）なAT機能
1. 問題特性の吸収
– グラフ分割ツールで領域分割後、MPIプロセスごとのローカル行列
は、それぞれ数値特性が異なるはず
• MPIプロセス単位の前処理選択のATが効果的と予想
– そもそも、MPIプロセスへの領域分割の方法自体を収束性が
良くなるようにATで決める
• METISと連携し、強連結成分ごとにデータ分散
（ただし負荷バランスは考慮）
• 前処理時の通信量を削減し、かつ、収束性を高めることが可能
2. ハードウェア特性の吸収
– エクサ環境ではメニーコアCPU（MICやGPUに限定しない意味で）
– CPU性能やデータアクセス時間のぶれがあると予想
• NUMAの配置（確実）や、ひょっとすると、製造プロセスによる！？
• CPU演算時間、および、３次元積層メモリ（HBM (High Bandwidth
Memory) など）のアクセス時間
– 静的な情報（演算量による分散）だけでなく、実行時間を取得して、
動的にデータ再分散するAT機能が有効と予想
• MPIプロセス、および、OpenMPによるスレッド実行とも

メニーコア向き実装技術（担当：大島）
• OpenMPの実行時スケジューリング変更
• dynamicおよびチャンクサイズの変更
Satoshi Ohshima, Takahiro Katagiri, Masaharu Matsumoto:Performance optimization of SpMV using CRS format by
considering OpenMP scheduling on CPUs and MIC, Proceedings of IEEE MCSoC2014, pp.253‐260 (2014)
Xabclib_GMRES
(富士通FX10)
スケジューリングとチャンクサイズ変更で
～１．２５ｘ

OpenACCによるCPU‐GPU切り替え
• HxABCLib の技術をOpenACCで実現（今後の課題）
片桐孝洋、大島聡史、平澤将一、本多弘樹：HxABCLibScript: 非均質計算機向け自動チュー
ニング記述言語拡張、情報処理学会研究報告HPC‐129 （2011）

OpenFOAMへの展開
• 東大－日立－ペトロナス工科大学（マレーシア）との共同研究
– OpenFOAMにXabclibを組み込む研究
– 前処理方式のATに遺伝的アルゴリズムを適用する研究
Source:
http://hpc.utp.edu.my/index.php/
ct‐menu‐item‐35/openfoam‐with‐
xabclib
OpenFOAM with Xabclib

まとめ
 エクサに向けたAT技術
– 実用を考慮したAT実装
• （環境想定ができないので）ソフトウェアスタック依存をなくす
– 実行時ATの知見
• ユーザ知識を利用して探索空間を減少させる
• 行列サイズ、プロセス数やスレッド数はユーザ知識で固定化
• 行列情報（疎行列構造、非零要素の位置や値の固定化の有無）を
ユーザ知識で固定化
• ユーザ知識の導入があれば基本的には全探索でよい
– データ構造の変換
• CRSかELLか、それ以外か
• 汎用ライブラリ化を考慮し、呼び出し時にデータ変換
 実アプリへの展開
– OpenFOAMへ適用
 AT高度化の課題
– データ分散最適化、前処理自動選択
– メニーコアでのオフロード対応
– OpenACC対応によるGPU対応

謝辞
• XabclibをOpenFOAMに組み込む研究開発に
関し、以下にご協力を頂きました。
ここに感謝の意を表します。
– 戦略的創造研究推進事業CREST
「ポストペタスケール高性能計算に資する
システムソフトウェア技術の創出」領域
自動チューニング機構を有する
アプリケーション開発・実行環境
（代表：中島研吾教授）

ATTA2014基盤B導入（片桐）

ATTA2014基盤B導入（片桐）

Recommended

Recommended

More Related Content

Viewers also liked

Viewers also liked (7)

Similar to ATTA2014基盤B導入（片桐）

Similar to ATTA2014基盤B導入（片桐） (20)

Recently uploaded

Recently uploaded (14)

ATTA2014基盤B導入（片桐）