SlideShare a Scribd company logo
次世代インテル® Xeon™
プロセッサーを中心とした
インテルのHPC-AI最新情報
インテル株式会社
第 22 回 PC クラスタシンポジウム
第 22 回 PC クラスタシンポジウム
注意事項および免責条項
性能は、使用状況、構成、その他の要因によって異なります。詳細については Performance Index サイ
トを参照してください。
性能の測定結果は、構成に示されている日付時点のテストに基づいています。また、現在公開中のすべ
てのアップデートが適用されているとは限りません。 構成の詳細については、補足資料を参照してくだ
さい。 絶対的なセキュリティーを提供できる製品またはコンポーネントはありません。
実際のコストや結果は異なる場合があります。
インテルのテクノロジーを使用するには、対応したハードウェア、ソフトウェア、またはサービスの有
効化が必要となる場合があります。
©2022 Intel Corporation. 無断での引用、転載を禁じます。 Intel、インテル、Intel ロゴ、その他のイ
ンテルの名称やロゴは、Intel Corporation またはその子会社の商標です。 その他の社名、製品名など
は、一般に各社の表示、商標または登録商標です。
第 22 回 PC クラスタシンポジウム
ヘテロジニアス化 (異種混在) が進むワークロード
スカラー ベクトル マトリクス 空間
第 22 回 PC クラスタシンポジウム
ハイブリッド・
コンピューティング・
クラスター
単一パッケージに実装
第 22 回 PC クラスタシンポジウム
CPU
HPC
GPU
AI & HPC
インテル®
Xeon® プロセッサー
開発コード名:
Sapphire Rapids
次世代インテル®
Xeon® プロセッサー
次世代
Ponte Vecchio
スーパーコンピューティング・シリコンのロードマップ
柔軟性と拡張性に優れた新しい
タイルベースのアーキテクチャー
インテルの
データセンター GPU
開発コード名:
Ponte Vecchio
HBM
第 4 世代インテル®
Xeon® スケーラブル・
プロセッサー
次世代 インテル®
Xeon® プロセッサー
開発コード名:
Emerald Rapids
HBM
2022年 2023年以降
次世代 インテル®
Xeon® プロセッサー
開発コード名:
Granite Rapids
専用
ディープラーニング
学習処理
Habana®
AI プロセッサー
Habana®
AI プロセッサー
Intel Confidential
Department or Event Name 6
インテル® Xeon® プロセッサー
HBM
開発コード名:
アドバンスト・
マトリクス・
エクステンション
統合型
アクセラ
レーション・
エンジン
第 22 回 PC クラスタシンポジウム
DDR なし
コード変更なし
第 22 回 PC クラスタシンポジウム
インテルの
データセンター GPU 開発コード名:
1,000 億
以上
トランジスター数
最大演算性
能は2
EFLOPS以
上*
* 倍精度の最大演算性能。性能は、使用状況、構成、その他の要因によって異なります。
ワークロードと構成については、http://www.intel.com/InnovationEventClaims/ (英語) を参照してください。結果は状況によって異なります。
第 22 回 PC クラスタシンポジウム
次世代 AI & HPC データセンター GPU
最大
160
Xe コア数
IDM 2.0
プロセス
の進歩
OAM 2.0
拡大
I/O 帯域幅
向上
FLOPS
& GT/s
目標
サンプル公開
2023年
第 22 回 PC クラスタシンポジウム
タイルの比率と構成が柔軟
この図は例示のみを目的とし、幅広いパフォーマンス要件にわたってフルインストール・ベースに
対応するように設計された拡張可能なアーキテクチャーを表しています。
第 22 回 PC クラスタシンポジウム
柔軟性に優れた次世代アーキテクチャー
5倍以上
メモリーの
容量と帯域幅
オング
ストローム
時代のプロセス
次世代の
高度な
パッケージング
極めて
広帯域の
共有メモリー
業界
トップレベルの
I/O
プログラミング・
モデルの
簡素化
x86とXe の
タイル設計比率を
柔軟に設定可能
5倍以上
x86 ソケットでの
演算密度
5倍以上
消費電力当たり
性能
この図は例示のみを目的とし、幅広いパフォーマンス要件にわたってフルインストール・ベースに
対応するように設計された拡張可能なアーキテクチャーを表しています。
性能目標は、2022年2月時点における現行プラットフォームと比較した推定値に基づきます。
結果は状況によって異なります。
第 22 回 PC クラスタシンポジウム
…ベンダーを問わず
クロスアーキテクチャーの
プログラミングを促進
ハードウェアから
生産性の高いパフォーマンスを抽出
独自のプログラミング・モデルからの解放
開発には C++、SYCL、Fortran、Python、
OpenMP、MPI を使用
第 22 回 PC クラスタシンポジウム
SYCLomatic
https://github.com/oneapi-src/SYCLomatic/ (英語)
CUDA コードから SYCL や C++ へ
移植しやすく、短期間でクロスアーキ
テクチャーのプログラミングが可能
詳細情報:
オープンソース
CUDA コード
移植
C++ と SYCL
ビルド
導入
第 22 回 PC クラスタシンポジウム
主な HPC
ワークロードの
高速化
第 3 世代インテル® Xeon®
スケーラブル・プロセッサー
WRF
conus2.5km
YASK
ISO3dfd
openFOAM
Motorbike _ 28m
CloverLeaf
clover_bm16
インテル® Xeon® プロセッサー 開発コード名:
ワークロードと構成については、補足資料を参照してください。結果は異なる場合があります。
ここで記載する内容は OpenCFD Limited の承諾または承認を受けたものではありません。OpenCFD Limited は、OpenFOAM ソフトウェア
(http://www.openfoam.com/) の開発元およびディストリビューターであり、OpenFOAM、OpenCFD の商標を所有します。
1.0
(基準)
2倍以上
3倍以上 3倍
以上
地球システムモデル エネルギー 物理
製造
相対性能
(値が大きいほど高性能)
2倍
以上
第 22 回 PC クラスタシンポジウム
oneDNN は「そのままで」
AI パフォーマンスを高速化
コード変更なし
第 22 回 PC クラスタシンポジウム
トップレベルの
HPC-AI パフォーマンス
第 4 世代インテル®
Xeon® スケーラブル・
プロセッサー
Cosmoflow
DeepCAM
学習処理
学習処理
AMD
EPYC
7763
第 3 世代
インテル® Xeon®
Platinum 8380
プロセッサー
第 4 世代
インテル® Xeon®
プロセッサー
NVIDIA
A100
第 4 世代
インテル® Xeon®
プロセッサー
NVIDIA
A100
第 3 世代
インテル® Xeon®
Platinum 8380
プロセッサー
第 4 世代
インテル® Xeon®
プロセッサー
1.0
(基準)
FP32 FP32 FP32 混合 FP32/
BF16 (AMX)
FP32
混合
3.2倍
相対性能
(値が大きいほど高性能)
2.8倍
1.2 倍
1.9 倍
2.4 倍
1.5 倍
1.8 倍
FP32
MLPerf HPC-AI v 0.7 での未検証のパフォーマンス向上。DeepCAM 学習処理ベンチマークは最適化済みの Pytorch 1.11 を使用。Cosmoflow 学習処理ベンチマークは最適化済みの Tensorflow 2.6 を使用。この結果の
MLCommons Association による検証は未実施。未検証の結果は MLPerf レビューを経ておらず、検証結果に対する MLPerf の仕様とは一致しない測定方法やワークロード実装が使用されている可能性があります。MLPerf の名称
およびロゴは、アメリカ合衆国およびその他の国における MLCommons Association の商標です。 All rights reserved. 無断での引用、転載を禁じます。詳細については、http://www.mlcommons.org/ (英語) を参照してください。
ワークロードと構成については、補足資料を参照してください。結果は異なる場合があります。
第 22 回 PC クラスタシンポジウム
ソフトウェア
シリコン
オープン
選択の幅
信頼性
インテル® Xeon® プロセッサー
開発コード名:
Sapphire Rapids
インテルの
データセンター GPU
開発コード名:
Ponte Vecchio
Rialto Bridge
Falcon Shores
HBM
インテル® XPU
マネージャー
2倍以上
地球システム
モデル
3倍以上
エネルギー
3倍以上
物理
2倍以上
製造
Sapphire Rapids
インテル® Xeon® プロセッサー
開発コード名: HBM
ワークロードと構成については、補足資料を参照してください。結果は異なる場合があります。
第 22 回 PC クラスタシンポジウム
DeepCAM の構成の詳細
ベースライン構成: EPYC 7763: 2022年4月7日に実施したインテル社内テストで測定。1 ノード、2x EPYC 7763、64 コア、HT 有効、ターボ無効、メモリー総容量 512GB (16 スロット / 32GB/ 3,200MHz、DDR4)、BIOS AMI
1.1b、ucode 0xa001144、OS Red Hat Enterprise Linux 8.5 (Ootpa)、カーネル 4.18.0-348.7.1.el8_5.x86_64、コンパイラー gcc (GCC) 8.5.0 20210514 (Red Hat 8.5.0-4)、
https://github.com/mlcommons/hpc/tree/main/deepcam/、torch1.11.0a0+git13cdb98、torch-1.11.0a0+git13cdb98-cp38-cp38-linux_x86_64.whl、torch_ccl-1.2.0+44e473a-cp38-cp38-linux_x86_64.whl、
intel_extension_for_pytorch-1.10.0+cpu-cp38-cp38-linux_x86_64.whl、インテル® MPI 2021.5、Python3.8
第 3 世代インテル® Xeon® Plutinum 8380 プロセッサー: 2022年4月7日に実施したインテル社内テストで測定。1 ノード、2x 第 3 世代インテル® Xeon® Platinum 8380 プロセッサー、40 コア、HT 有効、ターボ無効、メモ
リー総容量 512GB (16 スロット / 32GB/ 3,200MHz、DDR4)、BIOS SE5C6200.86B.0022.D64.2105220049、ucode 0xd0002b1、OS Red Hat Enterprise Linux 8.5 (Ootpa)、カーネル 4.18.0-348.7.1.el8_5.x86_64、コン
パイラー gcc (GCC) 8.5.0 20210514 (Red Hat 8.5.0-4)、https://github.com/mlcommons/hpc/tree/main/deepcam/、torch1.11.0a0+git13cdb98、torch-1.11.0a0+git13cdb98-cp38-cp38-linux_x86_64.whl、
torch_ccl-1.2.0+44e473a-cp38-cp38-linux_x86_64.whl、intel_extension_for_pytorch-1.10.0+cpu-cp38-cp38-linux_x86_64.whl (AVX-512)、インテル® MPI 2021.5、Python3.8
第 4 世代インテル® Xeon® スケーラブル・プロセッサー: 2022年5月5日に実施したインテル社内テストで測定。1 ノード、2x 第 4 世代インテル® Xeon® スケーラブル・プロセッサー、40 コア以上、HT 有効、ターボ無効、メモ
リー総容量 512GB (16 スロット / 32GB/ 4,800MHz、DDR5)、BIOS EGSDCRB1.86B.0078.D10.2204072027、ucode 0x8f000320、OS CentOS Stream 8、カーネル 5.15.0-spr.bkc.pc.4.24.0.x86_64、コンパイラー gcc
(GCC) 8.5.0 20210514 (Red Hat 8.5.0-10、https://github.com/mlcommons/hpc/tree/main/deepcam/、torch1.11.0a0+git13cdb98、AVX-512、FP32、torch-1.11.0a0+git13cdb98-cp38-cp38-linux_x86_64.whl、
torch_ccl-1.2.0+44e473a-cp38-cp38-linux_x86_64.whl、intel_extension_for_pytorch-1.10.0+cpu-cp38-cp38-linux_x86_64.whl (AVX-512)、インテル® MPI 2021.5、Python3.8
A100 80GB + 第 3 世代インテル® Xeon® Platinum 8360Y プロセッサー: 202年4月13日に実施したインテル社内テストで測定。1 ノード、2x 第 3 世代インテル® Xeon® Platinum 8360Y プロセッサー、36 コア、HT 有効、
ターボ有効、メモリー総容量 256GB (16 スロット / 16GB/ 3,200MHz)、NVIDIA A100 80GB PCIe (UUID: GPU-59998403-852d-2573-b3a9-47695dca0604)、PICe ID 20B5、BIOS AMI 1.1b、ucode 0xd000311、OS Red
Hat Enterprise Linux 8.4 (Ootpa)、カーネル 4.18.0-305.el8.x86_64、コンパイラー gcc (GCC) 8.4.1 20200928 (Red Hat 8.4.1-1)、https://github.com/mlcommons/hpc/tree/main/deepcam/、pytorch1.11.0
py3.7_cuda11.3_cudnn8.2.0_0、cudnn 8.2.1、cuda11.3_0、intel-openmp 2022.0.1 h06a4308_3633、python3.7
第 4 世代インテル® Xeon® スケーラブル・プロセッサー: 2022年5月5日に実施したインテル社内テストで測定。1 ノード、2x 第 4 世代インテル® Xeon® スケーラブル・プロセッサー、40 コア以上、HT 有効、ターボ無効、メモ
リー総容量 512GB (16 スロット / 32GB/ 4,800MHz、DDR5)、BIOS EGSDCRB1.86B.0078.D10.2204072027、ucode 0x8f000320、OS CentOS Stream 8、カーネル 5.15.0-spr.bkc.pc.4.24.0.x86_64、コンパイラー gcc
(GCC) 8.5.0 20210514 (Red Hat 8.5.0-10)、https://github.com/mlcommons/hpc/tree/main/deepcam/、torch1.11.0a0+git13cdb98、AVX-512 FP32、torch-1.11.0a0+git13cdb98-cp38-cp38-linux_x86_64.whl、
torch_ccl-1.2.0+44e473a-cp38-cp38-linux_x86_64.whl、intel_extension_for_pytorch-1.10.0+cpu-cp38-cp38-linux_x86_64.whl (AVX-512、AMX、BFloat16 有効)、インテル® MPI 2021.5、Python3.8
MLPerf HPC-AI v0.7 学習処理ベンチマークのパフォーマンス。この結果の MLCommons Association による検証は未実施。未検証の結果は MLPerf レビューを経ておらず、検証結果に対する MLPerf の仕様とは
一致しない測定方法やワークロード実装が使用されている可能性があります。MLPerf の名称およびロゴは、アメリカ合衆国およびその他の国における MLCommons Association の商標です。 All rights reserved.
無断での引用、転載を禁じます。詳細については、http://www.mlcommons.org/ を参照してください。
第 22 回 PC クラスタシンポジウム
CosmoFlow の構成の詳細
ベースライン構成: EPYC 7763: 2022年3月27日に実施したインテル社内テストで測定。1 ノード、2x EPYC 7763、64 コア、HT 有効、ターボ無効、メモリー総容量 512GB (16 スロット / 32GB/ 3,200MHz、DDR4)、BIOS AMI
1.1b、ucode 0xa001144、OS Red Hat Enterprise Linux 8.5 (Ootpa)、カーネル 4.18.0-348.7.1.el8_5.x86_64、コンパイラー gcc (GCC) 8.5.0 20210514 (Red Hat 8.5.0-4)、
https://github.com/mlcommons/hpc/tree/main/cosmoflow、Tensorflow 2.8、tf_nightly-2.8.0.202149-cp38-cp38-linux_x86_64.whl、horovod 0.22.1、keras 2.8.0、oneCCL-2021.4、oneAPI MPI 2021.4.0、Python
3.8
A100 80GB GPU + 第 3 世代インテル® Xeon® Platinum 8360Y プロセッサー: 2022年4月8日に実施したインテル社内テストで測定。1 ノード、2x インテル® Xeon® Platinum 8360Y プロセッサー、36 コア、HT 有効、ター
ボ有効、メモリー総容量 256GB (16 スロット / 16GB/ 3,200MHz)、NVIDIA A100 80GB PCIe (UUID: GPU-59998403-852d-2573-b3a9-47695dca0604)、PICe ID 20B5、BIOS AMI 1.1b、ucode 0xd000311、OS Red Hat
Enterprise Linux 8.4 (Ootpa)、カーネル 4.18.0-305.el8.x86_64、コンパイラー gcc (GCC) 8.4.1 20200928 (Red Hat 8.4.1-1)、https://github.com/mlcommons/hpc/tree/main/cosmoflow/、Tensorflow 2.6.0、keras
2.6.0、cudnn 8.2.1、horovod 0.24.2、Python 3.7
第 3 世代インテル® Xeon® Platinum 8380 プロセッサー: 2022年4月5日に実施したインテル社内テストで測定。1 ノード、2x インテル® Xeon® Platinum 8380 プロセッサー、40 コア、HT 有効、ターボ無効、メモリー総容量
512GB (16 スロット / 32GB/ 3,200MHz、DDR4)、BIOS SE5C6200.86B.0022.D64.2105220049、ucode 0xd0002b1、OS Red Hat Enterprise Linux 8.5 (Ootpa)、カーネル 4.18.0-348.7.1.el8_5.x86_64、コンパイラー gcc
(GCC) 8.5.0 20210514 (Red Hat 8.5.0-4)、https://github.com/mlcommons/hpc/tree/main/cosmoflow/、AVX-512、FP32、Tensorflow 2.6.0、horovod 0.23.0、keras 2.6.0、oneCCL-2021.4、oneAPI MPI 2021.4.0、
Python 3.8
第 4 世代インテル® Xeon® スケーラブル・プロセッサー: 2022年5月5日に実施したインテル社内テストで測定。1 ノード、2x 第 4 世代インテル® Xeon® スケーラブル・プロセッサー、40 コア以上、HT 有効、ターボ無効、メモ
リー総容量 512GB (16 スロット / 32GB/ 4,800MHz、DDR5)、BIOS EGSDCRB1.86B.0078.D10.2204072027、ucode 0x8f000320、OS CentOS Stream 8、カーネル 5.15.0-spr.bkc.pc.4.24.0.x86_64、コンパイラー gcc
(GCC) 8.5.0 20210514 (Red Hat 8.5.0-10)、https://github.com/mlcommons/hpc/tree/main/cosmoflow/、AVX-512、FP32、Tensorflow 2.6.0、horovod 0.23.0、keras 2.6.0、oneCCL-2021.4、oneAPI MPI 2021.4.0、
Python 3.8
MLPerf HPC-AI v0.7 学習処理ベンチマークのパフォーマンス。この結果の MLCommons Association による検証は未実施。未検証の結果は MLPerf レビューを経ておらず、検証結果に対する MLPerf の仕様とは
一致しない測定方法やワークロード実装が使用されている可能性があります。MLPerf の名称およびロゴは、アメリカ合衆国およびその他の国における MLCommons Association の商標です。 All rights reserved.
無断での引用、転載を禁じます。詳細については、http://www.mlcommons.org/ を参照してください。
第 22 回 PC クラスタシンポジウム
構成の詳細
CloverLeaf
• 2022年4月26日に実施したインテル社内テストで測定。1 ノード、2x インテル® Xeon® Platinum 8360Y CPU、72 コア、HT 有効、ターボ有効、メモリー総容量 256GB (16x 16GB DDR4 3,200 MT/s)、
SE5C6200.86B.0021.D40.2101090208、Ubuntu 20.04、カーネル 5.10、0xd0002a0、ifort 2021.5、インテル® MPI 2021.5.1、ビルドノブ: -xCORE-AVX512 –qopt-zmm-usage=high
• 2022年4月19日に実施したインテル社内テストで測定。1 ノード、2x 出荷前のインテル® Xeon® スケーラブル・プロセッサー (開発コード名: Sapphire Rapids) + HBM、40 コア以上、HT 有効、ターボ有効、メモリー総容
量 128GB (HBM2e、3,200MHz)、BIOS バージョン EGSDCRB1.86B.0077.D11.2203281354、ucode リビジョン =0x83000200、CentOS Stream 8、Linux バージョン 5.16、ifort 2021.5、インテル® MPI 2021.5.1、ビル
ドノブ: -xCORE-AVX512 –qopt-zmm-usage=high
OpenFOAM
• 2022年1月26日に実施したインテル社内テストで測定。1 ノード、2x インテル® Xeon® Platinum 8380 CPU、80 コア、HT 有効、ターボ有効、メモリー総容量 256GB (16x 16GB 3,200MT/s、デュアルランク)、BIOS バー
ジョン SE5C6200.86B.0020.P23.2103261309、0xd000270、Rocky Linux 8.5、Linux バージョン 4.18.、OpenFOAM v1912、Motorbike 28M @ 250 回反復、ビルドメモ: ツール: インテル® Parallel Studio 2020u4、
ビルドノブ: -O3 -ip -xCORE-AVX512
• 2022年1月26日に実施したインテル社内テストで測定。1 ノード、2x 出荷前のインテル® Xeon® スケーラブル・プロセッサー (開発コード名: Sapphire Rapids) + HBM、40 コア以上、HT 無効、ターボ無効、メモリー総容
量 128GB (HBM2e、3,200MHz)、出荷前のプラットフォームと BIOS、CentOS 8、Linux バージョン 5.12、OpenFOAM v1912、Motorbike 28M @ 250 回反復、ビルドメモ: ツール: インテル® Parallel Studio 2020u4、ビ
ルドノブ: -O3 -ip -xCORE-AVX512
WRF
• 2022年5月3日に実施したインテル社内テストで測定。1 ノード、2x インテル® Xeon® Platinum 8380 CPU、80 コア、HT 有効、ターボ有効、メモリー総容量 256 GB (16x 16GB 3200MT/s、デュアルランク)、BIOS バー
ジョン SE5C6200.86B.0020.P23.2103261309、ucode リビジョン =0xd000270、Rocky Linux 8.5、Linux バージョン 4.18、WRF v4.2.2
• 2022年5月3日に実施したインテル社内テストで測定。1 ノード、2x 出荷前のインテル® Xeon® スケーラブル・プロセッサー (開発コード名: Sapphire Rapids) + HBM、40 コア以上、HT 有効、ターボ有効、メモリー総容量
128GB (HBM2e、3,200MHz)、BIOS バージョン EGSDCRB1.86B.0077.D11.2203281354、ucode リビジョン =0x83000200、CentOS Stream 8、Linux バージョン 5.16、WRF v4.2.2
YASK
• 2022年5月9日に実施したインテル社内テストで測定。1 ノード、2x インテル® Xeon® Platinum 8360Y CPU、72 コア、HT 有効、ターボ有効、メモリー総容量 256GB (16x 16GB DDR4 3,200MT/s)、
SE5C6200.86B.0021.D40.2101090208、Rocky linux 8.5、カーネル 4.18.0、0xd000270、ビルドノブ: make -j YK_CXX='mpiicpc -cxx=icpx' arch=avx2 stencil=iso3dfd radius=8
• 2022年5月3日に実施したインテル社内テストで測定。1 ノード、2x 出荷前のインテル® Xeon® スケーラブル・プロセッサー (開発コード名: Sapphire Rapids) + HBM、40 コア以上、HT 有効、ターボ有効、メモリー総容量
128GB (HBM2e、3,200MHz)、BIOS バージョン EGSDCRB1.86B.0077.D11.2203281354、ucode リビジョン =0x83000200、CentOS Stream 8、Linux バージョン 5.16、ビルドノブ: make -j YK_CXX='mpiicpc -
cxx=icpx' arch=avx2 stencil=iso3dfd radius=8
PCCC22:インテル株式会社 テーマ2「次世代インテル® Xeon™ プロセッサーを中心としたインテルのHPC-AI最新情報」

More Related Content

Similar to PCCC22:インテル株式会社 テーマ2「次世代インテル® Xeon™ プロセッサーを中心としたインテルのHPC-AI最新情報」

[D37]MySQLの真のイノベーションはこれだ!MySQL 5.7と「実験室」 by Ryusuke Kajiyama
[D37]MySQLの真のイノベーションはこれだ!MySQL 5.7と「実験室」 by Ryusuke Kajiyama [D37]MySQLの真のイノベーションはこれだ!MySQL 5.7と「実験室」 by Ryusuke Kajiyama
[D37]MySQLの真のイノベーションはこれだ!MySQL 5.7と「実験室」 by Ryusuke Kajiyama
Insight Technology, Inc.
 
CMSI計算科学技術特論B(15) インテル Xeon Phi コプロセッサー向け最適化、並列化概要 2
CMSI計算科学技術特論B(15) インテル Xeon Phi コプロセッサー向け最適化、並列化概要 2CMSI計算科学技術特論B(15) インテル Xeon Phi コプロセッサー向け最適化、並列化概要 2
CMSI計算科学技術特論B(15) インテル Xeon Phi コプロセッサー向け最適化、並列化概要 2
Computational Materials Science Initiative
 
45分で理解する 最近のスパコン事情 斉藤之雄
45分で理解する 最近のスパコン事情 斉藤之雄45分で理解する 最近のスパコン事情 斉藤之雄
45分で理解する 最近のスパコン事情 斉藤之雄
Yukio Saito
 
[A34] HDDからインメモリーテクノジーへ by Yusuke Miyake
[A34] HDDからインメモリーテクノジーへ by Yusuke Miyake[A34] HDDからインメモリーテクノジーへ by Yusuke Miyake
[A34] HDDからインメモリーテクノジーへ by Yusuke Miyake
Insight Technology, Inc.
 

Similar to PCCC22:インテル株式会社 テーマ2「次世代インテル® Xeon™ プロセッサーを中心としたインテルのHPC-AI最新情報」 (20)

[D37]MySQLの真のイノベーションはこれだ!MySQL 5.7と「実験室」 by Ryusuke Kajiyama
[D37]MySQLの真のイノベーションはこれだ!MySQL 5.7と「実験室」 by Ryusuke Kajiyama [D37]MySQLの真のイノベーションはこれだ!MySQL 5.7と「実験室」 by Ryusuke Kajiyama
[D37]MySQLの真のイノベーションはこれだ!MySQL 5.7と「実験室」 by Ryusuke Kajiyama
 
CMSI計算科学技術特論B(15) インテル Xeon Phi コプロセッサー向け最適化、並列化概要 2
CMSI計算科学技術特論B(15) インテル Xeon Phi コプロセッサー向け最適化、並列化概要 2CMSI計算科学技術特論B(15) インテル Xeon Phi コプロセッサー向け最適化、並列化概要 2
CMSI計算科学技術特論B(15) インテル Xeon Phi コプロセッサー向け最適化、並列化概要 2
 
CPU / GPU高速化セミナー!性能モデルの理論と実践:実践編
CPU / GPU高速化セミナー!性能モデルの理論と実践:実践編CPU / GPU高速化セミナー!性能モデルの理論と実践:実践編
CPU / GPU高速化セミナー!性能モデルの理論と実践:実践編
 
Rescale ScaleX講習会 ~AWSクラウド環境におけるHPC利用
Rescale ScaleX講習会 ~AWSクラウド環境におけるHPC利用Rescale ScaleX講習会 ~AWSクラウド環境におけるHPC利用
Rescale ScaleX講習会 ~AWSクラウド環境におけるHPC利用
 
Cell/B.E. プログラミング事始め
Cell/B.E. プログラミング事始めCell/B.E. プログラミング事始め
Cell/B.E. プログラミング事始め
 
.NET Gadgeteerでプロトタイピングする EnOceanエネルギーハーベスティング システム
.NET GadgeteerでプロトタイピングするEnOceanエネルギーハーベスティングシステム.NET GadgeteerでプロトタイピングするEnOceanエネルギーハーベスティングシステム
.NET Gadgeteerでプロトタイピングする EnOceanエネルギーハーベスティング システム
 
Oracle Database Appliance 2.9 アップデート及びパッチ管理について
Oracle Database Appliance 2.9 アップデート及びパッチ管理についてOracle Database Appliance 2.9 アップデート及びパッチ管理について
Oracle Database Appliance 2.9 アップデート及びパッチ管理について
 
Oracle Database / Exadata Cloud 技術情報(Oracle Cloudウェビナーシリーズ: 2020年7月9日)
Oracle Database / Exadata Cloud 技術情報(Oracle Cloudウェビナーシリーズ: 2020年7月9日)Oracle Database / Exadata Cloud 技術情報(Oracle Cloudウェビナーシリーズ: 2020年7月9日)
Oracle Database / Exadata Cloud 技術情報(Oracle Cloudウェビナーシリーズ: 2020年7月9日)
 
Meltdown を正しく理解する
Meltdown を正しく理解するMeltdown を正しく理解する
Meltdown を正しく理解する
 
45分で理解する 最近のスパコン事情 斉藤之雄
45分で理解する 最近のスパコン事情 斉藤之雄45分で理解する 最近のスパコン事情 斉藤之雄
45分で理解する 最近のスパコン事情 斉藤之雄
 
Share pointを支えるsql server2014最新情報
Share pointを支えるsql server2014最新情報Share pointを支えるsql server2014最新情報
Share pointを支えるsql server2014最新情報
 
【de:code 2020】 AI on IA 最新情報 ~ CPU で AI を上手に動かすための 5 つのヒント ~
【de:code 2020】 AI on IA 最新情報 ~ CPU で AI を上手に動かすための 5 つのヒント ~【de:code 2020】 AI on IA 最新情報 ~ CPU で AI を上手に動かすための 5 つのヒント ~
【de:code 2020】 AI on IA 最新情報 ~ CPU で AI を上手に動かすための 5 つのヒント ~
 
201711 vxrailチャンピオンクラブ_ワークショップ~入門編~テキスト
201711 vxrailチャンピオンクラブ_ワークショップ~入門編~テキスト201711 vxrailチャンピオンクラブ_ワークショップ~入門編~テキスト
201711 vxrailチャンピオンクラブ_ワークショップ~入門編~テキスト
 
AMD Opteron 6200シリーズ 仮想化環境ベンチマーク検証 結果報告書
AMD Opteron 6200シリーズ 仮想化環境ベンチマーク検証 結果報告書AMD Opteron 6200シリーズ 仮想化環境ベンチマーク検証 結果報告書
AMD Opteron 6200シリーズ 仮想化環境ベンチマーク検証 結果報告書
 
[A34] HDDからインメモリーテクノジーへ by Yusuke Miyake
[A34] HDDからインメモリーテクノジーへ by Yusuke Miyake[A34] HDDからインメモリーテクノジーへ by Yusuke Miyake
[A34] HDDからインメモリーテクノジーへ by Yusuke Miyake
 
サポート エンジニアが語る、Microsoft Azure を支えるインフラの秘密
サポート エンジニアが語る、Microsoft Azure を支えるインフラの秘密サポート エンジニアが語る、Microsoft Azure を支えるインフラの秘密
サポート エンジニアが語る、Microsoft Azure を支えるインフラの秘密
 
インフラ野郎AzureチームProX
インフラ野郎AzureチームProXインフラ野郎AzureチームProX
インフラ野郎AzureチームProX
 
Graviton2プロセッサの性能特性と適用箇所/Supership株式会社 中野 豊
Graviton2プロセッサの性能特性と適用箇所/Supership株式会社 中野 豊Graviton2プロセッサの性能特性と適用箇所/Supership株式会社 中野 豊
Graviton2プロセッサの性能特性と適用箇所/Supership株式会社 中野 豊
 
FPGAを用いたEdge AIの現状
FPGAを用いたEdge AIの現状FPGAを用いたEdge AIの現状
FPGAを用いたEdge AIの現状
 
【旧版】Oracle Gen 2 Exadata Cloud@Customer:サービス概要のご紹介 [2021年12月版]
【旧版】Oracle Gen 2 Exadata Cloud@Customer:サービス概要のご紹介 [2021年12月版]【旧版】Oracle Gen 2 Exadata Cloud@Customer:サービス概要のご紹介 [2021年12月版]
【旧版】Oracle Gen 2 Exadata Cloud@Customer:サービス概要のご紹介 [2021年12月版]
 

More from PC Cluster Consortium

More from PC Cluster Consortium (20)

PCCC23:SCSK株式会社 テーマ1「『Azure OpenAI Service』導入支援サービス」
PCCC23:SCSK株式会社 テーマ1「『Azure OpenAI Service』導入支援サービス」PCCC23:SCSK株式会社 テーマ1「『Azure OpenAI Service』導入支援サービス」
PCCC23:SCSK株式会社 テーマ1「『Azure OpenAI Service』導入支援サービス」
 
PCCC23:日本AMD株式会社 テーマ2「AMD EPYC™ プロセッサーを用いたAIソリューション」
PCCC23:日本AMD株式会社 テーマ2「AMD EPYC™ プロセッサーを用いたAIソリューション」PCCC23:日本AMD株式会社 テーマ2「AMD EPYC™ プロセッサーを用いたAIソリューション」
PCCC23:日本AMD株式会社 テーマ2「AMD EPYC™ プロセッサーを用いたAIソリューション」
 
PCCC23:富士通株式会社 テーマ1「次世代高性能・省電力プロセッサ『FUJITSU-MONAKA』」
PCCC23:富士通株式会社 テーマ1「次世代高性能・省電力プロセッサ『FUJITSU-MONAKA』」PCCC23:富士通株式会社 テーマ1「次世代高性能・省電力プロセッサ『FUJITSU-MONAKA』」
PCCC23:富士通株式会社 テーマ1「次世代高性能・省電力プロセッサ『FUJITSU-MONAKA』」
 
PCCC23:東京大学情報基盤センター 「Society5.0の実現を目指す『計算・データ・学習』の融合による革新的スーパーコンピューティング」
PCCC23:東京大学情報基盤センター 「Society5.0の実現を目指す『計算・データ・学習』の融合による革新的スーパーコンピューティング」PCCC23:東京大学情報基盤センター 「Society5.0の実現を目指す『計算・データ・学習』の融合による革新的スーパーコンピューティング」
PCCC23:東京大学情報基盤センター 「Society5.0の実現を目指す『計算・データ・学習』の融合による革新的スーパーコンピューティング」
 
PCCC23:日本AMD株式会社 テーマ1「AMD Instinct™ アクセラレーターの概要」
PCCC23:日本AMD株式会社 テーマ1「AMD Instinct™ アクセラレーターの概要」PCCC23:日本AMD株式会社 テーマ1「AMD Instinct™ アクセラレーターの概要」
PCCC23:日本AMD株式会社 テーマ1「AMD Instinct™ アクセラレーターの概要」
 
PCCC23:富士通株式会社 テーマ3「Fujitsu Computing as a Service (CaaS)」
PCCC23:富士通株式会社 テーマ3「Fujitsu Computing as a Service (CaaS)」PCCC23:富士通株式会社 テーマ3「Fujitsu Computing as a Service (CaaS)」
PCCC23:富士通株式会社 テーマ3「Fujitsu Computing as a Service (CaaS)」
 
PCCC23:日本オラクル株式会社 テーマ1「OCIのHPC基盤技術と生成AI」
PCCC23:日本オラクル株式会社 テーマ1「OCIのHPC基盤技術と生成AI」PCCC23:日本オラクル株式会社 テーマ1「OCIのHPC基盤技術と生成AI」
PCCC23:日本オラクル株式会社 テーマ1「OCIのHPC基盤技術と生成AI」
 
PCCC23:筑波大学計算科学研究センター テーマ1「スーパーコンピュータCygnus / Pegasus」
PCCC23:筑波大学計算科学研究センター テーマ1「スーパーコンピュータCygnus / Pegasus」PCCC23:筑波大学計算科学研究センター テーマ1「スーパーコンピュータCygnus / Pegasus」
PCCC23:筑波大学計算科学研究センター テーマ1「スーパーコンピュータCygnus / Pegasus」
 
PCCC23:Pacific Teck Japan テーマ1「データがデータを生む時代に即したストレージソリューション」
PCCC23:Pacific Teck Japan テーマ1「データがデータを生む時代に即したストレージソリューション」PCCC23:Pacific Teck Japan テーマ1「データがデータを生む時代に即したストレージソリューション」
PCCC23:Pacific Teck Japan テーマ1「データがデータを生む時代に即したストレージソリューション」
 
PCCC23:株式会社計算科学 テーマ1「VRシミュレーションシステム」
PCCC23:株式会社計算科学 テーマ1「VRシミュレーションシステム」PCCC23:株式会社計算科学 テーマ1「VRシミュレーションシステム」
PCCC23:株式会社計算科学 テーマ1「VRシミュレーションシステム」
 
PCCC22:株式会社アックス テーマ1「俺ASICとロボットと論理推論AI」
PCCC22:株式会社アックス テーマ1「俺ASICとロボットと論理推論AI」PCCC22:株式会社アックス テーマ1「俺ASICとロボットと論理推論AI」
PCCC22:株式会社アックス テーマ1「俺ASICとロボットと論理推論AI」
 
PCCC22:日本AMD株式会社 テーマ1「第4世代AMD EPYC™ プロセッサー (Genoa) の概要」
PCCC22:日本AMD株式会社 テーマ1「第4世代AMD EPYC™ プロセッサー (Genoa) の概要」PCCC22:日本AMD株式会社 テーマ1「第4世代AMD EPYC™ プロセッサー (Genoa) の概要」
PCCC22:日本AMD株式会社 テーマ1「第4世代AMD EPYC™ プロセッサー (Genoa) の概要」
 
PCCC22:富士通株式会社 テーマ3「量子シミュレータ」
PCCC22:富士通株式会社 テーマ3「量子シミュレータ」PCCC22:富士通株式会社 テーマ3「量子シミュレータ」
PCCC22:富士通株式会社 テーマ3「量子シミュレータ」
 
PCCC22:富士通株式会社 テーマ1「Fujitsu Computing as a Service (CaaS)」
PCCC22:富士通株式会社 テーマ1「Fujitsu Computing as a Service (CaaS)」PCCC22:富士通株式会社 テーマ1「Fujitsu Computing as a Service (CaaS)」
PCCC22:富士通株式会社 テーマ1「Fujitsu Computing as a Service (CaaS)」
 
PCCC22:日本電気株式会社 テーマ1「AI/ビッグデータ分析に最適なプラットフォーム NECのベクトルプロセッサ『SX-Aurora TSUBASA』」
PCCC22:日本電気株式会社 テーマ1「AI/ビッグデータ分析に最適なプラットフォーム NECのベクトルプロセッサ『SX-Aurora TSUBASA』」PCCC22:日本電気株式会社 テーマ1「AI/ビッグデータ分析に最適なプラットフォーム NECのベクトルプロセッサ『SX-Aurora TSUBASA』」
PCCC22:日本電気株式会社 テーマ1「AI/ビッグデータ分析に最適なプラットフォーム NECのベクトルプロセッサ『SX-Aurora TSUBASA』」
 
PCCC22:東京大学情報基盤センター 「Society5.0の実現を目指す「計算・データ・学習」の融合による革新的スーパーコンピューティング」
PCCC22:東京大学情報基盤センター 「Society5.0の実現を目指す「計算・データ・学習」の融合による革新的スーパーコンピューティング」PCCC22:東京大学情報基盤センター 「Society5.0の実現を目指す「計算・データ・学習」の融合による革新的スーパーコンピューティング」
PCCC22:東京大学情報基盤センター 「Society5.0の実現を目指す「計算・データ・学習」の融合による革新的スーパーコンピューティング」
 
PCCC22:日本マイクロソフト株式会社 テーマ2「HPC on Azureのお客様事例」03
PCCC22:日本マイクロソフト株式会社 テーマ2「HPC on Azureのお客様事例」03PCCC22:日本マイクロソフト株式会社 テーマ2「HPC on Azureのお客様事例」03
PCCC22:日本マイクロソフト株式会社 テーマ2「HPC on Azureのお客様事例」03
 
PCCC22:日本マイクロソフト株式会社 テーマ2「HPC on Azureのお客様事例」01
PCCC22:日本マイクロソフト株式会社 テーマ2「HPC on Azureのお客様事例」01PCCC22:日本マイクロソフト株式会社 テーマ2「HPC on Azureのお客様事例」01
PCCC22:日本マイクロソフト株式会社 テーマ2「HPC on Azureのお客様事例」01
 
PCCC22:日本マイクロソフト株式会社 テーマ1「HPC on Microsoft Azure」
PCCC22:日本マイクロソフト株式会社 テーマ1「HPC on Microsoft Azure」PCCC22:日本マイクロソフト株式会社 テーマ1「HPC on Microsoft Azure」
PCCC22:日本マイクロソフト株式会社 テーマ1「HPC on Microsoft Azure」
 
PCCC22:インテル株式会社 テーマ3「インテル® oneAPI ツールキット 最新情報のご紹介」
PCCC22:インテル株式会社 テーマ3「インテル® oneAPI ツールキット 最新情報のご紹介」PCCC22:インテル株式会社 テーマ3「インテル® oneAPI ツールキット 最新情報のご紹介」
PCCC22:インテル株式会社 テーマ3「インテル® oneAPI ツールキット 最新情報のご紹介」
 

Recently uploaded

2024年5月25日Serverless Meetup大阪 アプリケーションをどこで動かすべきなのか.pptx
2024年5月25日Serverless Meetup大阪 アプリケーションをどこで動かすべきなのか.pptx2024年5月25日Serverless Meetup大阪 アプリケーションをどこで動かすべきなのか.pptx
2024年5月25日Serverless Meetup大阪 アプリケーションをどこで動かすべきなのか.pptx
ssuserbefd24
 

Recently uploaded (11)

Intranet Development v1.0 (TSG LIVE! 12 LT )
Intranet Development v1.0 (TSG LIVE! 12 LT )Intranet Development v1.0 (TSG LIVE! 12 LT )
Intranet Development v1.0 (TSG LIVE! 12 LT )
 
2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx
2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx
2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx
 
論文紹介:ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
論文紹介:ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation論文紹介:ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
論文紹介:ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
Amazon Cognitoで実装するパスキー (Security-JAWS【第33回】 勉強会)
Amazon Cognitoで実装するパスキー (Security-JAWS【第33回】 勉強会)Amazon Cognitoで実装するパスキー (Security-JAWS【第33回】 勉強会)
Amazon Cognitoで実装するパスキー (Security-JAWS【第33回】 勉強会)
 
5/22 第23回 Customer系エンジニア座談会のスライド 公開用 西口瑛一
5/22 第23回 Customer系エンジニア座談会のスライド 公開用 西口瑛一5/22 第23回 Customer系エンジニア座談会のスライド 公開用 西口瑛一
5/22 第23回 Customer系エンジニア座談会のスライド 公開用 西口瑛一
 
論文紹介:Deep Occlusion-Aware Instance Segmentation With Overlapping BiLayers
論文紹介:Deep Occlusion-Aware Instance Segmentation With Overlapping BiLayers論文紹介:Deep Occlusion-Aware Instance Segmentation With Overlapping BiLayers
論文紹介:Deep Occlusion-Aware Instance Segmentation With Overlapping BiLayers
 
ロボットマニピュレーションの作業・動作計画 / rosjp_planning_for_robotic_manipulation_20240521
ロボットマニピュレーションの作業・動作計画 / rosjp_planning_for_robotic_manipulation_20240521ロボットマニピュレーションの作業・動作計画 / rosjp_planning_for_robotic_manipulation_20240521
ロボットマニピュレーションの作業・動作計画 / rosjp_planning_for_robotic_manipulation_20240521
 
20240523_IoTLT_vol111_kitazaki_v1___.pdf
20240523_IoTLT_vol111_kitazaki_v1___.pdf20240523_IoTLT_vol111_kitazaki_v1___.pdf
20240523_IoTLT_vol111_kitazaki_v1___.pdf
 
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
 
論文紹介: Exploiting semantic segmentation to boost reinforcement learning in vid...
論文紹介: Exploiting semantic segmentation to boost reinforcement learning in vid...論文紹介: Exploiting semantic segmentation to boost reinforcement learning in vid...
論文紹介: Exploiting semantic segmentation to boost reinforcement learning in vid...
 
2024年5月25日Serverless Meetup大阪 アプリケーションをどこで動かすべきなのか.pptx
2024年5月25日Serverless Meetup大阪 アプリケーションをどこで動かすべきなのか.pptx2024年5月25日Serverless Meetup大阪 アプリケーションをどこで動かすべきなのか.pptx
2024年5月25日Serverless Meetup大阪 アプリケーションをどこで動かすべきなのか.pptx
 

PCCC22:インテル株式会社 テーマ2「次世代インテル® Xeon™ プロセッサーを中心としたインテルのHPC-AI最新情報」

  • 2. 第 22 回 PC クラスタシンポジウム 注意事項および免責条項 性能は、使用状況、構成、その他の要因によって異なります。詳細については Performance Index サイ トを参照してください。 性能の測定結果は、構成に示されている日付時点のテストに基づいています。また、現在公開中のすべ てのアップデートが適用されているとは限りません。 構成の詳細については、補足資料を参照してくだ さい。 絶対的なセキュリティーを提供できる製品またはコンポーネントはありません。 実際のコストや結果は異なる場合があります。 インテルのテクノロジーを使用するには、対応したハードウェア、ソフトウェア、またはサービスの有 効化が必要となる場合があります。 ©2022 Intel Corporation. 無断での引用、転載を禁じます。 Intel、インテル、Intel ロゴ、その他のイ ンテルの名称やロゴは、Intel Corporation またはその子会社の商標です。 その他の社名、製品名など は、一般に各社の表示、商標または登録商標です。
  • 3. 第 22 回 PC クラスタシンポジウム ヘテロジニアス化 (異種混在) が進むワークロード スカラー ベクトル マトリクス 空間
  • 4. 第 22 回 PC クラスタシンポジウム ハイブリッド・ コンピューティング・ クラスター 単一パッケージに実装
  • 5. 第 22 回 PC クラスタシンポジウム CPU HPC GPU AI & HPC インテル® Xeon® プロセッサー 開発コード名: Sapphire Rapids 次世代インテル® Xeon® プロセッサー 次世代 Ponte Vecchio スーパーコンピューティング・シリコンのロードマップ 柔軟性と拡張性に優れた新しい タイルベースのアーキテクチャー インテルの データセンター GPU 開発コード名: Ponte Vecchio HBM 第 4 世代インテル® Xeon® スケーラブル・ プロセッサー 次世代 インテル® Xeon® プロセッサー 開発コード名: Emerald Rapids HBM 2022年 2023年以降 次世代 インテル® Xeon® プロセッサー 開発コード名: Granite Rapids 専用 ディープラーニング 学習処理 Habana® AI プロセッサー Habana® AI プロセッサー
  • 6. Intel Confidential Department or Event Name 6 インテル® Xeon® プロセッサー HBM 開発コード名: アドバンスト・ マトリクス・ エクステンション 統合型 アクセラ レーション・ エンジン
  • 7. 第 22 回 PC クラスタシンポジウム DDR なし コード変更なし
  • 8. 第 22 回 PC クラスタシンポジウム インテルの データセンター GPU 開発コード名: 1,000 億 以上 トランジスター数 最大演算性 能は2 EFLOPS以 上* * 倍精度の最大演算性能。性能は、使用状況、構成、その他の要因によって異なります。 ワークロードと構成については、http://www.intel.com/InnovationEventClaims/ (英語) を参照してください。結果は状況によって異なります。
  • 9. 第 22 回 PC クラスタシンポジウム 次世代 AI & HPC データセンター GPU 最大 160 Xe コア数 IDM 2.0 プロセス の進歩 OAM 2.0 拡大 I/O 帯域幅 向上 FLOPS & GT/s 目標 サンプル公開 2023年
  • 10. 第 22 回 PC クラスタシンポジウム タイルの比率と構成が柔軟 この図は例示のみを目的とし、幅広いパフォーマンス要件にわたってフルインストール・ベースに 対応するように設計された拡張可能なアーキテクチャーを表しています。
  • 11. 第 22 回 PC クラスタシンポジウム 柔軟性に優れた次世代アーキテクチャー 5倍以上 メモリーの 容量と帯域幅 オング ストローム 時代のプロセス 次世代の 高度な パッケージング 極めて 広帯域の 共有メモリー 業界 トップレベルの I/O プログラミング・ モデルの 簡素化 x86とXe の タイル設計比率を 柔軟に設定可能 5倍以上 x86 ソケットでの 演算密度 5倍以上 消費電力当たり 性能 この図は例示のみを目的とし、幅広いパフォーマンス要件にわたってフルインストール・ベースに 対応するように設計された拡張可能なアーキテクチャーを表しています。 性能目標は、2022年2月時点における現行プラットフォームと比較した推定値に基づきます。 結果は状況によって異なります。
  • 12. 第 22 回 PC クラスタシンポジウム …ベンダーを問わず クロスアーキテクチャーの プログラミングを促進 ハードウェアから 生産性の高いパフォーマンスを抽出 独自のプログラミング・モデルからの解放 開発には C++、SYCL、Fortran、Python、 OpenMP、MPI を使用
  • 13. 第 22 回 PC クラスタシンポジウム SYCLomatic https://github.com/oneapi-src/SYCLomatic/ (英語) CUDA コードから SYCL や C++ へ 移植しやすく、短期間でクロスアーキ テクチャーのプログラミングが可能 詳細情報: オープンソース CUDA コード 移植 C++ と SYCL ビルド 導入
  • 14. 第 22 回 PC クラスタシンポジウム 主な HPC ワークロードの 高速化 第 3 世代インテル® Xeon® スケーラブル・プロセッサー WRF conus2.5km YASK ISO3dfd openFOAM Motorbike _ 28m CloverLeaf clover_bm16 インテル® Xeon® プロセッサー 開発コード名: ワークロードと構成については、補足資料を参照してください。結果は異なる場合があります。 ここで記載する内容は OpenCFD Limited の承諾または承認を受けたものではありません。OpenCFD Limited は、OpenFOAM ソフトウェア (http://www.openfoam.com/) の開発元およびディストリビューターであり、OpenFOAM、OpenCFD の商標を所有します。 1.0 (基準) 2倍以上 3倍以上 3倍 以上 地球システムモデル エネルギー 物理 製造 相対性能 (値が大きいほど高性能) 2倍 以上
  • 15. 第 22 回 PC クラスタシンポジウム oneDNN は「そのままで」 AI パフォーマンスを高速化 コード変更なし
  • 16. 第 22 回 PC クラスタシンポジウム トップレベルの HPC-AI パフォーマンス 第 4 世代インテル® Xeon® スケーラブル・ プロセッサー Cosmoflow DeepCAM 学習処理 学習処理 AMD EPYC 7763 第 3 世代 インテル® Xeon® Platinum 8380 プロセッサー 第 4 世代 インテル® Xeon® プロセッサー NVIDIA A100 第 4 世代 インテル® Xeon® プロセッサー NVIDIA A100 第 3 世代 インテル® Xeon® Platinum 8380 プロセッサー 第 4 世代 インテル® Xeon® プロセッサー 1.0 (基準) FP32 FP32 FP32 混合 FP32/ BF16 (AMX) FP32 混合 3.2倍 相対性能 (値が大きいほど高性能) 2.8倍 1.2 倍 1.9 倍 2.4 倍 1.5 倍 1.8 倍 FP32 MLPerf HPC-AI v 0.7 での未検証のパフォーマンス向上。DeepCAM 学習処理ベンチマークは最適化済みの Pytorch 1.11 を使用。Cosmoflow 学習処理ベンチマークは最適化済みの Tensorflow 2.6 を使用。この結果の MLCommons Association による検証は未実施。未検証の結果は MLPerf レビューを経ておらず、検証結果に対する MLPerf の仕様とは一致しない測定方法やワークロード実装が使用されている可能性があります。MLPerf の名称 およびロゴは、アメリカ合衆国およびその他の国における MLCommons Association の商標です。 All rights reserved. 無断での引用、転載を禁じます。詳細については、http://www.mlcommons.org/ (英語) を参照してください。 ワークロードと構成については、補足資料を参照してください。結果は異なる場合があります。
  • 17. 第 22 回 PC クラスタシンポジウム ソフトウェア シリコン オープン 選択の幅 信頼性 インテル® Xeon® プロセッサー 開発コード名: Sapphire Rapids インテルの データセンター GPU 開発コード名: Ponte Vecchio Rialto Bridge Falcon Shores HBM インテル® XPU マネージャー 2倍以上 地球システム モデル 3倍以上 エネルギー 3倍以上 物理 2倍以上 製造 Sapphire Rapids インテル® Xeon® プロセッサー 開発コード名: HBM ワークロードと構成については、補足資料を参照してください。結果は異なる場合があります。
  • 18. 第 22 回 PC クラスタシンポジウム DeepCAM の構成の詳細 ベースライン構成: EPYC 7763: 2022年4月7日に実施したインテル社内テストで測定。1 ノード、2x EPYC 7763、64 コア、HT 有効、ターボ無効、メモリー総容量 512GB (16 スロット / 32GB/ 3,200MHz、DDR4)、BIOS AMI 1.1b、ucode 0xa001144、OS Red Hat Enterprise Linux 8.5 (Ootpa)、カーネル 4.18.0-348.7.1.el8_5.x86_64、コンパイラー gcc (GCC) 8.5.0 20210514 (Red Hat 8.5.0-4)、 https://github.com/mlcommons/hpc/tree/main/deepcam/、torch1.11.0a0+git13cdb98、torch-1.11.0a0+git13cdb98-cp38-cp38-linux_x86_64.whl、torch_ccl-1.2.0+44e473a-cp38-cp38-linux_x86_64.whl、 intel_extension_for_pytorch-1.10.0+cpu-cp38-cp38-linux_x86_64.whl、インテル® MPI 2021.5、Python3.8 第 3 世代インテル® Xeon® Plutinum 8380 プロセッサー: 2022年4月7日に実施したインテル社内テストで測定。1 ノード、2x 第 3 世代インテル® Xeon® Platinum 8380 プロセッサー、40 コア、HT 有効、ターボ無効、メモ リー総容量 512GB (16 スロット / 32GB/ 3,200MHz、DDR4)、BIOS SE5C6200.86B.0022.D64.2105220049、ucode 0xd0002b1、OS Red Hat Enterprise Linux 8.5 (Ootpa)、カーネル 4.18.0-348.7.1.el8_5.x86_64、コン パイラー gcc (GCC) 8.5.0 20210514 (Red Hat 8.5.0-4)、https://github.com/mlcommons/hpc/tree/main/deepcam/、torch1.11.0a0+git13cdb98、torch-1.11.0a0+git13cdb98-cp38-cp38-linux_x86_64.whl、 torch_ccl-1.2.0+44e473a-cp38-cp38-linux_x86_64.whl、intel_extension_for_pytorch-1.10.0+cpu-cp38-cp38-linux_x86_64.whl (AVX-512)、インテル® MPI 2021.5、Python3.8 第 4 世代インテル® Xeon® スケーラブル・プロセッサー: 2022年5月5日に実施したインテル社内テストで測定。1 ノード、2x 第 4 世代インテル® Xeon® スケーラブル・プロセッサー、40 コア以上、HT 有効、ターボ無効、メモ リー総容量 512GB (16 スロット / 32GB/ 4,800MHz、DDR5)、BIOS EGSDCRB1.86B.0078.D10.2204072027、ucode 0x8f000320、OS CentOS Stream 8、カーネル 5.15.0-spr.bkc.pc.4.24.0.x86_64、コンパイラー gcc (GCC) 8.5.0 20210514 (Red Hat 8.5.0-10、https://github.com/mlcommons/hpc/tree/main/deepcam/、torch1.11.0a0+git13cdb98、AVX-512、FP32、torch-1.11.0a0+git13cdb98-cp38-cp38-linux_x86_64.whl、 torch_ccl-1.2.0+44e473a-cp38-cp38-linux_x86_64.whl、intel_extension_for_pytorch-1.10.0+cpu-cp38-cp38-linux_x86_64.whl (AVX-512)、インテル® MPI 2021.5、Python3.8 A100 80GB + 第 3 世代インテル® Xeon® Platinum 8360Y プロセッサー: 202年4月13日に実施したインテル社内テストで測定。1 ノード、2x 第 3 世代インテル® Xeon® Platinum 8360Y プロセッサー、36 コア、HT 有効、 ターボ有効、メモリー総容量 256GB (16 スロット / 16GB/ 3,200MHz)、NVIDIA A100 80GB PCIe (UUID: GPU-59998403-852d-2573-b3a9-47695dca0604)、PICe ID 20B5、BIOS AMI 1.1b、ucode 0xd000311、OS Red Hat Enterprise Linux 8.4 (Ootpa)、カーネル 4.18.0-305.el8.x86_64、コンパイラー gcc (GCC) 8.4.1 20200928 (Red Hat 8.4.1-1)、https://github.com/mlcommons/hpc/tree/main/deepcam/、pytorch1.11.0 py3.7_cuda11.3_cudnn8.2.0_0、cudnn 8.2.1、cuda11.3_0、intel-openmp 2022.0.1 h06a4308_3633、python3.7 第 4 世代インテル® Xeon® スケーラブル・プロセッサー: 2022年5月5日に実施したインテル社内テストで測定。1 ノード、2x 第 4 世代インテル® Xeon® スケーラブル・プロセッサー、40 コア以上、HT 有効、ターボ無効、メモ リー総容量 512GB (16 スロット / 32GB/ 4,800MHz、DDR5)、BIOS EGSDCRB1.86B.0078.D10.2204072027、ucode 0x8f000320、OS CentOS Stream 8、カーネル 5.15.0-spr.bkc.pc.4.24.0.x86_64、コンパイラー gcc (GCC) 8.5.0 20210514 (Red Hat 8.5.0-10)、https://github.com/mlcommons/hpc/tree/main/deepcam/、torch1.11.0a0+git13cdb98、AVX-512 FP32、torch-1.11.0a0+git13cdb98-cp38-cp38-linux_x86_64.whl、 torch_ccl-1.2.0+44e473a-cp38-cp38-linux_x86_64.whl、intel_extension_for_pytorch-1.10.0+cpu-cp38-cp38-linux_x86_64.whl (AVX-512、AMX、BFloat16 有効)、インテル® MPI 2021.5、Python3.8 MLPerf HPC-AI v0.7 学習処理ベンチマークのパフォーマンス。この結果の MLCommons Association による検証は未実施。未検証の結果は MLPerf レビューを経ておらず、検証結果に対する MLPerf の仕様とは 一致しない測定方法やワークロード実装が使用されている可能性があります。MLPerf の名称およびロゴは、アメリカ合衆国およびその他の国における MLCommons Association の商標です。 All rights reserved. 無断での引用、転載を禁じます。詳細については、http://www.mlcommons.org/ を参照してください。
  • 19. 第 22 回 PC クラスタシンポジウム CosmoFlow の構成の詳細 ベースライン構成: EPYC 7763: 2022年3月27日に実施したインテル社内テストで測定。1 ノード、2x EPYC 7763、64 コア、HT 有効、ターボ無効、メモリー総容量 512GB (16 スロット / 32GB/ 3,200MHz、DDR4)、BIOS AMI 1.1b、ucode 0xa001144、OS Red Hat Enterprise Linux 8.5 (Ootpa)、カーネル 4.18.0-348.7.1.el8_5.x86_64、コンパイラー gcc (GCC) 8.5.0 20210514 (Red Hat 8.5.0-4)、 https://github.com/mlcommons/hpc/tree/main/cosmoflow、Tensorflow 2.8、tf_nightly-2.8.0.202149-cp38-cp38-linux_x86_64.whl、horovod 0.22.1、keras 2.8.0、oneCCL-2021.4、oneAPI MPI 2021.4.0、Python 3.8 A100 80GB GPU + 第 3 世代インテル® Xeon® Platinum 8360Y プロセッサー: 2022年4月8日に実施したインテル社内テストで測定。1 ノード、2x インテル® Xeon® Platinum 8360Y プロセッサー、36 コア、HT 有効、ター ボ有効、メモリー総容量 256GB (16 スロット / 16GB/ 3,200MHz)、NVIDIA A100 80GB PCIe (UUID: GPU-59998403-852d-2573-b3a9-47695dca0604)、PICe ID 20B5、BIOS AMI 1.1b、ucode 0xd000311、OS Red Hat Enterprise Linux 8.4 (Ootpa)、カーネル 4.18.0-305.el8.x86_64、コンパイラー gcc (GCC) 8.4.1 20200928 (Red Hat 8.4.1-1)、https://github.com/mlcommons/hpc/tree/main/cosmoflow/、Tensorflow 2.6.0、keras 2.6.0、cudnn 8.2.1、horovod 0.24.2、Python 3.7 第 3 世代インテル® Xeon® Platinum 8380 プロセッサー: 2022年4月5日に実施したインテル社内テストで測定。1 ノード、2x インテル® Xeon® Platinum 8380 プロセッサー、40 コア、HT 有効、ターボ無効、メモリー総容量 512GB (16 スロット / 32GB/ 3,200MHz、DDR4)、BIOS SE5C6200.86B.0022.D64.2105220049、ucode 0xd0002b1、OS Red Hat Enterprise Linux 8.5 (Ootpa)、カーネル 4.18.0-348.7.1.el8_5.x86_64、コンパイラー gcc (GCC) 8.5.0 20210514 (Red Hat 8.5.0-4)、https://github.com/mlcommons/hpc/tree/main/cosmoflow/、AVX-512、FP32、Tensorflow 2.6.0、horovod 0.23.0、keras 2.6.0、oneCCL-2021.4、oneAPI MPI 2021.4.0、 Python 3.8 第 4 世代インテル® Xeon® スケーラブル・プロセッサー: 2022年5月5日に実施したインテル社内テストで測定。1 ノード、2x 第 4 世代インテル® Xeon® スケーラブル・プロセッサー、40 コア以上、HT 有効、ターボ無効、メモ リー総容量 512GB (16 スロット / 32GB/ 4,800MHz、DDR5)、BIOS EGSDCRB1.86B.0078.D10.2204072027、ucode 0x8f000320、OS CentOS Stream 8、カーネル 5.15.0-spr.bkc.pc.4.24.0.x86_64、コンパイラー gcc (GCC) 8.5.0 20210514 (Red Hat 8.5.0-10)、https://github.com/mlcommons/hpc/tree/main/cosmoflow/、AVX-512、FP32、Tensorflow 2.6.0、horovod 0.23.0、keras 2.6.0、oneCCL-2021.4、oneAPI MPI 2021.4.0、 Python 3.8 MLPerf HPC-AI v0.7 学習処理ベンチマークのパフォーマンス。この結果の MLCommons Association による検証は未実施。未検証の結果は MLPerf レビューを経ておらず、検証結果に対する MLPerf の仕様とは 一致しない測定方法やワークロード実装が使用されている可能性があります。MLPerf の名称およびロゴは、アメリカ合衆国およびその他の国における MLCommons Association の商標です。 All rights reserved. 無断での引用、転載を禁じます。詳細については、http://www.mlcommons.org/ を参照してください。
  • 20. 第 22 回 PC クラスタシンポジウム 構成の詳細 CloverLeaf • 2022年4月26日に実施したインテル社内テストで測定。1 ノード、2x インテル® Xeon® Platinum 8360Y CPU、72 コア、HT 有効、ターボ有効、メモリー総容量 256GB (16x 16GB DDR4 3,200 MT/s)、 SE5C6200.86B.0021.D40.2101090208、Ubuntu 20.04、カーネル 5.10、0xd0002a0、ifort 2021.5、インテル® MPI 2021.5.1、ビルドノブ: -xCORE-AVX512 –qopt-zmm-usage=high • 2022年4月19日に実施したインテル社内テストで測定。1 ノード、2x 出荷前のインテル® Xeon® スケーラブル・プロセッサー (開発コード名: Sapphire Rapids) + HBM、40 コア以上、HT 有効、ターボ有効、メモリー総容 量 128GB (HBM2e、3,200MHz)、BIOS バージョン EGSDCRB1.86B.0077.D11.2203281354、ucode リビジョン =0x83000200、CentOS Stream 8、Linux バージョン 5.16、ifort 2021.5、インテル® MPI 2021.5.1、ビル ドノブ: -xCORE-AVX512 –qopt-zmm-usage=high OpenFOAM • 2022年1月26日に実施したインテル社内テストで測定。1 ノード、2x インテル® Xeon® Platinum 8380 CPU、80 コア、HT 有効、ターボ有効、メモリー総容量 256GB (16x 16GB 3,200MT/s、デュアルランク)、BIOS バー ジョン SE5C6200.86B.0020.P23.2103261309、0xd000270、Rocky Linux 8.5、Linux バージョン 4.18.、OpenFOAM v1912、Motorbike 28M @ 250 回反復、ビルドメモ: ツール: インテル® Parallel Studio 2020u4、 ビルドノブ: -O3 -ip -xCORE-AVX512 • 2022年1月26日に実施したインテル社内テストで測定。1 ノード、2x 出荷前のインテル® Xeon® スケーラブル・プロセッサー (開発コード名: Sapphire Rapids) + HBM、40 コア以上、HT 無効、ターボ無効、メモリー総容 量 128GB (HBM2e、3,200MHz)、出荷前のプラットフォームと BIOS、CentOS 8、Linux バージョン 5.12、OpenFOAM v1912、Motorbike 28M @ 250 回反復、ビルドメモ: ツール: インテル® Parallel Studio 2020u4、ビ ルドノブ: -O3 -ip -xCORE-AVX512 WRF • 2022年5月3日に実施したインテル社内テストで測定。1 ノード、2x インテル® Xeon® Platinum 8380 CPU、80 コア、HT 有効、ターボ有効、メモリー総容量 256 GB (16x 16GB 3200MT/s、デュアルランク)、BIOS バー ジョン SE5C6200.86B.0020.P23.2103261309、ucode リビジョン =0xd000270、Rocky Linux 8.5、Linux バージョン 4.18、WRF v4.2.2 • 2022年5月3日に実施したインテル社内テストで測定。1 ノード、2x 出荷前のインテル® Xeon® スケーラブル・プロセッサー (開発コード名: Sapphire Rapids) + HBM、40 コア以上、HT 有効、ターボ有効、メモリー総容量 128GB (HBM2e、3,200MHz)、BIOS バージョン EGSDCRB1.86B.0077.D11.2203281354、ucode リビジョン =0x83000200、CentOS Stream 8、Linux バージョン 5.16、WRF v4.2.2 YASK • 2022年5月9日に実施したインテル社内テストで測定。1 ノード、2x インテル® Xeon® Platinum 8360Y CPU、72 コア、HT 有効、ターボ有効、メモリー総容量 256GB (16x 16GB DDR4 3,200MT/s)、 SE5C6200.86B.0021.D40.2101090208、Rocky linux 8.5、カーネル 4.18.0、0xd000270、ビルドノブ: make -j YK_CXX='mpiicpc -cxx=icpx' arch=avx2 stencil=iso3dfd radius=8 • 2022年5月3日に実施したインテル社内テストで測定。1 ノード、2x 出荷前のインテル® Xeon® スケーラブル・プロセッサー (開発コード名: Sapphire Rapids) + HBM、40 コア以上、HT 有効、ターボ有効、メモリー総容量 128GB (HBM2e、3,200MHz)、BIOS バージョン EGSDCRB1.86B.0077.D11.2203281354、ucode リビジョン =0x83000200、CentOS Stream 8、Linux バージョン 5.16、ビルドノブ: make -j YK_CXX='mpiicpc - cxx=icpx' arch=avx2 stencil=iso3dfd radius=8