NVIDIA cuQuantum SDK による量子回路シミュレーターの高速化

NVIDIA cuQuantum SDK による
量子回路シミュレーターの高速化
2022/11/29
佐々木邦暢 (@_ksasaki)
エヌビディア合同会社

量子コンピューティング
年々増える量子ビット数
可能性のある用途
新しい計算方式
金融計算
暗号最適化問題
量子化学
1
10
100
1,000
10,000
100,000
1,000,000
10,000,000
2010 2015 2020 2025 2030 2035 2040
Qubits
Fault-Tolerant Quantum
Computing Speedups Threshold

• 高速な素因数分解 - 暗号など
• 指数関数的な高速化
将来的な応用例
多くの「完全な」量子ビットが必要
ショアのアルゴリズムグローバーのアルゴリズム
• 非構造化データの検索
• 2次オーダーの高速化

近い将来の可能性
量子機械学習量子化学計算組み合わせ最適化
Greene-Diniz, et al, arXiv:2203.15546,
Menten.ai
Gao, et al, Phys. Rev. X 12, 021037
Pennylane.ai
Image from ibm.com
Wikipedia.com
量子生成モデル
量子サポートベクターマシン
炭素回収のための変分量子固有値ソルバー (VQE)
QAOA によるリソース割り当て
タンパク質フォールディング物流最適化

量子コンピューティングエコシステムでの GPU コンピューティングの活用
現在のスーパーコンピューターで、将来の量子コンピューターを研究
量子回路シミュレーション
量子情報科学 (QIS) における喫緊の課題に対する重要なツール
古典・量子ハイブリッドアプリケーション
影響力のある量子コンピューティングアプリケーション
(例: 量子材料や量子システムのシミュレーション) には、
量子コプロセッサを搭載した古典的スーパーコンピュータが有効
+
• 近い将来あるいは長期的な量子優位性を実現するために、
どのような量子アルゴリズムが最も有望か？
• 量子優位性を実現するための要件 (量子ビット数やエラーレート) は何か？
• 価値ある量子アプリケーションを実現するために最適な
量子プロセッサアーキテクチャは何か？
• 古典的な HPC を統合して活用し、古典と量子のハイブリッドワークロードを
高速化するには？
• QPU と古典的な HPC システムの組み合わせを科学者が簡単にテストするには？
• 回路合成、古典的最適化、エラー訂正デコードに GPU アクセラレーションを
活用することは可能か？

状態ベクトル (State vector)
「ゲートベースで量子コンピューターをエミュレート」
• メモリ上に 2n の完全な量子ビット状態を保持
• タイムステップごとに全状態を更新し、そのうちのn個の状
態を確率的にサンプリングして測定する
メモリ容量と計算時間は量子ビット数に対し指数関数的に増大
する - スパコンでも 50 量子ビット程度が現在の限界
理想的 (FTQC)、ノイジー (NISQ) 双方の量子ビットを表現可能
テンソルネットワーク (Tensor networks)
「必要な状態だけをシミュレート」
• テンソルネットワークの縮退を利用し、回路シミュ
レーションに必要なメモリを大幅に削減
• 数百から数千の量子ビットを保持でき、実用的な量子
回路のシミュレーションが可能
GPU はどちらの方式にも適しています
Tensor Network image from Quimb: https://quimb.readthedocs.io/en/latest/index.html
量子回路シミュレーションの代表的な二つのアプローチ

𝛽 = 𝜓𝑟 𝑈 𝜓0
ۧ
|𝜓 = 𝑈| ۧ
𝜓0
cuQuantum による強力なシミュレーション
コンピューティングの未来へとつながる

▪ 量子コンピューティング研究のプラットフォーム
▪ 量子回路シミュレーションを GPU で高速化
▪ 理想的あるいはノイジーな量子ビットをシミュレート
▪ 量子ハードウェアや現在のシミュレータでは実現
できないスケールと性能でアルゴリズム研究を可能に
▪ cuQuantum の利用方法
▪ Cirq、Qiskit、Pennylane といった主要な
量子コンピューティングフレームワークに統合
▪ C と Python の API
▪ こちらから入手可能
developer.nvidia.com/cuquantum
量子コンピューティングフレームワーク
QPU
量子回路シミュレーター
cuQuantum
cuStateVec
GPU コンピューティング
量子コンピューティングアプリケーション
cuTensorNet
cuQuantum とは

NVIDIA QODA
NVIDIA QODA プラットフォーム
• あらゆる QPU に対応 (物理及びシミュレーター)
• ハイブリッドシステム向け高性能コンパイラ
• オープンで現在のアプリケーションと相互運用可能
• C++ と Python の単一ソースプログラミングモデル
QODA の機能
古典・量子ハイブリッド計算プラットフォーム
NVIDIA QODA
古典・量子ハイブリッド計算プラットフォーム
コンパイラなどのシステムレベルツール (NVQ++)
ハイブリッドアプリケーション
創薬、化学、気象、金融、物流等
古典計算量子回路
シミュレーション
量子コンピューティング
古典スーパーコンピューター量子コンピューター

cuQuantum エコシステム
HPC Centers
パワーユーザー
フレームワーク

様々なユースケースやユーザーを高速化
Faster Time-to-solution Faster Time-to-solution Faster Time-to-solution
More Circuit Depth Lower Costs More Qubits
Faster Quantum Algorithm for Physics-ML New PennyLane Integration via AWS Braket Orquestra Platform Integration
cuQuantum の性能

A100 GPU における cirq/qsim + cuStateVec の暫定的パフォーマンス
A100 80GB と 64 コア CPU の比較 VQE の高速化シングル CPU との比較
Benchmarks run using cirq/qsim with modifications to integrate cuStateVec
CPUs used were AMD EPYC 7742 with 64 cores
QFT circuit with 32 qubits and depth 63
Shor’s circuit with 30 qubit and depth 15560 (integer factorized: 65)
Sycamore supremacy circuit m=14 with 7480 gates
VQE benchmarks have all orbitals and results were measured for the energy
function evaluation
cuStateVec – 単一 GPU の性能

• フロントエンドによる完全
な量子シミュレーション・スタック
• 主要な量子アルゴリズムで世界最高
レベルのパフォーマンス
• で公開中
cirq/qsim + cuQuantum のマルチ GPU コンテナイメージ
DGX cuQuantum アプライアンス

cuStateVec によるマルチノード・マルチ GPU実行
https://developer.nvidia.com/ja-jp/blog/achieving-supercomputing-scale-quantum-circuit-simulation-with-the-dgx-cuquantum-appliance/
• 同じ問題を GPU 数を変えながら解いたときの性能
• 16 ノードの DGX A100 は、CPU サーバーの
320-340 倍の高速化

cuTensorNet
テンソルネットワークに基づく量子回路シミュレーションを高速化
• 実用的な量子回路の多くでは、テンソルネットワーク
により、100 ~1000 量子ビットに対応するシミュレー
ションが可能
• cuTensorNet API が提供する機能
1. Cirq や Qiskit で書かれた回路をテンソルネットワーク
に変換する
2. 縮約の最適経路を計算する
• 超最適化により、総コスト (例: FLOPS や見積時間) が
最も低い縮約パスを探索する
• スライシングを導入し、並列性を持たせたり、中間テンソ
ルの最大サイズを小さくしたりする。
3. 実行計画を計算し、テンソルネットワークの縮約を実
行する
• cuTensor ヒューリスティックの活用
Tensor Network image from Quimb: https://quimb.readthedocs.io/en/latest/index.html
https://developer.nvidia.com/blog/scaling-quantum-circuit-simulation-with-cutensornet/

NVIDIA’ l n DGX P D
[1] Danylo Lykov et al, Tensor Network Quantum Simulator With Step-Dependent Parallelization, 2020
https://arxiv.org/pdf/2012.02430.pdf
0
2000
4000
6000
8000
10000
12000
Category 1
グラフタイトル
210
512
3,375
10,000
Previous largest
problem, Theta
Supercomputer [1]
Single GPU
97% Accuracy
Supercomputer
97% Accuracy
Supercomputer
93% Accuracy
頂点の数
• NVIDIA の Selene スーパーコンピューターを利用
• 3,375 頂点問題 (1,688 量子ビット) で精度 97%
• 10,000 頂点問題 (5,000 量子ビット) で精度 93%
スーパーコンピューターへの拡張

NVIDIA H100 Tensor Core GPU
Unprecedented Performance, Scalability, and
Security for Every Data Center
FP8, FP16, TF32 performance include sparsity. X-factor compared to A100
HIGHEST AI AND HPC PERFORMANCE
4PF FP8 (6X)| 2PF FP16 (3X)| 1PF TF32 (3X)| 60TF FP64 (3X)
3TB/s (1.5X), 80GB HBM3 memory
TRANSFORMER MODEL OPTIMIZATIONS
6X faster on largest transformer models
HIGHEST UTILIZATION EFFICIENCY AND
SECURITY
7 Fully isolated & secured instances, guaranteed QoS
2nd Gen MIG | Confidential Computing
FASTEST, SCALABLE INTERCONNECT
900 GB/s GPU-2-GPU connectivity (1.5X)
up to 256 GPUs with NVLink Switch | 128GB/s PCI Gen5

DGX H100 Hardware Feature Summary
GPU 8 x NVIDIA H100 Tensor Core GPUs
GPU memory 640 GB total
Performance 32 petaFLOPs FP8
NVswitches 4
CPUs 2 x x86
System Memory 2 TB
Networking
connectivity and speed
4 x OSFP ports provide connectivity to 8 x NVIDIA
ConnectX-7s
8 x 400Gb/s InfiniBand/Ethernet*
2 x dual-port NVIDIA ConnectX-7
1 x 400Gb/s InfiniBand/Ethernet and
1 x 200Gb/s InfiniBand/Ethernet*
Cache Storage 8 x U.2 3.84TB NVMe Secure Erase Drives
Boot Storage 2 x 1.92TB M.2 NVMe (software encryptable)
Host Management On-board 10Gb/s RJ-45 Ethernet
Optional 50Gb/s QSFP Ethernet NIC
Remote System
Management
Baseboard Management Controller (BMC)
1Gb/s RJ-45 network connectivity
Remote Keyboard, Video, Mouse (KVM)
Remote Storage
RedFish, IPMI management
Operating System DGX OS based on Ubuntu
Additional support for Ubuntu and Red Hat Enterprise
Linux
NVIDIA DGX H100
The world’s first AI system with the NVIDIA H100 Tensor Core GPU
* Subject to Change

DGX H100 Exploded View
Power Supplies
Chassis
GPU tray
Motherboard
Front Cage
Bezel
Fan Modules
Secure Erase Drives
Front Console
Board

Understanding DGX BasePOD vs DGX SuperPOD
Scalable, foundational architecture
• Flexible reference architectures
• Powered by Base Command
• Sold through channel
• Partner professional services
• Validated against key benchmarks
• Foundation for partner branded offerings
Digital twin of NVIDIA’s infrastructure
• Turnkey data center product
• Powered by Base Command
• Sold through channel, but with mandatory…
…white-glove NVIDIA PS – order > install > commission
• Certified performance for the most complex workloads
• No customization, no partner re-branding
NVIDIA DGX BasePOD NVIDIA DGX SuperPOD
Customer needs:
• Choice of flexible vs performance optimized designs
• Inclusion of non-SuperPOD certified storage
Customer needs:
• a replica of NVIDIA’s infrastructure
• a turnkey deployment
• full-stack support of the entire deployment

• 量子回路シミュレーションは、CPU や GPU 等、現在のプロセッサ
で量子計算を行うためのアプローチ
• cuQuantumは、NVIDIA のハードウェアで簡単に、従来よりもシミュ
レーションを高速化・大規模化
• 量子コンピューティングのエコシステムにおいて cuQuantum の
利用は拡大中
• cuQuantum は、NGC コンテナ、DevZone からの SDK ダウンロード、
pip や conda install、あるいは他のフレームワークを通じて、すぐ
に利用できます。
まとめ

関連情報
▪ cuQuantum SDK
https://developer.nvidia.com/cuquantum-sdk
▪ cuQuantum GitHub リポジトリ
https://github.com/NVIDIA/cuQuantum
▪ NVIDIA cuQuantum アプライアンス
https://catalog.ngc.nvidia.com/orgs/nvidia/containers/cuquantum-appliance
▪ NVIDIA ブログ「量子コンピューティングとは」
https://blogs.nvidia.co.jp/2021/04/16/what-is-quantum-computing/
▪ NVIDIA ブログ「NVIDIA cuQuantum と QODA を採用する研究者や科学者が拡大」
https://blogs.nvidia.co.jp/2022/09/26/cuquantum-qoda-adoption-accelerates/
▪ Lightning-fast simulations with PennyLane and the NVIDIA cuQuantum SDK
https://pennylane.ai/blog/2022/07/lightning-fast-simulations-with-pennylane-and-the-nvidia-cuquantum-sdk/
▪ Orquestra Integrates with NVIDIA cuQuantum
https://www.zapatacomputing.com/orquestra-cuquantum-integration/
▪ [GTC22] Defining the Quantum-Accelerated Supercomputer
https://www.nvidia.com/en-us/on-demand/session/gtcfall22-a41134/
▪ [GTC22] Scaling Quantum Circuit Simulations with cuQuantum for Quantum Algorithms
https://www.nvidia.com/en-us/on-demand/session/gtcfall22-a41102/

NVIDIA cuQuantum SDK による量子回路シミュレーターの高速化

NVIDIA cuQuantum SDK による量子回路シミュレーターの高速化

More Related Content

What's hot

Similar to NVIDIA cuQuantum SDK による量子回路シミュレーターの高速化

More from NVIDIA Japan

Recently uploaded

NVIDIA cuQuantum SDK による量子回路シミュレーターの高速化