SlideShare a Scribd company logo
Hopper アーキテクチャで、変わること、変わらないこと
Akira Naruse, Developer Technology, 2022/4/26
HOPPER アーキテクチャ: 高性能、スケーラブル、セキュアな GPU
NVIDIA H100 (SXM5)
HOPPER アーキテクチャ
NVIDIA H100 GPU
132 SMs
16,896 FP32 units
528 Tensor Cores
Larger L2, 50 MB
HBM3 DRAM, 80 GB, 3 TB/s
4th-gen NVLink
900 GB/s (50 GB/s x 18 links)
SHARP, NVLink network
PCIe gen5
2nd-gen MIG
Confidential Computing
Thread Block
Clusters
世界初の HBM3 メモリ採用
3 TB/s
メモリ周波数が大幅に向上
80 GB (5 HBM sites)
新 512-bit メモリコントローラー
独立 2 チャネル /site
A100 相当の高い効率
(*) H100 の性能値は現時点の概算値です
AGENDA
Hopper アーキテクチャ
階層と局所性
非同期実行
スケーラブル
セキュリティ
HOPPER アーキテクチャ
GH100 Stream Multiprocessor
第 4 世代 Tensor Core
2 倍の FMA 性能 (FP32、FP64)
新 DPX 命令セット
L1/共有メモリのサイズ増, 256 KB
Thread Block Clusters
複数 SM 間の協調処理
Tensor Memory Accelerator (TMA)
テンソルデータの非同期コピー
Hopper Tensor Core
第 4 世代
約 3 倍の性能 UP
クロックあたり性能 2 倍 (/SM)
SM 数増: 108  132
クロック速度向上
FP8 対応
A100 H100
dense sparse dense sparse
FP64 TC 19.5 NA 60 NA
FP64 9.7 NA 30 NA
FP32 19.5 NA 60 NA
TF32 TC 156 312 500 1,000
FP/BF16 TC 312 624 1,000 2,000
FP16 78 NA 120 NA
FP8 TC NA NA 2,000 4,000
Peak TFLOPS
(*) H100 の性能値は現時点の概算値です
New
FP8 Tensor Core
FP16/BF16 の 2 倍のピーク性能
2 種類の FP8 フォーマット: E5M2 と E4M3
 E5M2 は「レンジ」重視
 E4M3 は「精度」重視
累加型と出力型は選択可能
 累加型: FP32|FP16
 出力型: FP32|FP16|BF16|FP8
TRANSFORMER ENGINE
FP8 Tensor Core の用途は?
Transformer モデルを、Hopper Tensor
Core で、高速に、精度低下ゼロで、計算
次レイヤーに適切な出力データ型を選択
Tensor Core の計算結果をモニター、その
結果に基づき、FP8 のレンジを有効活用で
きるよう、出力をスケーリング
FP8 TRAINING AND INFERENCE
FP8 の精度・メリット
GPT-3 のトレーニング、FP16/BF16 の場合
と同等の精度が得られることを確認
 Vision 系のネットワークでも同様の結果
FP8 でトレーニングすると、8-bit でインファレ
ンスするために quantization や fine
tuning が不要
better
DPX INSTRUCTIONS
動的計画法を加速
Smith-Waterman など、動的計画法コードを高速化する命令
ライブラリ提供を検討 (CUDA 12.x)
A100 に追加した機能も、そのまま使えます
AGENDA
Hopper アーキテクチャ
階層と局所性
非同期実行
スケーラブル
セキュリティ
GPU の演算リソースを効率よく使うには?
局所性と非同期実行
データ局所性
 短遅延
 高バンド幅
非同期実行
 データ転送と計算のオーバーラップ
 効率的な非同期実行機能
Load
A
Compute
A
Store
A
Load
B
Compute
B
Store
B
Load
C
Comput
C
Load
A
Compute
A
Store
A
Load
B
Compute
B
Store
B
Load
C
Compute
C
Store
C
Async
Mem Copy
Compute
Mem Copy
Compute
CUDA プログラミングモデルと GPU HW 階層
CUDA: 3階層
HW: 4階層
Grid … Block Thread
GPU GPC SM CUDA core
CUDA は 3 階層のプログラミングモデルで、データ局
所性を利用
グリッド: ブロックの集合 (カーネル)
ブロック: スレッドの集合
 一つの SM に割当。同一ブロック内のスレッドは、共
有メモリや L1 キャッシュ等の SM リソースを利用して、
協調実行
CUDA 階層と HW 階層に「乖離」
 CUDA では GPC を利用できない
H100: 132 SM
THREAD BLOCK CLUSTER
クラスタ
CUDA: 4階層
HW: 4階層
Grid Cluster Block Thread
GPU GPC SM CUDA core
CUDA に新しい階層を追加 (CUDA 12)
グリッド: クラスタの集合 (カーネル)
クラスタ: ブロックの集合
 ある一つの GPC 内の、複数 SM に割当
ブロック: スレッドの集合
クラスタの機能
 クラスタ内ブロックは、同時にスケジューリング
 分散共有メモリ: 互いの共有メモリにアクセス可
 高速なクラスタ内同期 (HWサポート)
H100: 132 SM
ブロックのスケジューリング
従来
各ブロックは、任意 GPC/SM に、別々に割り当てられる
他ブロックが、同時にスケジューリングされる保証は無い
Grid
0 1 2 3
0 1 2
ブロックのスケジューリング
クラスタ
クラスタ内のブロックは、ある一つの GPC に、同時に割り当てられる
 SM あたりの割り当てブロック数は 1 (default)
 クラスタあたりの最大ブロック数は 16
SM 間ネットワークを使用して、ブロック間で高速にデータ共有
Grid
0 1 2 3
0 1 2
Grid
Cluster
0 1 2 3
0 1 2 3
DISTRIBUTED SHARED MEMORY (DSMEM)
分散共有メモリ
ブロック間のデータ交換はグローバルメモリ経由 同じクラスタ内のブロックの共有メモリを直接アクセス可能
 load, store, atomics, async DMA, arrive barrier
SM 間ネットワークによる高速アクセス
より大きな粒度で協調処理 (1024スレッド超)
THREAD BLOCK CLUSTER
クラスタは、どうやって使うのか?
__global__ void kernel(...)
{
...
}
クラスタを使わない場合、コード変更不要
THREAD BLOCK CLUSTER
__cluster_dim__
__cluster_dim__ でクラスタサイズを指定
クラスタを使用するカーネルに追加
サイズは、1~3 次元で指定可能
カーネル起動は従来通り
__global__ void __cluster_dim__(4) kernel(...)
{
...
}
THREAD BLOCK CLUSTER
cooperative_groups::this_cluster()
Cooperative Groups に this_cluster() を追加
クラスタサイズや、クラスタ内ブロック番号を、カーネ
ル内で取得できる
 gridDim, blockIdx 相当
0 1 2 3
__global__ void __cluster_dim__(4) kernel(...)
{
namespace cg = cooperative_groups;
cg::cluster_group cluser = cg::this_cluster();
int cluster_size = cluster.dim_blocks().x;
int my_rank = cluster.block_rank();
...
}
THREAD BLOCK CLUSTER
cooperative_groups::this_cluster()
Cooperative Groups に this_cluster() を追加
クラスタサイズや、クラスタ内ブロック番号を、カーネ
ル内で取得できる
 gridDim, blockIdx 相当
cluster.sync() で同期
 __syncthreads() 相当
__global__ void __cluster_dim__(4) kernel(...)
{
namespace cg = cooperative_groups;
cg::cluster_group cluser = cg::this_cluster();
int cluster_size = cluster.dim_blocks().x;
int my_rank = cluster.block_rank();
cluster.sync();
...
}
cluster.sync()
THREAD BLOCK CLUSTER
分散共有メモリ (DSMEM)
分散共有メモリ (DSMEM)
クラスタ内のブロック番号を使って、他ブロックの共
有メモリを「マップ」して、アクセスできる
read, write, atomics
__global__ void __cluster_dim__(4) kernel(...)
{
__shared__ int smem[1];
namespace cg = cooperative_groups;
cg::cluster_group cluser = cg::this_cluster();
int cluster_size = cluster.dim_blocks().x;
int my_rank = cluster.block_rank();
int *remote_smem = cluster.map_shared_rank(
smem, (my_rank + 1) % cluster_size);
if (threadIdx.x == 0)
remote_smem[0] = my_rank;
cluster.sync();
...
}
0 1 2 3
THREAD BLOCK CLUSTER 使用例
共有メモリ・ヒストグラム
ブロック毎に、それぞれ共有メモリ上でヒストグラムをカウントした後、グローバルメモリ上の
ヒストグラムに加算
 ヒストグラム数 (N) が大きいと共有メモリに収まらない
 N = 75,000 を 32-bit integer でカウントすると 300 KB 必要
共有メモリ
(H100: ~228 KB)
N
THREAD BLOCK CLUSTER 使用例
分散共有メモリ・ヒストグラム
ブロック毎に、それぞれ共有メモリ上でヒストグラムをカウントした後、グローバルメモリ上のヒストグラム
に加算
 ヒストグラム数 (N) が大きいと共有メモリに収まらない。
 N = 75,000 を 32-bit integer でカウントすると 300 KB 必要
クラスタ (サイズ: 2) を使用、各ブロックの共有メモリにはヒストグラムを半分配置
分散共有メモリ
N/2 N/2
THREAD BLOCK CLUSTER 使用例
共有メモリ・ヒストグラム
__global__ void block_histgram(...)
{
__shared__ int smem[N];
for (int i = threadIdx.x; i < N; I += blockDim.x) {
smem[i] = 0;
}
__syncthreads();
for (...) {
int bin_id = ...;
atomicAdd(smem + bin_id, 1);
}
__syncthreads();
...
}
共有メモリ: 初期化
共有メモリ: increment
グローバルメモリ: 加算
THREAD BLOCK CLUSTER 使用例
分散共有メモリ・ヒストグラム
__global__ void __cluster_dim__(2) cluster_histgram(...)
{
__shared__ int smem[N/2];
for (int i = threadIdx.x; i < N/2; i += blockDim.x) {
smem[i] = 0;
}
cg::cluster_group cluser = cg::this_cluster();
int *dsmem[2];
for (int i = 0; i < 2; i++) {
dsmem[i] = cluster.map_shared_rank(smem, i);
}
cluster.sync();
for (...) {
int bin_id = ...;
int rank = bin_id / (N/2);
int offset = bin_id % (N/2);
atomicAdd(dsmem[rank] + offset, 1);
}
cluster.sync();
...
}
共有メモリ: 初期化
分散共有メモリ: マップ
分散共有メモリ: increment
グローバルメモリ: 加算
THREAD BLOCK CLUSTER 使用例
分散共有メモリ・ヒストグラム
__global__ void __cluster_dim__(2) cluster_histgram(...)
{
__shared__ int smem[N/2];
for (int i = threadIdx.x; i < N/2; i += blockDim.x) {
smem[i] = 0;
}
cg::cluster_group cluser = cg::this_cluster();
int *dsmem[2];
for (int i = 0; i < 2; i++) {
dsmem[i] = cluster.map_shared_rank(smem, i);
}
cluster.sync();
for (...) {
int bin_id = ...;
int rank = bin_id / (N/2);
int offset = bin_id % (N/2);
atomicAdd(dsmem[rank] + offset, 1);
}
cluster.sync();
...
}
AGENDA
Hopper アーキテクチャ
階層と局所性
非同期実行
スケーラブル
セキュリティ
GPU の演算リソースを効率よく使うには?
データ局所性と非同期実行
データ局所性
 短遅延
 高バンド幅
非同期実行
 データ転送と計算のオーバーラップ
 効率的な非同期実行機能
Load
A
Compute
A
Store
A
Load
B
Compute
B
Store
B
Load
C
Comput
C
Load
A
Compute
A
Store
A
Load
B
Compute
B
Store
B
Load
C
Compute
C
Store
C
Async
Mem Copy
Compute
Mem Copy
Compute
TENSOR MEMORY ACCELERATOR (TMA)
非同期メモリコピー
HW メモリコピーエンジン (SM 内)
グローバルメモリ  共有メモリ
共有メモリ  グローバルメモリ
1D ~ 5D テンソルのコピー
完全オフロード
アドレス計算
トランザクションバリアで同期 (no spin-lock)
クラスタ対応
共有メモリ  共有メモリ (クラスタ内)
2D Tensor padding
Tensor width
Tensor
height
Tensor
stride
region
to copy
Block width
Block
height
非同期メモリコピー
A100: LDGSTS
cg::memcpy_async()
スレッドがアドレス計算し、LDGSTS 命令を使って、
非同期にグローバルメモリから共有メモリにデータを
ロード
(独立な計算)
cg::wait()
スレッドが、共有メモリにデータが到着していることを、
spin で確認
SM
SMEM L1
Registers
Threads
Tensor Core
A100: LDGSTS
Global Memory
Data Loads
スレッドが
アドレス計算
spin
非同期メモリコピー
A100  H100
SM
SMEM L1
Registers
Threads
Tensor Core
SM
SMEM L1
Registers
Threads
Tensor Core
TMA
A100: LDGSTS H100: TMA
Global Memory Global Memory
Loads
Data
スレッドが
アドレス計算
spin
非同期メモリコピー
H100: TMA
SM
SMEM L1
Registers
Threads
Tensor Core
TMA
H100: TMA
Global Memory
Data +
TransCnt
Loads
TMAが
アドレス計算 sleep
cg::memcpy_async()
スレッドは、TMA にデータコピーをオフロード。TMA
がアドレス計算を行い、グローバルメモリから共有メ
モリにデータをロード。
(独立な計算)
cg::wait()
スレッドは、共有メモリにデータが到着するまで
sleep。
TMA 利用例
ステンシル計算
ブロック内のスレッドが参照する要素を全て共有メモリに load、それから、ステンシル計算
ステンシルサイズが小さい場合は L1 で十分
ステンシルサイズが大きい場合には、依然として、有効
0 1 2 3 4 5 6 7
8 9 10 11 12 13 14 15
16 17 18 19 20 21 22 23
24 25 26 27 28 29 30 31
スレッド
ブロック
(半径: 2)
ステンシル計算
共有メモリへの入力データの loading
__shared__ float smem[BY + 2*R][BX + 2*R];
int bx = blockIdx.x * BX - R;
int by = blockIdx.y * BY - R;
for (int i = threadIdx.x + threadIdx.y * BX;
i < (BY + 2*R) * (BX + 2*R);
i += BY * BX) {
int sy = i / (BX + 2*R);
int sx = i % (BX + 2*R);
int iy = by + sy;
int ix = bx + sx;
float val = 0.0;
if (((R <= sx && sx < BX + R) ||
(R <= sy && sy < BY + R)) &&
((0 <= ix && ix < NX) &&
(0 <= iy && iy < NY))) {
val = input[iy][ix];
}
}
smem[sy][sx] = val;
}
__syncthreads(); 正しく実装するのは
意外と大変
ブロックの担当領域 + halo
TMA ロード
TMA ロード
 グローバルメモリ  共有メモリ
 テンソル descriptor に、入力テンソルの形状・ストライド、ベースポインタ、共有メモリの形状、を指定
 1 スレッドで実行
 入力テンソルの範囲外の部分には、ゼロ値が代入
0 1 2 3 4 5 6 7
8 9 10 11 12 13 14 15
16 17 18 19 20 21 22 23
24 25 26 27 28 29 30 31
1つの TMA ロードで完了
ステンシル計算
共有メモリへの入力データの loading (TMA 使用)
0
0
0 0 0 0
0
0
0
0 0 0 0
__shared__ float smem[(BY + 2*R) * (BX + 2*R)];
...
int bx = blockIdx.x * BX - R;
int by = blockIdx.y * BY – R;
if (threadIdx.x == 0) {
memcpy_async(smem, tensor_desc, bx, by, barrier);
}
barrier.wait();
0 0 0 0
0 0
0 0
0
(*) API 変更の可能性有り
TMA の効果例
ステンシル計算
ステンシルサイズが小さいケースでは、
共有メモリ利用の効果は少ない
ステンシルサイズが大きいケースでは、
共有メモリを利用する価値がある
共有メモリ実装と比べると、TMA 実
装は、実装が簡潔で、高性能
ASYNC BARRIER (A100)
非同期バリア
Barrier を Arrive と Wait に分離
Arrive … データ生成が完了した
Wait … データ消費を開始したい
Arrive (non-blocking)
通過したスレッド数をカウント
Wait (blocking)
全スレッドが Arrive を通過していたら、開放
それまで、待ちスレッドはここで spin
bar.arrive()
bar.wait()
Produce Data
Consume Data
Independent
Work
Threads
spin
ASYNC TRANSACTION BARRIER (H100)
非同期トランザクションバリア
Arrive (non-blocking)
通過したスレッド数をカウント
Barrier は、共有メモリへの store 数もカウント
共有メモリにデータが到着したら、トランザクションカ
ウントが増加
Wait (blocking)
全スレッドが Arrive を通過しており、かつ、トランザ
クションカウント数が指定数に達していたら、開放
それまで、待ちスレッドはここで sleep
bar.arrive()
bar.wait()
Produce Data
Consume Data
Independent
Work
Threads
Async
SMEM stores
sleep
非同期トランザクションバリアを用いたブロック間通信
ブロック間で高速にデータ交換
Consumer ブロックの共有メモリ上で Data と
Barrier を同時に更新
Flag より先に Data が更新されるのを保証するには
メモリフェンスが必要
AGENDA
Hopper アーキテクチャ
階層と局所性
非同期実行
スケーラブル
セキュリティ
HOPPER アーキテクチャ
NVIDIA H100 GPU
4th-gen NVLink
900 GB/s (50 GB/s x 18 links)
SHARP, NVLink network
DGX A100
2 CPUs, 8 GPUs, 8 NICs
PCIe gen4
PCIe Switch
CX6
3rd gen NVLink
 600 GB/s (bi-direction)
 12 links * 50 GB/s
A100 A100 A100 A100 A100 A100 A100 A100
CPU CPU
NV Switches
PCIe
gen4
PCIe
gen4
NVLink gen3
CX6 CX6 CX6 CX6 CX6 CX6 CX6 CX6
PCIe SW PCIe SW PCIe SW PCIe SW
DGX A100
DGX H100
2 CPUs, 8 GPUs, 8 NICs
PCIe gen5
CX7
 with PCIe bridge
4th gen NVLink
 900 GB/s (bi-direction)
 18 links * 50 GB/s
3rd gen NVSwitch
 SHARP support
H100 H100 H100 H100 H100 H100 H100 H100
CPU CPU
CX7 CX7 CX7 CX7 CX7 CX7 CX7 CX7
NV Switches
PCIe
gen5
PCIe
gen5
NVLink gen4
A100 H100 Speedup
Bisection
[GB/s]
Reduce
[GB/s]
Bisection
[GB/s]
Reduce
[GB/s]
Bisection Reduce
1 DGX (8 GPUs) 2,400 3,600 1.5x
DGX H100
Step 1: Reduce
Step 2: Broadcast
NVLINK SHARP ACCELERATION
All-reduce
A100
N send
N recv
N send
N recv
A100 H100 + NVLink SHARP
NVS
A100
A100 A100
A100 A100
A100 A100
A100
NVS
A100
A100 A100
A100 A100
A100 A100
2N send, 2N recv N send, N recv
(*) N は All-reduce のメッセージサイズ
SHARP で、必要 NVLink 帯域を、概ね半減
H100
NVS
H100
H100 H100
H100 H100
H100 H100
N*7/8 send
N/8 recv
Reduce
A100
NVS
H100
H100 H100
H100 H100
H100 H100
N/8 send
N*7/8 recv
Multi-cast
DGX H100
2 CPUs, 8 GPUs, 8 NICs
PCIe gen5
CX7
 with PCIe bridge
4th-gen NVLink
 900 GB/s (bi-direction)
 18 links * 50 GB/s
3rd gen NVSwitch
 SHARP support
H100 H100 H100 H100 H100 H100 H100 H100
CPU CPU
CX7 CX7 CX7 CX7 CX7 CX7 CX7 CX7
NV Switches
PCIe
gen5
PCIe
gen5
NVLink gen4
A100 H100 Speedup
Bisection
[GB/s]
Reduce
[GB/s]
Bisection
[GB/s]
Reduce
[GB/s]
Bisection Reduce
1 DGX (8 GPUs) 2,400 150 3,600 450 1.5x 3x
72 links
DGX H100
2 CPUs, 8 GPUs, 8 NICs
H100 H100 H100 H100 H100 H100 H100 H100
CPU CPU
CX7 CX7 CX7 CX7 CX7 CX7 CX7 CX7
NV Switch NV Switch NV Switch NV Switch
144 links (8 GPUs * 18 links)
PCIe gen5
CX7
 with PCIe bridge
4th-gen NVLink
 900 GB/s (bi-direction)
 18 links * 50 GB/s
3rd gen NVSwitch
 SHARP support
 64 ports per NVSwitch
NVLink
gen4
DGX H100 256 POD
32x DGX H100
DGX H100
32 nodes
(256 GPUs)
NVLink
Switch
NVLink
Switch
NVLink
Switch
NVLink
Switch
NVLink 全結合網
2304 links (32 nodes * 72 links)
A100 H100 Speedup
Bisection
[GB/s]
Reduce
[GB/s]
Bisection
[GB/s]
Reduce
[GB/s]
Bisection Reduce
1 DGX (8 GPUs) 2,400 150 3,600 450 1.5x 3x
32 DGXs (256 GPUs) 6,400 100 57,600 450 9x 4.5x
8x HDR NICs per node NVLink 全結合
AGENDA
Hopper アーキテクチャ
階層と局所性
非同期実行
スケーラブル
セキュリティ
CONFIDENTIAL COMPUTING
パブリッククラウドでの懸念
クラウドプロバイダー
特権管理者
ハイパーバイザー
仮想マシン
コンフィデンシャル・コンピューティング
利用中のデータの暗号化
CONFIDENTIAL COMPUTING
HW based Trusted Execution Environment
(TEE)
 TEE を GPU に拡張
 CPU と GPU 間 (PCIe)、GPU 間 (NVLink) のデータ
転送を HW で暗号化 (AES-GCM 256)
Hardware Root of Trust
 認証された firmware と GPU 認証
CUDA アプリのコード変更は不要
利用中のデータの暗号化
Secure Pass-Thru
CONFIDENTIAL COMPUTING
HW based Trusted Execution Environment
(TEE)
 TEE を GPU に拡張
 CPU と GPU 間 (PCIe)、GPU 間 (NVLink) のデータ
転送を HW で暗号化 (AES-GCM 256)
Hardware Root of Trust
 認証された firmware と GU 認証
CUDA アプリのコード変更は不要
利用中のデータの暗号化
Secure Pass-Thru
CONFIDENTIAL COMPUTING AND H100 MIG
Trusted Execution Environment (TEE) per MIG
 GPU ハードの仮想化 (PCIe SR-IOV)
 GPU インスタンス間のメモリ・L2 はファームウェアで隔離
Secure MIG: 1 VM per GPU instance
マルチインスタンス GPU (MIG)
Multi-Tenant, Single GPU
AGENDA
Hopper アーキテクチャ
階層と局所性
非同期実行
スケーラブル
セキュリティ
まとめ
HOPPER アーキテクチャ: 高性能、スケーラブル、セキュアな GPU
まとめ
H100 の新機能の多くは、ライブラリや
ファームで提供される
基本的に、コード変更は不要
Thread Block Cluster や TMA を有
効活用するには、コード変更が必要
NVIDIA H100 (SXM5)
POINTERS
GTC 2022 talks
Inside the NVIDIA Hopper Architecture (S42663)
Optimizing CUDA Applications for NVIDIA Hopper Architecture (S41489)
CUDA: New Features and Beyond (S41486)
White paper
NVIDIA H100 Tensor Core GPU Architecture
Hopper アーキテクチャで、変わること、変わらないこと

More Related Content

What's hot

開発者が語る NVIDIA cuQuantum SDK
開発者が語る NVIDIA cuQuantum SDK開発者が語る NVIDIA cuQuantum SDK
開発者が語る NVIDIA cuQuantum SDK
NVIDIA Japan
 
プログラムを高速化する話Ⅱ 〜GPGPU編〜
プログラムを高速化する話Ⅱ 〜GPGPU編〜プログラムを高速化する話Ⅱ 〜GPGPU編〜
プログラムを高速化する話Ⅱ 〜GPGPU編〜
京大 マイコンクラブ
 
CPU / GPU高速化セミナー!性能モデルの理論と実践:理論編
CPU / GPU高速化セミナー!性能モデルの理論と実践:理論編CPU / GPU高速化セミナー!性能モデルの理論と実践:理論編
CPU / GPU高速化セミナー!性能モデルの理論と実践:理論編
Fixstars Corporation
 
モデルアーキテクチャ観点からのDeep Neural Network高速化
モデルアーキテクチャ観点からのDeep Neural Network高速化モデルアーキテクチャ観点からのDeep Neural Network高速化
モデルアーキテクチャ観点からのDeep Neural Network高速化
Yusuke Uchida
 
TVM の紹介
TVM の紹介TVM の紹介
TVM の紹介
Masahiro Masuda
 
マルチコアを用いた画像処理
マルチコアを用いた画像処理マルチコアを用いた画像処理
マルチコアを用いた画像処理
Norishige Fukushima
 
2015年度GPGPU実践基礎工学 第13回 GPUのメモリ階層
2015年度GPGPU実践基礎工学 第13回 GPUのメモリ階層2015年度GPGPU実践基礎工学 第13回 GPUのメモリ階層
2015年度GPGPU実践基礎工学 第13回 GPUのメモリ階層
智啓 出川
 
Android/iOS端末におけるエッジ推論のチューニング
Android/iOS端末におけるエッジ推論のチューニングAndroid/iOS端末におけるエッジ推論のチューニング
Android/iOS端末におけるエッジ推論のチューニング
Deep Learning Lab(ディープラーニング・ラボ)
 
計算機アーキテクチャを考慮した高能率画像処理プログラミング
計算機アーキテクチャを考慮した高能率画像処理プログラミング計算機アーキテクチャを考慮した高能率画像処理プログラミング
計算機アーキテクチャを考慮した高能率画像処理プログラミング
Norishige Fukushima
 
畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化
Yusuke Uchida
 
Magnum IO GPUDirect Storage 最新情報
Magnum IO GPUDirect Storage 最新情報Magnum IO GPUDirect Storage 最新情報
Magnum IO GPUDirect Storage 最新情報
NVIDIA Japan
 
データ爆発時代のネットワークインフラ
データ爆発時代のネットワークインフラデータ爆発時代のネットワークインフラ
データ爆発時代のネットワークインフラ
NVIDIA Japan
 
いまさら聞けないarmを使ったNEONの基礎と活用事例
いまさら聞けないarmを使ったNEONの基礎と活用事例いまさら聞けないarmを使ったNEONの基礎と活用事例
いまさら聞けないarmを使ったNEONの基礎と活用事例
Fixstars Corporation
 
PyTorchLightning ベース Hydra+MLFlow+Optuna による機械学習開発環境の構築
PyTorchLightning ベース Hydra+MLFlow+Optuna による機械学習開発環境の構築PyTorchLightning ベース Hydra+MLFlow+Optuna による機械学習開発環境の構築
PyTorchLightning ベース Hydra+MLFlow+Optuna による機械学習開発環境の構築
Kosuke Shinoda
 
Slurmのジョブスケジューリングと実装
Slurmのジョブスケジューリングと実装Slurmのジョブスケジューリングと実装
Slurmのジョブスケジューリングと実装
Ryuichi Sakamoto
 
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer
Yusuke Uchida
 
2015年度GPGPU実践プログラミング 第15回 GPU最適化ライブラリ
2015年度GPGPU実践プログラミング 第15回 GPU最適化ライブラリ2015年度GPGPU実践プログラミング 第15回 GPU最適化ライブラリ
2015年度GPGPU実践プログラミング 第15回 GPU最適化ライブラリ
智啓 出川
 
[DL輪読会]Temporal Abstraction in NeurIPS2019
[DL輪読会]Temporal Abstraction in NeurIPS2019[DL輪読会]Temporal Abstraction in NeurIPS2019
[DL輪読会]Temporal Abstraction in NeurIPS2019
Deep Learning JP
 
Intro to SVE 富岳のA64FXを触ってみた
Intro to SVE 富岳のA64FXを触ってみたIntro to SVE 富岳のA64FXを触ってみた
Intro to SVE 富岳のA64FXを触ってみた
MITSUNARI Shigeo
 
【DL輪読会】DiffRF: Rendering-guided 3D Radiance Field Diffusion [N. Muller+ CVPR2...
【DL輪読会】DiffRF: Rendering-guided 3D Radiance Field Diffusion [N. Muller+ CVPR2...【DL輪読会】DiffRF: Rendering-guided 3D Radiance Field Diffusion [N. Muller+ CVPR2...
【DL輪読会】DiffRF: Rendering-guided 3D Radiance Field Diffusion [N. Muller+ CVPR2...
Deep Learning JP
 

What's hot (20)

開発者が語る NVIDIA cuQuantum SDK
開発者が語る NVIDIA cuQuantum SDK開発者が語る NVIDIA cuQuantum SDK
開発者が語る NVIDIA cuQuantum SDK
 
プログラムを高速化する話Ⅱ 〜GPGPU編〜
プログラムを高速化する話Ⅱ 〜GPGPU編〜プログラムを高速化する話Ⅱ 〜GPGPU編〜
プログラムを高速化する話Ⅱ 〜GPGPU編〜
 
CPU / GPU高速化セミナー!性能モデルの理論と実践:理論編
CPU / GPU高速化セミナー!性能モデルの理論と実践:理論編CPU / GPU高速化セミナー!性能モデルの理論と実践:理論編
CPU / GPU高速化セミナー!性能モデルの理論と実践:理論編
 
モデルアーキテクチャ観点からのDeep Neural Network高速化
モデルアーキテクチャ観点からのDeep Neural Network高速化モデルアーキテクチャ観点からのDeep Neural Network高速化
モデルアーキテクチャ観点からのDeep Neural Network高速化
 
TVM の紹介
TVM の紹介TVM の紹介
TVM の紹介
 
マルチコアを用いた画像処理
マルチコアを用いた画像処理マルチコアを用いた画像処理
マルチコアを用いた画像処理
 
2015年度GPGPU実践基礎工学 第13回 GPUのメモリ階層
2015年度GPGPU実践基礎工学 第13回 GPUのメモリ階層2015年度GPGPU実践基礎工学 第13回 GPUのメモリ階層
2015年度GPGPU実践基礎工学 第13回 GPUのメモリ階層
 
Android/iOS端末におけるエッジ推論のチューニング
Android/iOS端末におけるエッジ推論のチューニングAndroid/iOS端末におけるエッジ推論のチューニング
Android/iOS端末におけるエッジ推論のチューニング
 
計算機アーキテクチャを考慮した高能率画像処理プログラミング
計算機アーキテクチャを考慮した高能率画像処理プログラミング計算機アーキテクチャを考慮した高能率画像処理プログラミング
計算機アーキテクチャを考慮した高能率画像処理プログラミング
 
畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化
 
Magnum IO GPUDirect Storage 最新情報
Magnum IO GPUDirect Storage 最新情報Magnum IO GPUDirect Storage 最新情報
Magnum IO GPUDirect Storage 最新情報
 
データ爆発時代のネットワークインフラ
データ爆発時代のネットワークインフラデータ爆発時代のネットワークインフラ
データ爆発時代のネットワークインフラ
 
いまさら聞けないarmを使ったNEONの基礎と活用事例
いまさら聞けないarmを使ったNEONの基礎と活用事例いまさら聞けないarmを使ったNEONの基礎と活用事例
いまさら聞けないarmを使ったNEONの基礎と活用事例
 
PyTorchLightning ベース Hydra+MLFlow+Optuna による機械学習開発環境の構築
PyTorchLightning ベース Hydra+MLFlow+Optuna による機械学習開発環境の構築PyTorchLightning ベース Hydra+MLFlow+Optuna による機械学習開発環境の構築
PyTorchLightning ベース Hydra+MLFlow+Optuna による機械学習開発環境の構築
 
Slurmのジョブスケジューリングと実装
Slurmのジョブスケジューリングと実装Slurmのジョブスケジューリングと実装
Slurmのジョブスケジューリングと実装
 
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer
 
2015年度GPGPU実践プログラミング 第15回 GPU最適化ライブラリ
2015年度GPGPU実践プログラミング 第15回 GPU最適化ライブラリ2015年度GPGPU実践プログラミング 第15回 GPU最適化ライブラリ
2015年度GPGPU実践プログラミング 第15回 GPU最適化ライブラリ
 
[DL輪読会]Temporal Abstraction in NeurIPS2019
[DL輪読会]Temporal Abstraction in NeurIPS2019[DL輪読会]Temporal Abstraction in NeurIPS2019
[DL輪読会]Temporal Abstraction in NeurIPS2019
 
Intro to SVE 富岳のA64FXを触ってみた
Intro to SVE 富岳のA64FXを触ってみたIntro to SVE 富岳のA64FXを触ってみた
Intro to SVE 富岳のA64FXを触ってみた
 
【DL輪読会】DiffRF: Rendering-guided 3D Radiance Field Diffusion [N. Muller+ CVPR2...
【DL輪読会】DiffRF: Rendering-guided 3D Radiance Field Diffusion [N. Muller+ CVPR2...【DL輪読会】DiffRF: Rendering-guided 3D Radiance Field Diffusion [N. Muller+ CVPR2...
【DL輪読会】DiffRF: Rendering-guided 3D Radiance Field Diffusion [N. Muller+ CVPR2...
 

Similar to Hopper アーキテクチャで、変わること、変わらないこと

Lisp Meet Up #19, cl-cuda: a library to use NVIDIA CUDA in Common Lisp
Lisp Meet Up #19, cl-cuda: a library to use NVIDIA CUDA in Common LispLisp Meet Up #19, cl-cuda: a library to use NVIDIA CUDA in Common Lisp
Lisp Meet Up #19, cl-cuda: a library to use NVIDIA CUDA in Common Lisp
masayukitakagi
 
Maxwell と Java CUDAプログラミング
Maxwell と Java CUDAプログラミングMaxwell と Java CUDAプログラミング
Maxwell と Java CUDAプログラミング
NVIDIA Japan
 
NVIDIA Japan Seminar 2012
NVIDIA Japan Seminar 2012NVIDIA Japan Seminar 2012
NVIDIA Japan Seminar 2012Takuro Iizuka
 
GPGPUによるパーソナルスーパーコンピュータの可能性
GPGPUによるパーソナルスーパーコンピュータの可能性GPGPUによるパーソナルスーパーコンピュータの可能性
GPGPUによるパーソナルスーパーコンピュータの可能性Yusaku Watanabe
 
Haswellサーベイと有限体クラスの紹介
Haswellサーベイと有限体クラスの紹介Haswellサーベイと有限体クラスの紹介
Haswellサーベイと有限体クラスの紹介MITSUNARI Shigeo
 
Hello, DirectCompute
Hello, DirectComputeHello, DirectCompute
Hello, DirectCompute
dasyprocta
 
GPUが100倍速いという神話をぶち殺せたらいいな ver.2013
GPUが100倍速いという神話をぶち殺せたらいいな ver.2013GPUが100倍速いという神話をぶち殺せたらいいな ver.2013
GPUが100倍速いという神話をぶち殺せたらいいな ver.2013
Ryo Sakamoto
 
機械学習とこれを支える並列計算: ディープラーニング・スーパーコンピューターの応用について
機械学習とこれを支える並列計算: ディープラーニング・スーパーコンピューターの応用について機械学習とこれを支える並列計算: ディープラーニング・スーパーコンピューターの応用について
機械学習とこれを支える並列計算: ディープラーニング・スーパーコンピューターの応用について
ハイシンク創研 / Laboratory of Hi-Think Corporation
 
An Intelligent Storage?
An Intelligent Storage?An Intelligent Storage?
An Intelligent Storage?
Kohei KaiGai
 
Fpga online seminar by fixstars (1st)
Fpga online seminar by fixstars (1st)Fpga online seminar by fixstars (1st)
Fpga online seminar by fixstars (1st)
Fixstars Corporation
 
HandlerSocket plugin for MySQL
HandlerSocket plugin for MySQLHandlerSocket plugin for MySQL
HandlerSocket plugin for MySQLakirahiguchi
 
PL/CUDA - Fusion of HPC Grade Power with In-Database Analytics
PL/CUDA - Fusion of HPC Grade Power with In-Database AnalyticsPL/CUDA - Fusion of HPC Grade Power with In-Database Analytics
PL/CUDA - Fusion of HPC Grade Power with In-Database Analytics
Kohei KaiGai
 
PostgreSQL13 新機能紹介
PostgreSQL13 新機能紹介PostgreSQL13 新機能紹介
PostgreSQL13 新機能紹介
Satoshi Hirata
 
Code jp2015 cpuの話
Code jp2015 cpuの話Code jp2015 cpuの話
Code jp2015 cpuの話
Shinichiro Niiyama
 
1070: CUDA プログラミング入門
1070: CUDA プログラミング入門1070: CUDA プログラミング入門
1070: CUDA プログラミング入門
NVIDIA Japan
 
Ext4 filesystem(1)
Ext4 filesystem(1)Ext4 filesystem(1)
Ext4 filesystem(1)
Yoshihiro Yunomae
 
C++ マルチスレッドプログラミング
C++ マルチスレッドプログラミングC++ マルチスレッドプログラミング
C++ マルチスレッドプログラミング
Kohsuke Yuasa
 
ASPLOS2017: Building Durable Transactions with Decoupling for Persistent Memory
ASPLOS2017: Building Durable Transactions with Decoupling for Persistent MemoryASPLOS2017: Building Durable Transactions with Decoupling for Persistent Memory
ASPLOS2017: Building Durable Transactions with Decoupling for Persistent Memory
Atsushi Koshiba
 

Similar to Hopper アーキテクチャで、変わること、変わらないこと (20)

Lisp Meet Up #19, cl-cuda: a library to use NVIDIA CUDA in Common Lisp
Lisp Meet Up #19, cl-cuda: a library to use NVIDIA CUDA in Common LispLisp Meet Up #19, cl-cuda: a library to use NVIDIA CUDA in Common Lisp
Lisp Meet Up #19, cl-cuda: a library to use NVIDIA CUDA in Common Lisp
 
Maxwell と Java CUDAプログラミング
Maxwell と Java CUDAプログラミングMaxwell と Java CUDAプログラミング
Maxwell と Java CUDAプログラミング
 
NVIDIA Japan Seminar 2012
NVIDIA Japan Seminar 2012NVIDIA Japan Seminar 2012
NVIDIA Japan Seminar 2012
 
Prosym2012
Prosym2012Prosym2012
Prosym2012
 
GPGPUによるパーソナルスーパーコンピュータの可能性
GPGPUによるパーソナルスーパーコンピュータの可能性GPGPUによるパーソナルスーパーコンピュータの可能性
GPGPUによるパーソナルスーパーコンピュータの可能性
 
Haswellサーベイと有限体クラスの紹介
Haswellサーベイと有限体クラスの紹介Haswellサーベイと有限体クラスの紹介
Haswellサーベイと有限体クラスの紹介
 
Hello, DirectCompute
Hello, DirectComputeHello, DirectCompute
Hello, DirectCompute
 
GPUが100倍速いという神話をぶち殺せたらいいな ver.2013
GPUが100倍速いという神話をぶち殺せたらいいな ver.2013GPUが100倍速いという神話をぶち殺せたらいいな ver.2013
GPUが100倍速いという神話をぶち殺せたらいいな ver.2013
 
機械学習とこれを支える並列計算: ディープラーニング・スーパーコンピューターの応用について
機械学習とこれを支える並列計算: ディープラーニング・スーパーコンピューターの応用について機械学習とこれを支える並列計算: ディープラーニング・スーパーコンピューターの応用について
機械学習とこれを支える並列計算: ディープラーニング・スーパーコンピューターの応用について
 
An Intelligent Storage?
An Intelligent Storage?An Intelligent Storage?
An Intelligent Storage?
 
Cpu cache arch
Cpu cache archCpu cache arch
Cpu cache arch
 
Fpga online seminar by fixstars (1st)
Fpga online seminar by fixstars (1st)Fpga online seminar by fixstars (1st)
Fpga online seminar by fixstars (1st)
 
HandlerSocket plugin for MySQL
HandlerSocket plugin for MySQLHandlerSocket plugin for MySQL
HandlerSocket plugin for MySQL
 
PL/CUDA - Fusion of HPC Grade Power with In-Database Analytics
PL/CUDA - Fusion of HPC Grade Power with In-Database AnalyticsPL/CUDA - Fusion of HPC Grade Power with In-Database Analytics
PL/CUDA - Fusion of HPC Grade Power with In-Database Analytics
 
PostgreSQL13 新機能紹介
PostgreSQL13 新機能紹介PostgreSQL13 新機能紹介
PostgreSQL13 新機能紹介
 
Code jp2015 cpuの話
Code jp2015 cpuの話Code jp2015 cpuの話
Code jp2015 cpuの話
 
1070: CUDA プログラミング入門
1070: CUDA プログラミング入門1070: CUDA プログラミング入門
1070: CUDA プログラミング入門
 
Ext4 filesystem(1)
Ext4 filesystem(1)Ext4 filesystem(1)
Ext4 filesystem(1)
 
C++ マルチスレッドプログラミング
C++ マルチスレッドプログラミングC++ マルチスレッドプログラミング
C++ マルチスレッドプログラミング
 
ASPLOS2017: Building Durable Transactions with Decoupling for Persistent Memory
ASPLOS2017: Building Durable Transactions with Decoupling for Persistent MemoryASPLOS2017: Building Durable Transactions with Decoupling for Persistent Memory
ASPLOS2017: Building Durable Transactions with Decoupling for Persistent Memory
 

More from NVIDIA Japan

HPC 的に H100 は魅力的な GPU なのか?
HPC 的に H100 は魅力的な GPU なのか?HPC 的に H100 は魅力的な GPU なのか?
HPC 的に H100 は魅力的な GPU なのか?
NVIDIA Japan
 
NVIDIA cuQuantum SDK による量子回路シミュレーターの高速化
NVIDIA cuQuantum SDK による量子回路シミュレーターの高速化NVIDIA cuQuantum SDK による量子回路シミュレーターの高速化
NVIDIA cuQuantum SDK による量子回路シミュレーターの高速化
NVIDIA Japan
 
Physics-ML のためのフレームワーク NVIDIA Modulus 最新事情
Physics-ML のためのフレームワーク NVIDIA Modulus 最新事情Physics-ML のためのフレームワーク NVIDIA Modulus 最新事情
Physics-ML のためのフレームワーク NVIDIA Modulus 最新事情
NVIDIA Japan
 
20221021_JP5.0.2-Webinar-JP_Final.pdf
20221021_JP5.0.2-Webinar-JP_Final.pdf20221021_JP5.0.2-Webinar-JP_Final.pdf
20221021_JP5.0.2-Webinar-JP_Final.pdf
NVIDIA Japan
 
NVIDIA Modulus: Physics ML 開発のためのフレームワーク
NVIDIA Modulus: Physics ML 開発のためのフレームワークNVIDIA Modulus: Physics ML 開発のためのフレームワーク
NVIDIA Modulus: Physics ML 開発のためのフレームワーク
NVIDIA Japan
 
NVIDIA HPC ソフトウエア斜め読み
NVIDIA HPC ソフトウエア斜め読みNVIDIA HPC ソフトウエア斜め読み
NVIDIA HPC ソフトウエア斜め読み
NVIDIA Japan
 
GPU と PYTHON と、それから最近の NVIDIA
GPU と PYTHON と、それから最近の NVIDIAGPU と PYTHON と、それから最近の NVIDIA
GPU と PYTHON と、それから最近の NVIDIA
NVIDIA Japan
 
GTC November 2021 – テレコム関連アップデート サマリー
GTC November 2021 – テレコム関連アップデート サマリーGTC November 2021 – テレコム関連アップデート サマリー
GTC November 2021 – テレコム関連アップデート サマリー
NVIDIA Japan
 
テレコムのビッグデータ解析 & AI サイバーセキュリティ
テレコムのビッグデータ解析 & AI サイバーセキュリティテレコムのビッグデータ解析 & AI サイバーセキュリティ
テレコムのビッグデータ解析 & AI サイバーセキュリティ
NVIDIA Japan
 
必見!絶対におすすめの通信業界セッション 5 つ ~秋の GTC 2020~
必見!絶対におすすめの通信業界セッション 5 つ ~秋の GTC 2020~必見!絶対におすすめの通信業界セッション 5 つ ~秋の GTC 2020~
必見!絶対におすすめの通信業界セッション 5 つ ~秋の GTC 2020~
NVIDIA Japan
 
2020年10月29日 プロフェッショナルAI×Roboticsエンジニアへのロードマップ
2020年10月29日 プロフェッショナルAI×Roboticsエンジニアへのロードマップ2020年10月29日 プロフェッショナルAI×Roboticsエンジニアへのロードマップ
2020年10月29日 プロフェッショナルAI×Roboticsエンジニアへのロードマップ
NVIDIA Japan
 
2020年10月29日 Jetson活用によるAI教育
2020年10月29日 Jetson活用によるAI教育2020年10月29日 Jetson活用によるAI教育
2020年10月29日 Jetson活用によるAI教育
NVIDIA Japan
 
2020年10月29日 Jetson Nano 2GBで始めるAI x Robotics教育
2020年10月29日 Jetson Nano 2GBで始めるAI x Robotics教育2020年10月29日 Jetson Nano 2GBで始めるAI x Robotics教育
2020年10月29日 Jetson Nano 2GBで始めるAI x Robotics教育
NVIDIA Japan
 
COVID-19 研究・対策に活用可能な NVIDIA ソフトウェアと関連情報
COVID-19 研究・対策に活用可能な NVIDIA ソフトウェアと関連情報COVID-19 研究・対策に活用可能な NVIDIA ソフトウェアと関連情報
COVID-19 研究・対策に活用可能な NVIDIA ソフトウェアと関連情報
NVIDIA Japan
 
Jetson Xavier NX クラウドネイティブをエッジに
Jetson Xavier NX クラウドネイティブをエッジにJetson Xavier NX クラウドネイティブをエッジに
Jetson Xavier NX クラウドネイティブをエッジに
NVIDIA Japan
 
GTC 2020 発表内容まとめ
GTC 2020 発表内容まとめGTC 2020 発表内容まとめ
GTC 2020 発表内容まとめ
NVIDIA Japan
 
NVIDIA Jetson導入事例ご紹介
NVIDIA Jetson導入事例ご紹介NVIDIA Jetson導入事例ご紹介
NVIDIA Jetson導入事例ご紹介
NVIDIA Japan
 
JETSON 最新情報 & 自動外観検査事例紹介
JETSON 最新情報 & 自動外観検査事例紹介JETSON 最新情報 & 自動外観検査事例紹介
JETSON 最新情報 & 自動外観検査事例紹介
NVIDIA Japan
 
HELLO AI WORLD - MEET JETSON NANO
HELLO AI WORLD - MEET JETSON NANOHELLO AI WORLD - MEET JETSON NANO
HELLO AI WORLD - MEET JETSON NANO
NVIDIA Japan
 
Final 20200326 jetson edge comuputing digital seminar 1 final (1)
Final 20200326 jetson edge comuputing digital seminar 1 final (1)Final 20200326 jetson edge comuputing digital seminar 1 final (1)
Final 20200326 jetson edge comuputing digital seminar 1 final (1)
NVIDIA Japan
 

More from NVIDIA Japan (20)

HPC 的に H100 は魅力的な GPU なのか?
HPC 的に H100 は魅力的な GPU なのか?HPC 的に H100 は魅力的な GPU なのか?
HPC 的に H100 は魅力的な GPU なのか?
 
NVIDIA cuQuantum SDK による量子回路シミュレーターの高速化
NVIDIA cuQuantum SDK による量子回路シミュレーターの高速化NVIDIA cuQuantum SDK による量子回路シミュレーターの高速化
NVIDIA cuQuantum SDK による量子回路シミュレーターの高速化
 
Physics-ML のためのフレームワーク NVIDIA Modulus 最新事情
Physics-ML のためのフレームワーク NVIDIA Modulus 最新事情Physics-ML のためのフレームワーク NVIDIA Modulus 最新事情
Physics-ML のためのフレームワーク NVIDIA Modulus 最新事情
 
20221021_JP5.0.2-Webinar-JP_Final.pdf
20221021_JP5.0.2-Webinar-JP_Final.pdf20221021_JP5.0.2-Webinar-JP_Final.pdf
20221021_JP5.0.2-Webinar-JP_Final.pdf
 
NVIDIA Modulus: Physics ML 開発のためのフレームワーク
NVIDIA Modulus: Physics ML 開発のためのフレームワークNVIDIA Modulus: Physics ML 開発のためのフレームワーク
NVIDIA Modulus: Physics ML 開発のためのフレームワーク
 
NVIDIA HPC ソフトウエア斜め読み
NVIDIA HPC ソフトウエア斜め読みNVIDIA HPC ソフトウエア斜め読み
NVIDIA HPC ソフトウエア斜め読み
 
GPU と PYTHON と、それから最近の NVIDIA
GPU と PYTHON と、それから最近の NVIDIAGPU と PYTHON と、それから最近の NVIDIA
GPU と PYTHON と、それから最近の NVIDIA
 
GTC November 2021 – テレコム関連アップデート サマリー
GTC November 2021 – テレコム関連アップデート サマリーGTC November 2021 – テレコム関連アップデート サマリー
GTC November 2021 – テレコム関連アップデート サマリー
 
テレコムのビッグデータ解析 & AI サイバーセキュリティ
テレコムのビッグデータ解析 & AI サイバーセキュリティテレコムのビッグデータ解析 & AI サイバーセキュリティ
テレコムのビッグデータ解析 & AI サイバーセキュリティ
 
必見!絶対におすすめの通信業界セッション 5 つ ~秋の GTC 2020~
必見!絶対におすすめの通信業界セッション 5 つ ~秋の GTC 2020~必見!絶対におすすめの通信業界セッション 5 つ ~秋の GTC 2020~
必見!絶対におすすめの通信業界セッション 5 つ ~秋の GTC 2020~
 
2020年10月29日 プロフェッショナルAI×Roboticsエンジニアへのロードマップ
2020年10月29日 プロフェッショナルAI×Roboticsエンジニアへのロードマップ2020年10月29日 プロフェッショナルAI×Roboticsエンジニアへのロードマップ
2020年10月29日 プロフェッショナルAI×Roboticsエンジニアへのロードマップ
 
2020年10月29日 Jetson活用によるAI教育
2020年10月29日 Jetson活用によるAI教育2020年10月29日 Jetson活用によるAI教育
2020年10月29日 Jetson活用によるAI教育
 
2020年10月29日 Jetson Nano 2GBで始めるAI x Robotics教育
2020年10月29日 Jetson Nano 2GBで始めるAI x Robotics教育2020年10月29日 Jetson Nano 2GBで始めるAI x Robotics教育
2020年10月29日 Jetson Nano 2GBで始めるAI x Robotics教育
 
COVID-19 研究・対策に活用可能な NVIDIA ソフトウェアと関連情報
COVID-19 研究・対策に活用可能な NVIDIA ソフトウェアと関連情報COVID-19 研究・対策に活用可能な NVIDIA ソフトウェアと関連情報
COVID-19 研究・対策に活用可能な NVIDIA ソフトウェアと関連情報
 
Jetson Xavier NX クラウドネイティブをエッジに
Jetson Xavier NX クラウドネイティブをエッジにJetson Xavier NX クラウドネイティブをエッジに
Jetson Xavier NX クラウドネイティブをエッジに
 
GTC 2020 発表内容まとめ
GTC 2020 発表内容まとめGTC 2020 発表内容まとめ
GTC 2020 発表内容まとめ
 
NVIDIA Jetson導入事例ご紹介
NVIDIA Jetson導入事例ご紹介NVIDIA Jetson導入事例ご紹介
NVIDIA Jetson導入事例ご紹介
 
JETSON 最新情報 & 自動外観検査事例紹介
JETSON 最新情報 & 自動外観検査事例紹介JETSON 最新情報 & 自動外観検査事例紹介
JETSON 最新情報 & 自動外観検査事例紹介
 
HELLO AI WORLD - MEET JETSON NANO
HELLO AI WORLD - MEET JETSON NANOHELLO AI WORLD - MEET JETSON NANO
HELLO AI WORLD - MEET JETSON NANO
 
Final 20200326 jetson edge comuputing digital seminar 1 final (1)
Final 20200326 jetson edge comuputing digital seminar 1 final (1)Final 20200326 jetson edge comuputing digital seminar 1 final (1)
Final 20200326 jetson edge comuputing digital seminar 1 final (1)
 

Recently uploaded

【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
harmonylab
 
YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)
YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)
YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)
NTT DATA Technology & Innovation
 
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
Matsushita Laboratory
 
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdfFIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance
 
2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx
2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx
2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx
yassun7010
 
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
atsushi061452
 
CS集会#13_なるほどわからん通信技術 発表資料
CS集会#13_なるほどわからん通信技術 発表資料CS集会#13_なるほどわからん通信技術 発表資料
CS集会#13_なるほどわからん通信技術 発表資料
Yuuitirou528 default
 
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
Fukuoka Institute of Technology
 
FIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance Osaka Seminar: CloudGate.pdfFIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance
 
MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。
MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。
MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。
iPride Co., Ltd.
 
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdfFIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance
 
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdfFIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance
 
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアルLoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
CRI Japan, Inc.
 
FIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance Osaka Seminar: Welcome Slides.pdfFIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance
 
【AI論文解説】Consistency ModelとRectified Flow
【AI論文解説】Consistency ModelとRectified Flow【AI論文解説】Consistency ModelとRectified Flow
【AI論文解説】Consistency ModelとRectified Flow
Sony - Neural Network Libraries
 
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
Toru Tamaki
 

Recently uploaded (16)

【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
 
YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)
YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)
YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)
 
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
 
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdfFIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
 
2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx
2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx
2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx
 
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
 
CS集会#13_なるほどわからん通信技術 発表資料
CS集会#13_なるほどわからん通信技術 発表資料CS集会#13_なるほどわからん通信技術 発表資料
CS集会#13_なるほどわからん通信技術 発表資料
 
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
 
FIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance Osaka Seminar: CloudGate.pdfFIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance Osaka Seminar: CloudGate.pdf
 
MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。
MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。
MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。
 
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdfFIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
 
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdfFIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
 
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアルLoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
 
FIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance Osaka Seminar: Welcome Slides.pdfFIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance Osaka Seminar: Welcome Slides.pdf
 
【AI論文解説】Consistency ModelとRectified Flow
【AI論文解説】Consistency ModelとRectified Flow【AI論文解説】Consistency ModelとRectified Flow
【AI論文解説】Consistency ModelとRectified Flow
 
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
 

Hopper アーキテクチャで、変わること、変わらないこと