SlideShare a Scribd company logo
Akira Naruse, Developer Technology, NVIDIA
アプリケーション開発を加速する
GPUライブラリ
GPUCPU
GPUコンピューティング
Low latency + High throughput
アプリケーション実行
アプリケーション・コード
GPU
CPU
並列部分を
GPUで実行
計算の
重い部分
逐次部分は
CPU上で実行
Do i=1,N
End do
アプリケーションをGPUで加速する方法
Application
Library
GPU対応ライブラリにチェンジ
簡単に開始
CUDAOpenACC
主要処理をCUDAで記述
高い自由度
既存コードにディレクティブを挿入
簡単に加速
ソフトウェア階層
GPU
(Tesla, Quadro, GeForce, Tegra)
CUDA Runtime/Driver
Application
Third-party
Libraries
NVIDIA
Libraries
OpenACC
Runtime
GPU対応のライブラリ (一部)
NVIDIA cuBLAS NVIDIA cuRAND
NVIDIA cuSPARSE
Vector Signal
Image Processing
GPU Accelerated
Linear Algebra
NVIDIA cuFFT
C++ STL Features
for CUDA
Sparse Linear
AlgebraIMSL Library
Matrix Algebra on
GPU and Multicore
NVIDIA cuDNN
NVIDIA AmgX
NVIDIAライブラリ
cuFFT フーリエ変換
cuBLAS 行列演算(密行列)
cuSPARSE 行列演算(疎行列)
cuSOLVER 行列ソルバ (y=Ax)
cuDNN ディープラーニング
cuRAND 乱数生成
Thrust C++テンプレート(STLベース)
NPP 画像処理プリミティブ
ライブラリのインタフェース
デバイスAPI
GPUカーネルから呼び出すAPI
ホストAPI
ホスト(CPU)から呼び出すAPI (今回は主にこちらを説明)
XTインターフェース
マルチGPU: 自動対応、複数GPUへの明示的な処理振り分けは不要
明示的なデータ転送は不要: 必要なデバイスメモリはライブラリが確保
Out-of-core: GPUメモリに収まらない問題に対応
オーバーラップ: カーネル実行とデータ転送を同時実行
NVIDIAライブラリ(ホストAPI)の典型的な使い方
1. ハンドルの作成
2. デバイスメモリの確保
3. 入力データの転送 (ホスト  デバイス)
4. 入力データ形式の変換
5. 実行
6. 出力データ形式の変換
7. 出力データの転送 (デバイス  ホスト)
8. デバイスメモリの解放
9. ハンドルの削除
ハンドルの作成
ハンドル: ライブラリの各種設定・情報を格納するオブジェクト
ライブラリ操作・実行は全てハンドル経由で実施 (第1引数がハンドル)
cublasHandle_t handle;
cublasCreate( & handle );
cuBLAS
cusparseHandle_t handle;
cusparseCreate( & handle );
cuSPARSE
cufftHandle plan;
cufftHandle1d( & pla
cuFFT
curandGenerator_t gen;
curandCreateGenerator( & gen, … );
cuRAND
cudnnHandle handle;
cudnnCreate( & handle, … );
cuDNN
デバイスメモリの確保
cudaMalloc()
ライブラリ計算の入出力に使われる領域は、通常のCUDA APIで確保
ライブラリ内部のワーキングメモリは自動で確保される
cudaMallocManaged()
Unified Memoryも使用可能 (プロトタイプ開発に最適)
明示的なデータ転送は不要
XTインタフェース: 専用メモリ確保ルーチン
(例) cuFFT: cufftXtMalloc()
データ転送
cudaMemcpy()
入力データ、出力データの転送は、通常CUDA APIで実施
ライブラリに専用データ転送ルーチンがある場合は、それを使用
cuBLAS(ベクトル): cublasSetVector(), cublasGetVector()
cuBLAS(行列): cublasSetMatrix(), cublasGetMatrix()
データ形式の変換
ホストライブラリとGPUライブラリで、対応データ形式が異なる場
合に必要
行列(2次元配列): 行優先  列優先
疎行列: 独自?  CSR, BSR
cuSPARSE: 疎行列データ形式の変換ルーチン
FFT(周波数空間): 独自?  cuFFT形式
データ形式変換は用途に応じてホスト上 or GPU上で
実行
計算をGPUにオフロード
cuBLAS: cublasSgemm( handle, … )
cuSPARSE: cusparseScsrmv( handle, … )
cuSOLVER: cusolverDnSgetrf( handle, … )
cuFFT: cufftExecR2C( plan, … )
cuDNN: cudnnConvolutaionForward( handle, … )
cuRAND: curandGenerateUniform( gen, … )
cuBLAS適用例
for ( int j = 0; j < N; j++ ) {
for ( int i = 0; i < M; i++ ) {
for ( int k = 0; k < K; k++ ) {
C[ j*ldc + i ] = A[ k*lda + i ] * B[ j*ldb + k ];
}
}
}
行列乗算
C = A x B
CA
B
M
N
K
K
cuBLAS適用例
行列乗算(BLAS)
C = A x B
CA
B
M
N
K
K
sgemm( ‘n’, ‘n’, M, N, K, 1.0, A, lda, B, ldb, 0.0, C, ldc );
cuBLAS適用例
cublasCreate( &handle );
cudaMalloc( &d_A, sizeof(float) * M * K );
cudaMalloc( &d_B, sizeof(float) * K * N );
cudaMalloc( &d_C, sizeof(float) * M * N );
cublasSetMatrix( M, K, sizeof(float), A, lda, d_A, lda );
cublasSetMatrix( K, N, sizeof(float), B, ldb, d_B, ldb );
cublasSgemm( handle, ‘n’, M, N, K, 1.0, A, lda, B, ldb, 0.0, C, ldc );
cublasSetMatrix( M, N, sizeof(float), d_C, ldc, C, ldc );
ハンドルの作成
デバイスメモリの確保
入力データの転送
出力データの転送
実行
cuBLAS適用例
前処理 + 行列乗算 + 後処理
for ( k = 0; k < K; k++ )
for ( i = 0; i < M; i++ )
A[ k*lda + i ] = … ;
sgemm( ‘n’, ‘n’, M, N, K, 1.0, A, lda, B, ldb, 0.0, C, ldc );
for ( j = 0; j < N; j++ )
for ( i = 0; i < M; i++ )
C[ j*ldc + i ] = … ;
CUDAとの併用
…
cublasSetMatrix( M, K, sizeof(float), A, lda, d_A, lda );
cublasSetMatrix( K, N, sizeof(float), B, ldb, d_B, ldb );
kernel_update_A<<< … >>>( d_A, lda, … );
cublasSgemm( handle, ‘n’, M, N, K, 1.0, A, lda, B, ldb, 0.0, C, ldc );
kernel_update_C<<< … >>>( d_C, ldc, … );
cublasSetMatrix( M, N, sizeof(float), d_C, ldc, C, ldc );
ライブラリ
CUDAカーネル
CUDAカーネル
OpenACCとの併用
#pragma acc data copyin(A, B) copyout(C)
{
#pragma acc parallel
for ( k = 0; k < K; k++ )
for ( i = 0; i < M; i++ )
A[ k*lda + i ] = … ;
#pragma acc host_data use_device(A, B, C)
{ cublasSgemm( handle, ‘n’, M, N, K, 1.0, A, lda, B, ldb, 0.0, C, ldc ); }
#pragma acc parallel
for ( j = 0; j < N; j++ )
for ( i = 0; i < M; i++ )
C[ j*ldc + i ] = … ;
}
ライブラリ
OpenACC
OpenACC
非同期実行、オーバーラップ
CUDAストリーム
cublasCreate( & handle );
cudaStreamCreate( & stream_0, … );
cudaStreamCreate( & stream_1, … );
cublasSetStream( handle, stream_0 );
cublasSgemm( handle, … );
cublasSetStream( handle, stream_1 );
cublasSgemm( handle, … );
ストリーム0
ストリーム1
1スレッド/2GPU: OK
2スレッド/2GPU: OK
マルチスレッド、マルチGPU
cudaSetDevice( 0 );
cusparseCreate( & handle );
cusparseScsrmv…( handle, … );
cudaSetDevice( 1 );
cusparseCreate( & handle );
cusparseScsrmv…( handle, … )
スレッド0 スレッド1
cudaSetDevice( 0 );
cusparseCreate( & handle_0 );
cudaSetDevice( 1 );
cusparseCreate( & handle_1 );
cusparseScsrmv…( handle_0, … );
cusparseScsrmv…( handle_1, … );
2スレッド/1GPU: OK
ライブラリハンドルを複数スレッドで
共有可能 (スレッドセーフ)
cuFFT: FFTライブラリ
複素数と実数(C2C, R2C, C2R)
単精度(32-bit)、倍精度(64-bit)
1D,2D,3D変換
バッチ変換 (複数のfftを同時実行)
データ形式はfftw互換
fftwからの移行ツール
NVIDIA cuFFT
cuFFT: FFTライブラリ
XTインタフェース対応: cufftXT API
最大4GPUs
Callbackルーチン
前処理と後処理をCallbackとして設定
NVIDIA cuFFT
Read
input
Convert
to 32-bit
Write
32-bit
Read
Perform
FFT
Write
Read
FFT
output
Convert
to 8-bit
Write 8-
bit data
Read
input
Convert
to 32-bit
Perform
FFT
Convert
to 8-bit
Write 8-
bit data
Callback無: 3カーネル
Callback有: 1カーネル
cuFFT: 最大700 GFLOPS
0
100
200
300
400
500
600
700
800
1 1,000 1,000,000
GFLOPS
Transform Size
単精度(32bit)
Powers of 2
Powers of 3
Powers of 5
Powers of 7
0
50
100
150
200
250
300
350
1 1,000 1,000,000
GFLOPS
Transform Size
倍精度(64bit)
Performance may vary based on OS and software
versions, and motherboard configuration
• cuFFT 7.0 on K40m, Base clocks, ECC ON
• Batched transforms on 28M-33M total elements, input and output data on device
• Excludes time to create cuFFT “plans”
1D複素数バッチ FFTs
(信号処理, 2D/3D FFTのコンポーネント)
cuFFT: 性能改善 (CUDA 6.5  7.0)
1x
2x
3x
4x
5x
0 20 40 60 80 100 120 140
Speedup
Transform Size
1D 単精度 Complex-to-Complex バッチFFTs
Size = 23 Size = 66Size = 31
Size = 110
Size = 121
Performance may vary based on OS and software
versions, and motherboard configuration
• cuFFT 6.5 and 7.0 on K20m, ECC ON
• Batched transforms on 32M total elements, input and output data on device
• Excludes time to create cuFFT “plans”
cuBLAS: 密行列演算ライブラリ
全てのBLAS関数 + BLASライク関数
全152 BLAS関数をサポート
単精度と倍精度、実数と複素数: S,D,C,Z
ホストAPIとデバイスAPI
バッチ関数 (多数の小さな問題)
gemmBatched(), trsmBatched(), matinvBatched()
XTインタフェース: cublasXt API (Level-3 BLAS)
マルチGPUs
Out-of-core (デバイスメモリ容量を超えるサイズの行列)
“Drop-in” (CPU BLASをそのまま置き換え)
NVIDIA cuBLAS
cuBLAS: 密行列演算ライブラリ
ディープラーニング向け機能強化
cublasSgemmEx()
演算は32-bit(FP32)、入出力は8-bit(int8)/16bit(FP16)
より大きな行列をGPUメモリに常駐可能
cublasHgemm()
FP16用の行列積 (演算と入出力、全てFP16)
Pascalから利用可能 (現在はTegra X1のみ利用可能)
NVIDIA cuBLAS
cuBLAS: 単精度:>3 TF, 倍精度:>1 TF
0
500
1,000
1,500
2,000
2,500
3,000
3,500
SGEMM
SSYMM
STRSM
SSYRK
CGEMM
CSYMM
CTRSM
CSYRK
DGEMM
DSYMM
DTRSM
DSYRK
ZGEMM
ZSYMM
ZTRSM
ZSYRK
Single Single Complex Double Double Complex
GFLOPS
• cuBLAS 7.0 on K40m, Base clocks, ECC ON, input and output data on device
• m=n=k=4096, transpose=no, side=right, fill=lower
Performance may vary based on OS and software
versions, and motherboard configuration
cuBLAS-XT: >12 TF (3 GPUs on 1ノード)
0
2,000
4,000
6,000
8,000
10,000
12,000
14,000
SGEMM
SSYRK
STRSM
CGEMM
CSYRK
DGEMM
DSYRK
DTRSM
ZGEMM
ZSYRK
ZTRSM
Single Single
Complex
Double Double
Complex
GFLOPS
1xK80
3xK80
• cuBLAS 7.0 on K80, Base clocks, ECC ON
• input and output data on host, m=n=k=32768, transpose=no
Performance may vary based on OS and software
versions, and motherboard configuration
cuSPARSE: 疎行列演算ライブラリ
疎行列用BLAS
Level-2: 疎行列 x ベクトル
Level-3: 疎行列 x 密行列
様々な行列格納フォーマット
COO, CSR, CSC, ELL, HYB, BSR, BSRX, Dense
フォーマット変換関数: (例) coo2csr(), csr2dense()
1.0
2.0
3.0
4.0
y1
y2
y3
y4
𝛼 + 𝛽
1.0
6.0
4.0
7.0
3.02.0
5.0
y1
y2
y3
y4
NVIDIA cuSPARSE
cuSPARSE: 疎行列演算ライブラリ
自然言語処理向け機能拡張
密行列 x 疎ベクトル
cusparse<T>gemvi()
y = α ∗ op(A) ∗ x + β ∗ y
-
2
-
-
1
y1
y2
y3
α + β
y1
y2
y3
A11
A21
A31
A12
A22
A32
A13
A23
A33
A14
A24
A34
A15
A25
A35
密行列密ベクトル 疎ベクトル
(例) テキスト内の単語の出現頻度
NVIDIA cuSPARSE
cuSPARSE: 性能比較
0x
1x
2x
3x
4x
5x
SpeedupoverMKL
疎行列 x 密ベクトル (SpMV)
• Average of S/C/D/Z routines
• cuSPARSE 7.0 on K40m, Base clocks, ECC ON, input and output data on device
• MKL 11.0.4 on Intel Xeon Haswell single-socket 16-core E5-2698 v3 @ 2.3GHz, 3.6GHz Turbo
• Matrices obtained from: http://www.cise.ufl.edu/research/sparse/matrices/
Performance may vary based on OS and software
versions, and motherboard configuration
前処理付きCG法とグラフ・カラーリング
Input
matrix
Analysis and
ILU(0)
(cuSPARSE)
Solve
(cuSPARSE)
Input
matrix
Reorder
matrix
(Thrust)
Analysis and
ILU(0)
(cuSPARSE)
Solve
(cuSPARSE)
Graph
coloring
(cuSPARSE)
カラーリングとリオーダーリングにより
並列性を抽出
並列性向上により性能UP
入力行列の特性が悪いと
(並列性抽出が難しいと)性能が上がらない
cuSPARSE: 不完全LU分解の高速化
20x 28x 9x
0x
1x
2x
3x
4x
5x
6x
Speedup
• cuSPARSE 7.0 on K40c
• Matrices obtained from: http://www.cise.ufl.edu/research/sparse/matrices/
Performance may vary based on OS and software
versions, and motherboard configuration
グラフカラーリングによる不完全LU分解(ILU0)の高速化
Full results at: research.nvidia.com/publication/parallel-graph-coloring-applications-incomplete-lu-factorization-gpu
cuSOLVER: 行列ソルバー
密な線形方程式系、疎な線形方程式系、固有値問題を
解くためのサブルーチン
3つのAPI:
Dense: cuSolverDN
Sparse: cuSolverSP
Refactorization: cuSolverRN
cuSOLVER: Dense
LAPACK(密行列直接ソルバーライブラリ)のサブセット
コレスキー分解: potrf(), potrs()
LU分解: getrf(), getrs()
QR分解: geqrf(), ormqr()
Bunch-Kaufman分解: sytrf()
特異値分解: gebrd(), gesvd()
適用分野
コンピュータ・ビジョン、最適化、CFD
cuSOLVER: Sparse
スパース直接法ソルバー
Solve 𝐴𝑥 = 𝑏: csrlsvlu(), csrlsvqr(), csrlsvchol()
Solve min |𝐴𝑥 − 𝑏|: csrsqvqr()
Solve 𝐴𝑥 = 𝜆𝑥: csreigvsi()
適用分野
Well models in Oil & Gas
非線形ニュートン法
cuSOLVER: Refactorization
LU分解ベースのスパース直接法
疎特性が同じ行列を繰り返し解く場合に有用
適用分野:
化学反応流計算
燃焼シミュレーション
SPICE
cuSOLVER: Dense性能 (vs. MKL)
0
200
400
600
800
1,000
1,200
1,400
1,600
1,800
SPOTRF
DPOTRF
CPOTRF
ZPOTRF
SGETRF
DGETRF
CGETRF
ZGETRF
SGEQRF
DGEQRF
CGEQRF
ZGEQRF
Cholesky
Factorization
LU
Factorization
QR
Factorization
GFLOPS
cuSOLVER
MKL
Performance may vary based on OS and software
versions, and motherboard configuration
• cuSOLVER 7.0 on K40c, ECC ON, M=N=4096
• MKL 11.0.4 on Intel Xeon Haswell 14-core E5-2697 v3 @ 3.6GHz
cuSOLVER: Sparse性能
2.0x
11.3x
1.9x
1.4x 1.2x
0x
2x
4x
6x
8x
10x
12x
1138_bus Chem97ZtZ Muu ex9 nasa1824
SpeedupoverCPU
Analysis, Factorization and Solve
• cuSOLVER 7.0 on K40c, ECC ON
• SuiteSparse v4.4 on Intel Xeon Haswell 14-core E5-2697 v3 @ 3.6GHz
• Matrices obtained from: http://www.cise.ufl.edu/research/sparse/matrices/
Performance may vary based on OS and software
versions, and motherboard configuration
cuDNN
ディープラーニング用ライブラリ
DLのトレーニングに最適
畳み込み計算を高速化 (2D,3D)
プーリング、ソフトマックス、活性化にも対応
主要DLプラットフォームが採用
Caffe, Torch, Theano
NVIDIA cuDNN
cuBLAS
LeNet5 [LeCun et al.,1998]
コンボリューション層 フルコネクション層
cuDNN: APIs
Convolutions
cudnnConvolutionForward()
cudnnConvolutionBackward[Bias|Filter|Data]()
Activation
cudnnActivationForward()
cudnnActivationBackward()
Pooling
cudnnPoolingForward()
cudnnPoolingBackward()
Softmax
cudnnSoftmaxForward()
cudnnSoftmaxBackward()
…
NVIDIA cuDNN
cuDNN: 性能
1.0x 1.0x
1.6x
1.2x
Caffe
(GoogLeNet)
Torch
(OverFeat)
Baseline (GPU) With cuDNN
2.5M
18M
23M
43M
0
10
20
30
40
50
16 Core CPU GTX Titan Titan Black
cuDNN v1
Titan X
cuDNN v2
MillionsofImages
Images Trained Per Day (Caffe AlexNet)
E5-2698 v3 @ 2.3GHz
AlexNet [A. Krizhevsky et al.,2012]
cuDNN: v3
より大きなモデル
FP16ストレージ
学習の高速化
Maxwell向け最適化
2D畳み込み演算の高速化
FFTコンボリューション対応
アルゴリズム選択: GEMM, DIRECT, FFT
https://developer.nvidia.com/cuDNN
0.0x
0.5x
1.0x
1.5x
2.0x
2.5x
Alexnet OverFeat VGG
cuDNN v2  cuDNN v3
学習性能: 最大2倍
cuDNN 3 performance vs. previous version on Ubuntu 14.04 LTS with
NVIDIA® GeForce® TITAN X and Intel® Core™ i7-4930K @ 3.40GHz
cuRAND: 乱数生成ライブラリ
ホストAPI: 多数の乱数をデバイスメモリ上に生成
デバイスAPI: スレッド毎に乱数を生成
分布タイプ: uniform, normal, log-normal, poisson
乱数タイプ:
NVIDIA cuRAND
擬似乱数(Pseudo-random)
XORWOW
MRG32K3A
MTGP32
PHILOX4_32_10
MT19937
準乱数(Quasi-random)
SOBOL32
SCRAMBLED_SOBOL32
SOBOL64
SCRAMBLED_SOBOL64
Mersenne Twister 19937
cuRAND: 高性能
0
2
4
6
8
10
12
14
16
18
XORWOW Philox MRG32k3a MTGP32 Sobol32
Scrambled
Sobol64
Scrambled
Pseudo-random Quasi-random
Gsamples/sec
Uniform Distribution Normal Distribution Log-Normal Distribution
• cuRAND 7.0 on K40m, Base clocks, ECC ON, double-precision input and output data on device
Performance may vary based on OS and software
versions, and motherboard configuration
cuRAND: 50倍以上高速 (vs. MKL)
0
2
4
6
8
10
12
14
16
Sobol32 MRG32k3a Sobol32 MRG32k3a Sobol32 MRG32k3a
Uniform Distribution Normal Distribution Log-Normal Distribution
GSamples/sec
cuRAND
MKL
• cuRAND 7.0 on K40m, Base clocks, ECC ON, double-precision input and output data on device
• MKL 11.0.1 on Intel Xeon Haswell single-socket 16-core E5-2698 v3 @ 2.3GHz, 3.6GHz Turbo
Performance may vary based on OS and software
versions, and motherboard configuration
Thrust: CUDA C++ 並列テンプレートライブラリ
C++ STLライクなテンプレートライブラリ
迅速なアプリ開発、プロトタイプ開発
GPU最適化な並列アルゴリズム
sort, reduce, scan, 他
ポータブル: CPUでも利用可能
OpenMP, TBB
GitHub: thrust.github.com
C++ STL Features
for CUDA
Thrust: 性能改善 (CUDA 6.5  7)
 sort: 1.1–1.8倍
(ユーザ定義型は3倍)
 merge: 2倍
 scan: 1.15倍
 reduce_by_key: 1.25倍
thrust::count_if(thrust::cuda::par.on(stream1), text, text+n, myFunc());
New in
CUDA 7.0
1.7x 1.8x
1.2x
1.1x
1.3x
1.1x
0.0x
0.5x
1.0x
1.5x
2.0x
char short int long float double
Speedup
Sort (32M samples)
• CUDA 7.0 and 6.5 on K40m, ECC ON, input and output data on device
• Performance may vary based on OS and software versions, and motherboard
configuration
CUDAストリーム対応
Thank you

More Related Content

What's hot

GPGPU Seminar (GPU Accelerated Libraries, 1 of 3, cuBLAS)
GPGPU Seminar (GPU Accelerated Libraries, 1 of 3, cuBLAS) GPGPU Seminar (GPU Accelerated Libraries, 1 of 3, cuBLAS)
GPGPU Seminar (GPU Accelerated Libraries, 1 of 3, cuBLAS)
智啓 出川
 
2015年度GPGPU実践プログラミング 第15回 GPU最適化ライブラリ
2015年度GPGPU実践プログラミング 第15回 GPU最適化ライブラリ2015年度GPGPU実践プログラミング 第15回 GPU最適化ライブラリ
2015年度GPGPU実践プログラミング 第15回 GPU最適化ライブラリ
智啓 出川
 
高速な倍精度指数関数expの実装
高速な倍精度指数関数expの実装高速な倍精度指数関数expの実装
高速な倍精度指数関数expの実装
MITSUNARI Shigeo
 
2015年度GPGPU実践プログラミング 第7回 総和計算
2015年度GPGPU実践プログラミング 第7回 総和計算2015年度GPGPU実践プログラミング 第7回 総和計算
2015年度GPGPU実践プログラミング 第7回 総和計算
智啓 出川
 
2015年度GPGPU実践プログラミング 第5回 GPUのメモリ階層
2015年度GPGPU実践プログラミング 第5回 GPUのメモリ階層2015年度GPGPU実践プログラミング 第5回 GPUのメモリ階層
2015年度GPGPU実践プログラミング 第5回 GPUのメモリ階層
智啓 出川
 
GPGPU Seminar (GPU Accelerated Libraries, 3 of 3, Thrust)
GPGPU Seminar (GPU Accelerated Libraries, 3 of 3, Thrust) GPGPU Seminar (GPU Accelerated Libraries, 3 of 3, Thrust)
GPGPU Seminar (GPU Accelerated Libraries, 3 of 3, Thrust)
智啓 出川
 
組み込み関数(intrinsic)によるSIMD入門
組み込み関数(intrinsic)によるSIMD入門組み込み関数(intrinsic)によるSIMD入門
組み込み関数(intrinsic)によるSIMD入門Norishige Fukushima
 
ARM CPUにおけるSIMDを用いた高速計算入門
ARM CPUにおけるSIMDを用いた高速計算入門ARM CPUにおけるSIMDを用いた高速計算入門
ARM CPUにおけるSIMDを用いた高速計算入門
Fixstars Corporation
 
CuPy解説
CuPy解説CuPy解説
CuPy解説
Ryosuke Okuta
 
GPGPU Seminar (GPU Accelerated Libraries, 2 of 3, cuSPARSE)
GPGPU Seminar (GPU Accelerated Libraries, 2 of 3, cuSPARSE) GPGPU Seminar (GPU Accelerated Libraries, 2 of 3, cuSPARSE)
GPGPU Seminar (GPU Accelerated Libraries, 2 of 3, cuSPARSE)
智啓 出川
 
新しい並列for構文のご提案
新しい並列for構文のご提案新しい並列for構文のご提案
新しい並列for構文のご提案
yohhoy
 
条件分岐とcmovとmaxps
条件分岐とcmovとmaxps条件分岐とcmovとmaxps
条件分岐とcmovとmaxpsMITSUNARI Shigeo
 
CPU / GPU高速化セミナー!性能モデルの理論と実践:実践編
CPU / GPU高速化セミナー!性能モデルの理論と実践:実践編CPU / GPU高速化セミナー!性能モデルの理論と実践:実践編
CPU / GPU高速化セミナー!性能モデルの理論と実践:実践編
Fixstars Corporation
 
ゲーム開発者のための C++11/C++14
ゲーム開発者のための C++11/C++14ゲーム開発者のための C++11/C++14
ゲーム開発者のための C++11/C++14
Ryo Suzuki
 
DEEP LEARNING、トレーニング・インファレンスのGPUによる高速化
DEEP LEARNING、トレーニング・インファレンスのGPUによる高速化DEEP LEARNING、トレーニング・インファレンスのGPUによる高速化
DEEP LEARNING、トレーニング・インファレンスのGPUによる高速化
RCCSRENKEI
 
SAT/SMTソルバの仕組み
SAT/SMTソルバの仕組みSAT/SMTソルバの仕組み
SAT/SMTソルバの仕組み
Masahiro Sakai
 
C++による数値解析の並列化手法
C++による数値解析の並列化手法C++による数値解析の並列化手法
C++による数値解析の並列化手法
dc1394
 
プログラムを高速化する話
プログラムを高速化する話プログラムを高速化する話
プログラムを高速化する話
京大 マイコンクラブ
 
Halide による画像処理プログラミング入門
Halide による画像処理プログラミング入門Halide による画像処理プログラミング入門
Halide による画像処理プログラミング入門
Fixstars Corporation
 
第6回 配信講義 計算科学技術特論A(2021)
第6回 配信講義 計算科学技術特論A(2021)第6回 配信講義 計算科学技術特論A(2021)
第6回 配信講義 計算科学技術特論A(2021)
RCCSRENKEI
 

What's hot (20)

GPGPU Seminar (GPU Accelerated Libraries, 1 of 3, cuBLAS)
GPGPU Seminar (GPU Accelerated Libraries, 1 of 3, cuBLAS) GPGPU Seminar (GPU Accelerated Libraries, 1 of 3, cuBLAS)
GPGPU Seminar (GPU Accelerated Libraries, 1 of 3, cuBLAS)
 
2015年度GPGPU実践プログラミング 第15回 GPU最適化ライブラリ
2015年度GPGPU実践プログラミング 第15回 GPU最適化ライブラリ2015年度GPGPU実践プログラミング 第15回 GPU最適化ライブラリ
2015年度GPGPU実践プログラミング 第15回 GPU最適化ライブラリ
 
高速な倍精度指数関数expの実装
高速な倍精度指数関数expの実装高速な倍精度指数関数expの実装
高速な倍精度指数関数expの実装
 
2015年度GPGPU実践プログラミング 第7回 総和計算
2015年度GPGPU実践プログラミング 第7回 総和計算2015年度GPGPU実践プログラミング 第7回 総和計算
2015年度GPGPU実践プログラミング 第7回 総和計算
 
2015年度GPGPU実践プログラミング 第5回 GPUのメモリ階層
2015年度GPGPU実践プログラミング 第5回 GPUのメモリ階層2015年度GPGPU実践プログラミング 第5回 GPUのメモリ階層
2015年度GPGPU実践プログラミング 第5回 GPUのメモリ階層
 
GPGPU Seminar (GPU Accelerated Libraries, 3 of 3, Thrust)
GPGPU Seminar (GPU Accelerated Libraries, 3 of 3, Thrust) GPGPU Seminar (GPU Accelerated Libraries, 3 of 3, Thrust)
GPGPU Seminar (GPU Accelerated Libraries, 3 of 3, Thrust)
 
組み込み関数(intrinsic)によるSIMD入門
組み込み関数(intrinsic)によるSIMD入門組み込み関数(intrinsic)によるSIMD入門
組み込み関数(intrinsic)によるSIMD入門
 
ARM CPUにおけるSIMDを用いた高速計算入門
ARM CPUにおけるSIMDを用いた高速計算入門ARM CPUにおけるSIMDを用いた高速計算入門
ARM CPUにおけるSIMDを用いた高速計算入門
 
CuPy解説
CuPy解説CuPy解説
CuPy解説
 
GPGPU Seminar (GPU Accelerated Libraries, 2 of 3, cuSPARSE)
GPGPU Seminar (GPU Accelerated Libraries, 2 of 3, cuSPARSE) GPGPU Seminar (GPU Accelerated Libraries, 2 of 3, cuSPARSE)
GPGPU Seminar (GPU Accelerated Libraries, 2 of 3, cuSPARSE)
 
新しい並列for構文のご提案
新しい並列for構文のご提案新しい並列for構文のご提案
新しい並列for構文のご提案
 
条件分岐とcmovとmaxps
条件分岐とcmovとmaxps条件分岐とcmovとmaxps
条件分岐とcmovとmaxps
 
CPU / GPU高速化セミナー!性能モデルの理論と実践:実践編
CPU / GPU高速化セミナー!性能モデルの理論と実践:実践編CPU / GPU高速化セミナー!性能モデルの理論と実践:実践編
CPU / GPU高速化セミナー!性能モデルの理論と実践:実践編
 
ゲーム開発者のための C++11/C++14
ゲーム開発者のための C++11/C++14ゲーム開発者のための C++11/C++14
ゲーム開発者のための C++11/C++14
 
DEEP LEARNING、トレーニング・インファレンスのGPUによる高速化
DEEP LEARNING、トレーニング・インファレンスのGPUによる高速化DEEP LEARNING、トレーニング・インファレンスのGPUによる高速化
DEEP LEARNING、トレーニング・インファレンスのGPUによる高速化
 
SAT/SMTソルバの仕組み
SAT/SMTソルバの仕組みSAT/SMTソルバの仕組み
SAT/SMTソルバの仕組み
 
C++による数値解析の並列化手法
C++による数値解析の並列化手法C++による数値解析の並列化手法
C++による数値解析の並列化手法
 
プログラムを高速化する話
プログラムを高速化する話プログラムを高速化する話
プログラムを高速化する話
 
Halide による画像処理プログラミング入門
Halide による画像処理プログラミング入門Halide による画像処理プログラミング入門
Halide による画像処理プログラミング入門
 
第6回 配信講義 計算科学技術特論A(2021)
第6回 配信講義 計算科学技術特論A(2021)第6回 配信講義 計算科学技術特論A(2021)
第6回 配信講義 計算科学技術特論A(2021)
 

Similar to 1072: アプリケーション開発を加速するCUDAライブラリ

CMSI計算科学技術特論B(14) OpenACC・CUDAによるGPUコンピューティング
CMSI計算科学技術特論B(14) OpenACC・CUDAによるGPUコンピューティングCMSI計算科学技術特論B(14) OpenACC・CUDAによるGPUコンピューティング
CMSI計算科学技術特論B(14) OpenACC・CUDAによるGPUコンピューティングComputational Materials Science Initiative
 
200625material naruse
200625material naruse200625material naruse
200625material naruse
RCCSRENKEI
 
第12回 配信講義 計算科学技術特論B(2022)
第12回 配信講義 計算科学技術特論B(2022)第12回 配信講義 計算科学技術特論B(2022)
第12回 配信講義 計算科学技術特論B(2022)
RCCSRENKEI
 
NVIDIA Japan Seminar 2012
NVIDIA Japan Seminar 2012NVIDIA Japan Seminar 2012
NVIDIA Japan Seminar 2012Takuro Iizuka
 
2014 11-20 Machine Learning with Apache Spark 勉強会資料
2014 11-20 Machine Learning with Apache Spark 勉強会資料2014 11-20 Machine Learning with Apache Spark 勉強会資料
2014 11-20 Machine Learning with Apache Spark 勉強会資料
Recruit Technologies
 
20180920_DBTS_PGStrom_JP
20180920_DBTS_PGStrom_JP20180920_DBTS_PGStrom_JP
20180920_DBTS_PGStrom_JP
Kohei KaiGai
 
20190625 OpenACC 講習会 第3部
20190625 OpenACC 講習会 第3部20190625 OpenACC 講習会 第3部
20190625 OpenACC 講習会 第3部
NVIDIA Japan
 
20171220_hbstudy80_pgstrom
20171220_hbstudy80_pgstrom20171220_hbstudy80_pgstrom
20171220_hbstudy80_pgstrom
Kohei KaiGai
 
C base design methodology with s dx and xilinx ml
C base design methodology with s dx and xilinx ml C base design methodology with s dx and xilinx ml
C base design methodology with s dx and xilinx ml
ssuser3a4b8c
 
Synthesijer.Scala (PROSYM 2015)
Synthesijer.Scala (PROSYM 2015)Synthesijer.Scala (PROSYM 2015)
Synthesijer.Scala (PROSYM 2015)
Takefumi MIYOSHI
 
HandlerSocket plugin for MySQL
HandlerSocket plugin for MySQLHandlerSocket plugin for MySQL
HandlerSocket plugin for MySQLakirahiguchi
 
TVM の紹介
TVM の紹介TVM の紹介
TVM の紹介
Masahiro Masuda
 
Maxwell と Java CUDAプログラミング
Maxwell と Java CUDAプログラミングMaxwell と Java CUDAプログラミング
Maxwell と Java CUDAプログラミング
NVIDIA Japan
 
Web Operations and Perl kansai.pm#14
Web Operations and Perl kansai.pm#14Web Operations and Perl kansai.pm#14
Web Operations and Perl kansai.pm#14Masahiro Nagano
 
機械学習とこれを支える並列計算: ディープラーニング・スーパーコンピューターの応用について
機械学習とこれを支える並列計算: ディープラーニング・スーパーコンピューターの応用について機械学習とこれを支える並列計算: ディープラーニング・スーパーコンピューターの応用について
機械学習とこれを支える並列計算: ディープラーニング・スーパーコンピューターの応用について
ハイシンク創研 / Laboratory of Hi-Think Corporation
 
TPC-DSから学ぶPostgreSQLの弱点と今後の展望
TPC-DSから学ぶPostgreSQLの弱点と今後の展望TPC-DSから学ぶPostgreSQLの弱点と今後の展望
TPC-DSから学ぶPostgreSQLの弱点と今後の展望
Kohei KaiGai
 
C#, C/CLI と CUDAによる画像処理ことはじめ
C#, C/CLI と CUDAによる画像処理ことはじめC#, C/CLI と CUDAによる画像処理ことはじめ
C#, C/CLI と CUDAによる画像処理ことはじめ
NVIDIA Japan
 
PBL1-v1-008j.pptx
PBL1-v1-008j.pptxPBL1-v1-008j.pptx
PBL1-v1-008j.pptx
NAIST
 
x86とコンテキストスイッチ
x86とコンテキストスイッチx86とコンテキストスイッチ
x86とコンテキストスイッチ
Masami Ichikawa
 
CAメインフレーム システムリソース削減に貢献する製品について
CAメインフレーム システムリソース削減に貢献する製品についてCAメインフレーム システムリソース削減に貢献する製品について
CAメインフレーム システムリソース削減に貢献する製品について
Kaneko Izumi
 

Similar to 1072: アプリケーション開発を加速するCUDAライブラリ (20)

CMSI計算科学技術特論B(14) OpenACC・CUDAによるGPUコンピューティング
CMSI計算科学技術特論B(14) OpenACC・CUDAによるGPUコンピューティングCMSI計算科学技術特論B(14) OpenACC・CUDAによるGPUコンピューティング
CMSI計算科学技術特論B(14) OpenACC・CUDAによるGPUコンピューティング
 
200625material naruse
200625material naruse200625material naruse
200625material naruse
 
第12回 配信講義 計算科学技術特論B(2022)
第12回 配信講義 計算科学技術特論B(2022)第12回 配信講義 計算科学技術特論B(2022)
第12回 配信講義 計算科学技術特論B(2022)
 
NVIDIA Japan Seminar 2012
NVIDIA Japan Seminar 2012NVIDIA Japan Seminar 2012
NVIDIA Japan Seminar 2012
 
2014 11-20 Machine Learning with Apache Spark 勉強会資料
2014 11-20 Machine Learning with Apache Spark 勉強会資料2014 11-20 Machine Learning with Apache Spark 勉強会資料
2014 11-20 Machine Learning with Apache Spark 勉強会資料
 
20180920_DBTS_PGStrom_JP
20180920_DBTS_PGStrom_JP20180920_DBTS_PGStrom_JP
20180920_DBTS_PGStrom_JP
 
20190625 OpenACC 講習会 第3部
20190625 OpenACC 講習会 第3部20190625 OpenACC 講習会 第3部
20190625 OpenACC 講習会 第3部
 
20171220_hbstudy80_pgstrom
20171220_hbstudy80_pgstrom20171220_hbstudy80_pgstrom
20171220_hbstudy80_pgstrom
 
C base design methodology with s dx and xilinx ml
C base design methodology with s dx and xilinx ml C base design methodology with s dx and xilinx ml
C base design methodology with s dx and xilinx ml
 
Synthesijer.Scala (PROSYM 2015)
Synthesijer.Scala (PROSYM 2015)Synthesijer.Scala (PROSYM 2015)
Synthesijer.Scala (PROSYM 2015)
 
HandlerSocket plugin for MySQL
HandlerSocket plugin for MySQLHandlerSocket plugin for MySQL
HandlerSocket plugin for MySQL
 
TVM の紹介
TVM の紹介TVM の紹介
TVM の紹介
 
Maxwell と Java CUDAプログラミング
Maxwell と Java CUDAプログラミングMaxwell と Java CUDAプログラミング
Maxwell と Java CUDAプログラミング
 
Web Operations and Perl kansai.pm#14
Web Operations and Perl kansai.pm#14Web Operations and Perl kansai.pm#14
Web Operations and Perl kansai.pm#14
 
機械学習とこれを支える並列計算: ディープラーニング・スーパーコンピューターの応用について
機械学習とこれを支える並列計算: ディープラーニング・スーパーコンピューターの応用について機械学習とこれを支える並列計算: ディープラーニング・スーパーコンピューターの応用について
機械学習とこれを支える並列計算: ディープラーニング・スーパーコンピューターの応用について
 
TPC-DSから学ぶPostgreSQLの弱点と今後の展望
TPC-DSから学ぶPostgreSQLの弱点と今後の展望TPC-DSから学ぶPostgreSQLの弱点と今後の展望
TPC-DSから学ぶPostgreSQLの弱点と今後の展望
 
C#, C/CLI と CUDAによる画像処理ことはじめ
C#, C/CLI と CUDAによる画像処理ことはじめC#, C/CLI と CUDAによる画像処理ことはじめ
C#, C/CLI と CUDAによる画像処理ことはじめ
 
PBL1-v1-008j.pptx
PBL1-v1-008j.pptxPBL1-v1-008j.pptx
PBL1-v1-008j.pptx
 
x86とコンテキストスイッチ
x86とコンテキストスイッチx86とコンテキストスイッチ
x86とコンテキストスイッチ
 
CAメインフレーム システムリソース削減に貢献する製品について
CAメインフレーム システムリソース削減に貢献する製品についてCAメインフレーム システムリソース削減に貢献する製品について
CAメインフレーム システムリソース削減に貢献する製品について
 

More from NVIDIA Japan

HPC 的に H100 は魅力的な GPU なのか?
HPC 的に H100 は魅力的な GPU なのか?HPC 的に H100 は魅力的な GPU なのか?
HPC 的に H100 は魅力的な GPU なのか?
NVIDIA Japan
 
NVIDIA cuQuantum SDK による量子回路シミュレーターの高速化
NVIDIA cuQuantum SDK による量子回路シミュレーターの高速化NVIDIA cuQuantum SDK による量子回路シミュレーターの高速化
NVIDIA cuQuantum SDK による量子回路シミュレーターの高速化
NVIDIA Japan
 
Physics-ML のためのフレームワーク NVIDIA Modulus 最新事情
Physics-ML のためのフレームワーク NVIDIA Modulus 最新事情Physics-ML のためのフレームワーク NVIDIA Modulus 最新事情
Physics-ML のためのフレームワーク NVIDIA Modulus 最新事情
NVIDIA Japan
 
20221021_JP5.0.2-Webinar-JP_Final.pdf
20221021_JP5.0.2-Webinar-JP_Final.pdf20221021_JP5.0.2-Webinar-JP_Final.pdf
20221021_JP5.0.2-Webinar-JP_Final.pdf
NVIDIA Japan
 
開発者が語る NVIDIA cuQuantum SDK
開発者が語る NVIDIA cuQuantum SDK開発者が語る NVIDIA cuQuantum SDK
開発者が語る NVIDIA cuQuantum SDK
NVIDIA Japan
 
NVIDIA Modulus: Physics ML 開発のためのフレームワーク
NVIDIA Modulus: Physics ML 開発のためのフレームワークNVIDIA Modulus: Physics ML 開発のためのフレームワーク
NVIDIA Modulus: Physics ML 開発のためのフレームワーク
NVIDIA Japan
 
NVIDIA HPC ソフトウエア斜め読み
NVIDIA HPC ソフトウエア斜め読みNVIDIA HPC ソフトウエア斜め読み
NVIDIA HPC ソフトウエア斜め読み
NVIDIA Japan
 
HPC+AI ってよく聞くけど結局なんなの
HPC+AI ってよく聞くけど結局なんなのHPC+AI ってよく聞くけど結局なんなの
HPC+AI ってよく聞くけど結局なんなの
NVIDIA Japan
 
Magnum IO GPUDirect Storage 最新情報
Magnum IO GPUDirect Storage 最新情報Magnum IO GPUDirect Storage 最新情報
Magnum IO GPUDirect Storage 最新情報
NVIDIA Japan
 
データ爆発時代のネットワークインフラ
データ爆発時代のネットワークインフラデータ爆発時代のネットワークインフラ
データ爆発時代のネットワークインフラ
NVIDIA Japan
 
Hopper アーキテクチャで、変わること、変わらないこと
Hopper アーキテクチャで、変わること、変わらないことHopper アーキテクチャで、変わること、変わらないこと
Hopper アーキテクチャで、変わること、変わらないこと
NVIDIA Japan
 
GPU と PYTHON と、それから最近の NVIDIA
GPU と PYTHON と、それから最近の NVIDIAGPU と PYTHON と、それから最近の NVIDIA
GPU と PYTHON と、それから最近の NVIDIA
NVIDIA Japan
 
GTC November 2021 – テレコム関連アップデート サマリー
GTC November 2021 – テレコム関連アップデート サマリーGTC November 2021 – テレコム関連アップデート サマリー
GTC November 2021 – テレコム関連アップデート サマリー
NVIDIA Japan
 
テレコムのビッグデータ解析 & AI サイバーセキュリティ
テレコムのビッグデータ解析 & AI サイバーセキュリティテレコムのビッグデータ解析 & AI サイバーセキュリティ
テレコムのビッグデータ解析 & AI サイバーセキュリティ
NVIDIA Japan
 
必見!絶対におすすめの通信業界セッション 5 つ ~秋の GTC 2020~
必見!絶対におすすめの通信業界セッション 5 つ ~秋の GTC 2020~必見!絶対におすすめの通信業界セッション 5 つ ~秋の GTC 2020~
必見!絶対におすすめの通信業界セッション 5 つ ~秋の GTC 2020~
NVIDIA Japan
 
2020年10月29日 プロフェッショナルAI×Roboticsエンジニアへのロードマップ
2020年10月29日 プロフェッショナルAI×Roboticsエンジニアへのロードマップ2020年10月29日 プロフェッショナルAI×Roboticsエンジニアへのロードマップ
2020年10月29日 プロフェッショナルAI×Roboticsエンジニアへのロードマップ
NVIDIA Japan
 
2020年10月29日 Jetson活用によるAI教育
2020年10月29日 Jetson活用によるAI教育2020年10月29日 Jetson活用によるAI教育
2020年10月29日 Jetson活用によるAI教育
NVIDIA Japan
 
2020年10月29日 Jetson Nano 2GBで始めるAI x Robotics教育
2020年10月29日 Jetson Nano 2GBで始めるAI x Robotics教育2020年10月29日 Jetson Nano 2GBで始めるAI x Robotics教育
2020年10月29日 Jetson Nano 2GBで始めるAI x Robotics教育
NVIDIA Japan
 
COVID-19 研究・対策に活用可能な NVIDIA ソフトウェアと関連情報
COVID-19 研究・対策に活用可能な NVIDIA ソフトウェアと関連情報COVID-19 研究・対策に活用可能な NVIDIA ソフトウェアと関連情報
COVID-19 研究・対策に活用可能な NVIDIA ソフトウェアと関連情報
NVIDIA Japan
 
Jetson Xavier NX クラウドネイティブをエッジに
Jetson Xavier NX クラウドネイティブをエッジにJetson Xavier NX クラウドネイティブをエッジに
Jetson Xavier NX クラウドネイティブをエッジに
NVIDIA Japan
 

More from NVIDIA Japan (20)

HPC 的に H100 は魅力的な GPU なのか?
HPC 的に H100 は魅力的な GPU なのか?HPC 的に H100 は魅力的な GPU なのか?
HPC 的に H100 は魅力的な GPU なのか?
 
NVIDIA cuQuantum SDK による量子回路シミュレーターの高速化
NVIDIA cuQuantum SDK による量子回路シミュレーターの高速化NVIDIA cuQuantum SDK による量子回路シミュレーターの高速化
NVIDIA cuQuantum SDK による量子回路シミュレーターの高速化
 
Physics-ML のためのフレームワーク NVIDIA Modulus 最新事情
Physics-ML のためのフレームワーク NVIDIA Modulus 最新事情Physics-ML のためのフレームワーク NVIDIA Modulus 最新事情
Physics-ML のためのフレームワーク NVIDIA Modulus 最新事情
 
20221021_JP5.0.2-Webinar-JP_Final.pdf
20221021_JP5.0.2-Webinar-JP_Final.pdf20221021_JP5.0.2-Webinar-JP_Final.pdf
20221021_JP5.0.2-Webinar-JP_Final.pdf
 
開発者が語る NVIDIA cuQuantum SDK
開発者が語る NVIDIA cuQuantum SDK開発者が語る NVIDIA cuQuantum SDK
開発者が語る NVIDIA cuQuantum SDK
 
NVIDIA Modulus: Physics ML 開発のためのフレームワーク
NVIDIA Modulus: Physics ML 開発のためのフレームワークNVIDIA Modulus: Physics ML 開発のためのフレームワーク
NVIDIA Modulus: Physics ML 開発のためのフレームワーク
 
NVIDIA HPC ソフトウエア斜め読み
NVIDIA HPC ソフトウエア斜め読みNVIDIA HPC ソフトウエア斜め読み
NVIDIA HPC ソフトウエア斜め読み
 
HPC+AI ってよく聞くけど結局なんなの
HPC+AI ってよく聞くけど結局なんなのHPC+AI ってよく聞くけど結局なんなの
HPC+AI ってよく聞くけど結局なんなの
 
Magnum IO GPUDirect Storage 最新情報
Magnum IO GPUDirect Storage 最新情報Magnum IO GPUDirect Storage 最新情報
Magnum IO GPUDirect Storage 最新情報
 
データ爆発時代のネットワークインフラ
データ爆発時代のネットワークインフラデータ爆発時代のネットワークインフラ
データ爆発時代のネットワークインフラ
 
Hopper アーキテクチャで、変わること、変わらないこと
Hopper アーキテクチャで、変わること、変わらないことHopper アーキテクチャで、変わること、変わらないこと
Hopper アーキテクチャで、変わること、変わらないこと
 
GPU と PYTHON と、それから最近の NVIDIA
GPU と PYTHON と、それから最近の NVIDIAGPU と PYTHON と、それから最近の NVIDIA
GPU と PYTHON と、それから最近の NVIDIA
 
GTC November 2021 – テレコム関連アップデート サマリー
GTC November 2021 – テレコム関連アップデート サマリーGTC November 2021 – テレコム関連アップデート サマリー
GTC November 2021 – テレコム関連アップデート サマリー
 
テレコムのビッグデータ解析 & AI サイバーセキュリティ
テレコムのビッグデータ解析 & AI サイバーセキュリティテレコムのビッグデータ解析 & AI サイバーセキュリティ
テレコムのビッグデータ解析 & AI サイバーセキュリティ
 
必見!絶対におすすめの通信業界セッション 5 つ ~秋の GTC 2020~
必見!絶対におすすめの通信業界セッション 5 つ ~秋の GTC 2020~必見!絶対におすすめの通信業界セッション 5 つ ~秋の GTC 2020~
必見!絶対におすすめの通信業界セッション 5 つ ~秋の GTC 2020~
 
2020年10月29日 プロフェッショナルAI×Roboticsエンジニアへのロードマップ
2020年10月29日 プロフェッショナルAI×Roboticsエンジニアへのロードマップ2020年10月29日 プロフェッショナルAI×Roboticsエンジニアへのロードマップ
2020年10月29日 プロフェッショナルAI×Roboticsエンジニアへのロードマップ
 
2020年10月29日 Jetson活用によるAI教育
2020年10月29日 Jetson活用によるAI教育2020年10月29日 Jetson活用によるAI教育
2020年10月29日 Jetson活用によるAI教育
 
2020年10月29日 Jetson Nano 2GBで始めるAI x Robotics教育
2020年10月29日 Jetson Nano 2GBで始めるAI x Robotics教育2020年10月29日 Jetson Nano 2GBで始めるAI x Robotics教育
2020年10月29日 Jetson Nano 2GBで始めるAI x Robotics教育
 
COVID-19 研究・対策に活用可能な NVIDIA ソフトウェアと関連情報
COVID-19 研究・対策に活用可能な NVIDIA ソフトウェアと関連情報COVID-19 研究・対策に活用可能な NVIDIA ソフトウェアと関連情報
COVID-19 研究・対策に活用可能な NVIDIA ソフトウェアと関連情報
 
Jetson Xavier NX クラウドネイティブをエッジに
Jetson Xavier NX クラウドネイティブをエッジにJetson Xavier NX クラウドネイティブをエッジに
Jetson Xavier NX クラウドネイティブをエッジに
 

Recently uploaded

単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
Fukuoka Institute of Technology
 
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
harmonylab
 
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
Matsushita Laboratory
 
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
atsushi061452
 
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdfFIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance
 
FIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance Osaka Seminar: CloudGate.pdfFIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance
 
論文紹介: Exploiting semantic segmentation to boost reinforcement learning in vid...
論文紹介: Exploiting semantic segmentation to boost reinforcement learning in vid...論文紹介: Exploiting semantic segmentation to boost reinforcement learning in vid...
論文紹介: Exploiting semantic segmentation to boost reinforcement learning in vid...
atsushi061452
 
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアルLoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
CRI Japan, Inc.
 
FIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance Osaka Seminar: Welcome Slides.pdfFIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance
 
MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。
MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。
MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。
iPride Co., Ltd.
 
【AI論文解説】Consistency ModelとRectified Flow
【AI論文解説】Consistency ModelとRectified Flow【AI論文解説】Consistency ModelとRectified Flow
【AI論文解説】Consistency ModelとRectified Flow
Sony - Neural Network Libraries
 
YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)
YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)
YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)
NTT DATA Technology & Innovation
 
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdfFIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance
 
2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx
2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx
2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx
yassun7010
 
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdfFIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance
 

Recently uploaded (15)

単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
 
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
 
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
 
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
 
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdfFIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
 
FIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance Osaka Seminar: CloudGate.pdfFIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance Osaka Seminar: CloudGate.pdf
 
論文紹介: Exploiting semantic segmentation to boost reinforcement learning in vid...
論文紹介: Exploiting semantic segmentation to boost reinforcement learning in vid...論文紹介: Exploiting semantic segmentation to boost reinforcement learning in vid...
論文紹介: Exploiting semantic segmentation to boost reinforcement learning in vid...
 
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアルLoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
 
FIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance Osaka Seminar: Welcome Slides.pdfFIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance Osaka Seminar: Welcome Slides.pdf
 
MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。
MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。
MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。
 
【AI論文解説】Consistency ModelとRectified Flow
【AI論文解説】Consistency ModelとRectified Flow【AI論文解説】Consistency ModelとRectified Flow
【AI論文解説】Consistency ModelとRectified Flow
 
YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)
YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)
YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)
 
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdfFIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
 
2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx
2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx
2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx
 
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdfFIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
 

1072: アプリケーション開発を加速するCUDAライブラリ