SlideShare a Scribd company logo
1 of 18
Download to read offline
整数演算による多倍長浮動小数点演算
エミュレーションのGPUでの性能評価
中里直人(会津大学)
2015年3月2-3日 第148回HPC研究発表会
花菱ホテル@別府温泉
多倍長浮動小数点演算の必要性
• 数値不安定なアルゴリズム
• 情報落ち, 桁落ちの問題

• ファインマン・ダイアグラムの直接計算

• 本質的に数値誤差が問題になる場合
• 丸め誤差の蓄積
• 演算性能が向上するとよりシビアに
問題例:Henon Map
Searching for sinks of Henon map using a multiple-precision GPU arithmetic library
M. Joldes, V. Popescu, W. Tucker, HEART2014
ha,b(x1, x2) = (1 + x2 ax2
1, bx1)
ns: hi+1
a,b := ha,b hi
a,b, i 2 N⇤
.
parameter values a = 1.4, b = 0.3 one observes the so-called H´enon
iterating hn
a,b, n ! 1:
1 / 23
H´enon attractor
H´enon Map
ha,b(x1, x2) = (1 + x2 ax2
1, bx1)
Map iterations: hi+1
a,b := ha,b hi
a,b, i 2 N⇤
.
For classical parameter values a = 1.4, b = 0.3 one observes the so-called H´enon
attractor by iterating hn
a,b, n ! 1:
1 / 23
異なるa,bや初期位置からの計算
を繰り返して、興味のある場合
を発見する問題。
!
繰り返し計算による丸め誤差の
蓄積が問題となる。
誤差の軌道への影響は指数関数的
多倍長精度FP演算手法(1)
エラーフリー変換に基づく手法 (FP方式)
• 変数を複数のFP変数の組み合わせで表現する
• プロセッサのFP演算器を援用可能

• 演算密度が高いアルゴリズム

• 欠点:指数部(Nexp)がnativeなFPフォーマットに依存する

• エラーフリー変換・総和アルゴリズム
• 加算 Knuth(1967), 乗算 Dekker(1971)

• 任意の場合のアルゴリズム Shewchuk(1996)

• QD library (Hida etal. 2001)
• GPUでの実装がいくつかある。GEMM,BLASは高性能
多倍長精度FP演算手法(2)
整数演算によるエミュレーション手法(Int方式)
• GNU Multiple Precision Arithmetic Library (GMP)
• FPを含めて様々な多倍長精度演算アルゴリズムを実装

• FPについては基本演算と簡単な関数のみ

• GNU MPFR (Fousse etal. 2007)
• GMPをベースにより汎用的なFP演算の実装

• 一般的な数学関数含む

• CUMP (Nakayama & Takahashi 2011)
• GMPの一部(加算・乗算)をCUDAカーネルとして移植

• C++ templateを利用しているためOpenCL化難しい
GPUの整数演算性能(1)
• GPUの内部構造
!
!
!
!
!
http://www.realworldtech.com/cayman/5/
浮動小数点演算器とALUは同じ数ある
GPUの整数演算性能(2)
GPUの整数演算性能はCPUより高い
bitcoin発掘(SHA-256の並列計算)の性能比較
MHASH/S
Tesla K20 135
GTX680 110 - 120
Radeon7970 555 - 825
Core i7 3930K 67
A10-5800K 105
Xoen Phi 5100 140
https://en.bitcoin.it/wiki/Non-specialized_hardware_comparison
本研究の目的
• 多倍長精度浮動小数点演算をOpenCLにより
高速化する手法を性能評価する
• GPUの整数演算性能を有効に利用することを想定

• GPU, CPU, MIC, FPGAなどで同様のアルゴリズムが実行可能

• GRAPE-MP/MPXと対応する実装
• 独自設計によるFP演算器と同じアルゴリズムを採用

• 他の実装(QD, MPFR)との比較
データ構造報処理学会研究報告
SJ SIG Technical Report
FP 演算における主たる処理は仮数部同士の演算であ
上記 (b) の手法は, 整数演算により複数語からなる仮
部の演算を, 四則演算それぞれの場合ついて筆算と同様
アルゴリズムでおこなう (例えば”The Art of Computer
ogramming Volume 2”[8](TACP Vol.2) Section 4.3 参
). ただし, 乗算 [9] と除算 [6] について, 筆算と同様の基
アルゴリズムよりも演算数を削減することのできるア
ゴリズムが提案されている. この FP 演算のエミュレー
ョンによる多倍長演算手法では, 原理的には指数部, 仮数
ともに任意のビット長を利用することができる. よって,
記ファインマン・ダイアグラムの直接計算の場合におけ
指数部サイズの制限の問題の解決策となる.
本論文では, (b) の手法による FP 演算を C 言語により
計・実装し, それを OpenCL カーネルとして利用可能と
ることで, OpenCL でプログラム可能なマルチコア・メ
typedef uint32_t u32;
const u32 NC = 7;
struct my_fp {
u32 e;
u32 m[NC];
};
typedef struct my_fp FP[1];
図 1 本論文における多倍長精
めす. この構造体 FP では, FP-
する. FP->e の最上位の 1 ビッ
30 ビットに指数部を保持する仕
754 規格にならって, バイアス
とした. nexp = 30 より, この場
0x3fffffff となる. FP->m[] は仮
指数部と同様に符号なし 2 進数
• 符号なし整数の配列に格納
• 指数部に1語。bias方式

• 符号は指数部に格納する

• 仮数部にn語

• 仮数部は1語当たり30 bitに分割。n = 7, 210 bit

• hidden bitはなし

!
• 32 bit vs. 64 bitの選択
• GPUの演算器は32 bitのはず。より冗長。今回はこちらを採用

• CPU(x86-64)は64 bit演算のほうが効率よい。GMPはこれ
指数部 仮数部[0] 仮数部[1] 仮数部[2]
符号
仮数部[3]
アルゴリズムの概要(1)
• C言語で実装テストし、OpenCLカーネル化
• ソースは共通化可能

• 加算・減算
• uint32の加算, マスク演算, シフト演算の組み合わせ

• IEEE 754と同様のアルゴリズムだが丸めはforce-1

• 減算は加算の前に符号反転で実装

• 乗算
• TACP Vol.2のアルゴリズムと同様

• 仮数部同士の乗算は省略なし(49個の部分積の和をとる)

• 32 x 32 の符号なし乗算
アルゴリズムの概要(2)
• 除算は3パターンを実装し比較
• 仮数部を直接計算
• Huang etal.の高速アルゴリズムで仮数部の除算を計算

• TACPのアルゴリズムより平均的に3倍高速

• ニュートン法
• ニュートン法で逆数を求めてから乗算

• 初期値は単精度(SP)または倍精度(DP)で計算

• SPの場合3回, DPの場合2回のニュートンループ
多倍長FP演算の性能(CPU)
QD(FP方式)の性能評価 (演算当たりのサイクル数)
仮数部のサイズは105 or 209 bit
IvyBridge 51 85 185
Haswell 45 84 191
Magny-Cours 92 145 332
Bulldozer 100 162 309
Llano 115 156 344
表 1 MPFR 方式 (nman = 210, nexp = 64) の CPU における性
能評価. 単位は 1 演算あたりのサイクル数.
加算 乗算 除算
Nehalem 115 218 1113
SandyBridge 93 193 1021
IvyBridge 76 174 919
Haswell 65 169 1013
Magny-Cours 211 348 1572
Bulldozer 165 277 1527
Llano 227 374 1559
表 2 QD 方式 (nman = 209, nexp = 11) の CPU における性能評
価. 単位は 1 演算あたりのサイクル数.
表では
してい
Stamp
た. ど
に RD
回数で
定した
QD
方式は
されて
およそ
倍のサ
本表
IvyBri
され, 演
進歩を
が, ほと
多倍長FP演算の性能(CPU)
情報処理学会研究報告
IPSJ SIG Technical Report
加算 乗算 除算
Nehalem 71 121 242
SandyBridge 54 93 206
IvyBridge 51 85 185
Haswell 45 84 191
Magny-Cours 92 145 332
Bulldozer 100 162 309
Llano 115 156 344
表 1 MPFR 方式 (nman = 210, nexp = 64) の CPU における性
能評価. 単位は 1 演算あたりのサイクル数.
QD L
5.1.3,
価で利
表では
してい
Stamp
た. ど
に RD
回数で
定した
MPFR(Int方式)の性能評価 (演算当たりのサイクル数)
仮数部のサイズを指定可能
本研究の実装性能評価(CPU)
MYFP(Int方式)の性能評価 (演算当たりのサイクル数)
仮数部のサイズを指定可能
情報処理学会研究報告
IPSJ SIG Technical Report
加算 乗算 除算 除算 F 除算 D
Nehalem 111 167 2026 2087 1155
SandyBridge 91 148 1949 1986 1107
IvyBridge 80 142 1822 1737 970
Haswell 81 136 2029 1885 1049
Magny-Cours 174 275 2866 2925 1654
Bulldozer 186 373 3223 3044 2304
Llano 189 299 2884 2909 1657
表 3 MYFP 方式 (nman = 210, nexp = 30) の CPU における性
能評価. 単位は 1 演算あたりのサイクル数.
性能が高
かる. G
ないが,
ト ALU
れる. た
る場合が
のマイク
る同一の
ドのバー
傾向は,
各実装の比較 (サイクル数)
加算 乗算 除算
QD 65 169 1013
MPFR 45 84 191
MYFP 81 136 2029
加算 乗算 除算
QD 165 277 1527
MPFR 100 162 309
MYFP 186 373 3223
Haswell Bulldozer
• この仮数部サイズでは、QDには性能上のメリットはない

• MPFRはGMPによりアセンブリで最適化されているため高速

• MYFPは時間QDより遅い

• MYFPの除算は直接法。ニュートン法の方が高速。
OpenCLによる性能評価
MYFP(Int方式)の性能評価 (MFLOPS)
告
Report
SP 性能 加算 乗算 除算 除算 F 除算 D
Xeon E5-2670 3.3e5 247 180 21.3 20.4 38.9
GeForce GTX570 1.4e6 244 105 17.1 11.0 13.3
Radeon HD6970 2.7e6 1461 213 11.9 22.4 9.5
FirePro W8000 3.2e6 1546 82.6 35.4 – –
Tesla K20c 3.5e6 349 138 22.6 15.2 15.8
Radeon R280X 4.2e6 2324 1835 190 61.7 231
FirePro W8100 4.2e6 260 44.7 24.4 – –
GeForce TITAN 4.5e6 449 192 31.8 21.1 20.5
表 4 MYFP 方式 (nman = 210, nexp = 30) の CPU における性能評価. 単位は MPFLOS.
sium on Computer Architecture, pp. 287–
n Software Directory: .
• FP SPでの性能にほぼ比例する

• OpenCLのドライバ実装に大きく依存。一部実行不可能。

• CPU(16コア)とローエンドGPUは同等の性能
応用例
1 4 Sample)code:))
20#
#pragma#goose#parallel#for#loopcounter(ixy,#iz)#
#for(ixy#=#0;#ixy#<#ni;#ixy++)#{#
#####sumzG[ixy]#=#0.0;#
#####for#(iz#=#0;#iz#<#nj;#iz++)#{#
###########xx#=#dev_xx[ixy];#
###########yy#=#dev_yy[ixy];#
###########zz#=#x30_1[iz]#*#dev_cnt4[ixy];#
######d#=#K#xx#*#yy#*#s#
#########L#*#zz#*#(one#K#xx#K#yy#K#zz)#+#
#########(xx#+#yy)#*#lambda2#+#
#########(one#K#xx#K#yy#K#zz)#*#(one#K#xx#K#yy)#*#fme2+#
#########zz#*#(one#K#xx#K#yy)#*#fmf2#;#
#########sumzG[ixy]#+=#gw30[iz]#/#(d#*#d);#
#####}#
#}#
• Gooseの拡張を実装
• pragma文からループをOpenCL API呼び出しに変換する

• ループ本体は直接OpenCLカーネルへ変換

• 各種OpenCL実装での動作、性能評価をしている
まとめ
• 多倍長精度浮動小数点演算をOpenCLにより
実装し性能評価した
• 様々なOpenCLデバイスで動作可能

• GPUでの整数演算性能が有効に利用できる

• GPU(Radeon R280X)はCPU(16コア)より10倍以上高速

• QD, MPFRの性能評価と比較
• 八倍精度相当ではMPFRのCPUでの性能は非常によい

• QDには性能上のメリットはない

• MYFPはMPFRの半分位の性能。除算の低速。

• 条件文を削減するなどの最適化が必要

More Related Content

What's hot

2015年度GPGPU実践プログラミング 第8回 総和計算(高度な最適化)
2015年度GPGPU実践プログラミング 第8回 総和計算(高度な最適化)2015年度GPGPU実践プログラミング 第8回 総和計算(高度な最適化)
2015年度GPGPU実践プログラミング 第8回 総和計算(高度な最適化)智啓 出川
 
GPGPU Seminar (GPU Accelerated Libraries, 3 of 3, Thrust)
GPGPU Seminar (GPU Accelerated Libraries, 3 of 3, Thrust) GPGPU Seminar (GPU Accelerated Libraries, 3 of 3, Thrust)
GPGPU Seminar (GPU Accelerated Libraries, 3 of 3, Thrust) 智啓 出川
 
2015年度GPGPU実践基礎工学 第1回 学際的分野における先端シミュレーション技術の歴史
2015年度GPGPU実践基礎工学 第1回 学際的分野における先端シミュレーション技術の歴史2015年度GPGPU実践基礎工学 第1回 学際的分野における先端シミュレーション技術の歴史
2015年度GPGPU実践基礎工学 第1回 学際的分野における先端シミュレーション技術の歴史智啓 出川
 
2015年度先端GPGPUシミュレーション工学特論 第8回 偏微分方程式の差分計算 (拡散方程式)
2015年度先端GPGPUシミュレーション工学特論 第8回 偏微分方程式の差分計算(拡散方程式)2015年度先端GPGPUシミュレーション工学特論 第8回 偏微分方程式の差分計算(拡散方程式)
2015年度先端GPGPUシミュレーション工学特論 第8回 偏微分方程式の差分計算 (拡散方程式)智啓 出川
 
2015年度GPGPU実践プログラミング 第10回 行列計算(行列-行列積の高度な最適化)
2015年度GPGPU実践プログラミング 第10回 行列計算(行列-行列積の高度な最適化)2015年度GPGPU実践プログラミング 第10回 行列計算(行列-行列積の高度な最適化)
2015年度GPGPU実践プログラミング 第10回 行列計算(行列-行列積の高度な最適化)智啓 出川
 
GPGPU Seminar (PyCUDA)
GPGPU Seminar (PyCUDA)GPGPU Seminar (PyCUDA)
GPGPU Seminar (PyCUDA)智啓 出川
 
El text.tokuron a(2019).ishimura190725
El text.tokuron a(2019).ishimura190725El text.tokuron a(2019).ishimura190725
El text.tokuron a(2019).ishimura190725RCCSRENKEI
 
El text.tokuron a(2019).katagiri190509
El text.tokuron a(2019).katagiri190509El text.tokuron a(2019).katagiri190509
El text.tokuron a(2019).katagiri190509RCCSRENKEI
 
El text.tokuron a(2019).katagiri190425
El text.tokuron a(2019).katagiri190425El text.tokuron a(2019).katagiri190425
El text.tokuron a(2019).katagiri190425RCCSRENKEI
 
200528material takahashi
200528material takahashi200528material takahashi
200528material takahashiRCCSRENKEI
 
DEEP LEARNING、トレーニング・インファレンスのGPUによる高速化
DEEP LEARNING、トレーニング・インファレンスのGPUによる高速化DEEP LEARNING、トレーニング・インファレンスのGPUによる高速化
DEEP LEARNING、トレーニング・インファレンスのGPUによる高速化RCCSRENKEI
 
Very helpful python code to find coefficients of the finite difference method
Very helpful python code to find coefficients of the finite difference methodVery helpful python code to find coefficients of the finite difference method
Very helpful python code to find coefficients of the finite difference method智啓 出川
 
El text.tokuron a(2019).yoshii190704
El text.tokuron a(2019).yoshii190704El text.tokuron a(2019).yoshii190704
El text.tokuron a(2019).yoshii190704RCCSRENKEI
 
Intel GoldmontとMPXとゆるふわなごや
Intel GoldmontとMPXとゆるふわなごや Intel GoldmontとMPXとゆるふわなごや
Intel GoldmontとMPXとゆるふわなごや Masaki Ota
 
2015年度先端GPGPUシミュレーション工学特論 第9回 偏微分方程式の差分計算 (移流方程式)
2015年度先端GPGPUシミュレーション工学特論 第9回 偏微分方程式の差分計算(移流方程式)2015年度先端GPGPUシミュレーション工学特論 第9回 偏微分方程式の差分計算(移流方程式)
2015年度先端GPGPUシミュレーション工学特論 第9回 偏微分方程式の差分計算 (移流方程式)智啓 出川
 
200521material takahashi
200521material takahashi200521material takahashi
200521material takahashiRCCSRENKEI
 
2015年度GPGPU実践プログラミング 第9回 行列計算(行列-行列積)
2015年度GPGPU実践プログラミング 第9回 行列計算(行列-行列積)2015年度GPGPU実践プログラミング 第9回 行列計算(行列-行列積)
2015年度GPGPU実践プログラミング 第9回 行列計算(行列-行列積)智啓 出川
 
2015年度GPGPU実践プログラミング 第4回 GPUでの並列プログラミング(ベクトル和,移動平均,差分法)
2015年度GPGPU実践プログラミング 第4回 GPUでの並列プログラミング(ベクトル和,移動平均,差分法)2015年度GPGPU実践プログラミング 第4回 GPUでの並列プログラミング(ベクトル和,移動平均,差分法)
2015年度GPGPU実践プログラミング 第4回 GPUでの並列プログラミング(ベクトル和,移動平均,差分法)智啓 出川
 

What's hot (20)

2015年度GPGPU実践プログラミング 第8回 総和計算(高度な最適化)
2015年度GPGPU実践プログラミング 第8回 総和計算(高度な最適化)2015年度GPGPU実践プログラミング 第8回 総和計算(高度な最適化)
2015年度GPGPU実践プログラミング 第8回 総和計算(高度な最適化)
 
GPGPU Seminar (GPU Accelerated Libraries, 3 of 3, Thrust)
GPGPU Seminar (GPU Accelerated Libraries, 3 of 3, Thrust) GPGPU Seminar (GPU Accelerated Libraries, 3 of 3, Thrust)
GPGPU Seminar (GPU Accelerated Libraries, 3 of 3, Thrust)
 
2015年度GPGPU実践基礎工学 第1回 学際的分野における先端シミュレーション技術の歴史
2015年度GPGPU実践基礎工学 第1回 学際的分野における先端シミュレーション技術の歴史2015年度GPGPU実践基礎工学 第1回 学際的分野における先端シミュレーション技術の歴史
2015年度GPGPU実践基礎工学 第1回 学際的分野における先端シミュレーション技術の歴史
 
2015年度先端GPGPUシミュレーション工学特論 第8回 偏微分方程式の差分計算 (拡散方程式)
2015年度先端GPGPUシミュレーション工学特論 第8回 偏微分方程式の差分計算(拡散方程式)2015年度先端GPGPUシミュレーション工学特論 第8回 偏微分方程式の差分計算(拡散方程式)
2015年度先端GPGPUシミュレーション工学特論 第8回 偏微分方程式の差分計算 (拡散方程式)
 
2015年度GPGPU実践プログラミング 第10回 行列計算(行列-行列積の高度な最適化)
2015年度GPGPU実践プログラミング 第10回 行列計算(行列-行列積の高度な最適化)2015年度GPGPU実践プログラミング 第10回 行列計算(行列-行列積の高度な最適化)
2015年度GPGPU実践プログラミング 第10回 行列計算(行列-行列積の高度な最適化)
 
GPGPU Seminar (PyCUDA)
GPGPU Seminar (PyCUDA)GPGPU Seminar (PyCUDA)
GPGPU Seminar (PyCUDA)
 
El text.tokuron a(2019).ishimura190725
El text.tokuron a(2019).ishimura190725El text.tokuron a(2019).ishimura190725
El text.tokuron a(2019).ishimura190725
 
El text.tokuron a(2019).katagiri190509
El text.tokuron a(2019).katagiri190509El text.tokuron a(2019).katagiri190509
El text.tokuron a(2019).katagiri190509
 
NumPy闇入門
NumPy闇入門NumPy闇入門
NumPy闇入門
 
El text.tokuron a(2019).katagiri190425
El text.tokuron a(2019).katagiri190425El text.tokuron a(2019).katagiri190425
El text.tokuron a(2019).katagiri190425
 
200528material takahashi
200528material takahashi200528material takahashi
200528material takahashi
 
DEEP LEARNING、トレーニング・インファレンスのGPUによる高速化
DEEP LEARNING、トレーニング・インファレンスのGPUによる高速化DEEP LEARNING、トレーニング・インファレンスのGPUによる高速化
DEEP LEARNING、トレーニング・インファレンスのGPUによる高速化
 
Very helpful python code to find coefficients of the finite difference method
Very helpful python code to find coefficients of the finite difference methodVery helpful python code to find coefficients of the finite difference method
Very helpful python code to find coefficients of the finite difference method
 
El text.tokuron a(2019).yoshii190704
El text.tokuron a(2019).yoshii190704El text.tokuron a(2019).yoshii190704
El text.tokuron a(2019).yoshii190704
 
Intel GoldmontとMPXとゆるふわなごや
Intel GoldmontとMPXとゆるふわなごや Intel GoldmontとMPXとゆるふわなごや
Intel GoldmontとMPXとゆるふわなごや
 
More modern gpu
More modern gpuMore modern gpu
More modern gpu
 
2015年度先端GPGPUシミュレーション工学特論 第9回 偏微分方程式の差分計算 (移流方程式)
2015年度先端GPGPUシミュレーション工学特論 第9回 偏微分方程式の差分計算(移流方程式)2015年度先端GPGPUシミュレーション工学特論 第9回 偏微分方程式の差分計算(移流方程式)
2015年度先端GPGPUシミュレーション工学特論 第9回 偏微分方程式の差分計算 (移流方程式)
 
200521material takahashi
200521material takahashi200521material takahashi
200521material takahashi
 
2015年度GPGPU実践プログラミング 第9回 行列計算(行列-行列積)
2015年度GPGPU実践プログラミング 第9回 行列計算(行列-行列積)2015年度GPGPU実践プログラミング 第9回 行列計算(行列-行列積)
2015年度GPGPU実践プログラミング 第9回 行列計算(行列-行列積)
 
2015年度GPGPU実践プログラミング 第4回 GPUでの並列プログラミング(ベクトル和,移動平均,差分法)
2015年度GPGPU実践プログラミング 第4回 GPUでの並列プログラミング(ベクトル和,移動平均,差分法)2015年度GPGPU実践プログラミング 第4回 GPUでの並列プログラミング(ベクトル和,移動平均,差分法)
2015年度GPGPU実践プログラミング 第4回 GPUでの並列プログラミング(ベクトル和,移動平均,差分法)
 

Similar to Hpc148

プログラムを高速化する話Ⅱ 〜GPGPU編〜
プログラムを高速化する話Ⅱ 〜GPGPU編〜プログラムを高速化する話Ⅱ 〜GPGPU編〜
プログラムを高速化する話Ⅱ 〜GPGPU編〜京大 マイコンクラブ
 
電子動力学アプリケーションの最適化2
電子動力学アプリケーションの最適化2電子動力学アプリケーションの最適化2
電子動力学アプリケーションの最適化2RCCSRENKEI
 
Deep learning実装の基礎と実践
Deep learning実装の基礎と実践Deep learning実装の基礎と実践
Deep learning実装の基礎と実践Seiya Tokui
 
Introduction to Chainer (LL Ring Recursive)
Introduction to Chainer (LL Ring Recursive)Introduction to Chainer (LL Ring Recursive)
Introduction to Chainer (LL Ring Recursive)Kenta Oono
 
2015年度GPGPU実践基礎工学 第7回 シングルコアとマルチコア
2015年度GPGPU実践基礎工学 第7回 シングルコアとマルチコア2015年度GPGPU実践基礎工学 第7回 シングルコアとマルチコア
2015年度GPGPU実践基礎工学 第7回 シングルコアとマルチコア智啓 出川
 
CMSI計算科学技術特論B(5) アプリケーションの性能最適化の実例2
CMSI計算科学技術特論B(5) アプリケーションの性能最適化の実例2CMSI計算科学技術特論B(5) アプリケーションの性能最適化の実例2
CMSI計算科学技術特論B(5) アプリケーションの性能最適化の実例2Computational Materials Science Initiative
 
マルチコアを用いた画像処理
マルチコアを用いた画像処理マルチコアを用いた画像処理
マルチコアを用いた画像処理Norishige Fukushima
 
第11回 配信講義 計算科学技術特論B(2022)
第11回 配信講義 計算科学技術特論B(2022)第11回 配信講義 計算科学技術特論B(2022)
第11回 配信講義 計算科学技術特論B(2022)RCCSRENKEI
 
ディープラーニングフレームワーク とChainerの実装
ディープラーニングフレームワーク とChainerの実装ディープラーニングフレームワーク とChainerの実装
ディープラーニングフレームワーク とChainerの実装Ryosuke Okuta
 
Introduction to Chainer and CuPy
Introduction to Chainer and CuPyIntroduction to Chainer and CuPy
Introduction to Chainer and CuPyKenta Oono
 
Chainerの使い方と自然言語処理への応用
Chainerの使い方と自然言語処理への応用Chainerの使い方と自然言語処理への応用
Chainerの使い方と自然言語処理への応用Seiya Tokui
 
ji-5. 繰り返し計算
ji-5. 繰り返し計算ji-5. 繰り返し計算
ji-5. 繰り返し計算kunihikokaneko1
 
ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTUREの他のモジュール・関連プロジェクトの紹介ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTUREの他のモジュール・関連プロジェクトの紹介ADVENTURE Project
 
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages. Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages. Satoshi Kato
 
汎用グラフ処理モデルGIM-Vの複数GPUによる大規模計算とデータ転送の最適化
汎用グラフ処理モデルGIM-Vの複数GPUによる大規模計算とデータ転送の最適化汎用グラフ処理モデルGIM-Vの複数GPUによる大規模計算とデータ転送の最適化
汎用グラフ処理モデルGIM-Vの複数GPUによる大規模計算とデータ転送の最適化Koichi Shirahata
 
2015年度先端GPGPUシミュレーション工学特論 第7回 総和計算(Atomic演算)
2015年度先端GPGPUシミュレーション工学特論 第7回 総和計算(Atomic演算)2015年度先端GPGPUシミュレーション工学特論 第7回 総和計算(Atomic演算)
2015年度先端GPGPUシミュレーション工学特論 第7回 総和計算(Atomic演算)智啓 出川
 
準同型暗号の実装とMontgomery, Karatsuba, FFT の性能
準同型暗号の実装とMontgomery, Karatsuba, FFT の性能準同型暗号の実装とMontgomery, Karatsuba, FFT の性能
準同型暗号の実装とMontgomery, Karatsuba, FFT の性能MITSUNARI Shigeo
 
Python physicalcomputing
Python physicalcomputingPython physicalcomputing
Python physicalcomputingNoboru Irieda
 

Similar to Hpc148 (20)

プログラムを高速化する話Ⅱ 〜GPGPU編〜
プログラムを高速化する話Ⅱ 〜GPGPU編〜プログラムを高速化する話Ⅱ 〜GPGPU編〜
プログラムを高速化する話Ⅱ 〜GPGPU編〜
 
電子動力学アプリケーションの最適化2
電子動力学アプリケーションの最適化2電子動力学アプリケーションの最適化2
電子動力学アプリケーションの最適化2
 
Deep learning実装の基礎と実践
Deep learning実装の基礎と実践Deep learning実装の基礎と実践
Deep learning実装の基礎と実践
 
Introduction to Chainer (LL Ring Recursive)
Introduction to Chainer (LL Ring Recursive)Introduction to Chainer (LL Ring Recursive)
Introduction to Chainer (LL Ring Recursive)
 
2015年度GPGPU実践基礎工学 第7回 シングルコアとマルチコア
2015年度GPGPU実践基礎工学 第7回 シングルコアとマルチコア2015年度GPGPU実践基礎工学 第7回 シングルコアとマルチコア
2015年度GPGPU実践基礎工学 第7回 シングルコアとマルチコア
 
CMSI計算科学技術特論B(5) アプリケーションの性能最適化の実例2
CMSI計算科学技術特論B(5) アプリケーションの性能最適化の実例2CMSI計算科学技術特論B(5) アプリケーションの性能最適化の実例2
CMSI計算科学技術特論B(5) アプリケーションの性能最適化の実例2
 
マルチコアを用いた画像処理
マルチコアを用いた画像処理マルチコアを用いた画像処理
マルチコアを用いた画像処理
 
第11回 配信講義 計算科学技術特論B(2022)
第11回 配信講義 計算科学技術特論B(2022)第11回 配信講義 計算科学技術特論B(2022)
第11回 配信講義 計算科学技術特論B(2022)
 
ディープラーニングフレームワーク とChainerの実装
ディープラーニングフレームワーク とChainerの実装ディープラーニングフレームワーク とChainerの実装
ディープラーニングフレームワーク とChainerの実装
 
Introduction to Chainer and CuPy
Introduction to Chainer and CuPyIntroduction to Chainer and CuPy
Introduction to Chainer and CuPy
 
Rの高速化
Rの高速化Rの高速化
Rの高速化
 
Chainerの使い方と自然言語処理への応用
Chainerの使い方と自然言語処理への応用Chainerの使い方と自然言語処理への応用
Chainerの使い方と自然言語処理への応用
 
ji-5. 繰り返し計算
ji-5. 繰り返し計算ji-5. 繰り返し計算
ji-5. 繰り返し計算
 
画像処理の高性能計算
画像処理の高性能計算画像処理の高性能計算
画像処理の高性能計算
 
ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTUREの他のモジュール・関連プロジェクトの紹介ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTUREの他のモジュール・関連プロジェクトの紹介
 
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages. Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
 
汎用グラフ処理モデルGIM-Vの複数GPUによる大規模計算とデータ転送の最適化
汎用グラフ処理モデルGIM-Vの複数GPUによる大規模計算とデータ転送の最適化汎用グラフ処理モデルGIM-Vの複数GPUによる大規模計算とデータ転送の最適化
汎用グラフ処理モデルGIM-Vの複数GPUによる大規模計算とデータ転送の最適化
 
2015年度先端GPGPUシミュレーション工学特論 第7回 総和計算(Atomic演算)
2015年度先端GPGPUシミュレーション工学特論 第7回 総和計算(Atomic演算)2015年度先端GPGPUシミュレーション工学特論 第7回 総和計算(Atomic演算)
2015年度先端GPGPUシミュレーション工学特論 第7回 総和計算(Atomic演算)
 
準同型暗号の実装とMontgomery, Karatsuba, FFT の性能
準同型暗号の実装とMontgomery, Karatsuba, FFT の性能準同型暗号の実装とMontgomery, Karatsuba, FFT の性能
準同型暗号の実装とMontgomery, Karatsuba, FFT の性能
 
Python physicalcomputing
Python physicalcomputingPython physicalcomputing
Python physicalcomputing
 

Recently uploaded

デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)UEHARA, Tetsutaro
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdftaisei2219
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)Hiroki Ichikura
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfFumieNakayama
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A surveyToru Tamaki
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?akihisamiyanaga1
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfFumieNakayama
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Yuma Ohgami
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...博三 太田
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNetToru Tamaki
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineerYuki Kikuchi
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものですiPride Co., Ltd.
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...Toru Tamaki
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案sugiuralab
 

Recently uploaded (14)

デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
 

Hpc148