SlideShare a Scribd company logo
1 of 100
並列計算への道 2015年版
The Road of Parallel Computing
シンビー
2015/5/1
コンピュータの比較
1976 TK-80 2015 iPad
89,500円
コンピュータ博物館および Apple 社HPより引用
ゲーム機比較
1979 TVブロックゲーム 2013 PlayStation 4
<="">
13,500 円
akiba.geocities.yahoo.co.jp
Playstation.com から引用
初歩のラジオ1980 8月号
taiyoyaro.ocnk.netから引用
ラジオだけにアンプ作成の
記事とかもある フィードバックが
あるのが特徴
noritsugu.at.webry.infoから引用
ないものは作る(1980頃)
noritsugu.at.webry.infoから引用
拡大
★競馬ゲーム”ダービー” ★TVタンク戦争ゲーム
1980 年頃の最新ゲーム機
http://www.areiz6.comから引用
ないから作る
http://www.geocities.jp/shoranosekai/Game-1.html から
中身はこう
C-MOS の IC が 3個使ってあります(4017B×2、4093B×1)
http://www.geocities.jp/shoranosekai/Game-2.html から
4017B
4093B
AND + NOT(NAND)回路
状態遷移マシン
http://www.geocities.jp/shoranosekai/Game-1.html から
状態遷移マシン
入力
出力
CMOS NAND ゲート
中身はMOSFET
でアナログ
n型MOS FET
Wikipediaより引用
トランジスタとFET
バイポーラ・トランジスタはスイッチや増幅といった働
きを入力電流で制御しているのに対して、MOSFETは
入力電圧による電界で制御している。(Wikipediaから)
トランジスタには増幅作用はない??
ベースに貧弱な電流を入れると、入れた電流
に応じて本流の大きな電流を調節できる の
がトランジスタです
トランジスタを使った回路
自己バイアスをかけると安定
フィードバックを
かけると安定
アナログ → デジタル
いろいろなゲート
加算回路(ハーフアダー)
A B C S
0 0 0 0
0 1 0 1
1 0 0 1
1 1 1 0
XOR
AND
加算回路(フルアダー)
前の位からの
繰上
加算回路(フルアダー)
前の位からの
繰上
複数ビットの加算器
AND/OR 回路の
組み合わせで
加算器ができる
乗算器
idlef54a.blog.fc2.comから引用
2の補数
• 2の補数を使うと
– 足し算だけで引き算ができる
• 4bit の引き算: 0100 – 0011 を考える(4-3)
• 0100 – 0011
• 0100 + (0011 の2の補数)
• 0100 + (1100 + 1)
• 0100 + 1101
• 0100 + 1101 => 10001 => 0001
除算器
www.geocities.jp/hiroyuki0620785/intercomp/logic/adder/Divider.htm
から引用
AND/OR → 加減ジョジョ
加減
乗算 除算
1979 の電卓
時計機能付手帳電卓
8桁液晶表示
7,900円
casio.ledudu.comから引用
RSフリップフロップ
出力が入力へ
フィードバック
AND/OR → 加減乗除+記憶
加減
乗算 除算
FF
Dフリップフロップ
AND/OR → 加減乗除+記憶+クロック
加減
乗算 除算
FF
Intel 4004
1971年発表、4ビットマイクロプロセッサである。
クロック周波数は、500kHzから741kHz
ムーアの法則
集積回路上のトランジスタ数は「18か月(=1.5年)ごとに倍になる」
Intel HP から引用(?)
アナログ → デジタル
実際のリコンウエハ
d.hatena.ne.jp/SuperPC_JUNS から引用
コンピュータの比較
1976 TK-80
• 8bit CPU
• 2.4576MHz
• ROM:256 B
• RAM:128 B
2015 NEC PC
• 64bit CPU
• 3.6 GHz(4.0GHz)
• HDD:1T
• RAM:16G
科学技術計算例
void matrixmultiply(double a[N][N],double b[N][N],double c[N][N])
{
int i,j,k;
for(i=0;i<N;i++) {
for(j=0;j<N;j++) {
for(k=0;k<N;k++) {
c[i][j]+=a[i][k]*b[k][j];
}
}
}
}
1976→2010
1976 TK-80
• 8bit CPU
• 2.4576MHz
• ROM:256 B
• RAM:128 B
2010 NEC PC
• 64bit CPU
• 3.6 GHz(4.0GHz)
• HDD:1T
• RAM:16G
void matrixmultiply(double a[N][N],double b[N][N],double c[N][N])
{
int i,j,k;
for(i=0;i<N;i++) {
for(j=0;j<N;j++) {
for(k=0;k<N;k++) {
c[i][j]+=a[i][k]*b[k][j];
}
}
}
}
勝手に1000倍以上早くなる
クロック周波数は頭打ち
acm.org から引用
1976→2010→2015
1976
• 2.5MHz
2010
• 3.0MHz
2015
• 4.0MHz
勝手に1000倍以上早くなる 勝手にはそうそう早くならない
2010→2015
2010 Core i7 (Lynnfield)
• 3.06GHz
• コア数 4(8)
2015 Core i7 Extreme(Haswell)
• 3.0GHz(3.5GHz)
• コア数 8(16)
2010 Xeon (Lynnfield)
• 3.06GHz
• コア数 4(8)
2015 Xeon E5-2699 v3(Haswell)
• 2.3GHz(3.6GHz)
• コア数 18(36)
メニーコア時代に突入
wccftech.com から引用
積和演算(行列演算)
並列計算が
可能
こう書いても早くならない
void matrixmultiply(double a[N][N],double b[N][N],double c[N][N])
{
int i,j,k;
for(i=0;i<N;i++) {
for(j=0;j<N;j++) {
for(k=0;k<N;k++) {
c[i][j]+=a[i][k]*b[k][j];
}
}
}
}
それぞれを独立して計算すれば
早くなる
それぞれを独立して計算すれば
早くなる
処理を各コアに割り当てる
(スレッド対応)
並列化の方法
• スレッド
• OpenMP
• MPI
• Intel Threading Building Blocks(TBB)
• GPGPU
– OpenCL
– CUDA
• Parallella (Epiphany)
• FPGAで専用ハードを作る
Agenda
• GPGPU
– OpenCL
– CUDA
• Parallella (Epiphany)
• FPGAで専用ハードを作る
• 何を計算させるか?
GPGPU を使う方法
• GPU = Graphics Processing Unit
16,480円
3Dのゲームに強い
msi.com から引用(?)
GTX 750i
CUDA コア 640
クロック 1.02 GHz(1.085G)
メモリインタフェース 128-bit GDDR5
Processing Power 1306GFlops(Single float)
Wikipediaより
Intel Xeon E5-2699 v3(Haswell)
16~18コア
569,915 円
VS?? Intel Xeon??
16,480円
547.2Gflops
16,480円
GTX 750i vs スパコン??
CUDA コア 640
クロック 1.02 GHz(1.085G)
メモリインタフェース 128-bit GDDR5
Processing Power 1306GFlops(Single float)
Wikipediaより
PRIMEHPC FX10
2014 理研が購入
384ノードx16コア =6144
2億円~
90.8TFLOPS
69倍以上の性能差?
GTX750i (Maxwell)の本当の姿
5基のMaxwell
ストリーミング・
プロセッサ
(SMM)
nvidia.com から引用
SMMの中身
4つのインストラク
ションバッファ
細かいところは企業秘密らしい
インストラクションバッファが4つ
ということはCPU的なCOREが4つ?
メモリサイズは?不明
キャッシュサイズも不明
COREがいっぱい
CORE =演算ユニット
CPU ではない
GTX 750i vs Intel Xeon
GTX750i Xeon E5-2699
CPU 的コア 20? 36
クロック 1.02 GHz
(1.085G)
2.3GHz
(3.6GHz)
計算用Core 640 8?x36=288
理論GFLOPSから逆算
GFLOPS 1306 547.2
569,915 円16,480円
GPUに特化した
プロセッサー
OSも載る汎用
プロセッサー
CUDAコアが640あるが
それを効率的に生かせるかどうかは
対象となるアプリしだい
スパコンのFLOPSと比べるのはおそらくナンセンスでしょう
GPUが強みを発揮する分野
一つ一つの処理の関連性
が薄いポリゴンの計算
=Graphic Processing
GPGPU
科学技術計算とかにつかえるのでは?
2001
プログラマブルGPU「GeForce3」
General-purpose computing on graphics processing units
This example performs an NBody simulation which calculates a gravity field and
corresponding velocity and acceleration contributions accumulated by each body in
the system from every other body. This example also shows how to mitigate
computation between all available devices including CPU and GPU devices, as well as
a hybrid combination of both, using separate threads for each simulator
CUDA開発環境1/2
NVIDIAが提供するGPU向けの
C言語の統合開発環境であり、
コンパイラ (nvcc) やライブラリ
などから構成されている。
CUDA開発環境2/2
CUDAの処理の流れ
OpenCL
khronosu.org から引用
OpenCL vs CUDA
CUDA
• nVIDIA という企
業の技術
• C/C++を使う
OpenCL
• KHRONOS とい
う団体が推奨
している一般
技術
• C ライクな言語
を使う
Intel や AMDの製品では CUDAは使えない
amd.com から引用
まとめ:CPU vs GPU
CPU
• 2.0~4.0 GHz
• 4~36 コア
• 汎用的なコア
• ~ 288 の演算器
GPU(GTX750i)
• 1GHz 程度
• 20(程度) のCPU的コア
• GPUに特化したコア
• 640 の CUDA コア
あくまでCPUを補助する
特定分野に強い計算機
CPUとGPUを比べるのはおそらくナンセンスでしょう
参考:Tesla K80
nVIDIA社のサーバ用
GPGPU
グラフィックスプロセッサ NVIDIA® GK210 ×2
CUDAコアプロセッサ 4992コア (1GPUあたり2496コア)
倍精度浮動小数点性能 2.91 TFlops (GPU Boost Clocks)
1.87 Tflops (Base Clocks)
単精度浮動小数点性能 8.74 Tflops (GPU Boost Clocks)
5.6 Tflops (Base Clocks)
グラフィックカードではないので
表示をする機能がない
参考:TSUBAME(つばめ)
東京工業大学に設置された大規模クラスター型
スーパーコンピュータの名称。
Linpackベンチマークで38.18TFLOPSを達成し、
2006年6月の世界のスーパーコンピュータ性能
ランキングTOP500において、7位にランクインし
た
TSUBAME 2.5
"THIN"ノード (1408ノード) -- HP SL390s G7, Xeon X5670 2つ, NVIDIA Tesla K20X 3つ, メモリ 54GiB or 96GiB
"Medium"ノード (24ノード) -- HP DL580 G7, Xeon 7550 4つ, NVIDIA Tesla S1070 or S2070, メモリ 128GiB
"Fat"ノード (10ノード) -- HP DL580 G7, Xeon 7550 4つ, NVIDIA Tesla S1070, メモリ 256GiB or 512GiB
Amazonで
78,800
Amazonで
¥ 492,156
参考:スパコンTOP500(2014 Nov.)
既製品をつかっていて、
意外とすごみがない
価格comで345,275
780億円!!
83,807 * 35040 = 28億円
ベンチマーク早くても意味なし
• どんな計算をさせるかの方が重要!!
早稲田大学のスパコン事情
2011年3月3日
早稲田大学の「グリーン・コンピューティング・システム研究開発センター」
に先行納入
8コアPOWER7®プロセッサーを用いた世界最大級の空冷128コア
SMP(Symmetric Multi-Processor)システム
1ノードあたり約8.2TFLOPSの理論ピーク性能
2007年12月25日
日本SGI が 早稲田大学・笠原研究室にミッドレンジサーバ「Altix 450」を納
入
「デュアルコア Itanium 2」を、1システム当たり16コアを搭載
SGI Altix 450 1Node
0.24TFLOPS = 13GFLOPS×18CPUs(36cores)
CPU : Intel Itanium 9140M 1.66GHz dual-core
Memory : 512GB/nodes
Agenda
• GPGPU
– OpenCL
– CUDA
• Parallella (Epiphany)
• FPGAで専用ハードを作る
• 何を計算させるか?
Parallellaについて
• Parallella は Adapteva社が販売をしている
– Epiphany というマルチコアチップ
– 並列コンピューティングをターゲット
– 名刺サイズのコンピュータ
17,318 ~ 34,493
Parallella の中身
マルチコア
(Epiphany)
コアが高速ネットワーク(メッシュ)で
つながれている
ネットワークで
つながれている
コアの中身
メモリ
演算器が2つ
GPU vs Parallella
GPU(GTX750i)
• 1.02GHz
• 20(程度) のCPU的コア
• GPUに特化したコア
• 640 の CUDA コア
• 詳細スペック未公開
– PTXコードと呼ばれる仮想的
なコードだけ公開
• 1306 GFLOPS(Peak Performance)
– 640 * 2 * 1.02GHz
Parallella(Epiphany)
• 1GHz
• 16個のEpiphany(拡張可能)
• 汎用CPU
• 演算器2つ
• 32K バイトのローカルメモリ
• DMAエンジン
• 32 GFLOPS (Peak Performance)
– 16 x 2 x 1 GHz
GPUとParallellaを比べるのはおそらくナンセンスでしょう
Parallella タワー
128 GFLOPS!!
おまけ:8192 GFLOPS!!
Parallella について、詳しくは
細かい話は記事
を読んでください。
Parallella まとめ
• Parallella をつかうと“なにか”できそう。
– C/C++ でプログラミングができる
Agenda
• GPGPU
– OpenCL
– CUDA
• Parallella (Epiphany)
• FPGAで専用ハードを作る
• 何を計算させるか?
FPGAとはなにか?
• Field Programmable Gate Array の略
自分の好
きな回路
を書ける
xilinx.com から引用(?)
Lチカ(LED チカチカ)
SW
いろんな回路を作ることができる
クロックに同期した処理が得意
FPGA で画像処理の例
1920×1080@60P なら
150MHz のスピードの入力
メモリにためることなく
リアルタイムで出力
FPGA の特徴
• 自分で回路を組むことができる
– 並列処理で特殊処理を組むことが可能
• ソフトウェアでは達成できないタイミングの処理、
とりわけクロックに同期する処理を可能とする
– 処理時間が一定しない処理は苦手
• 動作スピードは 100MHz ~ 200MHz
– 中には特殊な機能を積んであるチップで 1G Hzを超
える入出力も可能なものもある。その場合でも、内部
は 100MHz ~ 200MHz
Agenda
• GPGPU
– OpenCL
– CUDA
• Parallella (Epiphany)
• FPGAで専用ハードを作る
• 何を計算させるか?
比較
動作クロッ
ク
クロックに
同期した
処理
並列
処理
整数
演算
(浮動)
小数点
演算
階層
のあ
る処
理
柔軟
性
PC(intel) 3G~ × ▽ ○ ○ ◎ ◎
GPGPU 1~2G × ◎ ○ ◎ ▽ ○
FPGA 100M~
200M
◎ ◎ ○ ▽ ▽ ▽
動作クロックを
考えるとPCが圧
倒的に早い
クロック同期をす
るような処理は
FPGAが断然得意
並列処理は
GPGPU もFPGAも得
ルートの計算や割
り算はPCがGPGPU
が得意。積和演算
ならFPGAも得意
階層のある(再帰
処理のある)処理
はPCが得意
何を計算させるか?
• マンデンブロ集合?
– 並列処理のデモとして格
好の対象
• それぞれの計算が独立
• 分割が用意
– 入力がない
• 入力データがなく、結果は
出力だけ
並列計算の流れ
処理
分割 割り振り
結果を
集約
おさらい
CUDA での処理 Parallella の内部構造
ネットワークを通し
てデータのやり取り
ネットワークで
繋がれている
並列処理のコスト
• 計算のコスト
• ネットワークのコスト
– 処理を割り振るときにネットワークを使用する
– 処理結果を得るときにネットワークを使用する
並列計算(例1)
60
10
10
10
10
10
10
5
入力のコスト 出力のコスト
5
トータルの時間=5 + 10 + 5
並列計算(例2)
60
10
10
10
10
10
10
5
入力のコスト 出力のコスト
5
トータルの時間=5 + 10 + 10 + 5
計算に順序性が
ある
並列計算(例3)
60
5
5
入力のコスト 出力のコスト
5
トータルの時間=5 + 5 + 5 + 5 + 5 + 5 + 5 + 5
パイプライン化
粒度が細かければ
効果的
5 5
5 5 5
5
5 5 5 5
5
最適な手段はケースバイケース
• 4GHz CPU で単純に計算した方が早い
• 1GHz の GPGPU で並列計算した方が早い
• 100MHz の FPGA で並列計算した方が早い
• 関連する項目
– 並列の粒度
– 順序性
– ネットワークのスピード
– ノード計算能力
力尽きたのでこの辺で終わり

More Related Content

What's hot

Jetson Xavier NX クラウドネイティブをエッジに
Jetson Xavier NX クラウドネイティブをエッジにJetson Xavier NX クラウドネイティブをエッジに
Jetson Xavier NX クラウドネイティブをエッジにNVIDIA Japan
 
[B23] PostgreSQLのインデックス・チューニング by Tomonari Katsumata
[B23] PostgreSQLのインデックス・チューニング by Tomonari Katsumata[B23] PostgreSQLのインデックス・チューニング by Tomonari Katsumata
[B23] PostgreSQLのインデックス・チューニング by Tomonari KatsumataInsight Technology, Inc.
 
A100 GPU 搭載! P4d インスタンス 使いこなしのコツ
A100 GPU 搭載! P4d インスタンス使いこなしのコツA100 GPU 搭載! P4d インスタンス使いこなしのコツ
A100 GPU 搭載! P4d インスタンス 使いこなしのコツKuninobu SaSaki
 
[Track2-2] 最新のNVIDIA AmpereアーキテクチャによるNVIDIA A100 TensorコアGPUの特長とその性能を引き出す方法
[Track2-2] 最新のNVIDIA AmpereアーキテクチャによるNVIDIA A100 TensorコアGPUの特長とその性能を引き出す方法[Track2-2] 最新のNVIDIA AmpereアーキテクチャによるNVIDIA A100 TensorコアGPUの特長とその性能を引き出す方法
[Track2-2] 最新のNVIDIA AmpereアーキテクチャによるNVIDIA A100 TensorコアGPUの特長とその性能を引き出す方法Deep Learning Lab(ディープラーニング・ラボ)
 
Automatic Mixed Precision の紹介
Automatic Mixed Precision の紹介Automatic Mixed Precision の紹介
Automatic Mixed Precision の紹介Kuninobu SaSaki
 
Pythonによる並列プログラミング -GPGPUも-
Pythonによる並列プログラミング   -GPGPUも- Pythonによる並列プログラミング   -GPGPUも-
Pythonによる並列プログラミング -GPGPUも- Yusaku Watanabe
 
【Unity道場スペシャル 2018京都】最新機能オーバービュー ~2018から2019~
【Unity道場スペシャル 2018京都】最新機能オーバービュー ~2018から2019~【Unity道場スペシャル 2018京都】最新機能オーバービュー ~2018から2019~
【Unity道場スペシャル 2018京都】最新機能オーバービュー ~2018から2019~Unity Technologies Japan K.K.
 
2015年度GPGPU実践基礎工学 第15回 GPGPU開発環境 (OpenCL)
2015年度GPGPU実践基礎工学 第15回 GPGPU開発環境(OpenCL)2015年度GPGPU実践基礎工学 第15回 GPGPU開発環境(OpenCL)
2015年度GPGPU実践基礎工学 第15回 GPGPU開発環境 (OpenCL)智啓 出川
 
NVIDIA deep learning最新情報in沖縄
NVIDIA deep learning最新情報in沖縄NVIDIA deep learning最新情報in沖縄
NVIDIA deep learning最新情報in沖縄Tak Izaki
 
kagamicomput201705
kagamicomput201705kagamicomput201705
kagamicomput201705swkagami
 
Gpu deep learning community設立について0913
Gpu deep learning community設立について0913Gpu deep learning community設立について0913
Gpu deep learning community設立について0913Tomokazu Kanazawa
 
Fpga online seminar by fixstars (1st)
Fpga online seminar by fixstars (1st)Fpga online seminar by fixstars (1st)
Fpga online seminar by fixstars (1st)Fixstars Corporation
 
[20170922 Sapporo Tech Bar] 地図用データを高速処理!オープンソースGPUデータベースMapDってどんなもの?? by 株式会社...
[20170922 Sapporo Tech Bar] 地図用データを高速処理!オープンソースGPUデータベースMapDってどんなもの?? by 株式会社...[20170922 Sapporo Tech Bar] 地図用データを高速処理!オープンソースGPUデータベースMapDってどんなもの?? by 株式会社...
[20170922 Sapporo Tech Bar] 地図用データを高速処理!オープンソースGPUデータベースMapDってどんなもの?? by 株式会社...Insight Technology, Inc.
 
第162回情報処理学会ハイパフォーマンスコンピューティング研究発表会
第162回情報処理学会ハイパフォーマンスコンピューティング研究発表会第162回情報処理学会ハイパフォーマンスコンピューティング研究発表会
第162回情報処理学会ハイパフォーマンスコンピューティング研究発表会Hitoshi Sato
 
Singularityで分散深層学習
Singularityで分散深層学習Singularityで分散深層学習
Singularityで分散深層学習Hitoshi Sato
 
NVIDIA TESLA V100・CUDA 9 のご紹介
NVIDIA TESLA V100・CUDA 9 のご紹介NVIDIA TESLA V100・CUDA 9 のご紹介
NVIDIA TESLA V100・CUDA 9 のご紹介NVIDIA Japan
 
関東GPGPU勉強会資料
関東GPGPU勉強会資料関東GPGPU勉強会資料
関東GPGPU勉強会資料Kimikazu Kato
 

What's hot (20)

Jetson Xavier NX クラウドネイティブをエッジに
Jetson Xavier NX クラウドネイティブをエッジにJetson Xavier NX クラウドネイティブをエッジに
Jetson Xavier NX クラウドネイティブをエッジに
 
[B23] PostgreSQLのインデックス・チューニング by Tomonari Katsumata
[B23] PostgreSQLのインデックス・チューニング by Tomonari Katsumata[B23] PostgreSQLのインデックス・チューニング by Tomonari Katsumata
[B23] PostgreSQLのインデックス・チューニング by Tomonari Katsumata
 
2016nov22 gdlc02 nvidia
2016nov22 gdlc02 nvidia2016nov22 gdlc02 nvidia
2016nov22 gdlc02 nvidia
 
A100 GPU 搭載! P4d インスタンス 使いこなしのコツ
A100 GPU 搭載! P4d インスタンス使いこなしのコツA100 GPU 搭載! P4d インスタンス使いこなしのコツ
A100 GPU 搭載! P4d インスタンス 使いこなしのコツ
 
[Track2-2] 最新のNVIDIA AmpereアーキテクチャによるNVIDIA A100 TensorコアGPUの特長とその性能を引き出す方法
[Track2-2] 最新のNVIDIA AmpereアーキテクチャによるNVIDIA A100 TensorコアGPUの特長とその性能を引き出す方法[Track2-2] 最新のNVIDIA AmpereアーキテクチャによるNVIDIA A100 TensorコアGPUの特長とその性能を引き出す方法
[Track2-2] 最新のNVIDIA AmpereアーキテクチャによるNVIDIA A100 TensorコアGPUの特長とその性能を引き出す方法
 
Automatic Mixed Precision の紹介
Automatic Mixed Precision の紹介Automatic Mixed Precision の紹介
Automatic Mixed Precision の紹介
 
Pythonによる並列プログラミング -GPGPUも-
Pythonによる並列プログラミング   -GPGPUも- Pythonによる並列プログラミング   -GPGPUも-
Pythonによる並列プログラミング -GPGPUも-
 
【Unity道場スペシャル 2018京都】最新機能オーバービュー ~2018から2019~
【Unity道場スペシャル 2018京都】最新機能オーバービュー ~2018から2019~【Unity道場スペシャル 2018京都】最新機能オーバービュー ~2018から2019~
【Unity道場スペシャル 2018京都】最新機能オーバービュー ~2018から2019~
 
2015年度GPGPU実践基礎工学 第15回 GPGPU開発環境 (OpenCL)
2015年度GPGPU実践基礎工学 第15回 GPGPU開発環境(OpenCL)2015年度GPGPU実践基礎工学 第15回 GPGPU開発環境(OpenCL)
2015年度GPGPU実践基礎工学 第15回 GPGPU開発環境 (OpenCL)
 
NVIDIA deep learning最新情報in沖縄
NVIDIA deep learning最新情報in沖縄NVIDIA deep learning最新情報in沖縄
NVIDIA deep learning最新情報in沖縄
 
kagamicomput201705
kagamicomput201705kagamicomput201705
kagamicomput201705
 
Gpu deep learning community設立について0913
Gpu deep learning community設立について0913Gpu deep learning community設立について0913
Gpu deep learning community設立について0913
 
Cuda
CudaCuda
Cuda
 
Fpga online seminar by fixstars (1st)
Fpga online seminar by fixstars (1st)Fpga online seminar by fixstars (1st)
Fpga online seminar by fixstars (1st)
 
[20170922 Sapporo Tech Bar] 地図用データを高速処理!オープンソースGPUデータベースMapDってどんなもの?? by 株式会社...
[20170922 Sapporo Tech Bar] 地図用データを高速処理!オープンソースGPUデータベースMapDってどんなもの?? by 株式会社...[20170922 Sapporo Tech Bar] 地図用データを高速処理!オープンソースGPUデータベースMapDってどんなもの?? by 株式会社...
[20170922 Sapporo Tech Bar] 地図用データを高速処理!オープンソースGPUデータベースMapDってどんなもの?? by 株式会社...
 
GPUサーバーたくさん使うのいいけど置く場所とかどうするの?的なお話
GPUサーバーたくさん使うのいいけど置く場所とかどうするの?的なお話GPUサーバーたくさん使うのいいけど置く場所とかどうするの?的なお話
GPUサーバーたくさん使うのいいけど置く場所とかどうするの?的なお話
 
第162回情報処理学会ハイパフォーマンスコンピューティング研究発表会
第162回情報処理学会ハイパフォーマンスコンピューティング研究発表会第162回情報処理学会ハイパフォーマンスコンピューティング研究発表会
第162回情報処理学会ハイパフォーマンスコンピューティング研究発表会
 
Singularityで分散深層学習
Singularityで分散深層学習Singularityで分散深層学習
Singularityで分散深層学習
 
NVIDIA TESLA V100・CUDA 9 のご紹介
NVIDIA TESLA V100・CUDA 9 のご紹介NVIDIA TESLA V100・CUDA 9 のご紹介
NVIDIA TESLA V100・CUDA 9 のご紹介
 
関東GPGPU勉強会資料
関東GPGPU勉強会資料関東GPGPU勉強会資料
関東GPGPU勉強会資料
 

Similar to 並列計算への道 2015年版

OSC 2012 Hokkaido でのプレゼン資料
OSC 2012 Hokkaido でのプレゼン資料OSC 2012 Hokkaido でのプレゼン資料
OSC 2012 Hokkaido でのプレゼン資料Shin-ya Koga
 
kagamicomput201805
kagamicomput201805kagamicomput201805
kagamicomput201805swkagami
 
FPGAによる大規模データ処理の高速化
FPGAによる大規模データ処理の高速化FPGAによる大規模データ処理の高速化
FPGAによる大規模データ処理の高速化Kazunori Sato
 
45分で理解する 最近のスパコン事情 斉藤之雄
45分で理解する 最近のスパコン事情 斉藤之雄45分で理解する 最近のスパコン事情 斉藤之雄
45分で理解する 最近のスパコン事情 斉藤之雄Yukio Saito
 
新型登場!! Surface Book 3 / Surface Go 2
新型登場!! Surface Book 3 / Surface Go 2新型登場!! Surface Book 3 / Surface Go 2
新型登場!! Surface Book 3 / Surface Go 2Tomokazu Kizawa
 
kagami_comput2015_5
kagami_comput2015_5kagami_comput2015_5
kagami_comput2015_5swkagami
 
【関東GPGPU勉強会#4】GTX 1080でComputer Vision アルゴリズムを色々動かしてみる
【関東GPGPU勉強会#4】GTX 1080でComputer Visionアルゴリズムを色々動かしてみる【関東GPGPU勉強会#4】GTX 1080でComputer Visionアルゴリズムを色々動かしてみる
【関東GPGPU勉強会#4】GTX 1080でComputer Vision アルゴリズムを色々動かしてみるYasuhiro Yoshimura
 
【たぶん日本初導入!】Azure Stack Hub with GPUの性能と機能紹介
【たぶん日本初導入!】Azure Stack Hub with GPUの性能と機能紹介【たぶん日本初導入!】Azure Stack Hub with GPUの性能と機能紹介
【たぶん日本初導入!】Azure Stack Hub with GPUの性能と機能紹介NTT Communications Technology Development
 
kagami_comput2016_05
kagami_comput2016_05kagami_comput2016_05
kagami_comput2016_05swkagami
 
[C31]世界最速カラムナーDBは本物だ! by Daisuke Hirama
[C31]世界最速カラムナーDBは本物だ! by Daisuke Hirama[C31]世界最速カラムナーDBは本物だ! by Daisuke Hirama
[C31]世界最速カラムナーDBは本物だ! by Daisuke HiramaInsight Technology, Inc.
 
CUDAプログラミング入門
CUDAプログラミング入門CUDAプログラミング入門
CUDAプログラミング入門NVIDIA Japan
 
インフラ野郎AzureチームProX
インフラ野郎AzureチームProXインフラ野郎AzureチームProX
インフラ野郎AzureチームProXToru Makabe
 
20170421 tensor flowusergroup
20170421 tensor flowusergroup20170421 tensor flowusergroup
20170421 tensor flowusergroupManaMurakami1
 
[db tech showcase Tokyo 2016] D13: NVMeフラッシュストレージを用いた高性能高拡張高可用なデータベースシステムの実現方...
[db tech showcase Tokyo 2016] D13: NVMeフラッシュストレージを用いた高性能高拡張高可用なデータベースシステムの実現方...[db tech showcase Tokyo 2016] D13: NVMeフラッシュストレージを用いた高性能高拡張高可用なデータベースシステムの実現方...
[db tech showcase Tokyo 2016] D13: NVMeフラッシュストレージを用いた高性能高拡張高可用なデータベースシステムの実現方...Insight Technology, Inc.
 
[db tech showcase Sapporo 2015] B14:データベース環境における検証結果から理解する失敗しないフラッシュ活用法 第二章 b...
[db tech showcase Sapporo 2015] B14:データベース環境における検証結果から理解する失敗しないフラッシュ活用法 第二章 b...[db tech showcase Sapporo 2015] B14:データベース環境における検証結果から理解する失敗しないフラッシュ活用法 第二章 b...
[db tech showcase Sapporo 2015] B14:データベース環境における検証結果から理解する失敗しないフラッシュ活用法 第二章 b...Insight Technology, Inc.
 
Getting Started with Jetson Nano
Getting Started with Jetson NanoGetting Started with Jetson Nano
Getting Started with Jetson NanoNVIDIA Japan
 
GPU クラウド コンピューティング
GPU クラウド コンピューティングGPU クラウド コンピューティング
GPU クラウド コンピューティングNVIDIA Japan
 
[db analytics showcase Sapporo 2017] B14: GPU コンピューティング最前線 by エヌビディア 佐々木邦暢
[db analytics showcase Sapporo 2017] B14: GPU コンピューティング最前線 by エヌビディア 佐々木邦暢[db analytics showcase Sapporo 2017] B14: GPU コンピューティング最前線 by エヌビディア 佐々木邦暢
[db analytics showcase Sapporo 2017] B14: GPU コンピューティング最前線 by エヌビディア 佐々木邦暢Insight Technology, Inc.
 
openstack_neutron-dvr_os5thaniv_20150713
openstack_neutron-dvr_os5thaniv_20150713openstack_neutron-dvr_os5thaniv_20150713
openstack_neutron-dvr_os5thaniv_20150713Takehiro Kudou
 

Similar to 並列計算への道 2015年版 (20)

OSC 2012 Hokkaido でのプレゼン資料
OSC 2012 Hokkaido でのプレゼン資料OSC 2012 Hokkaido でのプレゼン資料
OSC 2012 Hokkaido でのプレゼン資料
 
kagamicomput201805
kagamicomput201805kagamicomput201805
kagamicomput201805
 
FPGAによる大規模データ処理の高速化
FPGAによる大規模データ処理の高速化FPGAによる大規模データ処理の高速化
FPGAによる大規模データ処理の高速化
 
45分で理解する 最近のスパコン事情 斉藤之雄
45分で理解する 最近のスパコン事情 斉藤之雄45分で理解する 最近のスパコン事情 斉藤之雄
45分で理解する 最近のスパコン事情 斉藤之雄
 
新型登場!! Surface Book 3 / Surface Go 2
新型登場!! Surface Book 3 / Surface Go 2新型登場!! Surface Book 3 / Surface Go 2
新型登場!! Surface Book 3 / Surface Go 2
 
kagami_comput2015_5
kagami_comput2015_5kagami_comput2015_5
kagami_comput2015_5
 
【関東GPGPU勉強会#4】GTX 1080でComputer Vision アルゴリズムを色々動かしてみる
【関東GPGPU勉強会#4】GTX 1080でComputer Visionアルゴリズムを色々動かしてみる【関東GPGPU勉強会#4】GTX 1080でComputer Visionアルゴリズムを色々動かしてみる
【関東GPGPU勉強会#4】GTX 1080でComputer Vision アルゴリズムを色々動かしてみる
 
【たぶん日本初導入!】Azure Stack Hub with GPUの性能と機能紹介
【たぶん日本初導入!】Azure Stack Hub with GPUの性能と機能紹介【たぶん日本初導入!】Azure Stack Hub with GPUの性能と機能紹介
【たぶん日本初導入!】Azure Stack Hub with GPUの性能と機能紹介
 
kagami_comput2016_05
kagami_comput2016_05kagami_comput2016_05
kagami_comput2016_05
 
[C31]世界最速カラムナーDBは本物だ! by Daisuke Hirama
[C31]世界最速カラムナーDBは本物だ! by Daisuke Hirama[C31]世界最速カラムナーDBは本物だ! by Daisuke Hirama
[C31]世界最速カラムナーDBは本物だ! by Daisuke Hirama
 
CUDAプログラミング入門
CUDAプログラミング入門CUDAプログラミング入門
CUDAプログラミング入門
 
インフラ野郎AzureチームProX
インフラ野郎AzureチームProXインフラ野郎AzureチームProX
インフラ野郎AzureチームProX
 
20170421 tensor flowusergroup
20170421 tensor flowusergroup20170421 tensor flowusergroup
20170421 tensor flowusergroup
 
[db tech showcase Tokyo 2016] D13: NVMeフラッシュストレージを用いた高性能高拡張高可用なデータベースシステムの実現方...
[db tech showcase Tokyo 2016] D13: NVMeフラッシュストレージを用いた高性能高拡張高可用なデータベースシステムの実現方...[db tech showcase Tokyo 2016] D13: NVMeフラッシュストレージを用いた高性能高拡張高可用なデータベースシステムの実現方...
[db tech showcase Tokyo 2016] D13: NVMeフラッシュストレージを用いた高性能高拡張高可用なデータベースシステムの実現方...
 
[db tech showcase Sapporo 2015] B14:データベース環境における検証結果から理解する失敗しないフラッシュ活用法 第二章 b...
[db tech showcase Sapporo 2015] B14:データベース環境における検証結果から理解する失敗しないフラッシュ活用法 第二章 b...[db tech showcase Sapporo 2015] B14:データベース環境における検証結果から理解する失敗しないフラッシュ活用法 第二章 b...
[db tech showcase Sapporo 2015] B14:データベース環境における検証結果から理解する失敗しないフラッシュ活用法 第二章 b...
 
Getting Started with Jetson Nano
Getting Started with Jetson NanoGetting Started with Jetson Nano
Getting Started with Jetson Nano
 
GPU クラウド コンピューティング
GPU クラウド コンピューティングGPU クラウド コンピューティング
GPU クラウド コンピューティング
 
Cmc cmd slim
Cmc cmd slimCmc cmd slim
Cmc cmd slim
 
[db analytics showcase Sapporo 2017] B14: GPU コンピューティング最前線 by エヌビディア 佐々木邦暢
[db analytics showcase Sapporo 2017] B14: GPU コンピューティング最前線 by エヌビディア 佐々木邦暢[db analytics showcase Sapporo 2017] B14: GPU コンピューティング最前線 by エヌビディア 佐々木邦暢
[db analytics showcase Sapporo 2017] B14: GPU コンピューティング最前線 by エヌビディア 佐々木邦暢
 
openstack_neutron-dvr_os5thaniv_20150713
openstack_neutron-dvr_os5thaniv_20150713openstack_neutron-dvr_os5thaniv_20150713
openstack_neutron-dvr_os5thaniv_20150713
 

More from ryos36

Pycairo を使ってみる その1
Pycairo を使ってみる その1Pycairo を使ってみる その1
Pycairo を使ってみる その1ryos36
 
ストーリーとは
ストーリーとはストーリーとは
ストーリーとはryos36
 
CNN でテニス選手の動きを解析する
CNN でテニス選手の動きを解析するCNN でテニス選手の動きを解析する
CNN でテニス選手の動きを解析するryos36
 
Polyphony の行く末(2018/3/3)
Polyphony の行く末(2018/3/3)Polyphony の行く末(2018/3/3)
Polyphony の行く末(2018/3/3)ryos36
 
Polyphony の並列化
Polyphony の並列化Polyphony の並列化
Polyphony の並列化ryos36
 
Polyphony 新機能ツアー
Polyphony 新機能ツアーPolyphony 新機能ツアー
Polyphony 新機能ツアーryos36
 
Polyphony: Python ではじめる FPGA
Polyphony: Python ではじめる FPGAPolyphony: Python ではじめる FPGA
Polyphony: Python ではじめる FPGAryos36
 
Stellaris を使った組み込みアプリ開発ガイド
Stellaris を使った組み込みアプリ開発ガイドStellaris を使った組み込みアプリ開発ガイド
Stellaris を使った組み込みアプリ開発ガイドryos36
 
研究者のための Python による FPGA 入門
研究者のための Python による FPGA 入門研究者のための Python による FPGA 入門
研究者のための Python による FPGA 入門ryos36
 
数値計算のための Python + FPGA
数値計算のための Python + FPGA数値計算のための Python + FPGA
数値計算のための Python + FPGAryos36
 
Polyphony IO まとめ
Polyphony IO まとめPolyphony IO まとめ
Polyphony IO まとめryos36
 
PYNQ 祭り: Pmod のプログラミング
PYNQ 祭り: Pmod のプログラミングPYNQ 祭り: Pmod のプログラミング
PYNQ 祭り: Pmod のプログラミングryos36
 
SDSoC でストリーム
SDSoC でストリームSDSoC でストリーム
SDSoC でストリームryos36
 
Analog Devices の IP コアを使う
Analog Devices の IP コアを使うAnalog Devices の IP コアを使う
Analog Devices の IP コアを使うryos36
 
SDSoC と Vivado
SDSoC と VivadoSDSoC と Vivado
SDSoC と Vivadoryos36
 
高速化のポイント
高速化のポイント高速化のポイント
高速化のポイントryos36
 
20周遅れ
20周遅れ20周遅れ
20周遅れryos36
 
90分 Scheme to C(勝手に抄訳版)
90分 Scheme to C(勝手に抄訳版)90分 Scheme to C(勝手に抄訳版)
90分 Scheme to C(勝手に抄訳版)ryos36
 
NiosII と RTOS について
NiosII と RTOS についてNiosII と RTOS について
NiosII と RTOS についてryos36
 
Synthesijer で作るFORTH仮想マシン
Synthesijer で作るFORTH仮想マシンSynthesijer で作るFORTH仮想マシン
Synthesijer で作るFORTH仮想マシンryos36
 

More from ryos36 (20)

Pycairo を使ってみる その1
Pycairo を使ってみる その1Pycairo を使ってみる その1
Pycairo を使ってみる その1
 
ストーリーとは
ストーリーとはストーリーとは
ストーリーとは
 
CNN でテニス選手の動きを解析する
CNN でテニス選手の動きを解析するCNN でテニス選手の動きを解析する
CNN でテニス選手の動きを解析する
 
Polyphony の行く末(2018/3/3)
Polyphony の行く末(2018/3/3)Polyphony の行く末(2018/3/3)
Polyphony の行く末(2018/3/3)
 
Polyphony の並列化
Polyphony の並列化Polyphony の並列化
Polyphony の並列化
 
Polyphony 新機能ツアー
Polyphony 新機能ツアーPolyphony 新機能ツアー
Polyphony 新機能ツアー
 
Polyphony: Python ではじめる FPGA
Polyphony: Python ではじめる FPGAPolyphony: Python ではじめる FPGA
Polyphony: Python ではじめる FPGA
 
Stellaris を使った組み込みアプリ開発ガイド
Stellaris を使った組み込みアプリ開発ガイドStellaris を使った組み込みアプリ開発ガイド
Stellaris を使った組み込みアプリ開発ガイド
 
研究者のための Python による FPGA 入門
研究者のための Python による FPGA 入門研究者のための Python による FPGA 入門
研究者のための Python による FPGA 入門
 
数値計算のための Python + FPGA
数値計算のための Python + FPGA数値計算のための Python + FPGA
数値計算のための Python + FPGA
 
Polyphony IO まとめ
Polyphony IO まとめPolyphony IO まとめ
Polyphony IO まとめ
 
PYNQ 祭り: Pmod のプログラミング
PYNQ 祭り: Pmod のプログラミングPYNQ 祭り: Pmod のプログラミング
PYNQ 祭り: Pmod のプログラミング
 
SDSoC でストリーム
SDSoC でストリームSDSoC でストリーム
SDSoC でストリーム
 
Analog Devices の IP コアを使う
Analog Devices の IP コアを使うAnalog Devices の IP コアを使う
Analog Devices の IP コアを使う
 
SDSoC と Vivado
SDSoC と VivadoSDSoC と Vivado
SDSoC と Vivado
 
高速化のポイント
高速化のポイント高速化のポイント
高速化のポイント
 
20周遅れ
20周遅れ20周遅れ
20周遅れ
 
90分 Scheme to C(勝手に抄訳版)
90分 Scheme to C(勝手に抄訳版)90分 Scheme to C(勝手に抄訳版)
90分 Scheme to C(勝手に抄訳版)
 
NiosII と RTOS について
NiosII と RTOS についてNiosII と RTOS について
NiosII と RTOS について
 
Synthesijer で作るFORTH仮想マシン
Synthesijer で作るFORTH仮想マシンSynthesijer で作るFORTH仮想マシン
Synthesijer で作るFORTH仮想マシン
 

並列計算への道 2015年版