3. ネットワーク・オン・チップ (NoC)
メニーコアで高性能・低消費電力化を達成するには
低レイテンシ・高スループットな要素間の接続が必要
Network on Chip (NoC)
PE PE PE PE PE 計算コア R オンチップルータ
R R R R
オンチップルータがPE間の
PE PE PE PE パケット(データの塊)を宛先へ
順々に転送
R R R R
ü 通信の衝突の軽減
PE PE PE PE
→低レイテンシ
R R R R →高スループット
PE PE PE PE ü 高いスケーラビリティ
→多くのコアを接続して高性能
R R R R
Nov 27 2012 Shinya Takamaeda-Y. Tokyo Tech 3
5. SmartCoreシステム: NoCベースの二重実行手法
高機能ルータの支援によりプログラムの実行を二重化 (DMR)
Master A
2つのコアのペア(Master/Slave)
待ち合わせ
比較 が同じスレッドを実行
PE PE PE PE
Slaveが出力するパケット列は
R R R R Master側のルータへ転送
Slave A
出力されるパケット列を
PE PE PE PE
高機能ルータで待ち合わせ,
比較し,エラーを検出
R R R R
エラーを検出したら再実行
Master B Slave B
PE 複製
PE PE PE Masterへのパケットは
Slaveへと複製される
R R R R ペアは同一のパケット列を
受信して実行を継続
Normal Communication (VC0) Merge Communication (VC1) Copy Communication (VC2)
Nov 27 2012 Shinya Takamaeda-Y. Tokyo Tech 5
6. SmartCoreシステムのメリット
n チップ中の任意のコアで冗長実行のペアを形成
l Nonstop[DSN 05]などのLockstep系ではペアの配置に制限
n コア数に対してスケーラブル
l Configurable Isolation[ISCA 07]ではバスをぶった切る
Master A 待ち合わせ
比較
PE PE PE PE
R R R R
Slave A
PE PE PE PE
R R R R
Master B Slave B
PE 複製
PE PE PE
R R R R
Configurable Isolation SmartCore System
Nov 27 2012 Shinya Takamaeda-Y. Tokyo Tech 6
8. (a) Minimal Multifunction Router
Node Type Pair ID Arbiter
VC0
VC1
N N
VC2
VC0
VC1
E E
VC2
VC0
VC1
S S
VC2 XBAR
VC0
VC1
W W
VC2
VC0
ID ID
VC1
PE ID PE
VC2
ID
ID Translator (Copy Buffer)
Compare Buffer Comparator
CMP Error?
Nov 27 2012 Shinya Takamaeda-Y. Tokyo Tech 8
9. (b) Advanced Multifunction Router
Node Type Pair ID Arbiter
VC0
VC1
N N
VC2
E E
S S
XBAR
W W
ID
PE ID ID PE
ID
ID Translator
Comparator
CMP Error?
Compare Buffer
Copy Buffer
Nov 27 2012 Shinya Takamaeda-Y. Tokyo Tech 9
14. Master/Slaveの配置
M Master Node S Slave Node
(x,y) (x,y)
M S M S M S M S M M M M S S S S
(1,1) (1,1) (2,1) (2,1) (3,1) (3,1) (4,1) (4,1) (1,1) (2,1) (3,1) (4,1) (1,1) (2,1) (3,1) (4,1)
M S M S M S M S M M M M S S S S
(1,2) (1,2) (2,2) (2,2) (3,2) (3,2) (4,2) (4,2) (1,2) (2,2) (3,2) (4,2) (1,2) (2,2) (3,2) (4,2)
M S M S M S M S M M M M S S S S
(1,3) (1,3) (2,3) (2,3) (3,3) (3,3) (4,3) (4,3) (1,3) (2,3) (3,3) (4,3) (1,3) (2,3) (3,3) (4,3)
M S M S M S M S M M M M S S S S
(1,4) (1,4) (2,4) (2,4) (3,4) (3,4) (4,4) (4,4) (1,4) (2,4) (3,4) (4,4) (1,4) (2,4) (3,4) (4,4)
M S M S M S M S M M M M S S S S
(1,5) (1,5) (2,5) (2,5) (3,5) (3,5) (4,5) (4,5) (1,5) (2,5) (3,5) (4,5) (1,5) (2,5) (3,5) (4,5)
M S M S M S M S M M M M S S S S
(1,6) (1,6) (2,6) (2,6) (3,6) (3,6) (4,6) (4,6) (1,6) (2,6) (3,6) (4,6) (1,6) (2,6) (3,6) (4,6)
M S M S M S M S M M M M S S S S
(1,7) (1,7) (2,7) (2,7) (3,7) (3,7) (4,7) (4,7) (1,7) (2,7) (3,7) (4,7) (1,7) (2,7) (3,7) (4,7)
M S M S M S M S M M M M S S S S
(1,8) (1,8) (2,8) (2,8) (3,8) (3,8) (4,8) (4,8) (1,8) (2,8) (3,8) (4,8) (1,8) (2,8) (3,8) (4,8)
(a) Interleave (b) Block
Nov 27 2012 Shinya Takamaeda-Y. Tokyo Tech 14
17. レイテンシ (Injection Rate=0.02)
1.4
((DMR-NoDMR)/NoDMR)
1.2
Latency Overhead
Interleave Block
1
0.8 5-port
12.4%
0.6 6-port
38.2%
0.4 25.8%
0.2
0
rm
t
do
r
rm
t
do
r
n
en
en
bo
bo
ea
na
na
fo
fo
em
em
gh
gh
M
ni
ni
r
r
To
ei
To
ei
U
U
pl
pl
ric
N
N
om
om
et
m
C
C
eo
G 17
Nov 27 2012 Shinya Takamaeda-Y. Tokyo Tech