FPGAを用いたフルパイプラインによるバイラテラルフィルタの高速化手法

FPGAを用いたフルパイプラインによる
バイラテラルフィルタの高速化手法
東京大学大学院情報理工学系研究科
コンピュータ科学専攻
橋本信歩・高前田伸也
2021/06/09
リコンフィギャラブルシステム研究会 (RECONF)

本研究の概要
❖バイラテラルグリッドの改良手法を提案
 バイラテラルグリッドはバイラテラルフィルタを高速化する手法
 アルゴリズムレベルでの貢献
❖フルパイプラインによりバイラテラルグリッドの小規模で高速な
FPGA 実装を提案
 ハードウェアレベルでの貢献
❖提案手法の速度・回路規模を実機で評価
2021/6/8 1

バイラテラルフィルタの特徴
❖エッジを保持したまま平滑化ができる
❖応用範囲が広い
 ノイズ除去
 テクスチャ編集
 トーン制御
 デモザイク
 オプティカルフロー推定
2021/6/8 2
フィルタ前フィルタ後

バイラテラルフィルタの定義
❖十分に高速とは言い難い
2021/6/8 3
C. Tomasi and R. Manduchi, “Bilateral filtering for gray and color images,” ICCV, 1998
空間カーネル色カーネル
正規化項
空間的にも色的にも
近い画素に大きな重みがつく

計算上の問題点
❖ウィンドウ半径 𝑟 に応じて演算回数・回路規模が増大する
 計算量はピクセルごとに 𝑂 𝑟2
❖非線形なフィルタなので次元ごとに分割できない
➜画素数が多く，ウィンドウ半径が大きくなりやすい大規模高解像
度画像のリアルタイム処理を小規模な回路で行うのは難しい
2021/6/8 4
高解像度低解像度

本研究での取り組み
❖大規模高解像度画像であっても，小規模な回路で高速に動作する
バイラテラルフィルタの実現
 回路規模がウィンドウ半径に応じて増加しない
 バイラテラルグリッドという手法を応用することによって達成
 高スループット・低遅延
 II = 1 のパイプライン化，入力の逐次的処理によって達成
2021/6/8 5
II (Initiation Interval):
ある入力を処理し始めてから
次の入力を処理し始めるまでのクロック数
ある画素の処理
次の画素の処理
時間
II

バイラテラルグリッド
1. 画像を空間方向と輝度方向に離散化してグリッドに格納
2. グリッド上でフィルタリング
3. 補間することで元の座標での処理後の値を計算
2021/6/8 6
J Chen, S Paris, and F Durand, “Real-time edge-aware image processing with the bilateral grid,” ACM Trans. Graph.,
2007

バイラテラルグリッドの改良
❖グリッド上でのウィンドウ半径のみ変化させることが可能
 三次元なので，ウィンドウ半径を増加させたときの回路規模の増大が大
きい
 バイラテラルフィルタの出力と関連づけるのが難しい
❖元の画像上でのウィンドウ半径を変化させたい
 𝒓 × 𝒓 の正方形を塊として見る
 グリッド上のウィンドウ半径を 1 に固定する
2021/6/8 7
既存手法提案手法
元画像上の半径考慮していない可変
グリッド上の半径可変 1 に固定

提案手法のアルゴリズム
1. グリッド生成: 入力画像をグリッド上に射影
 入力画素ごとに実行
2. ガウシアンフィルタ: グリッド上でのガウシアンフィルタ
 グリッドの要素ごとに実行
3. 三次元線形補間: 入力画像の輝度値を元に三次元線形補間
 入力画素ごとに実行
➜逐次的に行うと遅いので，これらのループを結合する
2021/6/8 8

提案アクセラレータアーキテクチャ
2021/6/8 9
バイラテラル
グリッドを用いた
バイラテラル
フィルタを
実装した例はない

ループの結合
❖2.5 𝑟 行分程度の遅延で 𝑟 行の入力に対して 𝑟 行の出力が得られ
る
2021/6/8 10
特に青色の部分に注目
同じ色で塗られた部分が順に完成する
※各色は画像の色を表すのではなく，
説明のために色分けを行っただけである

フルパイプライン化
❖色同士をパイプライン化
 マクロパイプライン
❖色ごとにパイプライン化
 マイクロパイプライン
2021/6/8 11

提案手法の最適化
❖グリッド生成では同じ要素に射影されることがあるため，Read-
Modify-Write 処理になる (各水色は同じ要素に射影)
 II = 1 では実現できない
❖y 軸方向には連続して 𝑟 回のアクセスがある (赤色) ことを利用
❖1.5~2倍程度の高速化
2021/6/8 12
各要素への
アクセスパターン
入力画像

実験
❖提案手法を ZCU 104 ボードに実装
❖使用したツール等
 Vivado HLS 2019.2
 高位合成を行い，Verilog のコード等を生成
 Vivado 2019.2
 ビットストリームを生成
 PYNQ v2.6
 ボードとのデータのやりとり等を支援
2021/6/8 13
ZCU 104 ボード
(組み込みシステムで使える
程度の小規模な FPGA)

ノイズ除去性能
2021/6/8 14
元の画像標準偏差30のガウシアンノイズをのせた画像
バイラテラルフィルタで処理後バイラテラルグリッドで処理後

回路規模・速度とウィンドウ半径の比較
2021/6/8 15
ウィンドウ半径を
大きくしても各指
標に大きな変化は
見られない
ウィンドウ半径と回路規模・速度の関係

提案手法とGPU実装・既存手法の比較
❖回路規模を抑えつつ，
大きな画像・大きな
ウィンドウ半径で実際
に高速に処理可能
 速度に関しては GPU
A100 PCIe よりも高速
2021/6/8 16
(2) A. Gabiger-Rose, M. Kube, R. Weigel, and R. Rose,
“An FPGA-based fully synchronized design of a bilateral
filter for real-time image denoising,” Transactions on
Industrial Electronics, 2014
(3) S. D. Dabhade, G. N. Rathna, and K. N. Chaudhury, “A
reconfigurable and scalable FPGA architecture for bilateral
filtering,” Transactions on Industrial Electronics, 2018 提案手法，既存手法における回路規模・速度の関係

まとめ
❖入力画像のウィンドウ半径が可変になるようにバイラテラルグ
リッドを拡張した
❖ハードウェア資源の増加を抑えられるように完全にパイプライン
化された FPGA 実装を提案した
❖提案手法を実際に FPGA 上に実装し，計算速度とハードウェア
資源の観点から他の既存手法を上回る性能を達成した
❖FPGA 系のトップ会議 FPL でも発表予定 (2021/08/30-09/03)
2021/6/8 17

FPGAを用いたフルパイプラインによるバイラテラルフィルタの高速化手法

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to FPGAを用いたフルパイプラインによるバイラテラルフィルタの高速化手法

Similar to FPGAを用いたフルパイプラインによるバイラテラルフィルタの高速化手法 (20)

Recently uploaded

Recently uploaded (9)

FPGAを用いたフルパイプラインによるバイラテラルフィルタの高速化手法