時間空間方向性補間とマルチスケール非線形エンハンサによる
1 パスビデオ超解像
One-pass Video Super Resolution with Spatio Temporal Directional Interpolation
and Multiscale Nonlinear Enhancement
松永 力
Chikara Matsunaga
株式会社朋栄アイ・ビー・イー
FOR-A IBE Co., Ltd.
E-mail: matsunaga@for-a.co.jp
Abstract
次世代テレビ放送における過去の映像コンテンツの
リパーパスのために,反復によらない 1 パスビデオ超
解像処理として,画像の局所的な時間空間方向による
補間の重み付け平均とマルチスケール化した非線形エ
ンハンサを提案する.インターレース走査されたフィー
ルド画像をプログレッシブ走査されたフレーム画像に
変換するデインターレース処理と任意サイズへの拡大
を行う解像度変換処理の 2 段階の処理からなり,解像
度変換処理を行った後,マルチスケール化した非線形
エンハンサにより,さらなる解像度の向上を図る.
1 はじめに
2011 年 7 月 24 日,アナログテレビ放送が終了し,地
上デジタルテレビ放送へ完全に移行した(一部地域は
2012 年 3 月 31 日まで延期された).ポスト HD(High
Definition)として,4K / 8K (スーパーハイビジョン
[13])と呼ばれる現行 HD を超える解像度を持つ次世代
テレビ放送の検討がなされている 1
.4K 解像度は,既
にデジタルシネマ 2
として先行しており,8K とともに
その放送方式 3,4
や圧縮方式 5
の国際標準化がなされて
いる.4K 対応テレビも各社から発売され,2014 年 7 月
1 放送サービスの高度化に関する検討会, http://www.soumu.
go.jp/main_sosiki/kenkyu/bcservice/index.html
2 DCI, Digital Cinema Initiatives, LLC., http://www.
dcimovies.com/
3 Recommendation ITU-R BT.1769, Parameter values for
an expanded hierarchy of LSDI image formats for production
and international programme exchange (2006)
4 Recommendation ITU-R BT.2020, Parameter values for
ultra-high definition television systems for production and in-
ternational programme exchange (2012)
5 Recommendation ITU-T H.265(ISO/IEC 23008-2), Infor-
mation technology – High efficiency coding and media delivery
in heterogeneous environments – Part 2: High efficiency video
coding (2013)
CS(Communication Satellite)での 4K 放送の開始が
予定されているが,過去の映像コンテンツは重要な資
産であり,解像度変換を行うことにより,次世代テレ
ビ放送でのリパーパス(repurpose)も考慮すべきであ
ろう.
画像や映像の解像度変換のための拡大処理は基本的
な処理のひとつであり,古くて新しい処理でもある.従
来の拡大処理は補間フィルタによる画素の内挿補間処
理によりなされてきたが,近年,超解像と呼ばれる方
法の研究が盛んに行われている.古くは,ピエゾ圧電
素子により CCD の位置を微細に移動させる,いわゆる
“ 画素ずらし ”により高精細な静止画像を撮像する装置
としての技術があり [8],これを連続する動画像列にお
ける複数枚の画像を用いて電子的な処理として行った
ものである [7].その研究の歴史も意外に古く,現在も
様々な手法が提案され,研究が続けられている(少し
古いがサーベイ [15] がある).フレーム内再構成型超
解像 [12] と呼ばれるものは,1 枚の画像のみによる処
理である.
しかし,超解像処理の多くは反復によるものであり,
反復による超解像処理は著しくリアルタイム性を損な
う.反復によらない比較的簡易な処理による解像度の
拡張を行う非線形エンハンサ処理の検討もなされてい
る [3, 4, 16, 17].そこで,本研究では,ビデオ映像のた
めの反復によらない 1 パス超解像処理として,画像の
局所的な時間空間方向による補間の重み付け平均とマ
ルチスケール化した非線形エンハンサを提案する.
画像の空間的な局所方向を推定することは,同一画
像同士におけるオプティカルフロー推定 [11] と見なせ
る.勾配拘束条件の最小二乗推定によるフロー計算は,
画素値の勾配から計算される構造テンソル(structure
tensor)行列の最小固有値に対する固有ベクトルを求め
ることに相当するから,得られる固有ベクトルの方向
が画素の方向である.この方法は,サブピクセルの精
IS3 - 15 第20回画像センシングシンポジウム,横浜,2014年6月
IS3 - 15 - 1
(a) (b) (c)
図 1 順次走査とインターレース走査.(a) 順次走査.(b) インターレース走査.1 枚の画像を 2 枚のフィールドに分
け,各フィールドで 1 本おきに合計 525 本の走査線を走査する.(c) 隣接するフィールドは空間的に 1 ラインだけオフ
セットが生じている.第 1 フィールドおよび第 2 フィールドを合わせて 1 フレームと呼ぶ.
度で方向性が計算できるが,実際には信頼性の高い結
果を得ることは非常に難しい.Li と Orchard は構造テ
ンソル行列から画素の方向性を推定して補間を行った
[10].画像の特徴点抽出としてよく知られているハリス
作用素 [5] も構造テンソル行列によるものである.
本研究は,注目画素の近傍ブロック領域を用いたブ
ロックマッチングにより画像の局所的な時間空間方向
の信頼性を評価する.ブロックマッチング残差による重
み係数を画素毎に計算して,各方向における補間結果
の重み付け平均を最終的な補間画素とする.これは,ノ
イズ除去に用いられる非局所平均(Non-local means)
フィルタ [1] の探索範囲を限定して,補間処理に適用し
たものと見なすことができる.あるいは,ブロックマッ
チング規準の最小の方向選択が“ 最尤推定 ”であるの
に対して,信頼性の重み付け平均は,“ ベイズ推定 ”で
あるとも言える(実際,[9] では,非局所平均フィルタ
のベイズ的な解釈がなされている).
ビデオ映像の特異な点は,インターレース(飛び越
し)走査と呼ばれる 1 回の画面表示を奇数番目と偶数
番目の 2 回の走査に分けて行うことであろう.インター
レース方式は,ビデオ信号の伝送周波数の帯域を半減
しながら,時間解像度が向上して動画が滑らかに見え
るため,多くの国や地域における放送方式に採用され
ている.一方,1 回の走査で画面表示を行う方式はノン
インターレース(順次)とか,プログレッシブ走査と
呼ばれる.コンピュータのディスプレイは,静止画や
文字を表示することが多く,インターレース方式だと
ちらつきやにじみが生じるため,ノンインターレース
方式である.
そこで,インターレース走査されたフィールド画像
をプログレッシブ走査されたフレーム画像へ変換する
インターレース−プログレッシブ変換と任意サイズへ
の拡大を行う解像度変換の 2 段階処理を行う.フレーム
間静止領域におけるフレーム解像度を復元するために,
フィールド内画素による空間方向性補間に加えて,フ
レーム間時間方向へも拡張する.時間方向への拡張は,
いわゆるフレーム間差分による動き検出に基づく動き
適応処理 [2] であり,本研究の方法は,従来の動き適応
処理を包含する,より一般的な方法と言える.任意サ
イズへの拡大は,水平走査線上の画素を 1 次元補間す
ることにより生成したサブピクセル精度でのブロック
を用いたブロックマッチングとフレーム内空間方向性
補間処理により行う.
インターレース−プログレッシブ変換,任意サイズ
へ拡大するための解像度変換処理を行った後,マルチ
スケールに対応した非線形エンハンサ処理を後処理的
に行う.このとき,過剰なエンハンサ処理を抑制する
ための適応的なクリップ処理を併用する.これらの処
理は,すべて反復によらない 1 パス処理での実現が可
能であり,リアルタイムでの処理が期待される.
2 章では,インターレース方式ビデオをプログレッシ
ブ方式ビデオへ変換するインターレース−プログレッ
シブ変換処理,いわゆるデインターレース処理につい
て説明する.はじめに,インターレース方式のビデオ
信号の特徴について述べる.その後,従来の補間フィ
ルタによる内挿補間処理について説明し,本研究にお
けるフィールド内の画素の方向性をブロックマッチン
グにより推定する方法および方向性補間処理とその重
み付け平均について説明する.さらに,画像の領域毎
の適応補間処理とフレーム間時間方向性補間による動
き適応処理について説明する.3 章で,デインターレー
ス処理の結果を任意サイズへ拡大するための解像度変
換処理について説明する.4 章でマルチスケールによる
非線形エンハンサ処理について説明する.5 章で画像シ
ミュレーションを行い,6 章で纏める.
2 デインターレース処理
2.1 インターレース方式ビデオ
伝送のためには,信号は 1 次元でなければならない.
このため,走査と呼ばれる方法により,時間空間的に 3
次元であるビデオ信号を 1 次元の信号に変換する.図 1
(b) に示すように,1 枚の画像(これをフレームと呼ぶ)
を 2 枚のフィールドに分け,各フィールドで 1 本おき
第20回画像センシングシンポジウム,横浜,2014年6月IS3 - 15
IS3 - 15 - 2
図 2 ブロックマッチングによる画素の方向性の推定.
奇数フィールド(ODD)における 5 つの方向の画素○
の組合せにより,偶数フィールド(EVEN)における
画素●を補間生成する.補間に用いる画素○を中心と
する 3 画素× 3 ラインのブロックを定義して,各方向
におけるブロック間の差分絶対値総和(SAD)を計算
する.水平走査線上の画素の 1 次元補間により生成し
たサブピクセル精度の画素×による 4 方向も加える.
に合計 525 本の走査線 6
で走査する.この方式により伝
送周波数の帯域を半減することができるが,処理とし
ては複雑になる.すなわち,図 1 (c) に示すように,時
間方向 t と垂直方向 y に着目すれば,走査線は標本点
と見ることができるが,インターレース方式の場合は,
標本点である画素が時間的に 1/60 秒 7
離れているだけ
でなく,空間的に走査線 1 ラインだけオフセットが生
じている [2].
2.2 内挿補間
従来の画像の拡大方法は,原画素と原画素の間の画
素を内挿補間生成することにより行われている.標本
値から元来の連続的な信号 fa(x) を復元する内挿公式
は,次のように与えられる [14].
fa(x) =
∞∑
α=−∞
fa(αT)
sin(π/T)(x − αT)
(π/T)(x − αT)
. (1)
T は標本化周期であり,その逆数は標本化周波数と呼
ばれる.sin(π/T)x/(π/T)x は,シンク(sinc)関数で
ある.画像の場合,fa(αT) は原画像における離散的な
画素値に相当する.実際には,適当な窓関数を掛けて,
無限に続くシンク関数を有限で打ち切ったり,適当な
有限関数により近似したりする.式(1)は,1 次元信
号に対するものである.画像は 2 次元信号であり,水
平垂直の各方向に分離して処理が可能である.デイン
ターレース処理はフィールド画像の垂直方向における
2 倍拡大と見なせる.
2.3 フィールド内空間方向性補間
フィールド内の画素を用いた空間方向性補間によるイ
ンターレース−プログレッシブ変換を行う.入力フィー
6 アナログ NTSC 方式の場合.地上デジタルテレビ放送の場合
は,フレーム当たり 1080 本(フィールドでは 540 本)である.4K
解像度の場合はその 2 倍,8K(スーパーハイビジョン)の場合には
4 倍になるが,いずれもプログレッシブ方式である.
7 厳密には,1/59.94 秒である.
ルド画像 I(i, j), i = 1, . . . , H, j = 1, . . . , V/2 とする
と,変換されたフレーム画像 I(i′
, j′
), i′
= 1, . . . , H, j′
= 1, . . . , V は次のようになる.
I(i′
, j′
) =
{
I(i, j), j′
mod 2 = k mod 2,
ˆI(i, j), others.
(2)
ここで,mod は剰余演算子であり,k は 1 から始まる
フィールド番号を表す.ただし,j = ⌊(j′
+ 1)/2⌋ であ
り,⌊x⌋ は整数部分(切捨て)を表す床関数である.ˆI
は空間方向性補間による変換画素である.
画素の方向性の推定には,ブロックマッチングを用
いる(図 2).ブロックマッチングの規準としては,次
のような M 画素× N ラインのブロック領域中の画素
数により正規化した差分絶対値総和 (Sum of Absolute
Difference, SAD) を用いる.
SADα(i, j)
=
1
MN
⌊N/2⌋
∑
p=−⌊N/2⌋
⌊M/2⌋
∑
q=−⌊M/2⌋
IU
α (p, q) − ID
α (p, q) , (3)
IU
α (p, q) ≡ I(i + ∆α + p, j + q), (4)
ID
α (p, q) ≡ I(i − ∆α + p, j + 1 + q). (5)
ここで,∆α は方向によるオフセット値である.図 2 で
は,ピクセル精度の方向の場合,∆α = 0, ±1, ±2 であ
り,サブピクセル精度の方向の場合,∆α = ±0.5, ±1.5
である.サブピクセル精度の方向性の推定と補間処理
は,水平走査線上の画素を 1 次元補間する.
ブロックマッチングを行ったすべての方向における
補間結果を次のように重み付け平均したものを最終的
な補間結果とする.
ˆI(i, j) =
∑
α wα(i, j)˜Iα(i, j)
∑
α wα(i, j)
. (6)
ここで,˜Iα は各方向における補間結果であり,wα は次
のようなブロックマッチング残差によるガウス重みと
する.
wα(i, j) = exp
(
−
SADα(i, j)
2σ2
r
)
. (7)
σr は各方向におけるブロックマッチングの結果 SADα
の許容範囲を調整するためのパラメータである.
2.4 領域適応処理と動き適応処理
フィールド内画素の方向性が画像内容によっては,明
確に得られない場合がある.そこで,画像中のエッジ
部,テクスチャ部,平坦部を判別して,領域毎にフィー
ルド内空間補間を行う.画像の領域判定の方法は,次
のように行う.
1. すべての方向におけるブロックマッチングの結果
の SAD 値の標準偏差 σSAD を計算する.
2. σSAD < d の場合,平坦部と判定する.
3. すべての SAD 値をソートして,小さい方から n 個
IS3 - 15 第20回画像センシングシンポジウム,横浜,2014年6月
IS3 - 15 - 3
図 3 ODDk−1&EVENk−1 と ODDk&EVENk のフ
レーム間のブロックマッチングおよび時間方向性補間.
図 4 サブピクセル精度のフレーム内空間方向性補間.
の SAD 値を除外した場合の標準偏差 σ
(n)
SAD を計算
する.
4. σSAD − σ
(n)
SAD > e の場合,エッジ部と判定する.
そうでなければ,テクスチャ部と判定する.
エッジ部と判定された画素に対しては,すべてのフィー
ルド内方向性補間の重み付け平均を行う.それ以外の
領域の画素に関しては,垂直方向のみの補間を行う.
さらにフレーム間でブロックマッチング処理を行い,
フレーム間時間方向性補間処理を行う.図 3 に示すよ
うに,奇数フィールドと偶数フィールドからなるフレー
ム画像によるブロック領域を用いて,隣接するフレー
ム画像間でブロックマッチングを行う.得られるブロッ
クマッチング残差のしきい値処理によりフレーム間静
止画素と判定された場合,フレーム間補間画素を出力
する.
3 解像度変換処理
任意サイズへの拡大処理である解像度変換処理にお
いてもデインターレース処理同様,空間的な方向性補
間を行う.ここでは,インターレース走査されたフィー
ルド画像をプログレッシブ走査されたフレーム画像に
変換した結果を方向性補間するため,フレーム内空間
方向性補間と呼ぶことにする.
図 4 の入力フレーム画像におけるサブピクセル位置
の画素●を補間生成するには,走査線上のピクセル位
置の画素○により 1 次元補間した画素×によりフレー
ム内空間方向性補間する.各方向における補間画素値
˜Iα は,画素間の空間的な距離の逆比による重み付け平
図 5 非線形エンハンサ処理の動作.
均により,
˜Iα(i′′
, j′′
) =
µ
µ + ν
IU
α (0, 0) +
ν
µ + ν
ID
α (0, 0),
i′′
= 1, . . . , H′
, j′′
= 1, . . . , V ′
, (8)
として計算できるが,˜Iα の入力画像におけるサブピク
セル位置の座標を (ξ, η) とすると,次のように簡単に
なる.
˜Iα(i′′
, j′′
) = (1 − κη) IU
α (0, 0) + κη ID
α (0, 0), (9)
κη = η − ⌊η⌋. (10)
方向性を推定するためのブロック画素も,補間に用い
る画素を中心としたサブピクセル位置の画素によるも
のを用いればよい.各方向における補間画素 ˜Iα をデイ
ンターレース処理同様,式(6)の重み付け平均する.
4 マルチスケール非線形エンハンサ
フレーム内空間方向性補間による解像度変換処理の
結果を後処理的に画像のエッジ情報に基づいた非線形
エンハンサ処理を行うことにより,さらなる解像度の向
上を図る.図 5 に非線形エンハンサ処理の動作を示す.
エッジの検出にはガウシアン差分(Difference of
Gaussian, DoG)フィルタを用いる.ガウシアン差分を
計算するためのガウシアン平滑化フィルタの処理カー
ネルを,
Gσ(x) =
1
√
2πσ2
exp
(
−
x2
2σ2
)
, (11)
とすると,画像 I(x) の DoG フィルタは,
DoGσ1,σ2 (x) = Gσ1 (x) ∗ I(x) − Gσ2 (x) ∗ I(x), (12)
である(ただし,1 次元の場合).ここで,∗ はたたみ
込み演算であり,σ1 > σ2 である.DoG フィルタはガ
ウシアン平滑化フィルタの 2 次微分であるラプラシア
ン(Laplacian of Gaussian, LoG)フィルタの良い近似
であり,計算効率も高い.画像の場合には,水平垂直
方向に分離して処理を行うことができる.ラプラシア
ンフィルタ同様,方向によらないエッジ検出が可能で
ある.
DoG フィルタにより検出されたエッジ成分をレベル
に関する非線形操作により高周波成分を拡張して,原
IS3 - 15 第20回画像センシングシンポジウム,横浜,2014年6月
IS3 - 15 - 4
(a)
(b)
(c)
図 6 時間空間方向性補間とマルチスケール非線形エ
ンハンサによるビデオ超解像.(a) `a trous アルゴリズ
ム,(b) `a trous アルゴリズムによるマルチスケール非
線形エンハンサ処理ブロック図,(c) 全体ブロック図.
画像に加えるが,ここで,非線形操作による過剰な強
調を抑制するために,注目画素近傍における入力画素
値の最大値最小値を探索して,それらの値による適応
的なクリップ処理を行う.
このような非線形エンハンサをマルチスケール拡張
する.DoG フィルタによるエッジ検出は,σ 値を変え
ることにより,細かなエッジから緩やかなエッジまで
検出が可能であるが,σ 値が増すに従って計算量も増
える.そこで,間引きなしウェーブレット変換に用い
られている `a trous アルゴリズム [6] を適用して,DoG
フィルタ処理の計算量の低減を図る.
図 6 (a) は,`a trous アルゴリズムを視覚化したもの
である.最初の行は入力画像であり,2 行目は,カーネ
ルサイズ 5 画素のガウシアンフィルタ Gσ によるフィル
タ処理がなされたものである.3 行目は,2 行目の結果
を 1 画素おきに用いて同一のフィルタ処理を行ったも
のである.以降,フィルタ処理を行う画素間隔を広げ
ていく.図 6 (b) は,`a trous アルゴリズムによるマル
チスケール非線形エンハンサ処理のブロック図であり,
同図 (c) は,処理全体のブロック図である.
5 画像シミュレーション
5.1 人工エッジ画像実験
図 7 (a) は人工的なエッジ画像例である.エッジの傾
斜角度を 0 度から 60 度まで,6 度刻みで変えたエッジ
(a)
(b)
図 7 人工エッジ画像実験.(a) 人工エッジ画像例(傾
斜角 12 度と 60 度),(b) エッジの傾斜角に対する復
元画像と原画像の平均二乗誤差画像のピーク SN 比の
結果のグラフ.バイキュービック補間(Bicubic),方
向性補間(DirIntp),方向性補間+非線形エンハンサ
(DirIntp+NLEnh)である.
画像に,正規化カットオフ周波数 0.3 の低域通過フィル
タ処理を行って,水平垂直ともに 1/2 縮小した後,イン
ターレース化を行う.そのようなインターレース画像
に対して,フィールド内方向性補間によるデインター
レース処理,解像度変換処理およびマルチスケール非
線形エンハンサ処理を行い,原画像を復元する.復元画
像と原画像の平均二乗誤差画像を計算して,そのピー
ク SN 比(PSNR)により復元の良さを評価する.バイ
キュービック補間による従来法とも比較する.
同図 (b) は,人工エッジ画像におけるエッジ角度に対
する復元画像と原画像の平均二乗誤差画像のピーク SN
比の結果のグラフである.従来法による結果は,エッジ
の傾斜角度が増すにつれて,ピーク SN 比が減少して
いるが,本研究における方向性補間の結果は,エッジ
の傾斜角度によらず,ほぼ一定であり,最大 4.6dB の
改善が得られている.非線形エンハンサ処理を行うこ
とにより,さらに改善している.補間方向が離散的で
あっても,重み付け平均を行うことによって,連続的
なエッジの方向に対応していることがわかる.
デインターレース処理および解像度変換処理におけ
る方向は,図 2 にあるようにピクセル精度で 5 方向,サ
ブピクセル精度で 4 方向の計 9 方向とした.方向の推
定のためのブロックマッチングのブロックサイズはい
ずれも 9 画素× 7 ライン,各方向の補間結果の重み付
け平均のための σr は,それぞれ 1.0,0.75 とした.非
線形エンハンサ処理における `a trous DoG フィルタは,
σ = 1 として,階層はレベル 2 まで,非線形操作とし
ては,3 乗関数を用いた.
IS3 - 15 第20回画像センシングシンポジウム,横浜,2014年6月
IS3 - 15 - 5
5.2 実画像実験
デインターレース処理
図 8 は,インターレース走査されたフレーム画像 8
で
ある.画像サイズは 720 画素× 576 ライン(PAL 方式)
であり,フィールド間の動きによる縞状のコーミング
(combing)が見られる.このようなインターレース走
査されたフレーム画像を時間的に連続する次フレーム
画像とともに用いてデインターレース処理を行う.
図 9 は,本研究におけるフィールド内方向性補間処理
およびフレーム間時間方向性補間によって,奇数フィー
ルド画素から偶数フィールド画素を生成したフレーム
画像への変換結果である.フィールド内における方向
としては,図 2 にあるようにピクセル精度で 5 方向,サ
ブピクセル精度で 4 方向の計 9 方向とした.フィール
ド内およびフレーム間方向性推定のためのブロックマッ
チングにおけるブロックサイズは,9 画素× 7 ラインで
あり,各方向の補間結果の重み付け平均のための σr =
1.0 とした.
画像中の枠で囲まれた領域は,エッジ部(赤),テク
スチャ部(緑),平坦部(青),静止テロップ部(紫)
であり,従来法であるキュービック補間との違いを比較
するために領域を拡大した画像も示している.フィー
ルド内方向性補間およびフレーム間時間方向性補間の
重み付け平均の結果は,従来法と比較して,エッジ部
はジャギが低減して滑らかであり,静止テロップ部は,
フレーム解像度が復元されているのがわかる.また,テ
クスチャ部は領域判別の結果から従来法同様,垂直方
向のみの補間結果となっている.
画素毎のブロックマッチング結果の SAD 値による領
域判別画像を図 10 (a) に示す.各領域の画素における
フィールド内画素の方向性を推定するブロックマッチ
ング結果の SAD 値のグラフの一例を図 10 (b) に示す.
グラフの横軸 α 値 0∼8 は,図 2 における左上から右
下方向から順に右上から左下方向までの 9 方向を表す.
領域判別には,ブロックマッチングの結果のすべての
SAD 値をソートして,小さい方から 4 個の SAD 値を
除外した標準偏差 σ
(4)
SAD を用いた.テクスチャ判別のた
めのしきい値 e = 10 とした.
解像度変換&マルチスケール非線形エンハンサ処理
図 11 (a) は,デインターレース処理の結果を 1350 画素
× 1080 ラインに解像度変換した結果であり,同図 (b)
は,さらに,マルチスケール非線形エンハンサ処理し
た結果である.解像度変換のためのフレーム内方向性
補間におけるブロックマッチングには,デインターレー
ス処理同様,9 画素× 7 ラインのブロックを用いた.方
向性も同様に 9 方向である.非線形エンハンサ処理に
おける `a trous DoG フィルタは,σ = 1 として,その
階層はレベル 2 まで,非線形操作としては,3 乗関数を
用いた.
8 http://www.its.bldrdoc.gov/vqeg/vqeg-home.aspx
図 8 インターレース走査されたフレーム画像8
.
図 9 デインターレース処理結果.枠で囲まれた領域
は,エッジ部(赤),テクスチャ部(緑),平坦部(青),
静止テロップ部(紫)である.エッジ部(赤)および
静止テロップ部(紫)の領域の拡大画像は,左が従来
法(キュービック補間),右が本手法.
図 12 (a)(b) は,図 11 (a)(b) のそれぞれの結果の輝度
成分の周波数スペクトル画像である.非線形エンハン
サ処理により,周波数成分が拡張されているのがわか
る.同図 (c)(d) は,垂直周波数 0 における水平周波数ス
ペクトルおよび水平周波数 0 における垂直周波数スペ
クトルのグラフ表示である(いずれも正規化周波数で
ある).見易さのためにバイラテラルフィルタ [18] によ
り平滑化している.マルチスケール化により,さらに
広範囲の周波数成分が拡張されているのがわかる.
6 まとめ
次世代テレビ放送における過去の映像コンテンツの
リパーパスのために,反復によらない 1 パスビデオ超
解像処理として,画像の局所的な時間空間方向による
IS3 - 15 第20回画像センシングシンポジウム,横浜,2014年6月
IS3 - 15 - 6
(a) (b)
図 10 (a) 画素毎のブロックマッチング結果の SAD 値による領域判別画像.白い画素ほどエッジらしさを表す(最大
値が白 100%になるようにスケールしている).インターレース画像なので垂直方向のサイズがフレーム画像の半分であ
る.(b) 各領域の画素における SAD 値のグラフの一例.横軸 α 値 0∼8 は,図 2 における左上から右下方向から順に右
上から左下方向までの 9 方向を表す.エッジ部(edge),テクスチャ部(texture),平坦部(plane)である.
補間の重み付け平均とマルチスケール化した非線形エ
ンハンサを提案した.インターレース走査されたフィー
ルド画像をプログレッシブ走査されたフレーム画像に
変換するデインターレース処理と任意サイズへの拡大
を行う解像度変換処理の 2 段階の処理からなり,デイ
ンターレース処理では,フィールド内空間方向性補間
にフレーム間時間方向性補間を組み合わせることによっ
て,エッジ部におけるジャギを低減しつつ,静止テロッ
プ部のフレーム解像度を復元した.フィールド内画素
の方向を推定するブロックマッチング残差の結果から
領域判別処理を行い,領域毎に最良な補間処理も実現
した.フレーム内空間方向性補間による解像度変換処
理を行った後,マルチスケール化した非線形エンハン
サにより,さらなる解像度の向上を図った.すべての
処理は1パスでの実現が可能であり,リアルタイムで
の処理が期待される.
謝辞: 本研究の機会を与えて下さった朋栄アイ・ビー・
イー和田社長に感謝します.
参考文献
[1] A. Buades, B. Coll, and J.-M. Morel, A non-local algo-
rithm for image denoising, IEEE Conference on Com-
puter Vision and Pattern Recognition (CVPR 2005),
San Diego, CA, U.S.A., Vol. 2, pp. 60–65. June 2005.
[2] 吹抜 敬彦, 「TV 画像の多次元信号処理」, 日刊工業新
聞社, 1988 年 11 月.
[3] 合志 清一, 寺川 雅嗣, 三上 浩, 今井 繁規, 非線形特性を
応用した画像の超解像度化, 第 8 回情報科学技術フォーラ
ム(FIT2009)講演論文集(第 3 分冊), pp. 7–12. 2009.
[4] H. Greenspan, C. H. Anderson, and S. Akber, Image
enhancement by nonlinear extrapolation in frequency
space, IEEE Transactions on Image Processing, Vol.
9, No. 6, pp. 1035–1048. June 2000.
[5] C. Harris and M. Stephens, A combined corner and
edge detector, Proceedings of the Fourth ALVEY Vi-
sion Conference, University of Manchester, England,
pp. 147–151. Sept. 1988.
[6] M. Holschneider, R. Kronland-Martinet, J. Morlet,
and P. Tchamitchian, A real-time algorithm for signal
analysis with the help of the wavelet transform, In
Wavelets, Time-Frequency Methods and Phase Space,
pp. 289–297, Springer-Verlag, 1989.
[7] M. Irani and S. Peleg, Improving resolution by im-
age registration, CVGIP: Graphical Models and Im-
age Processing, Vol. 53, pp. 231–239. May 1991.
[8] 石橋 静, 静止画像の撮像装置, 特開平 6-181546, 平成 6
年(1994)6 月 28 日.
[9] C. Kervrann, J. Boulanger, and P. Coup´e, Bayesian
non-local means filter, image redundancy and adap-
tive dictionaries for noise removal, Proceedings of the
First International Conference on Scale Space and
Variational Methods in Computer Vision (SSVM’07),
Ischia, Italy, pp. 520–532. May-June 2007.
[10] X. Li and M. T. Orchard, New edge-directed interpo-
lation, IEEE Transactions on Image Processing, Vol.
10, No. 10, pp. 1521–1527. Oct. 2001.
[11] B. D. Lucas and T. Kanade, An iterative image regis-
tration technique with an application to stereo vision,
Proceedings of the 1981 DARPA Image Understand-
ing Workshop, pp.121–130. Apr. 1981.
[12] 松本 信幸, 井田 孝, 画像の自己合同性を利用したフレー
ム内再構成型超解像, 第 15 回画像センシングシンポジ
ウム(SSII2009)講演論文集, 横浜 (パシフィコ横浜).
[13] 日本放送協会, 「スーパーハイビジョン映像技術」特集
号, NHK技研 R&D, No. 137, 2013 年1月.
[14] A. V. Oppenheim and R. W. Schafer, Digital Signal
Processing, Prentice-Hall, New Jersey, U.S.A., Jan-
uary, 1975. 「ディジタル信号処理(上)(下)」, 伊達 玄
(訳), コロナ社, 1978 年 6 月.
[15] S. C. Park, M. K. Park, and M. G. Kang, Super-
resolution image reconstruction: a technical overview,
IEEE Signal Processing Magazine, Vol. 20, No. 3, pp.
21–36. May 2003.
[16] S. Schiemenz and C. Hentschel, Universal spatial up-
scaler with nonlinear edge enhancement, 15th Euro-
pean Signal Processing Conference (EUSIPCO 2007),
Pozna´n, Poland, pp. 140–144. Sept. 2007.
[17] 清水 嘉泰, 池永 剛, 非線形フィルタに基づく高精細ディ
スプレイ向け実時間超解像, 第 17 回画像センシングシ
ンポジウム(SSII2011)講演論文集, 横浜 (パシフィコ
横浜).
[18] C. Tomasi and R. Manduchi, Bilateral filtering for
gray and color images, Proceedings of the Sixth
IEEE International Conference on Computer Vision
(ICCV’98), Bombay, India, pp. 839–846. Jan. 1998.
IS3 - 15 第20回画像センシングシンポジウム,横浜,2014年6月
IS3 - 15 - 7
(a) (b)
図 11 解像度変換結果とマルチスケール非線形エンハンサ処理結果.(a) 解像度変換結果,(b) マルチスケール非線形
エンハンサ結果.
(a) (b)
(c) (d)
図 12 非線形エンハンサ処理画像の輝度成分の周波数スペクトル結果.(a) 周波数スペクトル画像(エンハンスなし),
(b) 周波数スペクトル画像(エンハンスあり),(c) 垂直周波数 0 における水平周波数スペクトルのグラフ表示,(d) 水平
周波数 0 における垂直周波数スペクトルのグラフ表示.レベル 0 と 1 の DoG フィルタによるエンハンス結果(Fine),
レベル 0 と 1,レベル 1 と 2 の DoG フィルタによるエンハンス結果(Fine+Coarse),エンハンスなし(Non-Enhance)
である(いずれも正規化周波数である).グラフ表示は,見易さのためにバイラテラルフィルタ [18] により平滑化して
いる.
IS3 - 15 第20回画像センシングシンポジウム,横浜,2014年6月
IS3 - 15 - 8

時間空間方向性補間とマルチスケール非線形エンハンサによる1パスビデオ超解像

  • 1.
    時間空間方向性補間とマルチスケール非線形エンハンサによる 1 パスビデオ超解像 One-pass VideoSuper Resolution with Spatio Temporal Directional Interpolation and Multiscale Nonlinear Enhancement 松永 力 Chikara Matsunaga 株式会社朋栄アイ・ビー・イー FOR-A IBE Co., Ltd. E-mail: matsunaga@for-a.co.jp Abstract 次世代テレビ放送における過去の映像コンテンツの リパーパスのために,反復によらない 1 パスビデオ超 解像処理として,画像の局所的な時間空間方向による 補間の重み付け平均とマルチスケール化した非線形エ ンハンサを提案する.インターレース走査されたフィー ルド画像をプログレッシブ走査されたフレーム画像に 変換するデインターレース処理と任意サイズへの拡大 を行う解像度変換処理の 2 段階の処理からなり,解像 度変換処理を行った後,マルチスケール化した非線形 エンハンサにより,さらなる解像度の向上を図る. 1 はじめに 2011 年 7 月 24 日,アナログテレビ放送が終了し,地 上デジタルテレビ放送へ完全に移行した(一部地域は 2012 年 3 月 31 日まで延期された).ポスト HD(High Definition)として,4K / 8K (スーパーハイビジョン [13])と呼ばれる現行 HD を超える解像度を持つ次世代 テレビ放送の検討がなされている 1 .4K 解像度は,既 にデジタルシネマ 2 として先行しており,8K とともに その放送方式 3,4 や圧縮方式 5 の国際標準化がなされて いる.4K 対応テレビも各社から発売され,2014 年 7 月 1 放送サービスの高度化に関する検討会, http://www.soumu. go.jp/main_sosiki/kenkyu/bcservice/index.html 2 DCI, Digital Cinema Initiatives, LLC., http://www. dcimovies.com/ 3 Recommendation ITU-R BT.1769, Parameter values for an expanded hierarchy of LSDI image formats for production and international programme exchange (2006) 4 Recommendation ITU-R BT.2020, Parameter values for ultra-high definition television systems for production and in- ternational programme exchange (2012) 5 Recommendation ITU-T H.265(ISO/IEC 23008-2), Infor- mation technology – High efficiency coding and media delivery in heterogeneous environments – Part 2: High efficiency video coding (2013) CS(Communication Satellite)での 4K 放送の開始が 予定されているが,過去の映像コンテンツは重要な資 産であり,解像度変換を行うことにより,次世代テレ ビ放送でのリパーパス(repurpose)も考慮すべきであ ろう. 画像や映像の解像度変換のための拡大処理は基本的 な処理のひとつであり,古くて新しい処理でもある.従 来の拡大処理は補間フィルタによる画素の内挿補間処 理によりなされてきたが,近年,超解像と呼ばれる方 法の研究が盛んに行われている.古くは,ピエゾ圧電 素子により CCD の位置を微細に移動させる,いわゆる “ 画素ずらし ”により高精細な静止画像を撮像する装置 としての技術があり [8],これを連続する動画像列にお ける複数枚の画像を用いて電子的な処理として行った ものである [7].その研究の歴史も意外に古く,現在も 様々な手法が提案され,研究が続けられている(少し 古いがサーベイ [15] がある).フレーム内再構成型超 解像 [12] と呼ばれるものは,1 枚の画像のみによる処 理である. しかし,超解像処理の多くは反復によるものであり, 反復による超解像処理は著しくリアルタイム性を損な う.反復によらない比較的簡易な処理による解像度の 拡張を行う非線形エンハンサ処理の検討もなされてい る [3, 4, 16, 17].そこで,本研究では,ビデオ映像のた めの反復によらない 1 パス超解像処理として,画像の 局所的な時間空間方向による補間の重み付け平均とマ ルチスケール化した非線形エンハンサを提案する. 画像の空間的な局所方向を推定することは,同一画 像同士におけるオプティカルフロー推定 [11] と見なせ る.勾配拘束条件の最小二乗推定によるフロー計算は, 画素値の勾配から計算される構造テンソル(structure tensor)行列の最小固有値に対する固有ベクトルを求め ることに相当するから,得られる固有ベクトルの方向 が画素の方向である.この方法は,サブピクセルの精 IS3 - 15 第20回画像センシングシンポジウム,横浜,2014年6月 IS3 - 15 - 1
  • 2.
    (a) (b) (c) 図1 順次走査とインターレース走査.(a) 順次走査.(b) インターレース走査.1 枚の画像を 2 枚のフィールドに分 け,各フィールドで 1 本おきに合計 525 本の走査線を走査する.(c) 隣接するフィールドは空間的に 1 ラインだけオフ セットが生じている.第 1 フィールドおよび第 2 フィールドを合わせて 1 フレームと呼ぶ. 度で方向性が計算できるが,実際には信頼性の高い結 果を得ることは非常に難しい.Li と Orchard は構造テ ンソル行列から画素の方向性を推定して補間を行った [10].画像の特徴点抽出としてよく知られているハリス 作用素 [5] も構造テンソル行列によるものである. 本研究は,注目画素の近傍ブロック領域を用いたブ ロックマッチングにより画像の局所的な時間空間方向 の信頼性を評価する.ブロックマッチング残差による重 み係数を画素毎に計算して,各方向における補間結果 の重み付け平均を最終的な補間画素とする.これは,ノ イズ除去に用いられる非局所平均(Non-local means) フィルタ [1] の探索範囲を限定して,補間処理に適用し たものと見なすことができる.あるいは,ブロックマッ チング規準の最小の方向選択が“ 最尤推定 ”であるの に対して,信頼性の重み付け平均は,“ ベイズ推定 ”で あるとも言える(実際,[9] では,非局所平均フィルタ のベイズ的な解釈がなされている). ビデオ映像の特異な点は,インターレース(飛び越 し)走査と呼ばれる 1 回の画面表示を奇数番目と偶数 番目の 2 回の走査に分けて行うことであろう.インター レース方式は,ビデオ信号の伝送周波数の帯域を半減 しながら,時間解像度が向上して動画が滑らかに見え るため,多くの国や地域における放送方式に採用され ている.一方,1 回の走査で画面表示を行う方式はノン インターレース(順次)とか,プログレッシブ走査と 呼ばれる.コンピュータのディスプレイは,静止画や 文字を表示することが多く,インターレース方式だと ちらつきやにじみが生じるため,ノンインターレース 方式である. そこで,インターレース走査されたフィールド画像 をプログレッシブ走査されたフレーム画像へ変換する インターレース−プログレッシブ変換と任意サイズへ の拡大を行う解像度変換の 2 段階処理を行う.フレーム 間静止領域におけるフレーム解像度を復元するために, フィールド内画素による空間方向性補間に加えて,フ レーム間時間方向へも拡張する.時間方向への拡張は, いわゆるフレーム間差分による動き検出に基づく動き 適応処理 [2] であり,本研究の方法は,従来の動き適応 処理を包含する,より一般的な方法と言える.任意サ イズへの拡大は,水平走査線上の画素を 1 次元補間す ることにより生成したサブピクセル精度でのブロック を用いたブロックマッチングとフレーム内空間方向性 補間処理により行う. インターレース−プログレッシブ変換,任意サイズ へ拡大するための解像度変換処理を行った後,マルチ スケールに対応した非線形エンハンサ処理を後処理的 に行う.このとき,過剰なエンハンサ処理を抑制する ための適応的なクリップ処理を併用する.これらの処 理は,すべて反復によらない 1 パス処理での実現が可 能であり,リアルタイムでの処理が期待される. 2 章では,インターレース方式ビデオをプログレッシ ブ方式ビデオへ変換するインターレース−プログレッ シブ変換処理,いわゆるデインターレース処理につい て説明する.はじめに,インターレース方式のビデオ 信号の特徴について述べる.その後,従来の補間フィ ルタによる内挿補間処理について説明し,本研究にお けるフィールド内の画素の方向性をブロックマッチン グにより推定する方法および方向性補間処理とその重 み付け平均について説明する.さらに,画像の領域毎 の適応補間処理とフレーム間時間方向性補間による動 き適応処理について説明する.3 章で,デインターレー ス処理の結果を任意サイズへ拡大するための解像度変 換処理について説明する.4 章でマルチスケールによる 非線形エンハンサ処理について説明する.5 章で画像シ ミュレーションを行い,6 章で纏める. 2 デインターレース処理 2.1 インターレース方式ビデオ 伝送のためには,信号は 1 次元でなければならない. このため,走査と呼ばれる方法により,時間空間的に 3 次元であるビデオ信号を 1 次元の信号に変換する.図 1 (b) に示すように,1 枚の画像(これをフレームと呼ぶ) を 2 枚のフィールドに分け,各フィールドで 1 本おき 第20回画像センシングシンポジウム,横浜,2014年6月IS3 - 15 IS3 - 15 - 2
  • 3.
    図 2 ブロックマッチングによる画素の方向性の推定. 奇数フィールド(ODD)における5 つの方向の画素○ の組合せにより,偶数フィールド(EVEN)における 画素●を補間生成する.補間に用いる画素○を中心と する 3 画素× 3 ラインのブロックを定義して,各方向 におけるブロック間の差分絶対値総和(SAD)を計算 する.水平走査線上の画素の 1 次元補間により生成し たサブピクセル精度の画素×による 4 方向も加える. に合計 525 本の走査線 6 で走査する.この方式により伝 送周波数の帯域を半減することができるが,処理とし ては複雑になる.すなわち,図 1 (c) に示すように,時 間方向 t と垂直方向 y に着目すれば,走査線は標本点 と見ることができるが,インターレース方式の場合は, 標本点である画素が時間的に 1/60 秒 7 離れているだけ でなく,空間的に走査線 1 ラインだけオフセットが生 じている [2]. 2.2 内挿補間 従来の画像の拡大方法は,原画素と原画素の間の画 素を内挿補間生成することにより行われている.標本 値から元来の連続的な信号 fa(x) を復元する内挿公式 は,次のように与えられる [14]. fa(x) = ∞∑ α=−∞ fa(αT) sin(π/T)(x − αT) (π/T)(x − αT) . (1) T は標本化周期であり,その逆数は標本化周波数と呼 ばれる.sin(π/T)x/(π/T)x は,シンク(sinc)関数で ある.画像の場合,fa(αT) は原画像における離散的な 画素値に相当する.実際には,適当な窓関数を掛けて, 無限に続くシンク関数を有限で打ち切ったり,適当な 有限関数により近似したりする.式(1)は,1 次元信 号に対するものである.画像は 2 次元信号であり,水 平垂直の各方向に分離して処理が可能である.デイン ターレース処理はフィールド画像の垂直方向における 2 倍拡大と見なせる. 2.3 フィールド内空間方向性補間 フィールド内の画素を用いた空間方向性補間によるイ ンターレース−プログレッシブ変換を行う.入力フィー 6 アナログ NTSC 方式の場合.地上デジタルテレビ放送の場合 は,フレーム当たり 1080 本(フィールドでは 540 本)である.4K 解像度の場合はその 2 倍,8K(スーパーハイビジョン)の場合には 4 倍になるが,いずれもプログレッシブ方式である. 7 厳密には,1/59.94 秒である. ルド画像 I(i, j), i = 1, . . . , H, j = 1, . . . , V/2 とする と,変換されたフレーム画像 I(i′ , j′ ), i′ = 1, . . . , H, j′ = 1, . . . , V は次のようになる. I(i′ , j′ ) = { I(i, j), j′ mod 2 = k mod 2, ˆI(i, j), others. (2) ここで,mod は剰余演算子であり,k は 1 から始まる フィールド番号を表す.ただし,j = ⌊(j′ + 1)/2⌋ であ り,⌊x⌋ は整数部分(切捨て)を表す床関数である.ˆI は空間方向性補間による変換画素である. 画素の方向性の推定には,ブロックマッチングを用 いる(図 2).ブロックマッチングの規準としては,次 のような M 画素× N ラインのブロック領域中の画素 数により正規化した差分絶対値総和 (Sum of Absolute Difference, SAD) を用いる. SADα(i, j) = 1 MN ⌊N/2⌋ ∑ p=−⌊N/2⌋ ⌊M/2⌋ ∑ q=−⌊M/2⌋ IU α (p, q) − ID α (p, q) , (3) IU α (p, q) ≡ I(i + ∆α + p, j + q), (4) ID α (p, q) ≡ I(i − ∆α + p, j + 1 + q). (5) ここで,∆α は方向によるオフセット値である.図 2 で は,ピクセル精度の方向の場合,∆α = 0, ±1, ±2 であ り,サブピクセル精度の方向の場合,∆α = ±0.5, ±1.5 である.サブピクセル精度の方向性の推定と補間処理 は,水平走査線上の画素を 1 次元補間する. ブロックマッチングを行ったすべての方向における 補間結果を次のように重み付け平均したものを最終的 な補間結果とする. ˆI(i, j) = ∑ α wα(i, j)˜Iα(i, j) ∑ α wα(i, j) . (6) ここで,˜Iα は各方向における補間結果であり,wα は次 のようなブロックマッチング残差によるガウス重みと する. wα(i, j) = exp ( − SADα(i, j) 2σ2 r ) . (7) σr は各方向におけるブロックマッチングの結果 SADα の許容範囲を調整するためのパラメータである. 2.4 領域適応処理と動き適応処理 フィールド内画素の方向性が画像内容によっては,明 確に得られない場合がある.そこで,画像中のエッジ 部,テクスチャ部,平坦部を判別して,領域毎にフィー ルド内空間補間を行う.画像の領域判定の方法は,次 のように行う. 1. すべての方向におけるブロックマッチングの結果 の SAD 値の標準偏差 σSAD を計算する. 2. σSAD < d の場合,平坦部と判定する. 3. すべての SAD 値をソートして,小さい方から n 個 IS3 - 15 第20回画像センシングシンポジウム,横浜,2014年6月 IS3 - 15 - 3
  • 4.
    図 3 ODDk−1&EVENk−1と ODDk&EVENk のフ レーム間のブロックマッチングおよび時間方向性補間. 図 4 サブピクセル精度のフレーム内空間方向性補間. の SAD 値を除外した場合の標準偏差 σ (n) SAD を計算 する. 4. σSAD − σ (n) SAD > e の場合,エッジ部と判定する. そうでなければ,テクスチャ部と判定する. エッジ部と判定された画素に対しては,すべてのフィー ルド内方向性補間の重み付け平均を行う.それ以外の 領域の画素に関しては,垂直方向のみの補間を行う. さらにフレーム間でブロックマッチング処理を行い, フレーム間時間方向性補間処理を行う.図 3 に示すよ うに,奇数フィールドと偶数フィールドからなるフレー ム画像によるブロック領域を用いて,隣接するフレー ム画像間でブロックマッチングを行う.得られるブロッ クマッチング残差のしきい値処理によりフレーム間静 止画素と判定された場合,フレーム間補間画素を出力 する. 3 解像度変換処理 任意サイズへの拡大処理である解像度変換処理にお いてもデインターレース処理同様,空間的な方向性補 間を行う.ここでは,インターレース走査されたフィー ルド画像をプログレッシブ走査されたフレーム画像に 変換した結果を方向性補間するため,フレーム内空間 方向性補間と呼ぶことにする. 図 4 の入力フレーム画像におけるサブピクセル位置 の画素●を補間生成するには,走査線上のピクセル位 置の画素○により 1 次元補間した画素×によりフレー ム内空間方向性補間する.各方向における補間画素値 ˜Iα は,画素間の空間的な距離の逆比による重み付け平 図 5 非線形エンハンサ処理の動作. 均により, ˜Iα(i′′ , j′′ ) = µ µ + ν IU α (0, 0) + ν µ + ν ID α (0, 0), i′′ = 1, . . . , H′ , j′′ = 1, . . . , V ′ , (8) として計算できるが,˜Iα の入力画像におけるサブピク セル位置の座標を (ξ, η) とすると,次のように簡単に なる. ˜Iα(i′′ , j′′ ) = (1 − κη) IU α (0, 0) + κη ID α (0, 0), (9) κη = η − ⌊η⌋. (10) 方向性を推定するためのブロック画素も,補間に用い る画素を中心としたサブピクセル位置の画素によるも のを用いればよい.各方向における補間画素 ˜Iα をデイ ンターレース処理同様,式(6)の重み付け平均する. 4 マルチスケール非線形エンハンサ フレーム内空間方向性補間による解像度変換処理の 結果を後処理的に画像のエッジ情報に基づいた非線形 エンハンサ処理を行うことにより,さらなる解像度の向 上を図る.図 5 に非線形エンハンサ処理の動作を示す. エッジの検出にはガウシアン差分(Difference of Gaussian, DoG)フィルタを用いる.ガウシアン差分を 計算するためのガウシアン平滑化フィルタの処理カー ネルを, Gσ(x) = 1 √ 2πσ2 exp ( − x2 2σ2 ) , (11) とすると,画像 I(x) の DoG フィルタは, DoGσ1,σ2 (x) = Gσ1 (x) ∗ I(x) − Gσ2 (x) ∗ I(x), (12) である(ただし,1 次元の場合).ここで,∗ はたたみ 込み演算であり,σ1 > σ2 である.DoG フィルタはガ ウシアン平滑化フィルタの 2 次微分であるラプラシア ン(Laplacian of Gaussian, LoG)フィルタの良い近似 であり,計算効率も高い.画像の場合には,水平垂直 方向に分離して処理を行うことができる.ラプラシア ンフィルタ同様,方向によらないエッジ検出が可能で ある. DoG フィルタにより検出されたエッジ成分をレベル に関する非線形操作により高周波成分を拡張して,原 IS3 - 15 第20回画像センシングシンポジウム,横浜,2014年6月 IS3 - 15 - 4
  • 5.
    (a) (b) (c) 図 6 時間空間方向性補間とマルチスケール非線形エ ンハンサによるビデオ超解像.(a)`a trous アルゴリズ ム,(b) `a trous アルゴリズムによるマルチスケール非 線形エンハンサ処理ブロック図,(c) 全体ブロック図. 画像に加えるが,ここで,非線形操作による過剰な強 調を抑制するために,注目画素近傍における入力画素 値の最大値最小値を探索して,それらの値による適応 的なクリップ処理を行う. このような非線形エンハンサをマルチスケール拡張 する.DoG フィルタによるエッジ検出は,σ 値を変え ることにより,細かなエッジから緩やかなエッジまで 検出が可能であるが,σ 値が増すに従って計算量も増 える.そこで,間引きなしウェーブレット変換に用い られている `a trous アルゴリズム [6] を適用して,DoG フィルタ処理の計算量の低減を図る. 図 6 (a) は,`a trous アルゴリズムを視覚化したもの である.最初の行は入力画像であり,2 行目は,カーネ ルサイズ 5 画素のガウシアンフィルタ Gσ によるフィル タ処理がなされたものである.3 行目は,2 行目の結果 を 1 画素おきに用いて同一のフィルタ処理を行ったも のである.以降,フィルタ処理を行う画素間隔を広げ ていく.図 6 (b) は,`a trous アルゴリズムによるマル チスケール非線形エンハンサ処理のブロック図であり, 同図 (c) は,処理全体のブロック図である. 5 画像シミュレーション 5.1 人工エッジ画像実験 図 7 (a) は人工的なエッジ画像例である.エッジの傾 斜角度を 0 度から 60 度まで,6 度刻みで変えたエッジ (a) (b) 図 7 人工エッジ画像実験.(a) 人工エッジ画像例(傾 斜角 12 度と 60 度),(b) エッジの傾斜角に対する復 元画像と原画像の平均二乗誤差画像のピーク SN 比の 結果のグラフ.バイキュービック補間(Bicubic),方 向性補間(DirIntp),方向性補間+非線形エンハンサ (DirIntp+NLEnh)である. 画像に,正規化カットオフ周波数 0.3 の低域通過フィル タ処理を行って,水平垂直ともに 1/2 縮小した後,イン ターレース化を行う.そのようなインターレース画像 に対して,フィールド内方向性補間によるデインター レース処理,解像度変換処理およびマルチスケール非 線形エンハンサ処理を行い,原画像を復元する.復元画 像と原画像の平均二乗誤差画像を計算して,そのピー ク SN 比(PSNR)により復元の良さを評価する.バイ キュービック補間による従来法とも比較する. 同図 (b) は,人工エッジ画像におけるエッジ角度に対 する復元画像と原画像の平均二乗誤差画像のピーク SN 比の結果のグラフである.従来法による結果は,エッジ の傾斜角度が増すにつれて,ピーク SN 比が減少して いるが,本研究における方向性補間の結果は,エッジ の傾斜角度によらず,ほぼ一定であり,最大 4.6dB の 改善が得られている.非線形エンハンサ処理を行うこ とにより,さらに改善している.補間方向が離散的で あっても,重み付け平均を行うことによって,連続的 なエッジの方向に対応していることがわかる. デインターレース処理および解像度変換処理におけ る方向は,図 2 にあるようにピクセル精度で 5 方向,サ ブピクセル精度で 4 方向の計 9 方向とした.方向の推 定のためのブロックマッチングのブロックサイズはい ずれも 9 画素× 7 ライン,各方向の補間結果の重み付 け平均のための σr は,それぞれ 1.0,0.75 とした.非 線形エンハンサ処理における `a trous DoG フィルタは, σ = 1 として,階層はレベル 2 まで,非線形操作とし ては,3 乗関数を用いた. IS3 - 15 第20回画像センシングシンポジウム,横浜,2014年6月 IS3 - 15 - 5
  • 6.
    5.2 実画像実験 デインターレース処理 図 8は,インターレース走査されたフレーム画像 8 で ある.画像サイズは 720 画素× 576 ライン(PAL 方式) であり,フィールド間の動きによる縞状のコーミング (combing)が見られる.このようなインターレース走 査されたフレーム画像を時間的に連続する次フレーム 画像とともに用いてデインターレース処理を行う. 図 9 は,本研究におけるフィールド内方向性補間処理 およびフレーム間時間方向性補間によって,奇数フィー ルド画素から偶数フィールド画素を生成したフレーム 画像への変換結果である.フィールド内における方向 としては,図 2 にあるようにピクセル精度で 5 方向,サ ブピクセル精度で 4 方向の計 9 方向とした.フィール ド内およびフレーム間方向性推定のためのブロックマッ チングにおけるブロックサイズは,9 画素× 7 ラインで あり,各方向の補間結果の重み付け平均のための σr = 1.0 とした. 画像中の枠で囲まれた領域は,エッジ部(赤),テク スチャ部(緑),平坦部(青),静止テロップ部(紫) であり,従来法であるキュービック補間との違いを比較 するために領域を拡大した画像も示している.フィー ルド内方向性補間およびフレーム間時間方向性補間の 重み付け平均の結果は,従来法と比較して,エッジ部 はジャギが低減して滑らかであり,静止テロップ部は, フレーム解像度が復元されているのがわかる.また,テ クスチャ部は領域判別の結果から従来法同様,垂直方 向のみの補間結果となっている. 画素毎のブロックマッチング結果の SAD 値による領 域判別画像を図 10 (a) に示す.各領域の画素における フィールド内画素の方向性を推定するブロックマッチ ング結果の SAD 値のグラフの一例を図 10 (b) に示す. グラフの横軸 α 値 0∼8 は,図 2 における左上から右 下方向から順に右上から左下方向までの 9 方向を表す. 領域判別には,ブロックマッチングの結果のすべての SAD 値をソートして,小さい方から 4 個の SAD 値を 除外した標準偏差 σ (4) SAD を用いた.テクスチャ判別のた めのしきい値 e = 10 とした. 解像度変換&マルチスケール非線形エンハンサ処理 図 11 (a) は,デインターレース処理の結果を 1350 画素 × 1080 ラインに解像度変換した結果であり,同図 (b) は,さらに,マルチスケール非線形エンハンサ処理し た結果である.解像度変換のためのフレーム内方向性 補間におけるブロックマッチングには,デインターレー ス処理同様,9 画素× 7 ラインのブロックを用いた.方 向性も同様に 9 方向である.非線形エンハンサ処理に おける `a trous DoG フィルタは,σ = 1 として,その 階層はレベル 2 まで,非線形操作としては,3 乗関数を 用いた. 8 http://www.its.bldrdoc.gov/vqeg/vqeg-home.aspx 図 8 インターレース走査されたフレーム画像8 . 図 9 デインターレース処理結果.枠で囲まれた領域 は,エッジ部(赤),テクスチャ部(緑),平坦部(青), 静止テロップ部(紫)である.エッジ部(赤)および 静止テロップ部(紫)の領域の拡大画像は,左が従来 法(キュービック補間),右が本手法. 図 12 (a)(b) は,図 11 (a)(b) のそれぞれの結果の輝度 成分の周波数スペクトル画像である.非線形エンハン サ処理により,周波数成分が拡張されているのがわか る.同図 (c)(d) は,垂直周波数 0 における水平周波数ス ペクトルおよび水平周波数 0 における垂直周波数スペ クトルのグラフ表示である(いずれも正規化周波数で ある).見易さのためにバイラテラルフィルタ [18] によ り平滑化している.マルチスケール化により,さらに 広範囲の周波数成分が拡張されているのがわかる. 6 まとめ 次世代テレビ放送における過去の映像コンテンツの リパーパスのために,反復によらない 1 パスビデオ超 解像処理として,画像の局所的な時間空間方向による IS3 - 15 第20回画像センシングシンポジウム,横浜,2014年6月 IS3 - 15 - 6
  • 7.
    (a) (b) 図 10(a) 画素毎のブロックマッチング結果の SAD 値による領域判別画像.白い画素ほどエッジらしさを表す(最大 値が白 100%になるようにスケールしている).インターレース画像なので垂直方向のサイズがフレーム画像の半分であ る.(b) 各領域の画素における SAD 値のグラフの一例.横軸 α 値 0∼8 は,図 2 における左上から右下方向から順に右 上から左下方向までの 9 方向を表す.エッジ部(edge),テクスチャ部(texture),平坦部(plane)である. 補間の重み付け平均とマルチスケール化した非線形エ ンハンサを提案した.インターレース走査されたフィー ルド画像をプログレッシブ走査されたフレーム画像に 変換するデインターレース処理と任意サイズへの拡大 を行う解像度変換処理の 2 段階の処理からなり,デイ ンターレース処理では,フィールド内空間方向性補間 にフレーム間時間方向性補間を組み合わせることによっ て,エッジ部におけるジャギを低減しつつ,静止テロッ プ部のフレーム解像度を復元した.フィールド内画素 の方向を推定するブロックマッチング残差の結果から 領域判別処理を行い,領域毎に最良な補間処理も実現 した.フレーム内空間方向性補間による解像度変換処 理を行った後,マルチスケール化した非線形エンハン サにより,さらなる解像度の向上を図った.すべての 処理は1パスでの実現が可能であり,リアルタイムで の処理が期待される. 謝辞: 本研究の機会を与えて下さった朋栄アイ・ビー・ イー和田社長に感謝します. 参考文献 [1] A. Buades, B. Coll, and J.-M. Morel, A non-local algo- rithm for image denoising, IEEE Conference on Com- puter Vision and Pattern Recognition (CVPR 2005), San Diego, CA, U.S.A., Vol. 2, pp. 60–65. June 2005. [2] 吹抜 敬彦, 「TV 画像の多次元信号処理」, 日刊工業新 聞社, 1988 年 11 月. [3] 合志 清一, 寺川 雅嗣, 三上 浩, 今井 繁規, 非線形特性を 応用した画像の超解像度化, 第 8 回情報科学技術フォーラ ム(FIT2009)講演論文集(第 3 分冊), pp. 7–12. 2009. [4] H. Greenspan, C. H. Anderson, and S. Akber, Image enhancement by nonlinear extrapolation in frequency space, IEEE Transactions on Image Processing, Vol. 9, No. 6, pp. 1035–1048. June 2000. [5] C. Harris and M. Stephens, A combined corner and edge detector, Proceedings of the Fourth ALVEY Vi- sion Conference, University of Manchester, England, pp. 147–151. Sept. 1988. [6] M. Holschneider, R. Kronland-Martinet, J. Morlet, and P. Tchamitchian, A real-time algorithm for signal analysis with the help of the wavelet transform, In Wavelets, Time-Frequency Methods and Phase Space, pp. 289–297, Springer-Verlag, 1989. [7] M. Irani and S. Peleg, Improving resolution by im- age registration, CVGIP: Graphical Models and Im- age Processing, Vol. 53, pp. 231–239. May 1991. [8] 石橋 静, 静止画像の撮像装置, 特開平 6-181546, 平成 6 年(1994)6 月 28 日. [9] C. Kervrann, J. Boulanger, and P. Coup´e, Bayesian non-local means filter, image redundancy and adap- tive dictionaries for noise removal, Proceedings of the First International Conference on Scale Space and Variational Methods in Computer Vision (SSVM’07), Ischia, Italy, pp. 520–532. May-June 2007. [10] X. Li and M. T. Orchard, New edge-directed interpo- lation, IEEE Transactions on Image Processing, Vol. 10, No. 10, pp. 1521–1527. Oct. 2001. [11] B. D. Lucas and T. Kanade, An iterative image regis- tration technique with an application to stereo vision, Proceedings of the 1981 DARPA Image Understand- ing Workshop, pp.121–130. Apr. 1981. [12] 松本 信幸, 井田 孝, 画像の自己合同性を利用したフレー ム内再構成型超解像, 第 15 回画像センシングシンポジ ウム(SSII2009)講演論文集, 横浜 (パシフィコ横浜). [13] 日本放送協会, 「スーパーハイビジョン映像技術」特集 号, NHK技研 R&D, No. 137, 2013 年1月. [14] A. V. Oppenheim and R. W. Schafer, Digital Signal Processing, Prentice-Hall, New Jersey, U.S.A., Jan- uary, 1975. 「ディジタル信号処理(上)(下)」, 伊達 玄 (訳), コロナ社, 1978 年 6 月. [15] S. C. Park, M. K. Park, and M. G. Kang, Super- resolution image reconstruction: a technical overview, IEEE Signal Processing Magazine, Vol. 20, No. 3, pp. 21–36. May 2003. [16] S. Schiemenz and C. Hentschel, Universal spatial up- scaler with nonlinear edge enhancement, 15th Euro- pean Signal Processing Conference (EUSIPCO 2007), Pozna´n, Poland, pp. 140–144. Sept. 2007. [17] 清水 嘉泰, 池永 剛, 非線形フィルタに基づく高精細ディ スプレイ向け実時間超解像, 第 17 回画像センシングシ ンポジウム(SSII2011)講演論文集, 横浜 (パシフィコ 横浜). [18] C. Tomasi and R. Manduchi, Bilateral filtering for gray and color images, Proceedings of the Sixth IEEE International Conference on Computer Vision (ICCV’98), Bombay, India, pp. 839–846. Jan. 1998. IS3 - 15 第20回画像センシングシンポジウム,横浜,2014年6月 IS3 - 15 - 7
  • 8.
    (a) (b) 図 11解像度変換結果とマルチスケール非線形エンハンサ処理結果.(a) 解像度変換結果,(b) マルチスケール非線形 エンハンサ結果. (a) (b) (c) (d) 図 12 非線形エンハンサ処理画像の輝度成分の周波数スペクトル結果.(a) 周波数スペクトル画像(エンハンスなし), (b) 周波数スペクトル画像(エンハンスあり),(c) 垂直周波数 0 における水平周波数スペクトルのグラフ表示,(d) 水平 周波数 0 における垂直周波数スペクトルのグラフ表示.レベル 0 と 1 の DoG フィルタによるエンハンス結果(Fine), レベル 0 と 1,レベル 1 と 2 の DoG フィルタによるエンハンス結果(Fine+Coarse),エンハンスなし(Non-Enhance) である(いずれも正規化周波数である).グラフ表示は,見易さのためにバイラテラルフィルタ [18] により平滑化して いる. IS3 - 15 第20回画像センシングシンポジウム,横浜,2014年6月 IS3 - 15 - 8