アテンションモデルの注意深い調査

Confidential © Ecomott, Inc. ALL RIGHTS RESERVED
AI論文輪読会feat.ASB20190830
アテンションモデルの
注意深い調査
要約：
エコモット株式会社
データアナリティクス部
庄内道博
An Attentive Survey of Attention Models
Sneha Chaudhari, Gungor Polatkan , Rohan Ramanath , Varun Mithal
AI@LinkedIn
{snchaudhari, gpolatkan, rramanat, vamithal}@linkedin.com
arXiv:1904.02874v1

要旨
アテンションモデル（AM）：
多様な応用分野で研究されているニューラルネット
ワーク（NN）における重要な概念
この論文は、以下の４点を調査
１．AMの概要をカテゴリ分類法で説明
２．NNアーキテクチャの確認
３．NNモデル解釈可能性を向上させる方法
４．影響を与えたアプリケーションの説明

背景１
• 機械翻訳に最初に導入されたAM[Bahdanauら,2014]
• 主要な概念となった
• 自然言語処理、統計学習、音声及びコンピュータビジョンでの不可欠な要素
• アテンションは生物学的システムによって直感的に理解できる
• 視覚処理システム
• 無関係な情報を無視して、画像の一部を選択的に焦点を合わせる[Xuら,2015]
⇒ 視覚を助ける方法
• 言語、音声及び聴覚
• 翻訳作業・要約作業・・・入力のある部分が他の部分より関連性が高いような問題
• 入力シーケンスの特定の単語だけが次の単語に影響する場合
• 画像の字幕・・・入力画像のある領域が次の単語を生成するために関連する場合
• AMは入力の特定部分に注目することによって、関連性の概念
を取り入れる。
• 事例：レビューの感情分析[Yelpら, 2016]

背景２
• AMの急速な進歩は、次の３つの理由による。
• 機械翻訳、質問応答、感情分析、品詞タグ付け、句構造
構文解析、対話システムなどの複数タスクでSOTA
[Youngら, 2018]
• NN解釈可能性の改善に広く利用
• 機械学習モデルの「公平性・説明責任および透明性」
• 入力の長さ増加によるパフォーマンスの低下、入力の順
次処理に起因する非効率性などRNNに関する課題の
解決

論文構成
• S２：AM[Bahdanauら、2014]の簡単な説明
• S３：AMの分類法の提案
• S４：AMを利用したNNアーキテクチャ
• S５：どのようにNNの解釈可能性を促進しているか
• S６：アテンションを用いているアプリケーション
• S７：まとめ

関連する調査とこの論文の特徴
• 特定の分野に焦点を当てたアテンションに関する
調査
• Computer Vision[Wang and Tax, 2016]
• グラフ[Lee et al., 2018]
• 他の同様の研究
• Galassi et al [2019]
• この論文の特徴
• 分類法
• 主要なアーキテクチャとアプリケーション
• AMの解釈可能性

アテンションモデル（ＡＭ）
• シーケンスシーケンスモデル：
• エンコーダ／デコーダアーキテクチャ[Choら, 2014b]で構成
• エンコーダ：入力シーケンスを受け取るＲＮＮ
• 入力は、トークン｛x1,x2,x3,・・・,xT｝のシーケンス
• 固定長ベクトル｛h1,h2,h3,・・・,hT｝にエンコード
• デコーダ：RNN
• 入力は
• 固定長ベクトルｈT
• それによって生成されたトークン｛y1,y2,y3,・・・,yT0｝

伝統的なエンコーダ－デコーダフレームの課題
• エンコーダはすべての入力情報をデコーダ渡す固定長のhT
に圧縮しなければならない。
• 長くて詳細な入力シーケンスを圧縮すると情報が喪失する可能性
[choら,2014a]
• 翻訳や要約のような構造を出力する場合、入力と出力シーケ
ンス間の整列をモデル化できない[Youngら,2018]
• 各出力トークンは入力シーケンスの特定の部分に影響を受けるハズ
• デコーダには各出力トークンを生成しながら↑ここにフォーカスするメ
カニズムがない

キーアイデアとアテンションの用法・学習
• デコーダがエンコードされた入力シーケンス全体
にアクセス可能にすればいいんじゃない？
• 次の出力トークンを生成するために
• 関連情報が存在する位置のセットに優先順位をつける
• アテンション重みαを導入する
• ｈi：候補状態
• ｓｊ：クエリ
• ｃ：文脈ベクトル
• 入力シーケンスの関連位置にフォーカス
• アテンション重みαijの学習
• ＦＦＮ
• ｈiとsj-1⇒sj

アテンションの分類法
• カテゴリは排他的ではない
• アテンションは複数のカテゴリの組み合せで適用可能
• カテゴリはアテンションを考慮する次元
• 関心ある用途に適用

主要な論文リスト

Num.of Sequences
• distinctive-attension
• 単一の入力と出力シーケンスで、候補とクエリの状態がそ
れぞれ入力シーケンスと出力シーケンスに属する
• 翻訳[Bahdanauら, 2014]、要約[Rushら, 2015]、画像
キャプション[Xuら, 2015]、音声認識[Chanら, 2016]
• ｃo-attention
• 複数の入力シーケンスを同時に操作し、入力間の相互作
用をとらえる
• 視覚的質問応答[Luら, 2016]
• 入力画像上の視覚的アテンションと質問のアテンションをモデル化
• アテンションに基づく画像表現は質問のアテンションを導くために
使用（またその逆も同様）
• 質問内のキーフレーズおよび回答に関連する画像の対応する領域
を同時に検出するのに役立つ。
• Num.of Abstraction Levels

Num.of Sequences
• ｓelf-attention[Yangら, 2016]
• テキスト分類、レコメンドなどのタスク
• 入力はシーケンスだが、出力がシーケンスではない
• 入力シーケンス内の関連トークンを学習したアテンション
• 候補とクエリは同じシーケンスに属する

Num.of Abstraction Levels
• 元の入力シーケンスに対してアテンション重みを計
算する ⇒ 一般的
• シングルレベルと呼べる
• 抽象化するごとにアテンション重みを計算できる
• より低い抽象化レベルの出力（コンテキストベクトル）
• ↑をより高い抽象化レベルのクエリにする
• マルチレベル
• トップダウン（より高いレベルの抽象化からより低いレベ
ルへ）学習[Zhao and Zhang, 2018]
• ボトムアップ学習[Yangら, 2016]
• 文書分類タスクで、単語レベルと文レベル
• 文書＞文＞単語：階層的AM（HAM）

HAMの動作
• 単語埋め込みベクトルのシーケンスに適用される
第1レベルアテンションを用いて文の表現を構築
• この文の表現と第2レベルアテンションを用いて文
章の表現を形成
⇒ 文章の特徴ベクトルとして使用

co-attention研究[Luら, 2016]
• 単語レベル、フレーズレベル、質問レベルで画像と質問を結
びつけているのでマルチレベルカテゴリに属している
• アテンション経由アテンション[Zhao and Zhang,2018]
• トップダウン方式マルチレベルアテンション
• 下位レベルの文字と上位レベルの単語を含む

Num.of Positions
• ソフトアテンション[Bahdanauら,2014]
• 入力シーケンスのすべての候補状態の加重平均を使って
文脈ベクトルを構築。
• ソフトウェイト法を使用するとNNの逆伝播による効率的
な学習が可能になる反面、二次けいさんコストが発生。
• ハードアテンション[Xuら,2015]
• 入力ベクトル中の確率的サンプリングされた候補状態か
ら文脈ベクトルを構築
• アテンション重みによるパラーメータ化されたマルチノイ分布
• 計算コストが低い
• 微分不可能で最適化しにくい
• 強化学習（変分学習法および方策勾配法）で克服

Num.of Positions
• local/global-attention[Luongら, 2015]
• 機械翻訳タスク
• グローバルアテンションはソフトアテンションに似ている
• ローカルアテンションは、ソフトとハードの中間
• まず、入力シーケンス内の注目点または位置を検出
• その位置の周辺ウィンドウを選択
• ローカルソフトアテンションを作成
• 入力シーケンス内の位置は以下のどちらでも可
• 設定（単調アライメント）
• 予測関数（予測アライメント）

Num.of Representations
• 通常ほとんどのアプリは入力列の単一特徴表現を採用
• 下流タスクでは十分ではない
• 複数表現AM
• 複数の特徴表現を作り、アテンションで重み付けする
• 入力のノイズや冗長性を無視して、関連性の高いものを決定できる
• 複数表現とアテンション重みの組み合わせ
• メリット
• 重みを調べることで、特定の下流タスクにどの表現が好ましいか直接表ができる
• 研究例
• [Kielaら,2018]・・・文の表現を改善
• [Maharjanら,2018]・・・語彙、構文、視覚及びジャンルを取り込んだ本の動
的に評価した
• 多次元アテンション
• 直感的には各特徴のスコアを計算することで特徴選択
• [Linら,2017]・・・効果的な文埋め込み表現
• [Shenら,2018]・・・言語理解問題

アテンションを用いたネットワークアーキテクチャ
• アテンションと組み合わせた3つの顕著なアーキテクチャ
• エンコーダ-デーコーダフレームワーク
• メモリネットワーク
• 回帰モデルの逐次処理を回避するアーキテクチャ

エンコーダ-デコーダ
• 最も初期のアテンションの用法
• RNNベース
• [Bahdanauら,2014]
• 広く利用（普及）
• 任意の入力表現⇒固定長ベクトルに圧縮
• 入力表現と出力を切り離すことができる
• エンコーダをCNN、デコーダをRNN/LSTMのようなハイブリッドが可能
• さまざまなマルチモーダルタスクに応用可能
• 画像やビデオのキャプション、視覚的な質問応答、音声認識
• 従来のエンコーダ-デコーダフレームワークの問題
• 巡回セールスマン問題や離散最適問題には適用できない
• ポイントネットワーク[Vinyalsら,2015]
• アテンション重みを用いることで適用できた
• 入力シンボルが各出力位置のシンボルとして選択される確率をモデル化

メモリネットワーク
• 質問応答やチャットボットなどのアプリケーション
• ファクトのデータベースから学習する機能が必要
• 入力は知識データベースとクエリ
• End2Endメモリネットワーク[Sukhbaatarら,2015]
• メモリブロックにファクトDBを配置
• 各ファクトの関連性をアテンションでモデル化
• AMの一般化と捉えることができる

RNNs無しのネットワーク
• 反復アーキテクチャは並列化できない
• トランスフォーマー［Vaswaniら,2017］を提案
• エンコーダとデコーダが2つのサブレイヤをもつ同一レイヤのスタック
• ポジションワイズFFN層
• 入力は逐次的で時間要素の利用をモデルに要求する
• 位置情報の要素（RNN/CNN）は使用しない
• 位置ごとにFFNを使用し、各トークンの位置とコンテンツをエンコード
• マルチヘッドselfアテンション層
• Selfアテンションは入力シーケンス内のトークンとその位置を関連づける
• マルチヘッド：同じ入力の異なる線形変換の並列積層
• モデルは入力の様々な側面を把握し、表現力が向上
• 反復構造無し、大幅な並列処理、短時間トレーニング、高い翻訳精度
• 位置変動に敏感な問題にはうまくいかない
• 位置エンコーダは位置情報の組み込みが弱い
• ［Shenら,2018］・・・時間的畳み込みを利用して位置も符号化している

RNNs無しのアーキテクチャ
• フィードフォワードアテンションモデル[Raffel＆Ellis,2015]
• データの時間的次元をAMで崩壊させる
• RNNの代わりにFNNを利用
• AMで可変長入力シーケンスから固定長コンテキストベクトルを生成し、FNNに入力

解釈可能性のためのアテンション
• ディープラーニングアーキテクチャは解釈可能性欠如のため批判され
てきた[Guidottiら,2018]
• 入力と出力のアテンション重みを視覚化できる[Linら,2016]
• アテンション重みの大きさはシーケンス内の各位置での出力予測に関して、
特定の入力領域がどれくらい関連性が高いかと相関している。

• ａ）単語の位置が言語ごとに異なるにもかかわらずうまく可視化
できる[Bahdanauら,2014]
• b）アテンション重みがユーザの興味を認識するのに役立つ
• ｃ）画像キャプションタスクで生成されたテキストに影響を及ぼした領域

• 職業分類におけるジェンダーの偏りで注意を引く単語
がジェンダー化されている[De-Arteagaら,2019]
• 良い言葉と悪い言葉の重要性はレビューのセンチメン
トを決定するために文脈に依存する[Yangら,2016]
• 単語のアテンション重み分布を調べて、それらが0から1の範
囲に及ぶことを発見
• これはモデルが多様な文脈を捉え、文脈依存の重みを単語
に割り当てることを意味する。
• 音声認識において、文字出力と音声信号の間のアテ
ンションが音声信号内の最初の文字の開始位置を正
しく識別でき、アテンション重みは音響的類似性を持つ
単語に対して類似している[Chanら,2016]

• 多重表現的アテンションが、GloVe、FastText単語
埋め込み、特に低頻度単語のGloVeにより高い重み
を割り当てる[Kielaら,2018]
• ディープニューラルネットワークのアテンションの重みを視
覚化するためのツール[Leeら,2017]および[Liu
ら,2018]

AMが活用されているアプリケーション領域
• 自然言語生成（NLG）
• 機械翻訳（MT）・・・ある言語から別言語へのテキスト・音声の翻訳
• アテンションの利点は長い文章を翻訳する際にも有効[Bahdanauら,2014]
• アテンションを使ってパフォーマンスを改善[Britzら, 2017]および[Tangら, 2018]
• 質問応答（QA）
• 質問のより良い理解にアテンションを利用[Hermann et al,2015]
• 答えの発見のためにメモリネットワークで大量の情報を保存[Sukhbaatarら, 2015]
• Co-attentionで入力マルチモダリティをモデル化、パフォーマンス向上[Luら, 2016]
• マルチメディア記述（MD）・・・マルチメディア（音声、画像およびビデオ）
入力シーケンスから自然言語テキスト記述を生成タスク［Ｃｈｏら, 2015］
• 関連音響信号を見つける機能を実行して、キャプション内の次の単語を予測
• 音声入力[Chorowskiら, 2015]
• 入力画像の関連部分[Xuら, 2015]
• ビデオキャプション作成タスクのためにマルチレベルアテンションを使用してビデオの時
間的および空間的構造を利用[Liら,2017]
• より低い抽象化レベルはフレーム内の特定の領域を抽出し、より高い抽象化レベルはフレームの
小さいサブセットに選択的に焦点を合わせる。

• 分類
• 文書分類・・・Selfアテンションの利用
• マルチレベルSelfアテンション[Yangら,2016]
• 多次元Selfアテンション[Linら,2017]
• 多表現Selfアテンション[Kielaら,2018]
• 感情分析
• Selfアテンションが重要な単語決定に役立つ
• アスペクトベース[Wangら,2016] [Maら,2018]
• アスペクト関連概念をモデルに組み込む
• コンテンツ自体とは異なる概念を評価するためにアテンションを利用
• アプリケーション
• メモリネットワーク[Tangら,2016]
• トランスフォーマー[Ambartsoumian and Popowich, 2018;Songら,
2019］

• 推奨システム
• 長期的および短期的な興味を捉えるためにユーザーの対話
型アイテムにアテンションの重みを割り当て利用
• すべての対話がアイテムの推奨に関連するわけではない
• ユーザーの興味は一時的であり、長短間で変動する
• 複数の論文がユーザーの履歴の中で最も関連性の高いアイテムを
見つけるために自己アテンションメカニズムを使用して、
• 協調フィルタリングフレームワーク[He et al、2018; Shuai Yu、
2019]
• 順次推奨のエンコーダ/デコーダアーキテクチャ[Kang and McAuley、
2018; Zhouら,2018］

• 最近の斬新なアテンション研究
• 外部知識ベースのよりスムーズな組み込み
• 事前訓練埋め込みとマルチタスク学習
• 教師なしの代表的学習
• 疎性学習と原型学習

考察
• 文献で注目が集まっているさまざまな方法について説明
• アテンションの分類法
• アテンションを使用した重要なニューラルネットワークアーキテクチャ
• 著しい影響が見られたアプリケーションドメイン
• ニューラルネットワークへのアテンションの組込み
• パフォーマンスの大幅な向上
• 解釈が容易に
• ニューラルネットワークの内部作業へのより深い洞察
• 入力の逐次処理を排除
• 計算効率の向上

アテンションモデルの注意深い調査

Recommended

Recommended

More Related Content

Similar to アテンションモデルの注意深い調査

Similar to アテンションモデルの注意深い調査 (20)

アテンションモデルの注意深い調査