SlideShare a Scribd company logo
Confidential © Ecomott, Inc. ALL RIGHTS RESERVED
AI論文輪読会feat.ASB20190830
アテンションモデルの
注意深い調査
要約:
エコモット株式会社
データアナリティクス部
庄内道博
An Attentive Survey of Attention Models
Sneha Chaudhari, Gungor Polatkan , Rohan Ramanath , Varun Mithal
AI@LinkedIn
{snchaudhari, gpolatkan, rramanat, vamithal}@linkedin.com
arXiv:1904.02874v1
Confidential © Ecomott, Inc. ALL RIGHTS RESERVED
要旨
アテンションモデル(AM):
多様な応用分野で研究されているニューラルネット
ワーク(NN)における重要な概念
この論文は、以下の4点を調査
1.AMの概要をカテゴリ分類法で説明
2.NNアーキテクチャの確認
3.NNモデル解釈可能性を向上させる方法
4.影響を与えたアプリケーションの説明
Confidential © Ecomott, Inc. ALL RIGHTS RESERVED
背景1
• 機械翻訳に最初に導入されたAM[Bahdanauら,2014]
• 主要な概念となった
• 自然言語処理、統計学習、音声及びコンピュータビジョンでの不可欠な要素
• アテンションは生物学的システムによって直感的に理解できる
• 視覚処理システム
• 無関係な情報を無視して、画像の一部を選択的に焦点を合わせる[Xuら,2015]
⇒ 視覚を助ける方法
• 言語、音声及び聴覚
• 翻訳作業・要約作業・・・入力のある部分が他の部分より関連性が高いような問題
• 入力シーケンスの特定の単語だけが次の単語に影響する場合
• 画像の字幕・・・入力画像のある領域が次の単語を生成するために関連する場合
• AMは入力の特定部分に注目することによって、関連性の概念
を取り入れる。
• 事例:レビューの感情分析[Yelpら, 2016]
Confidential © Ecomott, Inc. ALL RIGHTS RESERVED
背景2
• AMの急速な進歩は、次の3つの理由による。
• 機械翻訳、質問応答、感情分析、品詞タグ付け、句構造
構文解析、対話システムなどの複数タスクでSOTA
[Youngら, 2018]
• NN解釈可能性の改善に広く利用
• 機械学習モデルの「公平性・説明責任および透明性」
• 入力の長さ増加によるパフォーマンスの低下、入力の順
次処理に起因する非効率性などRNNに関する課題の
解決
Confidential © Ecomott, Inc. ALL RIGHTS RESERVED
論文構成
• S2:AM[Bahdanauら、2014]の簡単な説明
• S3:AMの分類法の提案
• S4:AMを利用したNNアーキテクチャ
• S5:どのようにNNの解釈可能性を促進しているか
• S6:アテンションを用いているアプリケーション
• S7:まとめ
Confidential © Ecomott, Inc. ALL RIGHTS RESERVED
関連する調査とこの論文の特徴
• 特定の分野に焦点を当てたアテンションに関する
調査
• Computer Vision[Wang and Tax, 2016]
• グラフ[Lee et al., 2018]
• 他の同様の研究
• Galassi et al [2019]
• この論文の特徴
• 分類法
• 主要なアーキテクチャとアプリケーション
• AMの解釈可能性
Confidential © Ecomott, Inc. ALL RIGHTS RESERVED
アテンションモデル(AM)
• シーケンスシーケンスモデル:
• エンコーダ/デコーダアーキテクチャ[Choら, 2014b]で構成
• エンコーダ:入力シーケンスを受け取るRNN
• 入力は、トークン{x1,x2,x3,・・・,xT}のシーケンス
• 固定長ベクトル{h1,h2,h3,・・・,hT}にエンコード
• デコーダ:RNN
• 入力は
• 固定長ベクトルhT
• それによって生成されたトークン{y1,y2,y3,・・・,yT0}
Confidential © Ecomott, Inc. ALL RIGHTS RESERVED
伝統的なエンコーダ-デコーダフレームの課題
• エンコーダはすべての入力情報をデコーダ渡す固定長のhT
に圧縮しなければならない。
• 長くて詳細な入力シーケンスを圧縮すると情報が喪失する可能性
[choら,2014a]
• 翻訳や要約のような構造を出力する場合、入力と出力シーケ
ンス間の整列をモデル化できない[Youngら,2018]
• 各出力トークンは入力シーケンスの特定の部分に影響を受けるハズ
• デコーダには各出力トークンを生成しながら↑ここにフォーカスするメ
カニズムがない
Confidential © Ecomott, Inc. ALL RIGHTS RESERVED
キーアイデアとアテンションの用法・学習
• デコーダがエンコードされた入力シーケンス全体
にアクセス可能にすればいいんじゃない?
• 次の出力トークンを生成するために
• 関連情報が存在する位置のセットに優先順位をつける
• アテンション重みαを導入する
• hi:候補状態
• sj:クエリ
• c:文脈ベクトル
• 入力シーケンスの関連位置にフォーカス
• アテンション重みαijの学習
• FFN
• hiとsj-1⇒sj
Confidential © Ecomott, Inc. ALL RIGHTS RESERVED
アテンションの分類法
• カテゴリは排他的ではない
• アテンションは複数のカテゴリの組み合せで適用可能
• カテゴリはアテンションを考慮する次元
• 関心ある用途に適用
Confidential © Ecomott, Inc. ALL RIGHTS RESERVED
主要な論文リスト
Confidential © Ecomott, Inc. ALL RIGHTS RESERVED
Num.of Sequences
• distinctive-attension
• 単一の入力と出力シーケンスで、候補とクエリの状態がそ
れぞれ入力シーケンスと出力シーケンスに属する
• 翻訳[Bahdanauら, 2014]、要約[Rushら, 2015]、画像
キャプション[Xuら, 2015]、音声認識[Chanら, 2016]
• co-attention
• 複数の入力シーケンスを同時に操作し、入力間の相互作
用をとらえる
• 視覚的質問応答[Luら, 2016]
• 入力画像上の視覚的アテンションと質問のアテンションをモデル化
• アテンションに基づく画像表現は質問のアテンションを導くために
使用(またその逆も同様)
• 質問内のキーフレーズおよび回答に関連する画像の対応する領域
を同時に検出するのに役立つ。
• Num.of Abstraction Levels
Confidential © Ecomott, Inc. ALL RIGHTS RESERVED
Num.of Sequences
• self-attention[Yangら, 2016]
• テキスト分類、レコメンドなどのタスク
• 入力はシーケンスだが、出力がシーケンスではない
• 入力シーケンス内の関連トークンを学習したアテンション
• 候補とクエリは同じシーケンスに属する
Confidential © Ecomott, Inc. ALL RIGHTS RESERVED
Num.of Abstraction Levels
• 元の入力シーケンスに対してアテンション重みを計
算する ⇒ 一般的
• シングルレベルと呼べる
• 抽象化するごとにアテンション重みを計算できる
• より低い抽象化レベルの出力(コンテキストベクトル)
• ↑をより高い抽象化レベルのクエリにする
• マルチレベル
• トップダウン(より高いレベルの抽象化からより低いレベ
ルへ)学習[Zhao and Zhang, 2018]
• ボトムアップ学習[Yangら, 2016]
• 文書分類タスクで、単語レベルと文レベル
• 文書>文>単語:階層的AM(HAM)
Confidential © Ecomott, Inc. ALL RIGHTS RESERVED
HAMの動作
• 単語埋め込みベクトルのシーケンスに適用される
第1レベルアテンションを用いて文の表現を構築
• この文の表現と第2レベルアテンションを用いて文
章の表現を形成
⇒ 文章の特徴ベクトルとして使用
Confidential © Ecomott, Inc. ALL RIGHTS RESERVED
co-attention研究[Luら, 2016]
• 単語レベル、フレーズレベル、質問レベルで画像と質問を結
びつけているのでマルチレベルカテゴリに属している
• アテンション経由アテンション[Zhao and Zhang,2018]
• トップダウン方式マルチレベルアテンション
• 下位レベルの文字と上位レベルの単語を含む
Confidential © Ecomott, Inc. ALL RIGHTS RESERVED
Num.of Positions
• ソフトアテンション[Bahdanauら,2014]
• 入力シーケンスのすべての候補状態の加重平均を使って
文脈ベクトルを構築。
• ソフトウェイト法を使用するとNNの逆伝播による効率的
な学習が可能になる反面、二次けいさんコストが発生。
• ハードアテンション[Xuら,2015]
• 入力ベクトル中の確率的サンプリングされた候補状態か
ら文脈ベクトルを構築
• アテンション重みによるパラーメータ化されたマルチノイ分布
• 計算コストが低い
• 微分不可能で最適化しにくい
• 強化学習(変分学習法および方策勾配法)で克服
Confidential © Ecomott, Inc. ALL RIGHTS RESERVED
Num.of Positions
• local/global-attention[Luongら, 2015]
• 機械翻訳タスク
• グローバルアテンションはソフトアテンションに似ている
• ローカルアテンションは、ソフトとハードの中間
• まず、入力シーケンス内の注目点または位置を検出
• その位置の周辺ウィンドウを選択
• ローカルソフトアテンションを作成
• 入力シーケンス内の位置は以下のどちらでも可
• 設定(単調アライメント)
• 予測関数(予測アライメント)
Confidential © Ecomott, Inc. ALL RIGHTS RESERVED
Num.of Representations
• 通常ほとんどのアプリは入力列の単一特徴表現を採用
• 下流タスクでは十分ではない
• 複数表現AM
• 複数の特徴表現を作り、アテンションで重み付けする
• 入力のノイズや冗長性を無視して、関連性の高いものを決定できる
• 複数表現とアテンション重みの組み合わせ
• メリット
• 重みを調べることで、特定の下流タスクにどの表現が好ましいか直接表ができる
• 研究例
• [Kielaら,2018]・・・文の表現を改善
• [Maharjanら,2018]・・・語彙、構文、視覚及びジャンルを取り込んだ本の動
的に評価した
• 多次元アテンション
• 直感的には各特徴のスコアを計算することで特徴選択
• [Linら,2017]・・・効果的な文埋め込み表現
• [Shenら,2018]・・・言語理解問題
Confidential © Ecomott, Inc. ALL RIGHTS RESERVED
アテンションを用いたネットワークアーキテクチャ
• アテンションと組み合わせた3つの顕著なアーキテクチャ
• エンコーダ-デーコーダフレームワーク
• メモリネットワーク
• 回帰モデルの逐次処理を回避するアーキテクチャ
Confidential © Ecomott, Inc. ALL RIGHTS RESERVED
エンコーダ-デコーダ
• 最も初期のアテンションの用法
• RNNベース
• [Bahdanauら,2014]
• 広く利用(普及)
• 任意の入力表現⇒固定長ベクトルに圧縮
• 入力表現と出力を切り離すことができる
• エンコーダをCNN、デコーダをRNN/LSTMのようなハイブリッドが可能
• さまざまなマルチモーダルタスクに応用可能
• 画像やビデオのキャプション、視覚的な質問応答、音声認識
• 従来のエンコーダ-デコーダフレームワークの問題
• 巡回セールスマン問題や離散最適問題には適用できない
• ポイントネットワーク[Vinyalsら,2015]
• アテンション重みを用いることで適用できた
• 入力シンボルが各出力位置のシンボルとして選択される確率をモデル化
Confidential © Ecomott, Inc. ALL RIGHTS RESERVED
メモリネットワーク
• 質問応答やチャットボットなどのアプリケーション
• ファクトのデータベースから学習する機能が必要
• 入力は知識データベースとクエリ
• End2Endメモリネットワーク[Sukhbaatarら,2015]
• メモリブロックにファクトDBを配置
• 各ファクトの関連性をアテンションでモデル化
• AMの一般化と捉えることができる
Confidential © Ecomott, Inc. ALL RIGHTS RESERVED
RNNs無しのネットワーク
• 反復アーキテクチャは並列化できない
• トランスフォーマー[Vaswaniら,2017]を提案
• エンコーダとデコーダが2つのサブレイヤをもつ同一レイヤのスタック
• ポジションワイズFFN層
• 入力は逐次的で時間要素の利用をモデルに要求する
• 位置情報の要素(RNN/CNN)は使用しない
• 位置ごとにFFNを使用し、各トークンの位置とコンテンツをエンコード
• マルチヘッドselfアテンション層
• Selfアテンションは入力シーケンス内のトークンとその位置を関連づける
• マルチヘッド:同じ入力の異なる線形変換の並列積層
• モデルは入力の様々な側面を把握し、表現力が向上
• 反復構造無し、大幅な並列処理、短時間トレーニング、高い翻訳精度
• 位置変動に敏感な問題にはうまくいかない
• 位置エンコーダは位置情報の組み込みが弱い
• [Shenら,2018]・・・時間的畳み込みを利用して位置も符号化している
Confidential © Ecomott, Inc. ALL RIGHTS RESERVED
RNNs無しのアーキテクチャ
• フィードフォワードアテンションモデル[Raffel&Ellis,2015]
• データの時間的次元をAMで崩壊させる
• RNNの代わりにFNNを利用
• AMで可変長入力シーケンスから固定長コンテキストベクトルを生成し、FNNに入力
Confidential © Ecomott, Inc. ALL RIGHTS RESERVED
解釈可能性のためのアテンション
• ディープラーニングアーキテクチャは解釈可能性欠如のため批判され
てきた[Guidottiら,2018]
• 入力と出力のアテンション重みを視覚化できる[Linら,2016]
• アテンション重みの大きさはシーケンス内の各位置での出力予測に関して、
特定の入力領域がどれくらい関連性が高いかと相関している。
Confidential © Ecomott, Inc. ALL RIGHTS RESERVED
解釈可能性のためのアテンション
• a)単語の位置が言語ごとに異なるにもかかわらずうまく可視化
できる[Bahdanauら,2014]
• b)アテンション重みがユーザの興味を認識するのに役立つ
• c)画像キャプションタスクで生成されたテキストに影響を及ぼした領域
Confidential © Ecomott, Inc. ALL RIGHTS RESERVED
解釈可能性のためのアテンション
• 職業分類におけるジェンダーの偏りで注意を引く単語
がジェンダー化されている[De-Arteagaら,2019]
• 良い言葉と悪い言葉の重要性はレビューのセンチメン
トを決定するために文脈に依存する[Yangら,2016]
• 単語のアテンション重み分布を調べて、それらが0から1の範
囲に及ぶことを発見
• これはモデルが多様な文脈を捉え、文脈依存の重みを単語
に割り当てることを意味する。
• 音声認識において、文字出力と音声信号の間のアテ
ンションが音声信号内の最初の文字の開始位置を正
しく識別でき、アテンション重みは音響的類似性を持つ
単語に対して類似している[Chanら,2016]
Confidential © Ecomott, Inc. ALL RIGHTS RESERVED
解釈可能性のためのアテンション
• 多重表現的アテンションが、GloVe、FastText単語
埋め込み、特に低頻度単語のGloVeにより高い重み
を割り当てる[Kielaら,2018]
• ディープニューラルネットワークのアテンションの重みを視
覚化するためのツール[Leeら,2017]および[Liu
ら,2018]
Confidential © Ecomott, Inc. ALL RIGHTS RESERVED
AMが活用されているアプリケーション領域
• 自然言語生成(NLG)
• 機械翻訳(MT)・・・ある言語から別言語へのテキスト・音声の翻訳
• アテンションの利点は長い文章を翻訳する際にも有効[Bahdanauら,2014]
• アテンションを使ってパフォーマンスを改善[Britzら, 2017]および[Tangら, 2018]
• 質問応答(QA)
• 質問のより良い理解にアテンションを利用[Hermann et al,2015]
• 答えの発見のためにメモリネットワークで大量の情報を保存[Sukhbaatarら, 2015]
• Co-attentionで入力マルチモダリティをモデル化、パフォーマンス向上[Luら, 2016]
• マルチメディア記述(MD)・・・マルチメディア(音声、画像およびビデオ)
入力シーケンスから自然言語テキスト記述を生成タスク[Choら, 2015]
• 関連音響信号を見つける機能を実行して、キャプション内の次の単語を予測
• 音声入力[Chorowskiら, 2015]
• 入力画像の関連部分[Xuら, 2015]
• ビデオキャプション作成タスクのためにマルチレベルアテンションを使用してビデオの時
間的および空間的構造を利用[Liら,2017]
• より低い抽象化レベルはフレーム内の特定の領域を抽出し、より高い抽象化レベルはフレームの
小さいサブセットに選択的に焦点を合わせる。
Confidential © Ecomott, Inc. ALL RIGHTS RESERVED
AMが活用されているアプリケーション領域
• 分類
• 文書分類・・・Selfアテンションの利用
• マルチレベルSelfアテンション[Yangら,2016]
• 多次元Selfアテンション[Linら,2017]
• 多表現Selfアテンション[Kielaら,2018]
• 感情分析
• Selfアテンションが重要な単語決定に役立つ
• アスペクトベース[Wangら,2016] [Maら,2018]
• アスペクト関連概念をモデルに組み込む
• コンテンツ自体とは異なる概念を評価するためにアテンションを利用
• アプリケーション
• メモリネットワーク[Tangら,2016]
• トランスフォーマー[Ambartsoumian and Popowich, 2018;Songら,
2019]
Confidential © Ecomott, Inc. ALL RIGHTS RESERVED
AMが活用されているアプリケーション領域
• 推奨システム
• 長期的および短期的な興味を捉えるためにユーザーの対話
型アイテムにアテンションの重みを割り当て利用
• すべての対話がアイテムの推奨に関連するわけではない
• ユーザーの興味は一時的であり、長短間で変動する
• 複数の論文がユーザーの履歴の中で最も関連性の高いアイテムを
見つけるために自己アテンションメカニズムを使用して、
• 協調フィルタリングフレームワーク[He et al、2018; Shuai Yu、
2019]
• 順次推奨のエンコーダ/デコーダアーキテクチャ[Kang and McAuley、
2018; Zhouら,2018]
Confidential © Ecomott, Inc. ALL RIGHTS RESERVED
AMが活用されているアプリケーション領域
• 最近の斬新なアテンション研究
• 外部知識ベースのよりスムーズな組み込み
• 事前訓練埋め込みとマルチタスク学習
• 教師なしの代表的学習
• 疎性学習と原型学習
Confidential © Ecomott, Inc. ALL RIGHTS RESERVED
考察
• 文献で注目が集まっているさまざまな方法について説明
• アテンションの分類法
• アテンションを使用した重要なニューラルネットワークアーキテクチャ
• 著しい影響が見られたアプリケーションドメイン
• ニューラルネットワークへのアテンションの組込み
• パフォーマンスの大幅な向上
• 解釈が容易に
• ニューラルネットワークの内部作業へのより深い洞察
• 入力の逐次処理を排除
• 計算効率の向上

More Related Content

Similar to アテンションモデルの注意深い調査

【16-E-3】 プロジェクトIchiganの目指す新しい自治体ITアーキテクチャのあり方
【16-E-3】 プロジェクトIchiganの目指す新しい自治体ITアーキテクチャのあり方【16-E-3】 プロジェクトIchiganの目指す新しい自治体ITアーキテクチャのあり方
【16-E-3】 プロジェクトIchiganの目指す新しい自治体ITアーキテクチャのあり方
Project ICHIGAN
 
How to organize data science project (データサイエンスプロジェクトの始め方101)
How to organize data science project (データサイエンスプロジェクトの始め方101)How to organize data science project (データサイエンスプロジェクトの始め方101)
How to organize data science project (データサイエンスプロジェクトの始め方101)
Yasuyuki Kataoka
 
NeurIPS2018読み会@PFN a unified feature disentangler for multi domain image tran...
NeurIPS2018読み会@PFN a unified feature disentangler for multi domain image tran...NeurIPS2018読み会@PFN a unified feature disentangler for multi domain image tran...
NeurIPS2018読み会@PFN a unified feature disentangler for multi domain image tran...
Yamato OKAMOTO
 
ネットワーク分散型フレームワークConView
ネットワーク分散型フレームワークConViewネットワーク分散型フレームワークConView
ネットワーク分散型フレームワークConView
Rakuten Group, Inc.
 
TERAS Conference
TERAS ConferenceTERAS Conference
TERAS ConferenceKeiju Anada
 
第64回情報科学談話会(滝沢 寛之 准教授)
第64回情報科学談話会(滝沢 寛之 准教授) 第64回情報科学談話会(滝沢 寛之 准教授)
第64回情報科学談話会(滝沢 寛之 准教授)
gsis gsis
 
「mruby/c」の利用期待分野~M2Mでの利用~160726
「mruby/c」の利用期待分野~M2Mでの利用~160726「mruby/c」の利用期待分野~M2Mでの利用~160726
「mruby/c」の利用期待分野~M2Mでの利用~160726
shimane-itoc
 
ドコモのクラウドとビックデータJpi版
ドコモのクラウドとビックデータJpi版ドコモのクラウドとビックデータJpi版
ドコモのクラウドとビックデータJpi版
Osaka University
 
CMS「Joomla!」セミナー2010年11月19日講演1
CMS「Joomla!」セミナー2010年11月19日講演1CMS「Joomla!」セミナー2010年11月19日講演1
CMS「Joomla!」セミナー2010年11月19日講演1Joomla20101119
 
20160710_PMI日本フォーラム2016_講演資料_ITI小久保v1.1
20160710_PMI日本フォーラム2016_講演資料_ITI小久保v1.120160710_PMI日本フォーラム2016_講演資料_ITI小久保v1.1
20160710_PMI日本フォーラム2016_講演資料_ITI小久保v1.1
it-innovation
 
ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTUREの他のモジュール・関連プロジェクトの紹介ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTURE Project
 
楽天市場で使われている技術、エンジニアに必要なコアスキルとはTechnology used in Rakuten, core skills neede...
楽天市場で使われている技術、エンジニアに必要なコアスキルとはTechnology used in Rakuten,  core skills  neede...楽天市場で使われている技術、エンジニアに必要なコアスキルとはTechnology used in Rakuten,  core skills  neede...
楽天市場で使われている技術、エンジニアに必要なコアスキルとはTechnology used in Rakuten, core skills neede...
Rakuten Group, Inc.
 
Hinemosのすゝめ(運用自動化編)
Hinemosのすゝめ(運用自動化編)Hinemosのすゝめ(運用自動化編)
Hinemosのすゝめ(運用自動化編)
Hinemos
 
Pmi日本フォーラム2015講演資料(アイ・ティ・イノベーション 井上英明) v1.0_講演用_カスタマイズ
Pmi日本フォーラム2015講演資料(アイ・ティ・イノベーション 井上英明) v1.0_講演用_カスタマイズPmi日本フォーラム2015講演資料(アイ・ティ・イノベーション 井上英明) v1.0_講演用_カスタマイズ
Pmi日本フォーラム2015講演資料(アイ・ティ・イノベーション 井上英明) v1.0_講演用_カスタマイズ
ITinnovation
 
Oss事例紹介資料20141111 明日の認証会議 掲載用
Oss事例紹介資料20141111 明日の認証会議 掲載用Oss事例紹介資料20141111 明日の認証会議 掲載用
Oss事例紹介資料20141111 明日の認証会議 掲載用
マジセミ by (株)オープンソース活用研究所
 
(Ja) A unified feature disentangler for multi domain image translation and ma...
(Ja) A unified feature disentangler for multi domain image translation and ma...(Ja) A unified feature disentangler for multi domain image translation and ma...
(Ja) A unified feature disentangler for multi domain image translation and ma...
Yamato OKAMOTO
 
市場動向並びに弊社製品の今後の展望について
市場動向並びに弊社製品の今後の展望について市場動向並びに弊社製品の今後の展望について
市場動向並びに弊社製品の今後の展望について
Ken Azuma
 
New Integration "X" 新インテグレーションソリューション
New Integration "X" 新インテグレーションソリューションNew Integration "X" 新インテグレーションソリューション
New Integration "X" 新インテグレーションソリューション
motani_kamakura
 
OpenEL for Robot(Japanese)
OpenEL for Robot(Japanese)OpenEL for Robot(Japanese)
OpenEL for Robot(Japanese)
Upwind Technology Inc.
 
Qua s tom-メトリクスによるソフトウェアの品質把握と改善
Qua s tom-メトリクスによるソフトウェアの品質把握と改善Qua s tom-メトリクスによるソフトウェアの品質把握と改善
Qua s tom-メトリクスによるソフトウェアの品質把握と改善
Hironori Washizaki
 

Similar to アテンションモデルの注意深い調査 (20)

【16-E-3】 プロジェクトIchiganの目指す新しい自治体ITアーキテクチャのあり方
【16-E-3】 プロジェクトIchiganの目指す新しい自治体ITアーキテクチャのあり方【16-E-3】 プロジェクトIchiganの目指す新しい自治体ITアーキテクチャのあり方
【16-E-3】 プロジェクトIchiganの目指す新しい自治体ITアーキテクチャのあり方
 
How to organize data science project (データサイエンスプロジェクトの始め方101)
How to organize data science project (データサイエンスプロジェクトの始め方101)How to organize data science project (データサイエンスプロジェクトの始め方101)
How to organize data science project (データサイエンスプロジェクトの始め方101)
 
NeurIPS2018読み会@PFN a unified feature disentangler for multi domain image tran...
NeurIPS2018読み会@PFN a unified feature disentangler for multi domain image tran...NeurIPS2018読み会@PFN a unified feature disentangler for multi domain image tran...
NeurIPS2018読み会@PFN a unified feature disentangler for multi domain image tran...
 
ネットワーク分散型フレームワークConView
ネットワーク分散型フレームワークConViewネットワーク分散型フレームワークConView
ネットワーク分散型フレームワークConView
 
TERAS Conference
TERAS ConferenceTERAS Conference
TERAS Conference
 
第64回情報科学談話会(滝沢 寛之 准教授)
第64回情報科学談話会(滝沢 寛之 准教授) 第64回情報科学談話会(滝沢 寛之 准教授)
第64回情報科学談話会(滝沢 寛之 准教授)
 
「mruby/c」の利用期待分野~M2Mでの利用~160726
「mruby/c」の利用期待分野~M2Mでの利用~160726「mruby/c」の利用期待分野~M2Mでの利用~160726
「mruby/c」の利用期待分野~M2Mでの利用~160726
 
ドコモのクラウドとビックデータJpi版
ドコモのクラウドとビックデータJpi版ドコモのクラウドとビックデータJpi版
ドコモのクラウドとビックデータJpi版
 
CMS「Joomla!」セミナー2010年11月19日講演1
CMS「Joomla!」セミナー2010年11月19日講演1CMS「Joomla!」セミナー2010年11月19日講演1
CMS「Joomla!」セミナー2010年11月19日講演1
 
20160710_PMI日本フォーラム2016_講演資料_ITI小久保v1.1
20160710_PMI日本フォーラム2016_講演資料_ITI小久保v1.120160710_PMI日本フォーラム2016_講演資料_ITI小久保v1.1
20160710_PMI日本フォーラム2016_講演資料_ITI小久保v1.1
 
ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTUREの他のモジュール・関連プロジェクトの紹介ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTUREの他のモジュール・関連プロジェクトの紹介
 
楽天市場で使われている技術、エンジニアに必要なコアスキルとはTechnology used in Rakuten, core skills neede...
楽天市場で使われている技術、エンジニアに必要なコアスキルとはTechnology used in Rakuten,  core skills  neede...楽天市場で使われている技術、エンジニアに必要なコアスキルとはTechnology used in Rakuten,  core skills  neede...
楽天市場で使われている技術、エンジニアに必要なコアスキルとはTechnology used in Rakuten, core skills neede...
 
Hinemosのすゝめ(運用自動化編)
Hinemosのすゝめ(運用自動化編)Hinemosのすゝめ(運用自動化編)
Hinemosのすゝめ(運用自動化編)
 
Pmi日本フォーラム2015講演資料(アイ・ティ・イノベーション 井上英明) v1.0_講演用_カスタマイズ
Pmi日本フォーラム2015講演資料(アイ・ティ・イノベーション 井上英明) v1.0_講演用_カスタマイズPmi日本フォーラム2015講演資料(アイ・ティ・イノベーション 井上英明) v1.0_講演用_カスタマイズ
Pmi日本フォーラム2015講演資料(アイ・ティ・イノベーション 井上英明) v1.0_講演用_カスタマイズ
 
Oss事例紹介資料20141111 明日の認証会議 掲載用
Oss事例紹介資料20141111 明日の認証会議 掲載用Oss事例紹介資料20141111 明日の認証会議 掲載用
Oss事例紹介資料20141111 明日の認証会議 掲載用
 
(Ja) A unified feature disentangler for multi domain image translation and ma...
(Ja) A unified feature disentangler for multi domain image translation and ma...(Ja) A unified feature disentangler for multi domain image translation and ma...
(Ja) A unified feature disentangler for multi domain image translation and ma...
 
市場動向並びに弊社製品の今後の展望について
市場動向並びに弊社製品の今後の展望について市場動向並びに弊社製品の今後の展望について
市場動向並びに弊社製品の今後の展望について
 
New Integration "X" 新インテグレーションソリューション
New Integration "X" 新インテグレーションソリューションNew Integration "X" 新インテグレーションソリューション
New Integration "X" 新インテグレーションソリューション
 
OpenEL for Robot(Japanese)
OpenEL for Robot(Japanese)OpenEL for Robot(Japanese)
OpenEL for Robot(Japanese)
 
Qua s tom-メトリクスによるソフトウェアの品質把握と改善
Qua s tom-メトリクスによるソフトウェアの品質把握と改善Qua s tom-メトリクスによるソフトウェアの品質把握と改善
Qua s tom-メトリクスによるソフトウェアの品質把握と改善
 

アテンションモデルの注意深い調査

  • 1. Confidential © Ecomott, Inc. ALL RIGHTS RESERVED AI論文輪読会feat.ASB20190830 アテンションモデルの 注意深い調査 要約: エコモット株式会社 データアナリティクス部 庄内道博 An Attentive Survey of Attention Models Sneha Chaudhari, Gungor Polatkan , Rohan Ramanath , Varun Mithal AI@LinkedIn {snchaudhari, gpolatkan, rramanat, vamithal}@linkedin.com arXiv:1904.02874v1
  • 2. Confidential © Ecomott, Inc. ALL RIGHTS RESERVED 要旨 アテンションモデル(AM): 多様な応用分野で研究されているニューラルネット ワーク(NN)における重要な概念 この論文は、以下の4点を調査 1.AMの概要をカテゴリ分類法で説明 2.NNアーキテクチャの確認 3.NNモデル解釈可能性を向上させる方法 4.影響を与えたアプリケーションの説明
  • 3. Confidential © Ecomott, Inc. ALL RIGHTS RESERVED 背景1 • 機械翻訳に最初に導入されたAM[Bahdanauら,2014] • 主要な概念となった • 自然言語処理、統計学習、音声及びコンピュータビジョンでの不可欠な要素 • アテンションは生物学的システムによって直感的に理解できる • 視覚処理システム • 無関係な情報を無視して、画像の一部を選択的に焦点を合わせる[Xuら,2015] ⇒ 視覚を助ける方法 • 言語、音声及び聴覚 • 翻訳作業・要約作業・・・入力のある部分が他の部分より関連性が高いような問題 • 入力シーケンスの特定の単語だけが次の単語に影響する場合 • 画像の字幕・・・入力画像のある領域が次の単語を生成するために関連する場合 • AMは入力の特定部分に注目することによって、関連性の概念 を取り入れる。 • 事例:レビューの感情分析[Yelpら, 2016]
  • 4. Confidential © Ecomott, Inc. ALL RIGHTS RESERVED 背景2 • AMの急速な進歩は、次の3つの理由による。 • 機械翻訳、質問応答、感情分析、品詞タグ付け、句構造 構文解析、対話システムなどの複数タスクでSOTA [Youngら, 2018] • NN解釈可能性の改善に広く利用 • 機械学習モデルの「公平性・説明責任および透明性」 • 入力の長さ増加によるパフォーマンスの低下、入力の順 次処理に起因する非効率性などRNNに関する課題の 解決
  • 5. Confidential © Ecomott, Inc. ALL RIGHTS RESERVED 論文構成 • S2:AM[Bahdanauら、2014]の簡単な説明 • S3:AMの分類法の提案 • S4:AMを利用したNNアーキテクチャ • S5:どのようにNNの解釈可能性を促進しているか • S6:アテンションを用いているアプリケーション • S7:まとめ
  • 6. Confidential © Ecomott, Inc. ALL RIGHTS RESERVED 関連する調査とこの論文の特徴 • 特定の分野に焦点を当てたアテンションに関する 調査 • Computer Vision[Wang and Tax, 2016] • グラフ[Lee et al., 2018] • 他の同様の研究 • Galassi et al [2019] • この論文の特徴 • 分類法 • 主要なアーキテクチャとアプリケーション • AMの解釈可能性
  • 7. Confidential © Ecomott, Inc. ALL RIGHTS RESERVED アテンションモデル(AM) • シーケンスシーケンスモデル: • エンコーダ/デコーダアーキテクチャ[Choら, 2014b]で構成 • エンコーダ:入力シーケンスを受け取るRNN • 入力は、トークン{x1,x2,x3,・・・,xT}のシーケンス • 固定長ベクトル{h1,h2,h3,・・・,hT}にエンコード • デコーダ:RNN • 入力は • 固定長ベクトルhT • それによって生成されたトークン{y1,y2,y3,・・・,yT0}
  • 8. Confidential © Ecomott, Inc. ALL RIGHTS RESERVED 伝統的なエンコーダ-デコーダフレームの課題 • エンコーダはすべての入力情報をデコーダ渡す固定長のhT に圧縮しなければならない。 • 長くて詳細な入力シーケンスを圧縮すると情報が喪失する可能性 [choら,2014a] • 翻訳や要約のような構造を出力する場合、入力と出力シーケ ンス間の整列をモデル化できない[Youngら,2018] • 各出力トークンは入力シーケンスの特定の部分に影響を受けるハズ • デコーダには各出力トークンを生成しながら↑ここにフォーカスするメ カニズムがない
  • 9. Confidential © Ecomott, Inc. ALL RIGHTS RESERVED キーアイデアとアテンションの用法・学習 • デコーダがエンコードされた入力シーケンス全体 にアクセス可能にすればいいんじゃない? • 次の出力トークンを生成するために • 関連情報が存在する位置のセットに優先順位をつける • アテンション重みαを導入する • hi:候補状態 • sj:クエリ • c:文脈ベクトル • 入力シーケンスの関連位置にフォーカス • アテンション重みαijの学習 • FFN • hiとsj-1⇒sj
  • 10. Confidential © Ecomott, Inc. ALL RIGHTS RESERVED アテンションの分類法 • カテゴリは排他的ではない • アテンションは複数のカテゴリの組み合せで適用可能 • カテゴリはアテンションを考慮する次元 • 関心ある用途に適用
  • 11. Confidential © Ecomott, Inc. ALL RIGHTS RESERVED 主要な論文リスト
  • 12. Confidential © Ecomott, Inc. ALL RIGHTS RESERVED Num.of Sequences • distinctive-attension • 単一の入力と出力シーケンスで、候補とクエリの状態がそ れぞれ入力シーケンスと出力シーケンスに属する • 翻訳[Bahdanauら, 2014]、要約[Rushら, 2015]、画像 キャプション[Xuら, 2015]、音声認識[Chanら, 2016] • co-attention • 複数の入力シーケンスを同時に操作し、入力間の相互作 用をとらえる • 視覚的質問応答[Luら, 2016] • 入力画像上の視覚的アテンションと質問のアテンションをモデル化 • アテンションに基づく画像表現は質問のアテンションを導くために 使用(またその逆も同様) • 質問内のキーフレーズおよび回答に関連する画像の対応する領域 を同時に検出するのに役立つ。 • Num.of Abstraction Levels
  • 13. Confidential © Ecomott, Inc. ALL RIGHTS RESERVED Num.of Sequences • self-attention[Yangら, 2016] • テキスト分類、レコメンドなどのタスク • 入力はシーケンスだが、出力がシーケンスではない • 入力シーケンス内の関連トークンを学習したアテンション • 候補とクエリは同じシーケンスに属する
  • 14. Confidential © Ecomott, Inc. ALL RIGHTS RESERVED Num.of Abstraction Levels • 元の入力シーケンスに対してアテンション重みを計 算する ⇒ 一般的 • シングルレベルと呼べる • 抽象化するごとにアテンション重みを計算できる • より低い抽象化レベルの出力(コンテキストベクトル) • ↑をより高い抽象化レベルのクエリにする • マルチレベル • トップダウン(より高いレベルの抽象化からより低いレベ ルへ)学習[Zhao and Zhang, 2018] • ボトムアップ学習[Yangら, 2016] • 文書分類タスクで、単語レベルと文レベル • 文書>文>単語:階層的AM(HAM)
  • 15. Confidential © Ecomott, Inc. ALL RIGHTS RESERVED HAMの動作 • 単語埋め込みベクトルのシーケンスに適用される 第1レベルアテンションを用いて文の表現を構築 • この文の表現と第2レベルアテンションを用いて文 章の表現を形成 ⇒ 文章の特徴ベクトルとして使用
  • 16. Confidential © Ecomott, Inc. ALL RIGHTS RESERVED co-attention研究[Luら, 2016] • 単語レベル、フレーズレベル、質問レベルで画像と質問を結 びつけているのでマルチレベルカテゴリに属している • アテンション経由アテンション[Zhao and Zhang,2018] • トップダウン方式マルチレベルアテンション • 下位レベルの文字と上位レベルの単語を含む
  • 17. Confidential © Ecomott, Inc. ALL RIGHTS RESERVED Num.of Positions • ソフトアテンション[Bahdanauら,2014] • 入力シーケンスのすべての候補状態の加重平均を使って 文脈ベクトルを構築。 • ソフトウェイト法を使用するとNNの逆伝播による効率的 な学習が可能になる反面、二次けいさんコストが発生。 • ハードアテンション[Xuら,2015] • 入力ベクトル中の確率的サンプリングされた候補状態か ら文脈ベクトルを構築 • アテンション重みによるパラーメータ化されたマルチノイ分布 • 計算コストが低い • 微分不可能で最適化しにくい • 強化学習(変分学習法および方策勾配法)で克服
  • 18. Confidential © Ecomott, Inc. ALL RIGHTS RESERVED Num.of Positions • local/global-attention[Luongら, 2015] • 機械翻訳タスク • グローバルアテンションはソフトアテンションに似ている • ローカルアテンションは、ソフトとハードの中間 • まず、入力シーケンス内の注目点または位置を検出 • その位置の周辺ウィンドウを選択 • ローカルソフトアテンションを作成 • 入力シーケンス内の位置は以下のどちらでも可 • 設定(単調アライメント) • 予測関数(予測アライメント)
  • 19. Confidential © Ecomott, Inc. ALL RIGHTS RESERVED Num.of Representations • 通常ほとんどのアプリは入力列の単一特徴表現を採用 • 下流タスクでは十分ではない • 複数表現AM • 複数の特徴表現を作り、アテンションで重み付けする • 入力のノイズや冗長性を無視して、関連性の高いものを決定できる • 複数表現とアテンション重みの組み合わせ • メリット • 重みを調べることで、特定の下流タスクにどの表現が好ましいか直接表ができる • 研究例 • [Kielaら,2018]・・・文の表現を改善 • [Maharjanら,2018]・・・語彙、構文、視覚及びジャンルを取り込んだ本の動 的に評価した • 多次元アテンション • 直感的には各特徴のスコアを計算することで特徴選択 • [Linら,2017]・・・効果的な文埋め込み表現 • [Shenら,2018]・・・言語理解問題
  • 20. Confidential © Ecomott, Inc. ALL RIGHTS RESERVED アテンションを用いたネットワークアーキテクチャ • アテンションと組み合わせた3つの顕著なアーキテクチャ • エンコーダ-デーコーダフレームワーク • メモリネットワーク • 回帰モデルの逐次処理を回避するアーキテクチャ
  • 21. Confidential © Ecomott, Inc. ALL RIGHTS RESERVED エンコーダ-デコーダ • 最も初期のアテンションの用法 • RNNベース • [Bahdanauら,2014] • 広く利用(普及) • 任意の入力表現⇒固定長ベクトルに圧縮 • 入力表現と出力を切り離すことができる • エンコーダをCNN、デコーダをRNN/LSTMのようなハイブリッドが可能 • さまざまなマルチモーダルタスクに応用可能 • 画像やビデオのキャプション、視覚的な質問応答、音声認識 • 従来のエンコーダ-デコーダフレームワークの問題 • 巡回セールスマン問題や離散最適問題には適用できない • ポイントネットワーク[Vinyalsら,2015] • アテンション重みを用いることで適用できた • 入力シンボルが各出力位置のシンボルとして選択される確率をモデル化
  • 22. Confidential © Ecomott, Inc. ALL RIGHTS RESERVED メモリネットワーク • 質問応答やチャットボットなどのアプリケーション • ファクトのデータベースから学習する機能が必要 • 入力は知識データベースとクエリ • End2Endメモリネットワーク[Sukhbaatarら,2015] • メモリブロックにファクトDBを配置 • 各ファクトの関連性をアテンションでモデル化 • AMの一般化と捉えることができる
  • 23. Confidential © Ecomott, Inc. ALL RIGHTS RESERVED RNNs無しのネットワーク • 反復アーキテクチャは並列化できない • トランスフォーマー[Vaswaniら,2017]を提案 • エンコーダとデコーダが2つのサブレイヤをもつ同一レイヤのスタック • ポジションワイズFFN層 • 入力は逐次的で時間要素の利用をモデルに要求する • 位置情報の要素(RNN/CNN)は使用しない • 位置ごとにFFNを使用し、各トークンの位置とコンテンツをエンコード • マルチヘッドselfアテンション層 • Selfアテンションは入力シーケンス内のトークンとその位置を関連づける • マルチヘッド:同じ入力の異なる線形変換の並列積層 • モデルは入力の様々な側面を把握し、表現力が向上 • 反復構造無し、大幅な並列処理、短時間トレーニング、高い翻訳精度 • 位置変動に敏感な問題にはうまくいかない • 位置エンコーダは位置情報の組み込みが弱い • [Shenら,2018]・・・時間的畳み込みを利用して位置も符号化している
  • 24. Confidential © Ecomott, Inc. ALL RIGHTS RESERVED RNNs無しのアーキテクチャ • フィードフォワードアテンションモデル[Raffel&Ellis,2015] • データの時間的次元をAMで崩壊させる • RNNの代わりにFNNを利用 • AMで可変長入力シーケンスから固定長コンテキストベクトルを生成し、FNNに入力
  • 25. Confidential © Ecomott, Inc. ALL RIGHTS RESERVED 解釈可能性のためのアテンション • ディープラーニングアーキテクチャは解釈可能性欠如のため批判され てきた[Guidottiら,2018] • 入力と出力のアテンション重みを視覚化できる[Linら,2016] • アテンション重みの大きさはシーケンス内の各位置での出力予測に関して、 特定の入力領域がどれくらい関連性が高いかと相関している。
  • 26. Confidential © Ecomott, Inc. ALL RIGHTS RESERVED 解釈可能性のためのアテンション • a)単語の位置が言語ごとに異なるにもかかわらずうまく可視化 できる[Bahdanauら,2014] • b)アテンション重みがユーザの興味を認識するのに役立つ • c)画像キャプションタスクで生成されたテキストに影響を及ぼした領域
  • 27. Confidential © Ecomott, Inc. ALL RIGHTS RESERVED 解釈可能性のためのアテンション • 職業分類におけるジェンダーの偏りで注意を引く単語 がジェンダー化されている[De-Arteagaら,2019] • 良い言葉と悪い言葉の重要性はレビューのセンチメン トを決定するために文脈に依存する[Yangら,2016] • 単語のアテンション重み分布を調べて、それらが0から1の範 囲に及ぶことを発見 • これはモデルが多様な文脈を捉え、文脈依存の重みを単語 に割り当てることを意味する。 • 音声認識において、文字出力と音声信号の間のアテ ンションが音声信号内の最初の文字の開始位置を正 しく識別でき、アテンション重みは音響的類似性を持つ 単語に対して類似している[Chanら,2016]
  • 28. Confidential © Ecomott, Inc. ALL RIGHTS RESERVED 解釈可能性のためのアテンション • 多重表現的アテンションが、GloVe、FastText単語 埋め込み、特に低頻度単語のGloVeにより高い重み を割り当てる[Kielaら,2018] • ディープニューラルネットワークのアテンションの重みを視 覚化するためのツール[Leeら,2017]および[Liu ら,2018]
  • 29. Confidential © Ecomott, Inc. ALL RIGHTS RESERVED AMが活用されているアプリケーション領域 • 自然言語生成(NLG) • 機械翻訳(MT)・・・ある言語から別言語へのテキスト・音声の翻訳 • アテンションの利点は長い文章を翻訳する際にも有効[Bahdanauら,2014] • アテンションを使ってパフォーマンスを改善[Britzら, 2017]および[Tangら, 2018] • 質問応答(QA) • 質問のより良い理解にアテンションを利用[Hermann et al,2015] • 答えの発見のためにメモリネットワークで大量の情報を保存[Sukhbaatarら, 2015] • Co-attentionで入力マルチモダリティをモデル化、パフォーマンス向上[Luら, 2016] • マルチメディア記述(MD)・・・マルチメディア(音声、画像およびビデオ) 入力シーケンスから自然言語テキスト記述を生成タスク[Choら, 2015] • 関連音響信号を見つける機能を実行して、キャプション内の次の単語を予測 • 音声入力[Chorowskiら, 2015] • 入力画像の関連部分[Xuら, 2015] • ビデオキャプション作成タスクのためにマルチレベルアテンションを使用してビデオの時 間的および空間的構造を利用[Liら,2017] • より低い抽象化レベルはフレーム内の特定の領域を抽出し、より高い抽象化レベルはフレームの 小さいサブセットに選択的に焦点を合わせる。
  • 30. Confidential © Ecomott, Inc. ALL RIGHTS RESERVED AMが活用されているアプリケーション領域 • 分類 • 文書分類・・・Selfアテンションの利用 • マルチレベルSelfアテンション[Yangら,2016] • 多次元Selfアテンション[Linら,2017] • 多表現Selfアテンション[Kielaら,2018] • 感情分析 • Selfアテンションが重要な単語決定に役立つ • アスペクトベース[Wangら,2016] [Maら,2018] • アスペクト関連概念をモデルに組み込む • コンテンツ自体とは異なる概念を評価するためにアテンションを利用 • アプリケーション • メモリネットワーク[Tangら,2016] • トランスフォーマー[Ambartsoumian and Popowich, 2018;Songら, 2019]
  • 31. Confidential © Ecomott, Inc. ALL RIGHTS RESERVED AMが活用されているアプリケーション領域 • 推奨システム • 長期的および短期的な興味を捉えるためにユーザーの対話 型アイテムにアテンションの重みを割り当て利用 • すべての対話がアイテムの推奨に関連するわけではない • ユーザーの興味は一時的であり、長短間で変動する • 複数の論文がユーザーの履歴の中で最も関連性の高いアイテムを 見つけるために自己アテンションメカニズムを使用して、 • 協調フィルタリングフレームワーク[He et al、2018; Shuai Yu、 2019] • 順次推奨のエンコーダ/デコーダアーキテクチャ[Kang and McAuley、 2018; Zhouら,2018]
  • 32. Confidential © Ecomott, Inc. ALL RIGHTS RESERVED AMが活用されているアプリケーション領域 • 最近の斬新なアテンション研究 • 外部知識ベースのよりスムーズな組み込み • 事前訓練埋め込みとマルチタスク学習 • 教師なしの代表的学習 • 疎性学習と原型学習
  • 33. Confidential © Ecomott, Inc. ALL RIGHTS RESERVED 考察 • 文献で注目が集まっているさまざまな方法について説明 • アテンションの分類法 • アテンションを使用した重要なニューラルネットワークアーキテクチャ • 著しい影響が見られたアプリケーションドメイン • ニューラルネットワークへのアテンションの組込み • パフォーマンスの大幅な向上 • 解釈が容易に • ニューラルネットワークの内部作業へのより深い洞察 • 入力の逐次処理を排除 • 計算効率の向上