技術動向の調査として、ICML Workshop Uncertainty & Robustness in Deep Learningの中で、面白そうなタイトルを中心に読んで各論文を4スライドでまとめました。
最新版:https://speakerdeck.com/masatoto/icml-2021-workshop-shen-ceng-xue-xi-falsebu-que-shi-xing-nituite-e0debbd2-62a7-4922-a809-cb07c5da2d08(文章を修正しました。)
技術動向の調査として、ICML Workshop Uncertainty & Robustness in Deep Learningの中で、面白そうなタイトルを中心に読んで各論文を4スライドでまとめました。
最新版:https://speakerdeck.com/masatoto/icml-2021-workshop-shen-ceng-xue-xi-falsebu-que-shi-xing-nituite-e0debbd2-62a7-4922-a809-cb07c5da2d08(文章を修正しました。)
CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multipl...禎晃 山崎
CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multiple Languages
Word Sense Disambiguation, BERT, clustering
ということで読みました.
p. 7 は「solid は glass の上位語,glassware は glass の下位語」でした。。。
CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multipl...禎晃 山崎
CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multiple Languages
Word Sense Disambiguation, BERT, clustering
ということで読みました.
p. 7 は「solid は glass の上位語,glassware は glass の下位語」でした。。。
ICML2018読み会: Overview of NLP / Adversarial AttacksMotoki Sato
ICML 2018読み会の資料.
Overview of NLP/ Adversarial Attacks
- Obfuscated gradients give a false sense of security: circumventing defenses to adversarial examples
- Synthesizing Robust Adversarial Examples
- Black-box Adversarial Attacks with Limited Queries and Information
セル生産方式におけるロボットの活用には様々な問題があるが,その一つとして 3 体以上の物体の組み立てが挙げられる.一般に,複数物体を同時に組み立てる際は,対象の部品をそれぞれロボットアームまたは治具でそれぞれ独立に保持することで組み立てを遂行すると考えられる.ただし,この方法ではロボットアームや治具を部品数と同じ数だけ必要とし,部品数が多いほどコスト面や設置スペースの関係で無駄が多くなる.この課題に対して音𣷓らは組み立て対象物に働く接触力等の解析により,治具等で固定されていない対象物が組み立て作業中に運動しにくい状態となる条件を求めた.すなわち,環境中の非把持対象物のロバスト性を考慮して,組み立て作業条件を検討している.本研究ではこの方策に基づいて,複数物体の組み立て作業を単腕マニピュレータで実行することを目的とする.このとき,対象物のロバスト性を考慮することで,仮組状態の複数物体を同時に扱う手法を提案する.作業対象としてパイプジョイントの組み立てを挙げ,簡易な道具を用いることで単腕マニピュレータで複数物体を同時に把持できることを示す.さらに,作業成功率の向上のために RGB-D カメラを用いた物体の位置検出に基づくロボット制御及び動作計画を実装する.
This paper discusses assembly operations using a single manipulator and a parallel gripper to simultaneously
grasp multiple objects and hold the group of temporarily assembled objects. Multiple robots and jigs generally operate
assembly tasks by constraining the target objects mechanically or geometrically to prevent them from moving. It is
necessary to analyze the physical interaction between the objects for such constraints to achieve the tasks with a single
gripper. In this paper, we focus on assembling pipe joints as an example and discuss constraining the motion of the
objects. Our demonstration shows that a simple tool can facilitate holding multiple objects with a single gripper.
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matchingharmonylab
公開URL:https://arxiv.org/pdf/2404.19174
出典:Guilherme Potje, Felipe Cadar, Andre Araujo, Renato Martins, Erickson R. ascimento: XFeat: Accelerated Features for Lightweight Image Matching, Proceedings of the 2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (2023)
概要:リソース効率に優れた特徴点マッチングのための軽量なアーキテクチャ「XFeat(Accelerated Features)」を提案します。手法は、局所的な特徴点の検出、抽出、マッチングのための畳み込みニューラルネットワークの基本的な設計を再検討します。特に、リソースが限られたデバイス向けに迅速かつ堅牢なアルゴリズムが必要とされるため、解像度を可能な限り高く保ちながら、ネットワークのチャネル数を制限します。さらに、スパース下でのマッチングを選択できる設計となっており、ナビゲーションやARなどのアプリケーションに適しています。XFeatは、高速かつ同等以上の精度を実現し、一般的なラップトップのCPU上でリアルタイムで動作します。
2. ⾃⼰紹介
n 太⽥ 真⼈
n ISIDでデータサイエンティストをしています。
n お仕事は、AI製品開発、データ分析案件、研究など
n 最近は、⼈とAIの協調など、HCIに興味があります。
n この資料は、NLPにおける深層学習を⽤いた予測の不確実性の調査資料です。
n 基礎技術、最新技術、応⽤事例を3パートに分けて紹介しています。
n サーベイ論⽂をまとめたわけではなく、⾃分で検索して調べたため、⾼い網羅性があるとは⾔えません。
n 各スライドの末尾に引⽤論⽂名と国際会議名を載せました。
はじめに
4. 定量化 評価 応⽤
予測の不確かさの活⽤のロードマップ
MC dropout
Deep Ensemble
Bayesian methods
Test-Time Augmentation
Single Deterministic Methods
Robustness
Adaptation
Uncertainty
Human + AI
Safety AI
ユーザー体験向上
データセット分析
深層モデルに定量化⼿法を適応し、評価を通して、応⽤に活⽤していきます。
基本的に、ロードマップに沿って、説明していきます。
13. 定量化 評価 応⽤
予測の不確かさの活⽤のロードマップ
MC dropout
Deep Ensemble
Bayesian methods
Test-Time Augmentation
Single Deterministic Methods
Robustness
Adaptation
Uncertainty
Human + AI
Safety AI
ユーザー体験向上
データセット分析
全体感を⽰しつつ、Single Deterministic Methods を中⼼に掘り下げて説明します。
14. n 不確実性の定量化⼿法には、⼤きく4パターンあります。
n トレンドは、⼀つのNNを⼀回の推論で不確実性を定量化する決定論的な⽅法の提案です。
n 最近は、決定論的な⽅法が性能が良いといわれることもありますが、代表的な不確実性の定量化⼿法はまだ
なく、データセットによるところもあり、結局は、実装してみてから考える必要があります。
n ここでは、 後に紹介するT5-Plexに使われている決定論的な⽅法を3つ紹介します。
サマリー
決定論的な⽅法よりDeep Ensembleの⽅がいい結果を⽰していた調査論⽂︓[IEEE Access 2021] Benchmarking Scalable Predictive Uncertainty in Text Classification
図の引⽤︓ [arXiv 2021] A Survey of Uncertainty in Deep Neural Networks
15. n Deep Ensemblesの近似で決定論的な⼿法
n 右図のように緑のDeep Ensemblesに⽐べ、メモリ・テスト時間も抑えられます。
n ⼀つのNN構造の⼀度の推論で複数のモデルの計算結果を得ます。
n ポイント
Ø ミニバッチの全サンプルをアンサンブルメンバー数だけ複製
Ø 複製された各サンプルは共通の重み とそれぞれ個別メンバーの重み を掛け合わせ出⼒します。
Ø 異なる重みごとに繰り返しフォワードパスする必要がなくなった。
Batch Ensemble [ICLR 2020]
[ICLR 2020] BatchEnsemble: An Alternative Approach to Efficient Ensemble and Lifelong Learning
メンバー i ⽤の複製した⼊⼒ とその出⼒
共通の重み 個別メンバーの重み
16. n Spectral-normalized Neural Gaussian Process (SNGP)は決定論的な⼿法
n 出⼒層を結合層からガウス過程(GP)層に置き換え、データ分布外でモデルの不確実性を⾼めます。
n BERTとも組み合わせられています。
ポイント
Ø 意味的な距離(distance awareness)を得るため、中間表現でスペクトル正規化をおこなう。
Ø 予測分散にラプラス近似を適⽤し、GP事後分布をスケーラブルに計算する。
SNGP [NeurIPS 2020]
図の引⽤ [arXiv 2022] A Simple Approach to Improve Single-Model Deep Uncertainty via Distance-Awareness
17. n データセットにおける⼊⼒依存、また不均⼀分散として知られるラベルノイズをモデル化
n マルチクラス分類になるほど、ラベルノイズが多くなるため、データの不確実性の推定が重要です。
n ポイント
Ø NN分類器の最終隠れ層に多変量ガウス分布を配置する。
Ø 共分散⾏列が、意味的に類似したクラスや共起するクラス間のラベルノイズを捕らえる。
Heteroscedastic [CVPR 2021]
NN
1
出⼒
ILSVRC12の共起しやすいラベルの例
推定共分散も⼤きくなっている
[CVPR 2021] Correlated Input-Dependent Label Noise in Large-Scale Image Classification
Edward2で実装されています: https://github.com/google/edward2/blob/main/edward2/tensorflow/layers/heteroscedastic.py#L508
⼊⼒
18. n 図は2クラス分類問題に対して、予測の不確実性を定量化しています。
n 予測の不確実性は、未観測領域で不確実性が⾼くなることが期待されます。
n 右上に⾏くほど⾼級なモデルになり、計算時間もかかりますが、データ分布外で不確実性が⾼くなっています。
不確実性の定量化⽅法の位置付け
深層アンサンブル
複数のNNのアンサンブル
複数のSNGPモデルを使⽤した⼿法
分布外でも不確実性が低い
分類境界のみ
不確実性が⾼い
図の引⽤ [arXiv 2022] A Simple Approach to Improve Single-Model Deep Uncertainty via Distance-Awareness
21. 定量化 評価 応⽤
予測の不確かさの活⽤のロードマップ
MC dropout
Deep Ensemble
Bayesian methods
Test-Time Augmentation
Single Deterministic Methods
Robustness
Adaptation
Uncertainty
Human + AI
Safety AI
ユーザー体験向上
データセット分析
T5-Plexの紹介を通して、評価部分を説明します。
22. n Plexは、事前学習済み⼤規模⾔語モデルやViTモデルの予測の不確実性を定量化した⼿法です。
n ICML 2022 pre-training workshop で発表されたGoogleの論⽂です。
n 論⽂内では、信頼性のあるモデルは、不確実性、ロバスト汎化、適応を満たす必要があると主張しています。
n 先ほど紹介した不確実性の定量化⼿法を⾔語モデルのT5に適応しています。
n モデルサイズが⼤きくなると信頼性のスコアが向上し、従来の⼿法を凌駕する結果が出ています。
サマリー
+UQ→ T5-Plex
UQ︓Uncertainty Quantification
図の引⽤︓ https://ai.googleblog.com/2020/02/exploring-transfer-learning-with-t5.html
25. n Calibration
Ø 確信度と確信度に対応するサンプルの予測精度の誤差を評価する。
n Selective Prediction
Ø 予測モデルの値を⽤いるか、⼈が予測するかを不確実性の閾値で決め、
最終精度を評価する。
n Open-set intent detection
Ø Out of the scope(OOS)サービスである⾃然な発話を検出する
ための意図検出タスクで評価する。
n Label Uncertainty
Ø 画像のタスクのみ。ラベルノイズの多いサンプルを検出するタスクで、デー
タ分布と予測分布のKL距離で評価する。
信頼性タスク(不確実性)
n 不確実性、ロバスト汎化、適応の3つのうち、不確実性に関するタスクを紹介します。
図の引⽤︓https://ai.googleblog.com/2022/07/towards-reliability-in-deep-learning.html
26. n 不確実性、ロバスト汎化、適応の3つのうち、ロバスト汎化に関するタスクを紹介します。
n In-distribution generalization
Ø モデルが下流のデータセットでfine-tuningをおこなった後、どの程度予測を⾏うことができるかを評価する。
n Covariate shift
Ø 条件つき分布は変化しないが、⼊⼒の分布が変化するシナリオを指し、分布内と同様に評価する。
n Subpopulation shift
Ø 訓練集合のある部分集合(ロングテールの部分)に対する予測性能を向上させることを⽬指し評価する。
信頼性タスク(ロバスト汎化)
27. n 不確実性、ロバスト汎化、適応の3つのうち、適応に関するタスクを紹介します。
n Active learning
Ø マージンサンプリングを⽤いて、訓練サンプル数を徐々に増やし、速く⾼い精度を⽬指す。
n Few-shot learning
Ø 少数の学習サンプルのみで、モデルがどの程度ダウンストリームタスクの予測を⾏えるかを評価する。
Ø 1-shot, 5-shot, 10-shot, and 25-shot (x-shot means x examples per class).
n Few-shot uncertainty
Ø Few-shotの設定でのキャリブレーションとOpen-set recognitionを評価する。
n 以後、不確実性、ロバスト汎化、適応の精度結果に意外性はないので、要約を述べて省略します。
n 要約
Ø モデルサイズが⼤きい⽅が良い。
Ø 不確実性の定量化の決定論的な⼿法の中では、Plexが良い。
Ø コストかかるけど、モデルのアンサンブルができるならばアンサンブルの⽅が良い。
信頼性タスク(適応)
28. n Text-To-Text Transfer Transformerの略です。
n T5は、左図のように翻訳(緑)、⾔語理解(⾚)、⽂の類似度(⻩)、要約(⻘)など様々なタスクを全てText-To-
Textの形で同じアーキテクチャで扱うモデルです。
n 事前学習は右上図のようにMLMでおこない、Fine-Tuningで個別タスクを学習します。
T5とは
図の引⽤︓ https://ai.googleblog.com/2020/02/exploring-transfer-learning-with-t5.html
さまざまなタスクに対応 学習⽅法
29. n 事前学習データ
Ø ウェブからかき集めた数百GBの英⽂テキストからなるC4データセット
n T5-Plexの学習⽅法
Ø 公式の事前学習済みT5チェックポイントから初期化され、ファインチューニングの際に効率的なアンサンブルと最終層の
変更を適⽤します。
n 効率的なアンサンブル
Ø Batch Ensemble (BE)
n 最終層の変更
Ø SNGPのうち最終層のGPを使⽤(GP)
Ø Heteroscedastic (Het)
n モデルの種類
T5-Plex
name parameters embedding
size
encoder /
decoder blocks
headed
attention
Small (T5-Plex S) ∼77 million 512 8 6
Base (T5-Plex B) ∼250 million 768 12 12
Large (T5-Plex L) ∼880 million 1024 24 16
37. n 信頼性の⾼い深層モデルを考えるためのフレームワークを提案しています。
Ø 予測に対する信頼性を定量化、分布の変化に頑健であること、新しい分布に素早く適応できること
n ⼤規模な事前学習済みモデルの信頼性を⾼めるため、Plexという⼿法を提案しています。
n ⾔語モデルでは、T5-Plexとして、T5に最先端の不確実性の定量化⼿法のSNGPとBatch Ensembleを組
み合わせています。
n 結果的に、多くのタスクで最先端の精度を更新しました。
n また、モデルのスケーリング、アンサンブル数、異なる不確実性の定量化⼿法を様々なタスクで⽐較実験していま
した。
n 結果的に、モデルが⼤きく、アンサンブル数が増えるほど精度が上がり、現実的な計算コストではPlexが最も精度
が⾼かったです。
まとめ
39. 定量化 評価 応⽤
予測の不確かさの活⽤のロードマップ
MC dropout
Deep Ensemble
Bayesian methods
Test-Time Augmentation
Single Deterministic Methods
Robustness
Adaptation
Uncertainty
Human + AI
Safety AI
ユーザー体験向上
データセット分析
誰に役⽴つのかで分けて説明します。
43. n 事前学習の有無による較正の関係
Ø 事前学習済みの⽅が、IDとODで、精度もよく較正誤差は⼩さい。
n 事前学習済みモデル間の⽐較
Ø BERTよりRoBERTaの⽅が較正されている。
n ファインチューニングと較正の関係
Ø 最先端の較正⼿法を⽤いても、IDサンプルは良いが、ODサンプルは較正が悪い。
Ø ODサンプルの確信度が、実務レベルで困るほど、良い加減な値になるのかは実験してみないと不明。
n (+α) ファインチューニングかつ蒸留と較正の関係
Ø 教師モデルの較正性能を⽣徒モデルに蒸留できることが実験的に⽰された。
n 分類タスクでなく、系列出⼒タスクの場合
Ø BERT系はIDサンプルで、較正誤差が⼩さく、ODは較正誤差が悪い結果が得られている。
タスク︓GLUEタスク/NLI, ⾔い換え検出, 常識推論/名前付き固有表現認識、品詞認識、質問応答
事前学習-ファインチューニングにおける較正の調査
[EMNLP 2021] Calibration of Pre-trained Transformers (Pretraining)
[RepL4NLP 2021] An Overview of Uncertainty Calibration for Text Classification and the Role of Distillation (Fine-Tuning)
[ACL 2021] Calibrating Structured Output Predictors for Natural Language Processing (Sequence Output)
ID: In Domain
OD: Out of Domain
44. n SNSでは、誤った情報でさえ急速に広まり、事実確認の検証
をする前に多くの⼈に届いてしまいます。
n 誤って広まる情報の例︓⾃然災害の被害状況、感染症、政
治など
n 事実確認をするべき内容を素早く検出し、ファクトチェッカーに
伝える必要があります。
n 論⽂では、噂が真実か、嘘か、未検証かを予測するタスクでし
た。
n 予測の不確実性が⾼いツイートをファクトチェッカーに伝えてい
ます。
ファクトチェッカー⽀援(rumor verification)
[ACL 2020] Estimating predictive uncertainty for rumour verification models
[COLING 2018] All-in-one: Multi-task Learning for Rumour Verification
ファクトチェックの例
45. n 単語レベルの不確実性の定量化
n ⼀般的な不確実性の定量化は、どの特徴(単語)が予測の不確実性につながっているかを説明することはないです。
n どの単語が原因か明らかになると、⼈はデータ拡張戦略など、次の意思決定につなげやすいです。
n 下図は、感情分析で単語レベルの不確実性を定量化した例です。
n 左図はネガポジを⾊付け。右図は、不確実性の減少時が⻘、上昇時がオレンジ⾊で⽰されており、直感通りです。
モデル解釈の⽀援
[COLING 2020] Word-Level Uncertainty Estimation for Black-Box Text Classifiers using RNNs
47. n 予測の不確実性が⾼い場合は、予測結果を使わない問題設定です。
n 選択的予測の評価では、Human–Model CollaborationとX%棄却法が主流になっています。
n Human–Model Collaborationは、不確実性が⾼い場合は⼈(オラクル)が判断します。
n X%棄却は、不確実性が⾼いX%のサンプルは、予測せず残りのサンプルのみで評価します。
⼈とAIの分担 Selective Prediction
[RepL4NLP 2022] Towards Improving Selective Prediction Ability of NLP Systems
[ACL 2022] Uncertainty Estimation of Transformer Predictions for Misclassification Detection
オラクル︓⼈間が正しく判定できると仮定
不確実性 閾値
49. n 専⾨性が⾼い⽂章だと、データ量も少なく、アノテーションコストが⾼いことが多いです。
n ⽂章要約の場合も、アノテーションコストが⾼いです。
n BERTを⽤いて、クラスが不均衡で少ないラベル付きデータと困難な設定で、サンプルを逐次的に増やした結果
n ランダムな場合に⽐べて早い段階で性能に差が⽣まれています。
⾼コストなアノテーション向け学習⽀援(能動学習)
[EMNLP 2020] Active Learning for BERT: An Empirical Study
[ACL 2022] Revisiting Uncertainty-based Query Strategies for Active Learning with Transformers
50. n モデルを解釈することも⼤事ですが、データセット内に内在する外れ値や学習を困難にするサンプルを⾒つけるこ
とも⼤事です。
n ⼀⽅で、学習を簡単にしすぎるとショートカット学習(擬似相関)になるので注意が必要です。
n 擬似相関対策として、少数の曖昧なサンプルがあると汎化も頑健性も向上するようです。
サンプル品質の確認
確
信
度
RoBERTa-largeに基づくSNLI訓練集合のデータマップ
Variability︓エポックごとの予測のばらつき
[EMNLP 2020] Dataset Cartography:Mapping and Diagnosing Datasets with Training Dynamics
[TACL 2020] An Empirical Study on Robustness to Spurious Correlations using Pre-trained Language Models (擬似相関)
外れ値か検討
誤差分析
ラベルミス確認
テキスト修正検討
52. 頑健性(⾔い換え、スペルミスなど)
[TACL 2020] An Empirical Study on Robustness to Spurious Correlations using Pre-trained Language Models
[EMNLP 2021] Evaluating the Robustness of Neural Language Models to Input Perturbations
[ACL 2020] Beyond Accuracy: Behavioral Testing of NLP Models with CheckList
n ⼈の不完全な⽂章やスペルミスに対して、最先端の⾔語モデルでも予測を誤ることがあります。
n データやモデルの不確実性を定量化することで、ユーザーが⼊⼒⽂章の複雑さや誤りに気づくきっかけになります。
n RoBERTaを⽤いたNLPタスクで、⽂字レベルや単語レベルの⼊⼒摂動に敏感な場合もあります(下図)。
53. n 学習したドメインと運⽤中のドメインが異なると精度が悪化する場合があります。
n 例)Language Style Drift, Topical Drift
n 例えば⾔語スタイルの違いは、オンライン会議の会話と、対⾯の会話があります。
n テキストでのドメインシフトは、テーブルデータと違い、気づきにくいです。
n まだ研究レベルですが、不確実性の定量化では、ドメインシフト時に不確実性が⾼くなることで開発者にフィード
バックしようとしています。
ドメインシフト検知 Out-of-domain detection
共変量シフトの設定
[IEEE Access 2021] Benchmarking Scalable Predictive Uncertainty in Text Classification
[ICML 2022] Plex: Towards Reliability Using Pretrained Large Model Extensions
学習 運⽤
54. n テキストデータの場合、学習時のクラス数から徐々に新規クラスが⽣まれることがあります。
n 故障レポートの原因の分類問題では、新しい製品が出るたび、原因が徐々に増えてくる恐れがあります。
n そこで、⼊⼒空間は近いがラベル空間が異なるデータで評価します。
新規クラス検知 Novelty Detection
[IEEE Access 2021] Benchmarking Scalable Predictive Uncertainty in Text Classification
[ICML 2020] Predictive Uncertainty for Probabilistic Novelty Detection in Text Classification
新規クラス検知の設定
評価⽅法
不確実性の定量値とOODラベル(0がソースデータ、1が新規クラスデータとする)を⽐較し、
不確実性の定量値が2つのグループをどの程度分離するかを測定するためにAUROCを使⽤する。
予測分散
予測分散
55. n NLPにおける予測の不確実性の定量化について紹介しました。
n 定量化⼿法に関しては、⼀つのネットワークの⼀回の推論で不確実性を定量化する⼿法の研究が盛んです。
n しかし、まだ計算時間がかかる深層アンサンブルした際の多様性には届いていないようです。
n 最先端の⼤規模⾔語モデルにおける不確実性としてPlexを紹介しました。
n 信頼性のあるAIシステムには、不確実性、頑健性、適応が必要であると述べていまいた。
n 最後に、実際の予測の不確実性の応⽤事例をエンドユーザー向けと開発者向けで分けて紹介しました。
n 安全性が必要な業界、ユーザー体験、⼈との協調など、⼈に関わるタスクが多い印象を受けました。
n 個⼈的に調査した結果、NLPの定量的な精度合戦がCVより多い印象を受けました。
n もう少し定性的にどんな⽂章で精度が悪化するのか、など詳細な分析が報告されることを期待します。
n また、NLPではMC dropout系が多く、CVでは深層アンサンブルが多いので界隈のギャップを感じました。
最後に