SlideShare a Scribd company logo
金融 × AI で解くべき問題は何か?
みずほ第一フィナンシャルテクノロジー/東京大学
永山恒彦
Disclaimer
* 本発表は個人的見解を示すものです
* 所属する組織の公式な見解ではありません
2
自己紹介
3
永山 恒彦
みずほ第一フィナンシャルテクノロジー データアナリティクス技術開発部
東京大学
• 2016年4月 みずほ銀行入行
• 2016年11月~ みずほ第一フィナンシャルテクノロジーで勤務
• 投資助言におけるニュースデータ活用のためのモデル開発
• トランザクションデータを活用したスコアリングモデル開発
• 機械学習自動化アプリケーションの開発とそれを活用したコンサルティング
• 金融文書(アナリストレポート・有価証券報告書など)の活用のための実証分析
• 機械学習の技術調査
• 2020年9月~ 博士課程入学
FinML って?
4
金融への応用を中心に機械学習の研究・勉強・議論を行うグループ
本日のテーマ
5
金融 × 機械学習の困難さのもとで
求められる要請・品質とは?
金融 × 機械学習 の困難さ
6
メカニズムの複雑さ データの少なさ 非定常な分布
「一般的な機械学習のタスク」と「金融で解きたい問題」のギャップ
金融 × 機械学習 の困難さ
7
メカニズムの複雑さ データの少なさ 非定常な分布
「犬と猫の分類」↔「デフォルト予測」
犬
猫
犬
資産
100
負債 50
純資産 50
デフォルトする…?
※今日の多くの話は信用スコアリングを念頭に置いています
「一般的な機械学習のタスク」と「金融で解きたい問題」のギャップ
金融 × 機械学習 の困難さ
8
非定常な分布
# 上場企業 ≃ 4,000
猫の写真は増やせる ↔ 貸出数は増やせない
メカニズムの複雑さ データの少なさ
※今日の多くの話は信用スコアリングを念頭に置いています
# 猫
# カメラマン
= たくさん
= たくさん
「一般的な機械学習のタスク」と「金融で解きたい問題」のギャップ
金融 × 機械学習 の困難さ
9
非定常な分布
猫の特徴は昔も今も同じ ↔ 経済環境は常に変化する
メカニズムの複雑さ データの少なさ
※今日の多くの話は信用スコアリングを念頭に置いています
「一般的な機械学習のタスク」と「金融で解きたい問題」のギャップ
金融 × 機械学習 の困難さと要請
10
困難さ
非定常な分布
メカニズムの複雑さ
データの少なさ
要請 品質の担保
人間と ML モデルの間には情報格差がある
原理上データを増やしづらい
データの性質は常に変化していく
実務家が想定する
「モデルが満たしてほしい性質」を
考慮する必要がある
※今日の多くの話は信用スコアリングを念頭に置いています
本日のテーマ
11
困難さ
非定常な分布
メカニズムの複雑さ
データの少なさ
要請 品質の担保
人間と ML モデルの間には情報格差がある
原理上データを増やしづらい
データの性質は常に変化していく
実務家が想定する
「モデルが満たしてほしい性質」を
考慮する必要がある
※今日の多くの話は信用スコアリングを念頭に置いています
金融 × 機械学習の
困難さのもとで
求められる要請・品質とは?
本日のテーマ
金融 × AI:パワードスーツ型 AI としての機械学習の活用
12
https://www.rieti.go.jp/jp/publications/pdp/17p033.pdf
* 人知の AI による強化
クレジットカードのユーザの支払いが滞るパターンを AI で篩にかける
篩にかけられたデータを人間がチェックして危険なユーザを見つけ出す
• 誤判別時のコスト(人を使った方が結果的に効率的)
• 説明責任・倫理的な問題(「どうして私は融資を受けられないんですか?」)
• データ化されていない情報の活用(人間のみが持つ情報が効く)
• 局面変化への対応(機械学習の限界を人間がどうにか補完する)
そのモデル、どう使う?
13
[Lai+ FAccT19]
人間が意思決定 モデルで意思決定
Human-AI Collaboration
モデル の出力と 人間 の判断を 組みあわせて
最終的な意思決定
Human-AI Collaboration:モデルへの要件
14
* モデルの予測の一貫性
* 人間の判断を前提にしたモデリング
人間の判断を前提にしたモデリング
15
[Bansal+ HCOMP19]
モデル単体のパフォーマンス向上
Human-AI Team のパフォーマンス向上
重要な要素:Mental Model が適切に構築できるか?
≒モデルのエラー境界について人間が持つモデル
予測が正しい領域
予測を誤る領域
モデルのエラー境界
Mental Model
モデルの予測の一貫性
16
[Bansal+ AAAI19]
モデルは1回作れば終わり?
NO! 随時更新されるのが普通
Acc:
95%
Decision Making
& Feedback
Age>70 なら
モデルを信じてよさそう
旧モデル
データが増えたので
モデルを更新します
正解率も上がりました!!
Age>70 の時の正解率は
下がったけど…
Acc:
98%
新モデル
!?!!?
Human-AI Collaboration:モデルへの要件
17
[Bansal+ HCOMP19]
1 Parsimonious Error Boundaries
2 Small Stochasticity of System Errors
3 Low Task Dimensionality
4 Backward Compatibility of Error Boundaries
エラー境界が単純であること
エラー境界に不確実性がないこと
タスクの次元が低いこと
モデル更新時にエラー境界が大きく変化しないこと
そのモデル、どう使う?-具体例(1/2)
18
* モデルの出力をもとに人間が判断
- 人間が全件見るが参考情報としてモデルを利用
[Mozannar+ ICML20]
資産
100
負債 50
純資産 50 PD=10% OK!
資産
100
負債 90
純資産 10
PD=90% NG!
前頁までの話はこの状況を念頭に置いていた
そのモデル、どう使う?-具体例(2/2)
19
* 予測の確信度が低いときのみ人間が判断
[Mozannar+ ICML20]
資産
100
負債 50
純資産 50 ??? OK!
資産
100
負債 90
純資産 10
倒れる!
NG!
- 確信度が高いサンプルはモデルの出力を利用
予測の確信度が低いときのみ人間が判断するケース
20
* Learning to Defer
Classifier Rejector 人間の予測 Defer しない Defer する
モデルのコスト 人間のコスト
* 「人間のコスト」が定数のとき “Learning with Rejection”
- 「人間のコスト」=「誤判別時のコスト」+「人間を使うコスト」
* Learning to Defer は 人間の誤判別やバイアスを考慮 した定式化
[Madras+ NeurIPS18] [Mozannar+ ICML20]
Human-AI Collaboration:どのように検証するか?
21
実際に検証を行おうとすると難しい
* 定量化しづらい要素がたくさん
* 現場の意思決定プロセスにモデルを組み込み PDCA サイクルを回せれば何とかなるが…?
• 人間の Mental Model ってどうやって評価するの? (※)
• 人間が評価する際のコストってどうやって決めるの?
• …
(※)論文では実験用のプラットフォームを作り人為的に環境を作ることでこの問題をうまく回避しているような印象
• 人間を用いた評価のスキーム作りはいろいろと大変
• 手元のデータだけで何とかしたい
テストデータによる検証の限界
22
手元のデータの分割だけで検証は十分なのか?
手元のデータ
テストデータ
訓練データ
正解率 > 95% デプロイ
学習時
検証時
Nature does not shuffle the data,
we shouldn’t
Leon Bottou, ICML19 Keynote
アルゴリズム
Human-AI Collaboration の話は忘れたとして
どのように検証を行うべきか?
23
* 投資戦略のバックテストのための研究プロトコル [Arnott+ 18]
どのように検証を行うべきか?
24
* 投資戦略のバックテストのための研究プロトコル [Arnott+ 18]
※多少意訳してます
合理的な仮説をベースにモデリングせよ
同一テストデータで何度も検証する場合は注意
データのとり方に留意
CV は真の Out-of-sample 検証でないので注意
非定常性の存在に注意せよ
シンプルなモデルの方が好ましい
戦略が勝てるか否かでなく研究の質を重視せよ
金融機関のストレステスト
25
* ストレスシナリオ を想定し
[池森, 18]
* その場合の ダメージをシミュレーション して
* アクションプラン をあらかじめ議論しておく
• 景気の大幅な悪化
• 資産価格の急落
• 金融市場の流動性枯渇
• 損失の発生
• 資金繰りの悪化
ポイントは
一度も観測されていないシナリオを
シミュレーションで作ること
リスク管理体制の不備をカバーするための検証
ストレスシナリオでの検証
26
* ストレスシナリオ=非 IID データを活用
* モデルが信頼に足るか・本質的な構造をエンコードしているか検証
1 Stratified Performance Evaluation
2 Shifted Performance Evaluation
3 Contrastive Evaluation
Subgroup で検証
分布をシフトさせて検証
特定サンプルに対して特定の変換を施し出力を検証
[D'Amour+ 20]
Stratified Performance Evaluation
27
1
[Oakden-Rayner+ 19]
* ラベル付けされた各クラスは
複数のサブセットから構成される
* 全体の正解率だけを見ていると
性能が劣る少数のサブセットや
Spurious Correlation を見落とす
ベンガル
シャム
ペルシャ
ラベル:猫
2% 38% 60%
ChestXray14 の例:
* 気胸のラベルがついた画像のうち大半は胸腔チューブあり
(気胸の治療として用いられるもの)
* むしろ胸腔チューブの写っていない画像 を正しく予測しないと生死に関わる
Shifted Performance Evaluation
28
2
訓練データの分布と異なる分布を作る
* ラベルを変えないように入力を変換させる
ImageNet の画像を変換した ImageNetC など
* データの収集の方法を変える
ImageNet に含まれないようなイレギュラーな
ケースを集めたObjectNet など
[Hendrycks+ 19]
[Barbu+ 19]
どんな変換が考えられるか/どうやってデータを集めなおすかは
現実的には大きな問題
Contrastive Evaluation
29
3
個別サンプルごとに変換を施し予測値の挙動を確認
* Fairness にフォーカスした研究が多数
* NLP においてもいくつかテストが提案されている
サンプルごとにラベルを保持する/反転させる変換が作れればそれをもとにデータ拡張して学習できる
Sensitive attribute のみが変わってもモデルの出力は変わってほしくない
②:分布をシフトさせたデータセット全体の精度にフォーカス
③:個々のサンプルの予測値が期待通り変わるかにフォーカス
文章中の地名が変わってもセンチメントは変わってほしくない
[Kaushik+ 20]
[Ribeiro+ 20]
[Kusner+ 17]
【まとめ】金融 × 機械学習で求められる要請・品質とは?
30
• 非定常な分布を前提にしたモデルの信頼性が必要
• 適切なストレスシナリオを設定してモデルが信頼できそうか確認
• モデルに人間が介在した意思決定が多く 状況毎に様々な要件
• 検証にも人手が必要なので検証は高コスト
資産
100
負債 50
純資産 50
ここ6カ月の日経平均
?
Reference
• Arnott, Robert D. and Harvey, Campbell R. and Markowitz, Harry, A Backtesting Protocol in the Era of Machine Learning (November 21, 2018). Available at SSRN:
https://ssrn.com/abstract=3275654 or http://dx.doi.org/10.2139/ssrn.3275654
• Gagan Bansal, Besmira Nushi, Ece Kamar, Walter S. Lasecki, Daniel S. Weld, Eric HorvitzIn. Beyond Accuracy: The Role of Mental Models in Human-AI Team Performance. In
Proceedings of the AAAI Conference on Human Computation and Crowdsourcing, 2019.
• Gagan Bansal, Besmira Nushi, Ece Kamar, Daniel S. Weld, Walter S. Lasecki and Eric Horvitz. Updates in Human-AI Teams: Understanding and Addressing the
Performance/Compatibility Tradeoff. In AAAI, 2019.
• Andrei Barbu, David Mayo, Julian Alverio, William Luo, Christopher Wang, Dan Gutfreund, Josh Tenenbaum, Boris Katz. ObjectNet: A large-scale bias-controlled dataset for pushing
the limits of object recognition models. In NeurIPS, 2019.
• A. D’Amour, K. Heller, D. Moldovan, B. Adlam, B. Alipanahi, A. Beutel, C. Chen, J. Deaton, J. Eisenstein, M. D. Hoffman, et al. Underspecification presents challenges for credibility in
modern machine learning. arXiv preprint arXiv:2011.03395, 2020.
• Dan Hendrycks and Thomas Dietterich. Benchmarking Neural Network Robustness to Common Corruptions and Perturbations. In ICLR, 2019.
• Divyansh Kaushik, Eduard Hovy, Zachary Lipton. Learning The Difference That Makes A Difference With Counterfactually-Augmented Data. In ICLR, 2020.
• Matt J. Kusner, Joshua Loftus, Chris Russell, Ricardo Silva. Counterfactual Fairness. In NeurIPS, 2017.
• Vivian Lai and Chenhao Tan. On Human Predictions with Explanations and Predictions of Machine Learning Models: A Case Study on Deception Detection. In FAccT, 2019.
• David Madras, Toniann Pitassi & Richard Zemel. Predict Responsibly: Improving Fairness and Accuracy by Learning to Defer. In NeurIPS, 2018.
• Hussein Mozannar, David Sontag. Consistent Estimators for Learning to Defer to an Expert. In ICML, 2020.
• Luke Oakden-Rayner, Jared Dunnmon, Gustavo Carneiro, Christopher Ré. Hidden Stratification Causes Clinically Meaningful Failures in Machine Learning for Medical Imaging. In
Machine Learning for Health (ML4H) at NeurIPS, 2019.
• Marco Tulio Ribeiro, Tongshuang Wu, Carlos Guestrin, Sameer Singh. Beyond Accuracy: Behavioral Testing of NLP Models with CheckList. In ACL, 2020.
• 池森 俊文. 銀行経営のための数理的枠組み―金融リスクの制御. プログレス,2018.
(拾ってきた画像)
• https://press.share-wis.com/german-hyperinflation
• https://buzzap.jp/news/20140324-cantury-old-animal-photography/
31

More Related Content

What's hot

2014 3 13(テンソル分解の基礎)
2014 3 13(テンソル分解の基礎)2014 3 13(テンソル分解の基礎)
2014 3 13(テンソル分解の基礎)
Tatsuya Yokota
 
最適輸送入門
最適輸送入門最適輸送入門
最適輸送入門
joisino
 
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習
Deep Learning JP
 
マルチモーダル深層学習の研究動向
マルチモーダル深層学習の研究動向マルチモーダル深層学習の研究動向
マルチモーダル深層学習の研究動向
Koichiro Mori
 
[DL輪読会]Understanding Black-box Predictions via Influence Functions
[DL輪読会]Understanding Black-box Predictions via Influence Functions [DL輪読会]Understanding Black-box Predictions via Influence Functions
[DL輪読会]Understanding Black-box Predictions via Influence Functions
Deep Learning JP
 
【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models
Deep Learning JP
 
研究室における研究・実装ノウハウの共有
研究室における研究・実装ノウハウの共有研究室における研究・実装ノウハウの共有
研究室における研究・実装ノウハウの共有
Naoaki Okazaki
 
時系列予測にTransformerを使うのは有効か?
時系列予測にTransformerを使うのは有効か?時系列予測にTransformerを使うのは有効か?
時系列予測にTransformerを使うのは有効か?
Fumihiko Takahashi
 
因果探索: 基本から最近の発展までを概説
因果探索: 基本から最近の発展までを概説因果探索: 基本から最近の発展までを概説
因果探索: 基本から最近の発展までを概説
Shiga University, RIKEN
 
最近のディープラーニングのトレンド紹介_20200925
最近のディープラーニングのトレンド紹介_20200925最近のディープラーニングのトレンド紹介_20200925
最近のディープラーニングのトレンド紹介_20200925
小川 雄太郎
 
HiPPO/S4解説
HiPPO/S4解説HiPPO/S4解説
HiPPO/S4解説
Morpho, Inc.
 
機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)
Satoshi Hara
 
モデル高速化百選
モデル高速化百選モデル高速化百選
モデル高速化百選
Yusuke Uchida
 
機械学習チュートリアル@Jubatus Casual Talks
機械学習チュートリアル@Jubatus Casual Talks機械学習チュートリアル@Jubatus Casual Talks
機械学習チュートリアル@Jubatus Casual TalksYuya Unno
 
backbone としての timm 入門
backbone としての timm 入門backbone としての timm 入門
backbone としての timm 入門
Takuji Tahara
 
CV分野におけるサーベイ方法
CV分野におけるサーベイ方法CV分野におけるサーベイ方法
CV分野におけるサーベイ方法
Hirokatsu Kataoka
 
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII
 
項目反応理論による尺度運用
項目反応理論による尺度運用項目反応理論による尺度運用
項目反応理論による尺度運用
Yoshitake Takebayashi
 
失敗から学ぶ機械学習応用
失敗から学ぶ機械学習応用失敗から学ぶ機械学習応用
失敗から学ぶ機械学習応用
Hiroyuki Masuda
 
統計的因果推論への招待 -因果構造探索を中心に-
統計的因果推論への招待 -因果構造探索を中心に-統計的因果推論への招待 -因果構造探索を中心に-
統計的因果推論への招待 -因果構造探索を中心に-
Shiga University, RIKEN
 

What's hot (20)

2014 3 13(テンソル分解の基礎)
2014 3 13(テンソル分解の基礎)2014 3 13(テンソル分解の基礎)
2014 3 13(テンソル分解の基礎)
 
最適輸送入門
最適輸送入門最適輸送入門
最適輸送入門
 
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習
 
マルチモーダル深層学習の研究動向
マルチモーダル深層学習の研究動向マルチモーダル深層学習の研究動向
マルチモーダル深層学習の研究動向
 
[DL輪読会]Understanding Black-box Predictions via Influence Functions
[DL輪読会]Understanding Black-box Predictions via Influence Functions [DL輪読会]Understanding Black-box Predictions via Influence Functions
[DL輪読会]Understanding Black-box Predictions via Influence Functions
 
【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models
 
研究室における研究・実装ノウハウの共有
研究室における研究・実装ノウハウの共有研究室における研究・実装ノウハウの共有
研究室における研究・実装ノウハウの共有
 
時系列予測にTransformerを使うのは有効か?
時系列予測にTransformerを使うのは有効か?時系列予測にTransformerを使うのは有効か?
時系列予測にTransformerを使うのは有効か?
 
因果探索: 基本から最近の発展までを概説
因果探索: 基本から最近の発展までを概説因果探索: 基本から最近の発展までを概説
因果探索: 基本から最近の発展までを概説
 
最近のディープラーニングのトレンド紹介_20200925
最近のディープラーニングのトレンド紹介_20200925最近のディープラーニングのトレンド紹介_20200925
最近のディープラーニングのトレンド紹介_20200925
 
HiPPO/S4解説
HiPPO/S4解説HiPPO/S4解説
HiPPO/S4解説
 
機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)
 
モデル高速化百選
モデル高速化百選モデル高速化百選
モデル高速化百選
 
機械学習チュートリアル@Jubatus Casual Talks
機械学習チュートリアル@Jubatus Casual Talks機械学習チュートリアル@Jubatus Casual Talks
機械学習チュートリアル@Jubatus Casual Talks
 
backbone としての timm 入門
backbone としての timm 入門backbone としての timm 入門
backbone としての timm 入門
 
CV分野におけるサーベイ方法
CV分野におけるサーベイ方法CV分野におけるサーベイ方法
CV分野におけるサーベイ方法
 
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
 
項目反応理論による尺度運用
項目反応理論による尺度運用項目反応理論による尺度運用
項目反応理論による尺度運用
 
失敗から学ぶ機械学習応用
失敗から学ぶ機械学習応用失敗から学ぶ機械学習応用
失敗から学ぶ機械学習応用
 
統計的因果推論への招待 -因果構造探索を中心に-
統計的因果推論への招待 -因果構造探索を中心に-統計的因果推論への招待 -因果構造探索を中心に-
統計的因果推論への招待 -因果構造探索を中心に-
 

Similar to 金融×AIで解くべき問題は何か?

ソーシャルメディアによる情報拡散モデル
ソーシャルメディアによる情報拡散モデルソーシャルメディアによる情報拡散モデル
ソーシャルメディアによる情報拡散モデルDaisuke Sashida
 
システム論に基づく情報教育の授業計画と教育実践
システム論に基づく情報教育の授業計画と教育実践システム論に基づく情報教育の授業計画と教育実践
システム論に基づく情報教育の授業計画と教育実践
saireya _
 
高度Ict利活用人材育成推進会議プレゼン(1124) final(改)
高度Ict利活用人材育成推進会議プレゼン(1124) final(改)高度Ict利活用人材育成推進会議プレゼン(1124) final(改)
高度Ict利活用人材育成推進会議プレゼン(1124) final(改)Tsukasa Makino
 
プロのコンサルタントとビジネスプランを作る! 「LABO ASIA」第2ターム第2回
プロのコンサルタントとビジネスプランを作る! 「LABO ASIA」第2ターム第2回プロのコンサルタントとビジネスプランを作る! 「LABO ASIA」第2ターム第2回
プロのコンサルタントとビジネスプランを作る! 「LABO ASIA」第2ターム第2回
LABO ASIA
 
分析のリアルがここに!現場で使えるデータ分析(1限目) 先生:吉永 恵一
分析のリアルがここに!現場で使えるデータ分析(1限目) 先生:吉永 恵一分析のリアルがここに!現場で使えるデータ分析(1限目) 先生:吉永 恵一
分析のリアルがここに!現場で使えるデータ分析(1限目) 先生:吉永 恵一
schoowebcampus
 
ディープラーニングによるユーザーの行動予測
ディープラーニングによるユーザーの行動予測ディープラーニングによるユーザーの行動予測
ディープラーニングによるユーザーの行動予測
澪標アナリティクス
 
tut_pfi_2012
tut_pfi_2012tut_pfi_2012
tut_pfi_2012
Preferred Networks
 
機械学習デザインパターン Machine Learning Design Patterns
機械学習デザインパターン Machine Learning Design Patterns機械学習デザインパターン Machine Learning Design Patterns
機械学習デザインパターン Machine Learning Design Patterns
Hironori Washizaki
 
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平
Preferred Networks
 
[DSO]勉強会_データサイエンス講義_Chapter8
[DSO]勉強会_データサイエンス講義_Chapter8[DSO]勉強会_データサイエンス講義_Chapter8
[DSO]勉強会_データサイエンス講義_Chapter8
tatsuyasakaeeda
 
【スクー】業務改善のためのデータサイエンス
【スクー】業務改善のためのデータサイエンス【スクー】業務改善のためのデータサイエンス
【スクー】業務改善のためのデータサイエンスIssei Kurahashi
 
Data Science Summit 2012 レポート
Data Science Summit 2012 レポートData Science Summit 2012 レポート
Data Science Summit 2012 レポート
nagix
 
おしゃスタ@リクルート
おしゃスタ@リクルートおしゃスタ@リクルート
おしゃスタ@リクルートIssei Kurahashi
 
データサイエンティストとは? そのスキル/ナレッジレベル定義の必要性
データサイエンティストとは? そのスキル/ナレッジレベル定義の必要性データサイエンティストとは? そのスキル/ナレッジレベル定義の必要性
データサイエンティストとは? そのスキル/ナレッジレベル定義の必要性
BrainPad Inc.
 
MultiRec: A Multi-Relational Approach for Unique Item Recommendation in Aucti...
MultiRec: A Multi-Relational Approach for Unique Item Recommendation in Aucti...MultiRec: A Multi-Relational Approach for Unique Item Recommendation in Aucti...
MultiRec: A Multi-Relational Approach for Unique Item Recommendation in Aucti...
harmonylab
 
Marketing 04 客観的に状況を把握する市場調査
Marketing 04 客観的に状況を把握する市場調査Marketing 04 客観的に状況を把握する市場調査
Marketing 04 客観的に状況を把握する市場調査
Meiji University / 明治大学
 

Similar to 金融×AIで解くべき問題は何か? (20)

ソーシャルメディアによる情報拡散モデル
ソーシャルメディアによる情報拡散モデルソーシャルメディアによる情報拡散モデル
ソーシャルメディアによる情報拡散モデル
 
10.2010 0527 keio_bs
10.2010 0527 keio_bs10.2010 0527 keio_bs
10.2010 0527 keio_bs
 
10.2010 0527 keio_bs
10.2010 0527 keio_bs10.2010 0527 keio_bs
10.2010 0527 keio_bs
 
システム論に基づく情報教育の授業計画と教育実践
システム論に基づく情報教育の授業計画と教育実践システム論に基づく情報教育の授業計画と教育実践
システム論に基づく情報教育の授業計画と教育実践
 
高度Ict利活用人材育成推進会議プレゼン(1124) final(改)
高度Ict利活用人材育成推進会議プレゼン(1124) final(改)高度Ict利活用人材育成推進会議プレゼン(1124) final(改)
高度Ict利活用人材育成推進会議プレゼン(1124) final(改)
 
プロのコンサルタントとビジネスプランを作る! 「LABO ASIA」第2ターム第2回
プロのコンサルタントとビジネスプランを作る! 「LABO ASIA」第2ターム第2回プロのコンサルタントとビジネスプランを作る! 「LABO ASIA」第2ターム第2回
プロのコンサルタントとビジネスプランを作る! 「LABO ASIA」第2ターム第2回
 
分析のリアルがここに!現場で使えるデータ分析(1限目) 先生:吉永 恵一
分析のリアルがここに!現場で使えるデータ分析(1限目) 先生:吉永 恵一分析のリアルがここに!現場で使えるデータ分析(1限目) 先生:吉永 恵一
分析のリアルがここに!現場で使えるデータ分析(1限目) 先生:吉永 恵一
 
ディープラーニングによるユーザーの行動予測
ディープラーニングによるユーザーの行動予測ディープラーニングによるユーザーの行動予測
ディープラーニングによるユーザーの行動予測
 
tut_pfi_2012
tut_pfi_2012tut_pfi_2012
tut_pfi_2012
 
機械学習デザインパターン Machine Learning Design Patterns
機械学習デザインパターン Machine Learning Design Patterns機械学習デザインパターン Machine Learning Design Patterns
機械学習デザインパターン Machine Learning Design Patterns
 
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平
 
20110221
2011022120110221
20110221
 
[DSO]勉強会_データサイエンス講義_Chapter8
[DSO]勉強会_データサイエンス講義_Chapter8[DSO]勉強会_データサイエンス講義_Chapter8
[DSO]勉強会_データサイエンス講義_Chapter8
 
【スクー】業務改善のためのデータサイエンス
【スクー】業務改善のためのデータサイエンス【スクー】業務改善のためのデータサイエンス
【スクー】業務改善のためのデータサイエンス
 
Data Science Summit 2012 レポート
Data Science Summit 2012 レポートData Science Summit 2012 レポート
Data Science Summit 2012 レポート
 
おしゃスタ@リクルート
おしゃスタ@リクルートおしゃスタ@リクルート
おしゃスタ@リクルート
 
データサイエンティストとは? そのスキル/ナレッジレベル定義の必要性
データサイエンティストとは? そのスキル/ナレッジレベル定義の必要性データサイエンティストとは? そのスキル/ナレッジレベル定義の必要性
データサイエンティストとは? そのスキル/ナレッジレベル定義の必要性
 
MultiRec: A Multi-Relational Approach for Unique Item Recommendation in Aucti...
MultiRec: A Multi-Relational Approach for Unique Item Recommendation in Aucti...MultiRec: A Multi-Relational Approach for Unique Item Recommendation in Aucti...
MultiRec: A Multi-Relational Approach for Unique Item Recommendation in Aucti...
 
おしゃスタat銀座
おしゃスタat銀座おしゃスタat銀座
おしゃスタat銀座
 
Marketing 04 客観的に状況を把握する市場調査
Marketing 04 客観的に状況を把握する市場調査Marketing 04 客観的に状況を把握する市場調査
Marketing 04 客観的に状況を把握する市場調査
 

Recently uploaded

【AI論文解説】Consistency ModelとRectified Flow
【AI論文解説】Consistency ModelとRectified Flow【AI論文解説】Consistency ModelとRectified Flow
【AI論文解説】Consistency ModelとRectified Flow
Sony - Neural Network Libraries
 
MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。
MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。
MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。
iPride Co., Ltd.
 
YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)
YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)
YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)
NTT DATA Technology & Innovation
 
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
atsushi061452
 
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
Toru Tamaki
 
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアルLoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
CRI Japan, Inc.
 
2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx
2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx
2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx
yassun7010
 
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
harmonylab
 
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdfFIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance
 
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdfFIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance
 
FIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance Osaka Seminar: CloudGate.pdfFIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance
 
FIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance Osaka Seminar: Welcome Slides.pdfFIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance
 
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
Fukuoka Institute of Technology
 
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
Matsushita Laboratory
 
CS集会#13_なるほどわからん通信技術 発表資料
CS集会#13_なるほどわからん通信技術 発表資料CS集会#13_なるほどわからん通信技術 発表資料
CS集会#13_なるほどわからん通信技術 発表資料
Yuuitirou528 default
 
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdfFIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance
 

Recently uploaded (16)

【AI論文解説】Consistency ModelとRectified Flow
【AI論文解説】Consistency ModelとRectified Flow【AI論文解説】Consistency ModelとRectified Flow
【AI論文解説】Consistency ModelとRectified Flow
 
MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。
MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。
MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。
 
YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)
YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)
YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)
 
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
 
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
 
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアルLoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
 
2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx
2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx
2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx
 
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
 
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdfFIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
 
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdfFIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
 
FIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance Osaka Seminar: CloudGate.pdfFIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance Osaka Seminar: CloudGate.pdf
 
FIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance Osaka Seminar: Welcome Slides.pdfFIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance Osaka Seminar: Welcome Slides.pdf
 
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
 
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
 
CS集会#13_なるほどわからん通信技術 発表資料
CS集会#13_なるほどわからん通信技術 発表資料CS集会#13_なるほどわからん通信技術 発表資料
CS集会#13_なるほどわからん通信技術 発表資料
 
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdfFIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
 

金融×AIで解くべき問題は何か?

  • 1. 金融 × AI で解くべき問題は何か? みずほ第一フィナンシャルテクノロジー/東京大学 永山恒彦
  • 3. 自己紹介 3 永山 恒彦 みずほ第一フィナンシャルテクノロジー データアナリティクス技術開発部 東京大学 • 2016年4月 みずほ銀行入行 • 2016年11月~ みずほ第一フィナンシャルテクノロジーで勤務 • 投資助言におけるニュースデータ活用のためのモデル開発 • トランザクションデータを活用したスコアリングモデル開発 • 機械学習自動化アプリケーションの開発とそれを活用したコンサルティング • 金融文書(アナリストレポート・有価証券報告書など)の活用のための実証分析 • 機械学習の技術調査 • 2020年9月~ 博士課程入学
  • 6. 金融 × 機械学習 の困難さ 6 メカニズムの複雑さ データの少なさ 非定常な分布 「一般的な機械学習のタスク」と「金融で解きたい問題」のギャップ
  • 7. 金融 × 機械学習 の困難さ 7 メカニズムの複雑さ データの少なさ 非定常な分布 「犬と猫の分類」↔「デフォルト予測」 犬 猫 犬 資産 100 負債 50 純資産 50 デフォルトする…? ※今日の多くの話は信用スコアリングを念頭に置いています 「一般的な機械学習のタスク」と「金融で解きたい問題」のギャップ
  • 8. 金融 × 機械学習 の困難さ 8 非定常な分布 # 上場企業 ≃ 4,000 猫の写真は増やせる ↔ 貸出数は増やせない メカニズムの複雑さ データの少なさ ※今日の多くの話は信用スコアリングを念頭に置いています # 猫 # カメラマン = たくさん = たくさん 「一般的な機械学習のタスク」と「金融で解きたい問題」のギャップ
  • 9. 金融 × 機械学習 の困難さ 9 非定常な分布 猫の特徴は昔も今も同じ ↔ 経済環境は常に変化する メカニズムの複雑さ データの少なさ ※今日の多くの話は信用スコアリングを念頭に置いています 「一般的な機械学習のタスク」と「金融で解きたい問題」のギャップ
  • 10. 金融 × 機械学習 の困難さと要請 10 困難さ 非定常な分布 メカニズムの複雑さ データの少なさ 要請 品質の担保 人間と ML モデルの間には情報格差がある 原理上データを増やしづらい データの性質は常に変化していく 実務家が想定する 「モデルが満たしてほしい性質」を 考慮する必要がある ※今日の多くの話は信用スコアリングを念頭に置いています
  • 11. 本日のテーマ 11 困難さ 非定常な分布 メカニズムの複雑さ データの少なさ 要請 品質の担保 人間と ML モデルの間には情報格差がある 原理上データを増やしづらい データの性質は常に変化していく 実務家が想定する 「モデルが満たしてほしい性質」を 考慮する必要がある ※今日の多くの話は信用スコアリングを念頭に置いています 金融 × 機械学習の 困難さのもとで 求められる要請・品質とは? 本日のテーマ
  • 12. 金融 × AI:パワードスーツ型 AI としての機械学習の活用 12 https://www.rieti.go.jp/jp/publications/pdp/17p033.pdf * 人知の AI による強化 クレジットカードのユーザの支払いが滞るパターンを AI で篩にかける 篩にかけられたデータを人間がチェックして危険なユーザを見つけ出す • 誤判別時のコスト(人を使った方が結果的に効率的) • 説明責任・倫理的な問題(「どうして私は融資を受けられないんですか?」) • データ化されていない情報の活用(人間のみが持つ情報が効く) • 局面変化への対応(機械学習の限界を人間がどうにか補完する)
  • 13. そのモデル、どう使う? 13 [Lai+ FAccT19] 人間が意思決定 モデルで意思決定 Human-AI Collaboration モデル の出力と 人間 の判断を 組みあわせて 最終的な意思決定
  • 15. 人間の判断を前提にしたモデリング 15 [Bansal+ HCOMP19] モデル単体のパフォーマンス向上 Human-AI Team のパフォーマンス向上 重要な要素:Mental Model が適切に構築できるか? ≒モデルのエラー境界について人間が持つモデル 予測が正しい領域 予測を誤る領域 モデルのエラー境界 Mental Model
  • 16. モデルの予測の一貫性 16 [Bansal+ AAAI19] モデルは1回作れば終わり? NO! 随時更新されるのが普通 Acc: 95% Decision Making & Feedback Age>70 なら モデルを信じてよさそう 旧モデル データが増えたので モデルを更新します 正解率も上がりました!! Age>70 の時の正解率は 下がったけど… Acc: 98% 新モデル !?!!?
  • 17. Human-AI Collaboration:モデルへの要件 17 [Bansal+ HCOMP19] 1 Parsimonious Error Boundaries 2 Small Stochasticity of System Errors 3 Low Task Dimensionality 4 Backward Compatibility of Error Boundaries エラー境界が単純であること エラー境界に不確実性がないこと タスクの次元が低いこと モデル更新時にエラー境界が大きく変化しないこと
  • 18. そのモデル、どう使う?-具体例(1/2) 18 * モデルの出力をもとに人間が判断 - 人間が全件見るが参考情報としてモデルを利用 [Mozannar+ ICML20] 資産 100 負債 50 純資産 50 PD=10% OK! 資産 100 負債 90 純資産 10 PD=90% NG! 前頁までの話はこの状況を念頭に置いていた
  • 19. そのモデル、どう使う?-具体例(2/2) 19 * 予測の確信度が低いときのみ人間が判断 [Mozannar+ ICML20] 資産 100 負債 50 純資産 50 ??? OK! 資産 100 負債 90 純資産 10 倒れる! NG! - 確信度が高いサンプルはモデルの出力を利用
  • 20. 予測の確信度が低いときのみ人間が判断するケース 20 * Learning to Defer Classifier Rejector 人間の予測 Defer しない Defer する モデルのコスト 人間のコスト * 「人間のコスト」が定数のとき “Learning with Rejection” - 「人間のコスト」=「誤判別時のコスト」+「人間を使うコスト」 * Learning to Defer は 人間の誤判別やバイアスを考慮 した定式化 [Madras+ NeurIPS18] [Mozannar+ ICML20]
  • 21. Human-AI Collaboration:どのように検証するか? 21 実際に検証を行おうとすると難しい * 定量化しづらい要素がたくさん * 現場の意思決定プロセスにモデルを組み込み PDCA サイクルを回せれば何とかなるが…? • 人間の Mental Model ってどうやって評価するの? (※) • 人間が評価する際のコストってどうやって決めるの? • … (※)論文では実験用のプラットフォームを作り人為的に環境を作ることでこの問題をうまく回避しているような印象 • 人間を用いた評価のスキーム作りはいろいろと大変 • 手元のデータだけで何とかしたい
  • 22. テストデータによる検証の限界 22 手元のデータの分割だけで検証は十分なのか? 手元のデータ テストデータ 訓練データ 正解率 > 95% デプロイ 学習時 検証時 Nature does not shuffle the data, we shouldn’t Leon Bottou, ICML19 Keynote アルゴリズム Human-AI Collaboration の話は忘れたとして
  • 24. どのように検証を行うべきか? 24 * 投資戦略のバックテストのための研究プロトコル [Arnott+ 18] ※多少意訳してます 合理的な仮説をベースにモデリングせよ 同一テストデータで何度も検証する場合は注意 データのとり方に留意 CV は真の Out-of-sample 検証でないので注意 非定常性の存在に注意せよ シンプルなモデルの方が好ましい 戦略が勝てるか否かでなく研究の質を重視せよ
  • 25. 金融機関のストレステスト 25 * ストレスシナリオ を想定し [池森, 18] * その場合の ダメージをシミュレーション して * アクションプラン をあらかじめ議論しておく • 景気の大幅な悪化 • 資産価格の急落 • 金融市場の流動性枯渇 • 損失の発生 • 資金繰りの悪化 ポイントは 一度も観測されていないシナリオを シミュレーションで作ること リスク管理体制の不備をカバーするための検証
  • 26. ストレスシナリオでの検証 26 * ストレスシナリオ=非 IID データを活用 * モデルが信頼に足るか・本質的な構造をエンコードしているか検証 1 Stratified Performance Evaluation 2 Shifted Performance Evaluation 3 Contrastive Evaluation Subgroup で検証 分布をシフトさせて検証 特定サンプルに対して特定の変換を施し出力を検証 [D'Amour+ 20]
  • 27. Stratified Performance Evaluation 27 1 [Oakden-Rayner+ 19] * ラベル付けされた各クラスは 複数のサブセットから構成される * 全体の正解率だけを見ていると 性能が劣る少数のサブセットや Spurious Correlation を見落とす ベンガル シャム ペルシャ ラベル:猫 2% 38% 60% ChestXray14 の例: * 気胸のラベルがついた画像のうち大半は胸腔チューブあり (気胸の治療として用いられるもの) * むしろ胸腔チューブの写っていない画像 を正しく予測しないと生死に関わる
  • 28. Shifted Performance Evaluation 28 2 訓練データの分布と異なる分布を作る * ラベルを変えないように入力を変換させる ImageNet の画像を変換した ImageNetC など * データの収集の方法を変える ImageNet に含まれないようなイレギュラーな ケースを集めたObjectNet など [Hendrycks+ 19] [Barbu+ 19] どんな変換が考えられるか/どうやってデータを集めなおすかは 現実的には大きな問題
  • 29. Contrastive Evaluation 29 3 個別サンプルごとに変換を施し予測値の挙動を確認 * Fairness にフォーカスした研究が多数 * NLP においてもいくつかテストが提案されている サンプルごとにラベルを保持する/反転させる変換が作れればそれをもとにデータ拡張して学習できる Sensitive attribute のみが変わってもモデルの出力は変わってほしくない ②:分布をシフトさせたデータセット全体の精度にフォーカス ③:個々のサンプルの予測値が期待通り変わるかにフォーカス 文章中の地名が変わってもセンチメントは変わってほしくない [Kaushik+ 20] [Ribeiro+ 20] [Kusner+ 17]
  • 30. 【まとめ】金融 × 機械学習で求められる要請・品質とは? 30 • 非定常な分布を前提にしたモデルの信頼性が必要 • 適切なストレスシナリオを設定してモデルが信頼できそうか確認 • モデルに人間が介在した意思決定が多く 状況毎に様々な要件 • 検証にも人手が必要なので検証は高コスト 資産 100 負債 50 純資産 50 ここ6カ月の日経平均 ?
  • 31. Reference • Arnott, Robert D. and Harvey, Campbell R. and Markowitz, Harry, A Backtesting Protocol in the Era of Machine Learning (November 21, 2018). Available at SSRN: https://ssrn.com/abstract=3275654 or http://dx.doi.org/10.2139/ssrn.3275654 • Gagan Bansal, Besmira Nushi, Ece Kamar, Walter S. Lasecki, Daniel S. Weld, Eric HorvitzIn. Beyond Accuracy: The Role of Mental Models in Human-AI Team Performance. In Proceedings of the AAAI Conference on Human Computation and Crowdsourcing, 2019. • Gagan Bansal, Besmira Nushi, Ece Kamar, Daniel S. Weld, Walter S. Lasecki and Eric Horvitz. Updates in Human-AI Teams: Understanding and Addressing the Performance/Compatibility Tradeoff. In AAAI, 2019. • Andrei Barbu, David Mayo, Julian Alverio, William Luo, Christopher Wang, Dan Gutfreund, Josh Tenenbaum, Boris Katz. ObjectNet: A large-scale bias-controlled dataset for pushing the limits of object recognition models. In NeurIPS, 2019. • A. D’Amour, K. Heller, D. Moldovan, B. Adlam, B. Alipanahi, A. Beutel, C. Chen, J. Deaton, J. Eisenstein, M. D. Hoffman, et al. Underspecification presents challenges for credibility in modern machine learning. arXiv preprint arXiv:2011.03395, 2020. • Dan Hendrycks and Thomas Dietterich. Benchmarking Neural Network Robustness to Common Corruptions and Perturbations. In ICLR, 2019. • Divyansh Kaushik, Eduard Hovy, Zachary Lipton. Learning The Difference That Makes A Difference With Counterfactually-Augmented Data. In ICLR, 2020. • Matt J. Kusner, Joshua Loftus, Chris Russell, Ricardo Silva. Counterfactual Fairness. In NeurIPS, 2017. • Vivian Lai and Chenhao Tan. On Human Predictions with Explanations and Predictions of Machine Learning Models: A Case Study on Deception Detection. In FAccT, 2019. • David Madras, Toniann Pitassi & Richard Zemel. Predict Responsibly: Improving Fairness and Accuracy by Learning to Defer. In NeurIPS, 2018. • Hussein Mozannar, David Sontag. Consistent Estimators for Learning to Defer to an Expert. In ICML, 2020. • Luke Oakden-Rayner, Jared Dunnmon, Gustavo Carneiro, Christopher Ré. Hidden Stratification Causes Clinically Meaningful Failures in Machine Learning for Medical Imaging. In Machine Learning for Health (ML4H) at NeurIPS, 2019. • Marco Tulio Ribeiro, Tongshuang Wu, Carlos Guestrin, Sameer Singh. Beyond Accuracy: Behavioral Testing of NLP Models with CheckList. In ACL, 2020. • 池森 俊文. 銀行経営のための数理的枠組み―金融リスクの制御. プログレス,2018. (拾ってきた画像) • https://press.share-wis.com/german-hyperinflation • https://buzzap.jp/news/20140324-cantury-old-animal-photography/ 31