More Related Content
PDF
ブレインパッドにおける機械学習プロジェクトの進め方 PDF
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜 PDF
PDF
遺伝的アルゴリズム(Genetic Algorithm)を始めよう! PDF
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜 PPTX
PDF
PDF
What's hot
PPTX
近年のHierarchical Vision Transformer PDF
PPTX
【DL輪読会】Scaling Laws for Neural Language Models PDF
深層学習による自然言語処理入門: word2vecからBERT, GPT-3まで PPTX
PPTX
【DL輪読会】Toolformer: Language Models Can Teach Themselves to Use Tools PDF
PDF
BlackBox モデルの説明性・解釈性技術の実装 PDF
PPTX
PDF
第8回Language and Robotics研究会20221010_AkiraTaniguchi PDF
PPTX
これからの Vision & Language ~ Acadexit した4つの理由 PPTX
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial) PPTX
PPTX
Counterfaual Machine Learning(CFML)のサーベイ KEY
PDF
PPTX
PPTX
Similar to 自然言語処理で読み解く金融文書
PDF
企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学) PDF
PDF
PDF
研究・企業・生き方について 情報科学若手の会2011 PDF
PDF
PDF
SAP Inside Track Tokyo 2022 Deep Learning版Cash Applicationをやってみた PPTX
【日商USA】webinar 2023.5.12 RSAカンファレンス2023 フィードバック PDF
Toward Research that Matters PDF
Netadashi Meetup #3 20170614 PDF
情報処理学会第74回全国大会 私的勉強会と学会の未来 PPTX
PDF
20180830 東京都中小企業診断士協会 中央支部 AI・人工知能研究会 人工知能の可能性と限界 PDF
データマイニングCROSS 第2部-機械学習・大規模分散処理 PDF
PDF
PDF
PPTX
PDF
オンラインバンキングのセキュリティ技術の動向(完全版) PDF
More from Takahiro Kubo
PDF
PDF
PPTX
PDF
PDF
PDF
PDF
PDF
PDF
あるべきESG投資の評価に向けた、自然言語処理の活用 PDF
PDF
Reinforcement Learning Inside Business PDF
PDF
PPTX
PDF
arXivTimes Review: 2019年前半で印象に残った論文を振り返る PDF
PDF
TISにおける、研究開発の方針とメソッド 2018 PDF
Curiosity may drives your output routine. PDF
nlpaper.challenge NLP/CV交流勉強会 画像認識 7章 PDF
Expressing Visual Relationships via Language: 自然言語による画像編集を目指して 自然言語処理で読み解く金融文書
- 1.
Copyright © TISInc. All rights reserved.
自然言語処理で読み解く金融文書
戦略技術センター
久保隆宏
Survey for NLP deals with financial documents
- 2.
Copyright © TISInc. All rights reserved. 2
Agenda
◼ 自然言語処理 x 金融文書の現状
◼ 研究x活用の状況
◼ 活用領域ピックアップ
◼ Risk Management
◼ Asset Management
◼ 現状と今後の発展
- 3.
Copyright © TISInc. All rights reserved. 3
久保隆宏
TIS株式会社 フィナンシャルサービス部
◼ 化学系メーカーの業務コンサルタント出身。
◼ 既存の技術では業務改善を行える範囲に限界があるとの実感から、戦
略技術センターへと異動。
◼ 現在は財務/非財務一体の企業評価を目指し、主にESG投資への活用を
テーマとした研究/事業化を担当。
自己紹介
チュートリアル講演:深層学習
の判断根拠を理解するための研
究とその意義(@PRMU 2017)
機械学習をシステムに組み込む
際の依存性管理について
(@MANABIYA 2018)
あるべきESG投資の評価に向け
た、自然言語処理の活用
(@CCSE 2019)
- 4.
Copyright © TISInc. All rights reserved. 4
自然言語処理 x 金融文書の現状
ACL系
NeurIPS
AAAI系
KDD
2018 2019 2020
ECONLP 2018
@ ACL2018
ECONLP 2019
@ EMNLP2019
ECONLP 2020
@ ?
Robust AI in FS
@ NeurIPS2019
FinNLP & FinSDB
@ IJCAI2019
KDF
@ AAAI2020
ADF 2019
@ KDD2019
ADF 2017
@ KDD2017
FNP 2018
@ LREC2018
FNP 2019
@ NoDaLiDa 2019
FNP 2020
@ COLING2020
2018~2019年にかけ、多くの国際カンファレンスでワークショップが立ち上が
る(●が初回開催、○が継続)。自然言語処理応用の一分野として確立しつつある。
開催確定
復活
- 5.
Copyright © TISInc. All rights reserved. 5
研究x活用の状況 (1/4)
◼ 研究x活用の状況は、概ね以下のようになっている。
◼ 色が濃い方が盛んで、左下 が研究、右上 が応用。
Marketing Investment Risk
Management
Compliance Asset
Management
Classification
Sentiment Analysis
Clustering
QA/Dialog
Relation Extraction
Event Extraction
- 6.
Copyright © TISInc. All rights reserved. 6
研究x活用の状況 (2/4)
活用領域の分類
("Machine learning in UK financial services"をベースに作成)
Asset Management
Risk Management
Marketing Investment
Compliance
顧客管理、取引管理を行うことで資産の
安全性を担保する
定められた内部ルール(内規)への適合性を
検証し、活動の安全性を担保する
投資活動を通じて資産を増やす営業活動を通じて顧客を増やす
リソース(内部文書/外部情報(SNS等))の活用を通じて各活動の支援を行う。
- 7.
Copyright © TISInc. All rights reserved. 7
研究x活用の状況 (3/4)
ざっくりとした傾向
◼ 研究
◼ Asset Managementに関する研究、特にテキストから市場動向を探
るような研究が多い(株価予測含む)。
◼ 実用でニーズのあるRisk Management(アンチマネーロンダリング
/破産予測など)の研究も行われている。
◼ 実用
◼ 内部的に持っていたモデルを機械学習に置き換えるケースが多い。
◼ Risk Management: アンチマネーロンダリング/信用リスク予測等。
◼ (内部データを使うので、モデルは内製することが多い)。
◼ Marketingに使うチャットボットなども試験的に導入されている。
◼ 熟練営業担当者並みになったという報告もある。
◼ ただ、金融独自というより既存の営業xチャットボットの文脈上にある。
◼ Asset Management/Investmentは道半ば
◼ 研究は盛んだが、顕著な応用例は出ていない。
- 8.
Copyright © TISInc. All rights reserved. 8
研究x活用の状況 (4/4)
◼ ここからは以下の注目領域に絞って紹介を行う。
◼ 研究x活用共に盛んな領域としてRisk Management
◼ 研究が先行している領域としてAsset Management
Marketing Investment Risk
Management
Compliance Asset
Management
Classification
Sentiment Analysis
Clustering
QA/Dialog
Relation Extraction
Event Extraction
- 9.
Copyright © TISInc. All rights reserved. 9
研究領域ピックアップ: Risk Management (1/6)
Risk Managementの代表例は以下2点となる。
◼ AML: Anti-Money Laundering
◼ 不正な取引の予防と検知。
◼ 予防: フィルタリング
◼ サービス利用者の同一性(本人であるか)、信用性(暴力団とかじゃない
か)を判定する。前者はKYC(Know Your Customer)/CDD(Customer
Due Diligence)とも呼ばれる。
◼ 検知: トランザクション・モニタリング
◼ 不正取引の傾向を見つけてアラートを行う。
◼ Fraud Detectionと同種。最近Amazonがサービスを公開した。
◼ Bankruptcy Prediction
◼ (取引先が)破産しないか予測する。
- 10.
Copyright © TISInc. All rights reserved. 10
研究領域ピックアップ: Risk Management (2/6)
Risk Management系の研究は以下のようなものがある。
◼ AML: Anti-Money Laundering
◼ 予防: フィルタリング
◼ NextGen AML: Distributed Deep Learning based Language
Technologies to Augment Anti Money Laundering Investigation
◼ ACL2018 System Demonstrationに採択。
◼ Are You for Real? Detecting Identity Fraud via Dialogue
Interactions
◼ EMNLP2019採択。
◼ 検知: トランザクション・モニタリング
◼ Detecting money laundering and terrorist financing via data
mining
◼ KDD2019 Invited Talk。
◼ Automatic Model Monitoring for Data Streams
◼ KDD2019 Poster。
- 11.
Copyright © TISInc. All rights reserved. 11
研究領域ピックアップ: Risk Management (3/6)
NextGen AML: Distributed Deep Learning based Language
Technologies to Augment Anti Money Laundering Investigation
アンチマネーロンダリングでは基本的に
False Positiveになるケースが多い(本当はシ
ロだがクロと判定してしまう) 。
「不正取引を見逃してました」、「実は暴力
団関係者でした」という事態が許されないた
め。
そのためクロ判定後の確認作業を支援するシ
ステムを構築(支援している顧客の回答では、
30%ほど確認時間を削減できたとのこと)。
ニュースやツイートのセンチメント抽出、固
有表現/関係認識からのネットワーク構築を
行うことで情報探索を支援する。開発は
Accenture Labsがメインのよう。
- 12.
Copyright © TISInc. All rights reserved. 12
研究領域ピックアップ: Risk Management (4/6)
Are You for Real? Detecting Identity Fraud via Dialogue Interactions
本人確認を行う対話システムの提案。対話を通じて、本人かどうか(=別の人に成
りすましていないか)を検出する。既存の研究は、マルチモーダルな特徴(画像や
音声)を使うものが多い(Detecting Concealed Information in Text and Speech
@ACL2019)。
Userをルートとしたグラフで個人情報を表現。地理的な情報(出身地や出身大学)
に周辺地理情報を付与する。グラフのトリプル(筑波大/最寄り駅/つくば駅)から
質問を生成し、回答結果でグラフを更新。詐称を見抜けたかどうかを報酬として
強化学習で学習する。ローン審査のユーザーシミュレーターを作り検証。
- 13.
Copyright © TISInc. All rights reserved. 13
研究領域ピックアップ: Risk Management (5/6)
Detecting money laundering and terrorist financing via data mining
マネーロンダリングを検知するための基本的な仕組みの説明。
わかりやすいマネーロンダリングの仕組み(※やらないでください)。
Overvalueは安価なものを高く、Undervalueは高価なものを安価にやり取りする
ことで国内から海外への送金を実現する。米国の輸出入データ(2001年)で上位/
下位四分位点を超える/下回る単価を調べたところ、怪しい取引を検出できた
($4,000のトイレットペーパーとか$13のダイアモンドなど)。
国内 国外
overvalue
輸入
金額の過剰評価
支払
国内 国外
物品の購入 売却
輸出
請求/支払
undervalue
お勧め
物品の購入
国内の汚いお
金がいったん
物品になるの
でovervalueよ
り安全!
金額の過少評価
- 14.
Copyright © TISInc. All rights reserved. 14
研究領域ピックアップ: Risk Management (6/6)
Automatic Model Monitoring for Data Streams
ストリームデータに対する予測を監視する手法。
◼ 予測モデルは十分なデータが手に入るまで
は精度が悪い(ヒット商品によるアクセス負
荷と不正試行によるアクセス負荷が区別で
きない)。
◼ 左図中段は初回の検出に失敗している
(検出スコアが低い)
◼ しかし予測の挙動に変化が出るはずなので、
その変化をとらえることで検出のサポート
を行う。
◼ 左図最下段は、実際の予測値系列(T)と
異常がある場合の予測値系列(R)を比較
して異常検知を行う(教師なし)。
監視結果をレポートにし人間がチェックすると
いう運用(その後モデル改良など対応を取る)。
- 15.
Copyright © TISInc. All rights reserved. 15
研究領域ピックアップ: Asset Management (1/5)
Asset Managementは様々な文書からの情報抽出を行う。
MarketingやInvestment支援の基礎となる情報(企業同士の関係や市場動
向)を抽出したい。
研究は盛んだが、応用は今一歩進んでいない。「抽出できて、それからど
うする」が不透明。
企業活動(営業/投資)の意思決定を上手く支援できるフローを作れれば応
用が進むかもしれない。
◼ 営業活動支援
◼ 販売先のリストアップ
◼ 調達先のリストアップ
◼ 投資活動支援
◼ M&A/出資先のリストアップ
- 16.
Copyright © TISInc. All rights reserved. 16
研究領域ピックアップ: Asset Management (2/5)
企業文書からの情報抽出としては、以下のような研究がある。
◼ Economic Causal-Chain Search using Text Mining Technology
◼ FinNLP2019 Best paper
◼ Doc2EDAG: An End-to-End Document-level Framework for
Chinese Financial Event Extraction
◼ EMNLP2019採択。
◼ Extracting Complex Relations from Banking Documents
◼ EMNLP-ECONLP2019採択。
- 17.
Copyright © TISInc. All rights reserved. 17
研究領域ピックアップ: Asset Management (3/5)
Economic Causal-Chain Search using Text Mining Technology
財務諸表のサマリやニュースから、
因果関係に関する記述を抽出した研
究(日本の文書を対象にしている)。
1. 因果関係に関する文の抽出
2. 関係を表す記述の抽出(~のため、
など)
3. 記述をもとにした関係(トリプル)
抽出
という3段階で処理を行っている。
抽出だけでなく、デモシステムも開
発している。結果/原因の探索双方が
可能。
- 18.
Copyright © TISInc. All rights reserved. 18
研究領域ピックアップ: Asset Management (4-1/5)
Doc2EDAG: An End-to-End Document-level Framework for Chinese
Financial Event Extraction
ドキュメントからイベントを抽出するタスクを提案した研究。
具体的には誰と/誰が/いつ/何をして/その結果は/、という情報をテーブル
形式にまとめる。イベントの記載は複数文にまたがるため、文単体でなく
文書全体からの抽出を行っている。中国の企業文書データセット
(ChFinAnn)を対象に実験。
- 19.
Copyright © TISInc. All rights reserved. 19
研究領域ピックアップ: Asset Management (4-2/5)
Doc2EDAG: An End-to-End Document-level Framework for Chinese
Financial Event Extraction
1. SentenceをTransformerに入れてEncode
2. CRFでEntityを認識
3. SentenceとEntityの潜在表現をconcat(サイズはMaxpoolでそろえる)
4. TransformerでEncode(ここでDocumentレベルの相関が考慮される)
5. レコード(Event)に相当するイベントが発生しているか判定
6. 5=TrueならRole(カラム)順に沿い探索を行っていく(レコードを作る)
①
② ③ ④ ⑤ ⑥
- 20.
Copyright © TISInc. All rights reserved. 20
研究領域ピックアップ: Asset Management (5/5)
Extracting Complex Relations from Banking Documents
銀行に寄せられる文書をOCRし、そこから
リクエストを抽出する研究。送金依頼に
絞って送金先や金額などを検出している。
ドキュメント上の文字は一列に並べた系列
として処理する。系列に対し固有表現認識
を行った後に関係抽出をしてグラフを構築。
このグラフから送金指示を抽出する。
グラフからの送金指示抽出には、最大ク
リーク分解(maximal clique
factorization=各頂点が互いに接続されて
いるサブグラフを抽出する手法)が使用さ
れている。
- 21.
Copyright © TISInc. All rights reserved. 21
現状と今後の発展 (1/2)
現状「金融文書解析といったらこれ」というスタンダードなタスクがない。
ものすごい基礎的か、ものすごい応用かかなり極端。
以下の整備が進んでくれば、分野として発展していくのではないかと考え
られる。
◼ タスクの整備
◼ 金融文書に適したタグの提案と定着
◼ 固有表現(会社名、勘定etc)
◼ 意味表現(Semantic Role, 買収、取引先etc)
◼ 実課題に結びついたタスク(リスト照合(ブラックリスト確認)等)
◼ データセットの整備
◼ スタンダードなデータセットの登場
◼ BERT/ELMoなどの事前学習に耐えられるボリュームのコーパス
◼ SciBERT/BioBERTなどと肩を並べるモデルが作れるか。
- 22.
Copyright © TISInc. All rights reserved. 22
現状と今後の発展 (2/2)
タスク/データセットの整備には実務者とのコミュニケーションが不可欠。
◼ タスクの精度向上→業務効率向上につながるとベスト
特にAsset Managementは、実務者のフィードバックが必要。
◼ 「どういうことができるのか」を実務者に着信する
◼ 属人的/属会社的でない業務/意思決定プロセスの定義
◼ ある人、ある会社の業務改善だけできても分野として発展しない
◼ 精度と業務上のKPIの関連定義
◼ 応用寄りの研究なら、実務のどこで役立つかは意識したい。
実務者・研究開発者双方向のコミュニケーションを取っていくべく・・・
- 23.