Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

オンライン融資サービス『Biz LENDING』のスコアリングモデル

627 views

Published on

JDDStudy #7にて発表
https://japan-d2.connpass.com/event/153425/

Published in: Data & Analytics
  • My brother found Custom Writing Service ⇒ www.HelpWriting.net ⇐ and ordered a couple of works. Their customer service is outstanding, never left a query unanswered.
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
  • Be the first to like this

オンライン融資サービス『Biz LENDING』のスコアリングモデル

  1. 1. オンライン融資サービス 『Biz LENDING』の スコアリングモデル 2019年11月27日 / M-AIS 澤木 太郎
  2. 2. Classified as Confidential by Japan Digital Design, Inc. 2 1. Biz LENDING サービス紹介 2. スコアリングモデル 3. 様々な機械学習モデル 4. モデルのホワイトボックス化
  3. 3. Classified as Confidential by Japan Digital Design, Inc. 3 1. Biz LENDING サービス紹介 2. スコアリングモデル 3. 様々な機械学習モデル 4. モデルのホワイトボックス化
  4. 4. Biz LENDING 中小企業向けオンライン融資サービス Classified as Confidential by Japan Digital Design, Inc. 4
  5. 5. Biz LENDINGのメリット Classified as Confidential by Japan Digital Design, Inc. 5 決算書などの書類を準備 対面での事業説明 長期間の審査 決算書が不要 オンラインで手続きが完結 申し込みから入金まで最短2営業日 通常の融資 Biz LENDING
  6. 6. Classified as Confidential by Japan Digital Design, Inc. 6 1. Biz LENDING サービス紹介 2. スコアリングモデル 3. 様々な機械学習モデル 4. モデルのホワイトボックス化
  7. 7. スコアリングモデル Classified as Confidential by Japan Digital Design, Inc. 7 法人の場合 ・売上 ・利益 ・業種 ・etc 個人の場合 ・年収 ・返済履歴 ・etc スコアリングモデル デフォルト確率 (貸倒確率) インプット(属性情報) 過去データを用いて 機械学習によって作成する
  8. 8. Biz LENDINGの スコアリングモデル Classified as Confidential by Japan Digital Design, Inc. 8 Date From To Amount Nov. 16, 2019 Company A Company X ¥1,000,000 Nov. 17, 2019 Company B Company Y ¥2,500,000 Nov. 18, 2019 Company C Company Z ¥200,000 … … … … 口座トランザクション ETL 企業ごとのデータ Company A Company B Company C Company D 教師ラベル Good! Good! Good!Bad… 教師あり学習でモデルを構築 ✓ インプットとして口座トランザクショ ンを利用 ✓ すでに銀行が保有しているデータを使 うのでユーザーが決算書などの書類を 用意する必要がない ✓ 決算書と比較すると、粉飾などの不正 をしにくい
  9. 9. Classified as Confidential by Japan Digital Design, Inc. 9 1. Biz LENDING サービス紹介 2. スコアリングモデル 3. 様々な機械学習モデル 4. モデルのホワイトボックス化
  10. 10. スコアリングモデルで使われる 機械学習モデル ✓ ロジスティック回帰 ✓ 決定木 ✓ ランダムフォレスト ✓ 勾配ブースティング(GBDT) ✓ ディープラーニング Classified as Confidential by Japan Digital Design, Inc. 10
  11. 11. ロジスティック回帰 ✓ 古典的な線形モデル ✓ 単純なモデルなので学習は高速 ✓ 簡単な問題に対しては十分な性能 ✓ スコアリングモデルのデファクトスタンダード Classified as Confidential by Japan Digital Design, Inc. 11 𝑝 𝐶1 𝜙 = 𝜎 𝑤 𝑇 𝜙 + 𝑏 = 1 1 + 𝑒𝑥𝑝(−𝑤 𝑇 𝜙 + 𝑏) 予測式 𝑤 重みベクトル 𝛷 特徴量ベクトル クラスC1の確率 𝑏 バイアス シグモイド関数 (wikipediaより)
  12. 12. 決定木 ✓ 分岐ルールによって分類や回帰を実現する ✓ 分岐の数を増やすことである程度複雑な問題にも対応できる ✓ 出力の根拠が分かりやすい Classified as Confidential by Japan Digital Design, Inc. 12 データ A社 貸倒 B社 正常 C社 正常 D社 貸倒 E社 正常 … 売上 資本金 従業員数 延滞 A社 正常 C社 E社 延滞 正常 B社 D社 10億円< 10億円≧ 1000万円< 1000万円≧ 5人≧5人<
  13. 13. ランダムフォレスト ✓ データをブートスラップ法でサンプリング ✓ サブサンプルの数だけ決定木を学習してアンサンブル ✓ 決定木の分岐でも特徴量をランダムサンプリングする Classified as Confidential by Japan Digital Design, Inc. 13 … データ アンサンブル 重複ありのランダムサンプリング
  14. 14. 勾配ブースティング (GBDT) ✓ Gradient Boosting Decision Tree ✓ 多数の決定木をブースティングによってアンサンブル ✓ 構造化データに対して高い汎用性を持つ Classified as Confidential by Japan Digital Design, Inc. 14 データ A社 貸倒 B社 正常 C社 正常 D社 貸倒 E社 正常 … 売上 資本金 従業員数 延滞 A社 正常 C社 E社 延滞 正常 B社 D社 10億円< 10億円≧ 1000万円< 1000万円≧ 5人≧5人< うまく分類できなかったデータ の分類誤差が小さくなるように 別の決定木で再学習
  15. 15. ディープラーニング ✓ 深い階層構造を持つニューラルネットワーク ✓ 非構造化データ(画像、音声、自然言語)に強い ✓ 構造化データを扱うことが多いスコアリングモデルではあ まり使われないが、時系列の非構造化データであるトラン ザクションデータでは選択肢の一つ ✓ 一般的に多くのデータが必要 ✓ 研究が盛んで多数のアーキテクチャが提案されている Classified as Confidential by Japan Digital Design, Inc. 15 Figure引用:H. Purwins, et al., J. Selected Topics of Signal Processing, Vol.13, No.2, (2019), 206-219
  16. 16. モデルのまとめ Classified as Confidential by Japan Digital Design, Inc. 16 精度と可読性はトレードオフの関係 精度 高 精度 低 ブ ラ ッ ク ボ ッ ク ス ホ ワ イ ト ボ ッ ク ス • ディープラーニング • 勾配ブースティング(GBDT) • ランダムフォレスト • ロジスティック回帰 • 決定木 各案件毎になぜその出力が得られた のかを人が理解できない 各案件毎になぜその出力が得られた のかを人が理解できる
  17. 17. Classified as Confidential by Japan Digital Design, Inc. 17 1. Biz LENDING サービス紹介 2. スコアリングモデル 3. 様々な機械学習モデル 4. モデルのホワイトボックス化
  18. 18. 高精度モデルの問題点 Classified as Confidential by Japan Digital Design, Inc. 18 ブラックボックスなので出力値がなぜその値になるのかを説明できない インプット ? 貸倒確率 スコアリングモデルでは可読性が 求められることが多い だけど高精度なモデルは使いたい
  19. 19. モデルの挙動を 説明するモデル Classified as Confidential by Japan Digital Design, Inc. 19 データ 予測モデル 説明モデル 貸倒確率 特徴量寄与度
  20. 20. Feature importance Classified as Confidential by Japan Digital Design, Inc. 20 決定木系のモデルの場合、特徴量の重要度を算出することが可能 モデルがどの特徴量を重視しているかが分かる → しかし、あくまで全体的な傾向であって、個別の案件についてどの特徴量がど う効いているかは分からない。 ※Titanic datasetの例
  21. 21. 説明モデル:SHAP Classified as Confidential by Japan Digital Design, Inc. 21 個別の案件のモデル出力について、どの変数がどう効いているかを可視化できる [基本論文] S. M. Lundberg and S. Lee, A Unified Approach to Interpreting Model Predictions, NIPS 2017 [アンサンブルツリーモデル応用] S. M. Lundberg, et al., Consistent Individualized Feature Attribution for Tree Ensembles, 2018 ※Titanic datasetの例
  22. 22. 協力ゲーム理論:シャープレイ値 Classified as Confidential by Japan Digital Design, Inc. 22 ◆ シャープレイ値とは 協力ゲーム理論において、協力した各プレイヤーへ利益を公正に分配する方法の一つで、その配分の値 ⚫ プレイヤーiのシャープレイ値の定義式 ⚫ N:プレイヤーの全集合 ⚫ S:Nの部分集合 ⚫ n:プレイヤーの総数 ⚫ v(S):参加者がSのときの全体の利益 プレイヤーiのシャープレイ値とは、 すべての参加者のパターンに対して、 プレイヤーiが参加したときと参加していないときの差分の平均値を取ったもの
  23. 23. 特徴量寄与度への応用 Classified as Confidential by Japan Digital Design, Inc. 23 あるデータxが入力されたときのモデルの出力f(x)に対して、 特徴量iがどれだけ貢献しているかを可視化したい。 𝑓(𝑥) ⇔ 解釈したい複雑なモデル 各特徴量のシャープレイ値の線形結合 SHAP Value ゲーム理論におけるプレイヤー → 特徴量 ゲーム理論における全体の利益 → モデルの出力
  24. 24. SHAP value Classified as Confidential by Japan Digital Design, Inc. 24 SHAP valueは以下の特性を満たし、一意に決まる Local accuracy : あるデータxについてモデルの出力とSHAP valueの合計値が一致 Missingness : モデルの出力に寄与していない特徴量のSHAP valueは0 Consistency : 特徴量iの有無で出力が大きく影響を受けるモデルのほうがSHAP valueも大 きくなる シャープレイ値を模した SHAP valueが定義できる
  25. 25. ✓ 予測モデルと完全に独立しており、予測モデルに手を加える必要がない ✓ 理論自体はモデルの種類を問わず、ディープラーニングやGBDTを含めた全モデルに適用可能 ✓ 理論的にLocal accuracyやConsistencyなどの特性が保証されている ※ただし、実際に計算する際には近似が入るので完全に保証されているわけではない点に注意 SHAPのメリット
  26. 26. Thank you for your attention !

×