学習時に使ってはいないデータの混入「リーケージを避ける」

学習時に使ってはいけないデータの混入
「リーケージ」を避ける
非現実的な学習モデルを作成しないために、
過去事例とともに紹介するリーケージについて知るべきこと

今回紹介する内容
● Leakage in Data Mining: Formulation, Detecting, and Avoidance
○ 著者: Shachar Kaufman, Saharon Rosset, Claudia Perlich, Ori Stitelman
○ 投稿: Knowledge Discovery and Data Mining (KDD), 2011.
○ 引用: 196件 (2021/05/04 地点)
● 論文の内容
○ データマイニングにおいて起こしやすい誤ちのうちの1つに"リーケージ"というものが
ある
○ リーケージ: 本来得られるはずのないデータをモデルの学習時に使用してしまうこと。
データがもれるということでリークするともいう。
■ 学習時には精度が高く出るが、本番環境では精度が落ちる
○ これは現実世界、機械学習コンペの両方で起きている
○ 深く議論されてこなかったリーケージの定式化を試み、未然に防ぐ、検出する方法を
紹介

機械学習コンペティションにおけるリーケージの事例１
KDD cup 2007
1998~2005年のNetflixの映画評価履歴データを用いた2つのタスク
1. 2006年の映画に対して各ユーザーが評価をするかどうかを予測
2. 2006年の各映画に集まるレビューの数を予測
● 2つのタスクにおいて与えられたデータ内の映画は異なっている
● タスク2の優勝者はタスク1のテストデータ(2006年にどの映画にレビューし
たか)を使用してモデルを作成していた

機械学習コンペティションにおけるリーケージの事例２
KDD cup 2008
胸部X線データから乳がんを検出するタスク
● 通常は無視するであろう患者IDが予測に寄与した
● おそらく患者IDが検査機関や機器に関連して付与されており、目的変数
となる乳がんである確率と相関を持ってしまっていた

INFORMS Data Mining Challenge 2008
患者の診療履歴を用いた肺炎の診断
● 配布したデータにおいて、目的変数といくつかの特徴量として埋め込まれてしま
った
● 主催者側はこのような特徴をいくつか除外して再配布したが、その欠損部分が推
測可能になっておりリーケージは防げなかった
機械学習コンペティションにおけるリーケージの事例３

機械学習コンペティションにおけるリーケージの事例４
INFORMS Data Mining Challenge 2010
株価変動予測モデルの開発(増減の予測: 2値分類)
● 銘柄を非公開にしたり、テストデータに予測可能な変数を入れないなど、過去の
コンペで起こったリーケージの事例に当てはまらない最低限の対策は行っていた
● yahooやgoogleの株価情報データを元に銘柄をある程度特定できてしまった
● 結果として約30チームがAUC 0.9以上を達成してしまう

機械学習コンペティションにおけるリーケージの事例５
IJCNN 2011 Social Network Challenge
ソーシャルネットワーク上の繋がりを予測
● 匿名化された約700万のエッジを持つグラフ構造から、ネットワークをよく表現
する残りの9000のエッジを特定する
● 細かく調べることでデータ元がFlickrであることを特定でき、6割以上のエッジを
予測することができた
● 主催者の意図ではない

リーケージを発生させない方法
データが得られる時系列を意識することが大事
vがuの前に観測される時、次のように表す(legit=legitimate:正当)
● ２種類のリーケージ発生状況
○ 特徴量へのリーク
○ トレーニングデータ内のリーケージ

リーケージが発生する状況: 特徴量へリーク
● 特徴量にリークするのを防ぐ
○ 特徴選択、生成されたxは次を満たさなければならない
■ 全てのxはyよりも前に観測可能
○ つまり、有効な特徴(legit{y}) は次の集合の部分集合である
■ これをno-time-machine requirement (タイムマシンいらずの要求) と呼ぶ
→ 目的変数よりも先に観測できる特徴を使う

リーケージが発生する状況: 特徴量へリーク
● 特徴量にリークするのを防ぐ
○ このルールを守れば先程の機械学習コンペでのリーク事例の大半は未然に防ぐことができる
■ 例) KDD cup 2008
→ 患者の状態の観測後にその情報を含む特徴(患者ID)が決まっていた
○ ではKDD cup 2007の例はどうか？
■ モデル学習させた特徴は全て目的変数よりも前に観測可能であった
■ もう一つ対策が必要
→ トレーニングデータ内のリーケージ

リーケージが発生する状況: トレーニングデータ内のリーケージ
● トレーニングデータ内のリーケージ
○ このような条件も満たす必要があった
■ 学習に用いる特徴X は目的変数y よりも前に観測される
■ 学習させる目的変数はテストデータの目的変数よりも前に観測される
■ 目的変数も含めて学習に使ったデータはモデルに組み込まれた一つの特徴という考える

リーケージが発生する状況: トレーニングデータ内のリーケージ
● トレーニングデータ内のリーケージ
○ KDD cup 2007 における失敗事例はなぜ起きたか？
○ タスク1: ユーザーがどの映画にレビューしたか
○ タスク2: 各映画が何件のレビューを獲得したか
○ この二つが独立なものになっていなかった
■ テストデータはどちらのタスクも2006年のものである
■ タスク1で与えられたテストデータから、2006年の映画に関してのトレンドを
学習できてしまっていた
→ 同年度における「ユーザーのレビュー履歴」と「各映画のレビュー獲得数」が
依存している
→ 潜在的に存在する依存関係を把握することは難しい

リークを避ける２つの方法のまとめ
● リークを避けるためには、「目的変数より前に観測された説明変
数を使う」ことと「テストの目的変数より前に観測された学習用
の目的変数を使う」の2つを使えばよい
● 具体的にはどのようにすればよいか
○ データ収集時に”タグ”をつける
○ タグを用いて学習、評価データを正しく分ける
● 例) no-time-machine の場合
○ 正当性を判断するタグ → タイムスタンプ

リーケージを検出するには？
● どのように収集されたかわからないデータはどう対処すべきか
○ タグがついていないため、正しいデータの分割もできない
○ → 探索的データ解析 (EDA (Exploratory data analysis))
● 探索的データ解析
○ データの視覚化、パターンの発見、相関関係の確認、など
○ 何か驚くような発見があればリークを疑う
(例) KDD cup 2008 乳がんの検出タスクにおいて、患者IDが目的変数と高い相関
を持っていた
○ 驚くべき発見の全てがリークというわけではない

リーケージの修正
リーケージを検出した後にやるべきこと (3つのシナリオが考えられる)
1. タグが付与されている元データにアクセスし、leakage-free なデータを再構
成する
2. 元データが利用できない場合、データ収集の方法を見直して leakage-free な
データが使えるようになるまでプロジェクトを延期する
3. リーケージを起こしていないデータのみでモデルを作成

まとめ
● データマイニングにおけるリークは現実世界、機械学習コンペの両方
で起きており、適切に除去していく必要がある
● リーケージの発生は学習データとテストデータ、またその目的変数間
の時系列を意識していないことが主な原因となっている
● データを収集する側は”タグ”で正当性を確保、データを扱う側はタグ
を元に正しいモデリング(データの分割や特徴選択)をすることが重要
である

チャンネル紹介
● チャンネル名: 【経営xデータサイエンスx開発】西岡賢一郎のチャンネル
● URL: https://www.youtube.com/channel/UCpiskjqLv1AJg64jFCQIyBg
● チャンネルの内容
○ 経営・データサイエンス・開発に関する情報を発信しています。
○ 例: アジャイル開発、データパイプライン構築、AIで使われるアルゴリズム4種類など
● noteでも情報発信しています → https://note.com/kenichiro

学習時に使ってはいないデータの混入「リーケージを避ける」

More Related Content

What's hot

More from 西岡 賢一郎

学習時に使ってはいないデータの混入「リーケージを避ける」

Editor's Notes

More from 西岡賢一郎