機械学習をこれから始める人が読んでおきたい特徴選択の有名論文紹介

機械学習をこれから始める人が読んでおきたい
特徴選択の有名論文紹介

今回紹介する論文
● An Introduction to Variable and Feature Selection
○ 著者：Isabelle Guyon, Andre Elisseeff
○ 投稿：Journal of Machine learning Research 3 (2003) 1157-1182
○ 引用：16136件 (2021/03/07時点)
● 論文の内容
○ より良いモデルを構築するための特徴選択と生成について
■ ランキング、特徴選択手法、次元削減、バリデーション
○ ３つの代表的な特徴選択手法について紹介
■ filter, wrapper, embedded
● この動画で紹介する内容
○ 特徴量の評価
○ ３つの代表的な特徴選択
○ ディープラーニングの特徴選択

そもそも特徴選択は何故必要なのか
● 予測器の精度をあげる
● より速く低コストな計算
● シンプルな入力で解釈しやすくする

特徴選択に取り掛かる前に
発見的なチェックリスト
1. ドメイン知識があるか → Yes: 知識を生かしたAd hocな特徴を作成
2. 特徴のスケールはそろっているか → No: 標準化
3. 特徴が相互依存している可能性があるか → No: 特徴量を組み合わせる
4. 計算コストの関係で特徴を削減する必要があるか → No: 離散化や重み付けなど
5. 特徴一つ一つを評価する必要があるか → Yes: 変数のランク付け
6. そもそも予測器は必要か → No: やめる
7. データが汚いか → Yes: 外れ値を取り除く
8. 初めに何をすべきかわかっているか → No: 線形モデル
9. 時間と計算資源、データ量が十分にあるか → Yes: 複数の特徴選択やモデルを試す
10. 安定した解法を望むか → Yes: バリデーション

Variable ranking
● 最も単純な変数の評価方法
● 個々の変数の予測性能を評価し、スコアの高い変数を選択
● この結果がベースラインとなることが多い
● 学習不足になる可能性はあるが過学習しにくい
(例) 目的変数によるスコアリングの種類
● 回帰: ある変数と目的変数の相関係数
● 分類: ある変数に閾値を設けることでどの程度予測できるか (正解率, fpr,
fnr)
● どちらでも: ある変数と目的変数間の相互情報量

特徴量の関係を考慮: 冗長な特徴量
[疑問点 1] 冗長と見られる変数を含めたままで良いか
● 2つの変数は分布が似通っている
● 2変数を用いて45度回転させると、
(b)の分布となる
● クラス分割の境界(赤線)が得られる
● 組み合わせで変換した変数の一つで
クラス分類が可能に
冗長と見られる変数でも、追加することで効果を得られる場合がある

特徴量の関係を考慮: 冗長と相関
[疑問点 2] 変数間の相関が高いことは冗長なのか
● 同じく冗長に見える二つの変数で、
変数間の共分散が大きい場合を考える
● (a): クラスの平均を通る直線上に分布
● (b): その直線と直交するように分布
● (a)は変数の和をとっても単体と変わらないが
(b)では組み合わせがクラス分割を可能に
完全に相関がある場合はその変数は単体で十分だが、”高い”相関は変数選
択の上で冗長とは限らない
完全な相関やや高い相関

特徴量の関係を考慮: 同時利用することで役に立つ変数
[疑問点 3] 変数単体で役に立たないからといって除外して良いか
● (a): 単体だと役に立たない変数 x1 が
x2 との組み合わせで線形分離可能に
● (b): 単体で役に立たない変数 x3, x4 が
組み合わせることでXOR functionで
分類可能に
x4
x3
x2
x1
x1 x2 x3 x4
単体で役に立たない変数も他の変数との組み合わせによって有用になる場
合がある

3つの特徴選択手法
Filter, Wrapper, Embedded

特徴量の部分集合を選択
● Variable ranking は個々の変数の予測性能に基づいている
○ 特徴をいくつ選択するべきか
○ スコアが低くても組み合わせが有効なケースもあった
● 特徴の部分集合で評価する必要がある
1. Filter methods (= Variable ranking)
→ モデルの学習とは独立した前処理としての手法
2. Wrapper methods
→ モデルを用いて特徴量の部分集合を評価
3. Embedded methods
→ モデルの学習と同時に特徴選択 (モデルに固有)

1. Filter methods
● モデルの学習とは独立した処理
● 処理が高速
● 個々の変数と目的変数間の関係から特徴を選択
● Wrapper, Embeddedの前処理としても用いられる
全特徴量
選択された
特徴量
モデル評価

1. Filter methods
● 例) 目的変数との相関が低い特徴を排除
● 全特徴について目的変数との相関係数を計算し、高いものから必要な
数だけ選択
○ 閾値 (0.5以上など)を設けて選択することも可能
X1 X2 X3 X4 X5 y
...
0.8 0.9 0.2 0.3 0.6

2. Wrapper methods
● 特徴の部分集合を用いて学習、評価を繰り返す
● 計算コスト大
● 探索手法 (Forward selection, Backward elimination)
● 評価用データで選択された特徴を評価
全特徴量モデル
特徴の
部分集合
評価

2. Wrapper methods
● 例) Forward selection
○ 全特徴量50から30に減らしたい場合
1. 特徴量0個から初め、特徴量が1つのモデルを50個作成し検証用データ
でのスコアが最大になる特徴を1つ選択
2. 未選択の特徴量から同様にスコアが最大になる特徴量を1つ選択
3. 選択済みの特徴量が30個になるまで2に戻る
X1 … X50
X8
X1 … X50
X8
X1 … X50
X8
X14 X14 X37

3. Embedded methods
● モデルの学習と同時に特徴選択を行う
● Wrapper よりも高速
● モデルを再学習させる必要なし
全特徴量
モデル
＋
評価
特徴の
部分集合

3. Embedded methods
● 例) Lasso回帰
○ 線形回帰において過学習を防ぎ汎化性を高めるための手法の1つ
○ 学習の段階で不要と思われる変数の係数を0にする
○ 重要な特徴の部分集合を選択している
通常の線形回帰：
Lasso回帰：

ディープラーニングの特徴選択

ディープラーニングの登場
● 従来の機械学習
○ 特徴選択、生成は人が行う
■ 選択: 今回紹介した３つの手法 (初めは主に filter)
■ 生成: 特徴量同士の和や積、ビニングなど
○ 特徴量の質がモデルの性能を決定
● ディープラーニング
○ 特徴量の選択、生成が不要
データ
特徴選択
生成
学習
データ特徴抽出＋学習
AI
機械学習
ディープ
ラーニング

ディープラーニングの登場
● ディープラーニングの特徴選択
○ “ディープ” に重ねられた層で数理的なモデルを表現し、複雑な処理を実現
○ データに内在している特徴量を自動で抽出している
● 問題点
○ 学習時間の増大
○ パラメータ数が増え過学習しやすい
○ どのように特徴選択が行われているか解き明かすことが難しい
・・・
入力層出力層
中間層 (数十~層)

まとめ
● An Introduction to Variable and Feature Selectionの紹介
○ 特徴量の評価
■ 特徴のランキング
■ 冗長な特徴
■ 相関の高い特徴
■ 他と組み合わせることで効果がでる特徴
○ 特徴選択
■ Filter methods
■ Wrapper methods
■ Embedded methods
● ディープラーニングでの特徴量

機械学習をこれから始める人が読んでおきたい特徴選択の有名論文紹介

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

More from 西岡賢一郎

More from 西岡賢一郎 (20)

Recently uploaded

Recently uploaded (14)