SlideShare a Scribd company logo
機械学習をこれから始める人が読んでおきたい
特徴選択の有名論文紹介
今回紹介する論文
● An Introduction to Variable and Feature Selection
○ 著者:Isabelle Guyon, Andre Elisseeff
○ 投稿:Journal of Machine learning Research 3 (2003) 1157-1182
○ 引用:16136件 (2021/03/07時点)
● 論文の内容
○ より良いモデルを構築するための特徴選択と生成について
■ ランキング、特徴選択手法、次元削減、バリデーション
○ 3つの代表的な特徴選択手法について紹介
■ filter, wrapper, embedded
● この動画で紹介する内容
○ 特徴量の評価
○ 3つの代表的な特徴選択
○ ディープラーニングの特徴選択
そもそも特徴選択は何故必要なのか
● 予測器の精度をあげる
● より速く低コストな計算
● シンプルな入力で解釈しやすくする
特徴選択に取り掛かる前に
発見的なチェックリスト
1. ドメイン知識があるか → Yes: 知識を生かしたAd hocな特徴を作成
2. 特徴のスケールはそろっているか → No: 標準化
3. 特徴が相互依存している可能性があるか → No: 特徴量を組み合わせる
4. 計算コストの関係で特徴を削減する必要があるか → No: 離散化や重み付けなど
5. 特徴一つ一つを評価する必要があるか → Yes: 変数のランク付け
6. そもそも予測器は必要か → No: やめる
7. データが汚いか → Yes: 外れ値を取り除く
8. 初めに何をすべきかわかっているか → No: 線形モデル
9. 時間と計算資源、データ量が十分にあるか → Yes: 複数の特徴選択やモデルを試す
10. 安定した解法を望むか → Yes: バリデーション
特徴量の評価
Variable ranking
● 最も単純な変数の評価方法
● 個々の変数の予測性能を評価し、スコアの高い変数を選択
● この結果がベースラインとなることが多い
● 学習不足になる可能性はあるが過学習しにくい
(例) 目的変数によるスコアリングの種類
● 回帰: ある変数と目的変数の相関係数
● 分類: ある変数に閾値を設けることでどの程度予測できるか (正解率, fpr,
fnr)
● どちらでも: ある変数と目的変数間の相互情報量
特徴量の関係を考慮: 冗長な特徴量
[疑問点 1] 冗長と見られる変数を含めたままで良いか
● 2つの変数は分布が似通っている
● 2変数を用いて45度回転させると、
(b)の分布となる
● クラス分割の境界(赤線)が得られる
● 組み合わせで変換した変数の一つで
クラス分類が可能に
冗長と見られる変数でも、追加することで効果を得られる場合がある
特徴量の関係を考慮: 冗長と相関
[疑問点 2] 変数間の相関が高いことは冗長なのか
● 同じく冗長に見える二つの変数で、
変数間の共分散が大きい場合を考える
● (a): クラスの平均を通る直線上に分布
● (b): その直線と直交するように分布
● (a)は変数の和をとっても単体と変わらないが
(b)では組み合わせがクラス分割を可能に
完全に相関がある場合はその変数は単体で十分だが、”高い”相関は変数選
択の上で冗長とは限らない
完全な相関 やや高い相関
特徴量の関係を考慮: 同時利用することで役に立つ変数
[疑問点 3] 変数単体で役に立たないからといって除外して良いか
● (a): 単体だと役に立たない変数 x1 が
x2 との組み合わせで線形分離可能に
● (b): 単体で役に立たない変数 x3, x4 が
組み合わせることでXOR functionで
分類可能に
x4
x3
x2
x1
x1 x2 x3 x4
単体で役に立たない変数も他の変数との組み合わせによって有用になる場
合がある
3つの特徴選択手法
Filter, Wrapper, Embedded
特徴量の部分集合を選択
● Variable ranking は個々の変数の予測性能に基づいている
○ 特徴をいくつ選択するべきか
○ スコアが低くても組み合わせが有効なケースもあった
● 特徴の部分集合で評価する必要がある
1. Filter methods (= Variable ranking)
→ モデルの学習とは独立した前処理としての手法
2. Wrapper methods
→ モデルを用いて特徴量の部分集合を評価
3. Embedded methods
→ モデルの学習と同時に特徴選択 (モデルに固有)
1. Filter methods
● モデルの学習とは独立した処理
● 処理が高速
● 個々の変数と目的変数間の関係から特徴を選択
● Wrapper, Embeddedの前処理としても用いられる
全特徴量
選択された
特徴量
モデル 評価
1. Filter methods
● 例) 目的変数との相関が低い特徴を排除
● 全特徴について目的変数との相関係数を計算し、高いものから必要な
数だけ選択
○ 閾値 (0.5以上など)を設けて選択することも可能
X1 X2 X3 X4 X5 y
...
0.8 0.9 0.2 0.3 0.6
2. Wrapper methods
● 特徴の部分集合を用いて学習、評価を繰り返す
● 計算コスト大
● 探索手法 (Forward selection, Backward elimination)
● 評価用データで選択された特徴を評価
全特徴量 モデル
特徴の
部分集合
評価
2. Wrapper methods
● 例) Forward selection
○ 全特徴量50から30に減らしたい場合
1. 特徴量0個から初め、特徴量が1つのモデルを50個作成し検証用データ
でのスコアが最大になる特徴を1つ選択
2. 未選択の特徴量から同様にスコアが最大になる特徴量を1つ選択
3. 選択済みの特徴量が30個になるまで2に戻る
X1 … X50
X8
X1 … X50
X8
X1 … X50
X8
X14 X14 X37
3. Embedded methods
● モデルの学習と同時に特徴選択を行う
● Wrapper よりも高速
● モデルを再学習させる必要なし
全特徴量
モデル
+
評価
特徴の
部分集合
3. Embedded methods
● 例) Lasso回帰
○ 線形回帰において過学習を防ぎ汎化性を高めるための手法の1つ
○ 学習の段階で不要と思われる変数の係数を0にする
○ 重要な特徴の部分集合を選択している
通常の線形回帰:
Lasso回帰:
ディープラーニングの特徴選択
ディープラーニングの登場
● 従来の機械学習
○ 特徴選択、生成は人が行う
■ 選択: 今回紹介した3つの手法 (初めは主に filter)
■ 生成: 特徴量同士の和や積、ビニングなど
○ 特徴量の質がモデルの性能を決定
● ディープラーニング
○ 特徴量の選択、生成が不要
データ
特徴選択
生成
学習
データ 特徴抽出+学習
AI
機械学習
ディープ
ラーニング
ディープラーニングの登場
● ディープラーニングの特徴選択
○ “ディープ” に重ねられた層で数理的なモデルを表現し、複雑な処理を実現
○ データに内在している特徴量を自動で抽出している
● 問題点
○ 学習時間の増大
○ パラメータ数が増え過学習しやすい
○ どのように特徴選択が行われているか解き明かすことが難しい
・・・
入力層 出力層
中間層 (数十~層)
まとめ
● An Introduction to Variable and Feature Selectionの紹介
○ 特徴量の評価
■ 特徴のランキング
■ 冗長な特徴
■ 相関の高い特徴
■ 他と組み合わせることで効果がでる特徴
○ 特徴選択
■ Filter methods
■ Wrapper methods
■ Embedded methods
● ディープラーニングでの特徴量

More Related Content

What's hot

因果探索: 基本から最近の発展までを概説
因果探索: 基本から最近の発展までを概説因果探索: 基本から最近の発展までを概説
因果探索: 基本から最近の発展までを概説
Shiga University, RIKEN
 
backbone としての timm 入門
backbone としての timm 入門backbone としての timm 入門
backbone としての timm 入門
Takuji Tahara
 
ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介
Naoki Hayashi
 
変分推論と Normalizing Flow
変分推論と Normalizing Flow変分推論と Normalizing Flow
変分推論と Normalizing FlowAkihiro Nitta
 
変分ベイズ法の説明
変分ベイズ法の説明変分ベイズ法の説明
変分ベイズ法の説明
Haruka Ozaki
 
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
Deep Learning JP
 
Recurrent Neural Networks
Recurrent Neural NetworksRecurrent Neural Networks
Recurrent Neural Networks
Seiya Tokui
 
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習
Deep Learning JP
 
変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)Takao Yamanaka
 
強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習
Eiji Uchibe
 
ELBO型VAEのダメなところ
ELBO型VAEのダメなところELBO型VAEのダメなところ
ELBO型VAEのダメなところ
KCS Keio Computer Society
 
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
Deep Learning JP
 
テーブル・テキスト・画像の反実仮想説明
テーブル・テキスト・画像の反実仮想説明テーブル・テキスト・画像の反実仮想説明
テーブル・テキスト・画像の反実仮想説明
tmtm otm
 
畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化
Yusuke Uchida
 
ようやく分かった!最尤推定とベイズ推定
ようやく分かった!最尤推定とベイズ推定ようやく分かった!最尤推定とベイズ推定
ようやく分かった!最尤推定とベイズ推定
Akira Masuda
 
[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について
Deep Learning JP
 
Optimizer入門&最新動向
Optimizer入門&最新動向Optimizer入門&最新動向
Optimizer入門&最新動向
Motokawa Tetsuya
 
最適輸送の解き方
最適輸送の解き方最適輸送の解き方
最適輸送の解き方
joisino
 
古典的ゲームAIを用いたAlphaGo解説
古典的ゲームAIを用いたAlphaGo解説古典的ゲームAIを用いたAlphaGo解説
古典的ゲームAIを用いたAlphaGo解説
suckgeun lee
 
時系列問題に対するCNNの有用性検証
時系列問題に対するCNNの有用性検証時系列問題に対するCNNの有用性検証
時系列問題に対するCNNの有用性検証
Masaharu Kinoshita
 

What's hot (20)

因果探索: 基本から最近の発展までを概説
因果探索: 基本から最近の発展までを概説因果探索: 基本から最近の発展までを概説
因果探索: 基本から最近の発展までを概説
 
backbone としての timm 入門
backbone としての timm 入門backbone としての timm 入門
backbone としての timm 入門
 
ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介
 
変分推論と Normalizing Flow
変分推論と Normalizing Flow変分推論と Normalizing Flow
変分推論と Normalizing Flow
 
変分ベイズ法の説明
変分ベイズ法の説明変分ベイズ法の説明
変分ベイズ法の説明
 
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
 
Recurrent Neural Networks
Recurrent Neural NetworksRecurrent Neural Networks
Recurrent Neural Networks
 
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習
 
変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)
 
強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習
 
ELBO型VAEのダメなところ
ELBO型VAEのダメなところELBO型VAEのダメなところ
ELBO型VAEのダメなところ
 
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
 
テーブル・テキスト・画像の反実仮想説明
テーブル・テキスト・画像の反実仮想説明テーブル・テキスト・画像の反実仮想説明
テーブル・テキスト・画像の反実仮想説明
 
畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化
 
ようやく分かった!最尤推定とベイズ推定
ようやく分かった!最尤推定とベイズ推定ようやく分かった!最尤推定とベイズ推定
ようやく分かった!最尤推定とベイズ推定
 
[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について
 
Optimizer入門&最新動向
Optimizer入門&最新動向Optimizer入門&最新動向
Optimizer入門&最新動向
 
最適輸送の解き方
最適輸送の解き方最適輸送の解き方
最適輸送の解き方
 
古典的ゲームAIを用いたAlphaGo解説
古典的ゲームAIを用いたAlphaGo解説古典的ゲームAIを用いたAlphaGo解説
古典的ゲームAIを用いたAlphaGo解説
 
時系列問題に対するCNNの有用性検証
時系列問題に対するCNNの有用性検証時系列問題に対するCNNの有用性検証
時系列問題に対するCNNの有用性検証
 

More from 西岡 賢一郎

Amazon SageMaker Foundation Modelsで事前学習済みモデルを利用する
Amazon SageMaker Foundation Modelsで事前学習済みモデルを利用するAmazon SageMaker Foundation Modelsで事前学習済みモデルを利用する
Amazon SageMaker Foundation Modelsで事前学習済みモデルを利用する
西岡 賢一郎
 
Amazon SageMaker Ground Truthを使って手動のラベル付けを簡略化する
Amazon SageMaker Ground Truthを使って手動のラベル付けを簡略化するAmazon SageMaker Ground Truthを使って手動のラベル付けを簡略化する
Amazon SageMaker Ground Truthを使って手動のラベル付けを簡略化する
西岡 賢一郎
 
Amazon SageMakerのNotebookからJobを作成する
Amazon SageMakerのNotebookからJobを作成するAmazon SageMakerのNotebookからJobを作成する
Amazon SageMakerのNotebookからJobを作成する
西岡 賢一郎
 
リモートワークで知っておきたい コミュニケーション時の過大な期待
リモートワークで知っておきたい コミュニケーション時の過大な期待リモートワークで知っておきたい コミュニケーション時の過大な期待
リモートワークで知っておきたい コミュニケーション時の過大な期待
西岡 賢一郎
 
リモートワークで意識すべき7つのこと
リモートワークで意識すべき7つのことリモートワークで意識すべき7つのこと
リモートワークで意識すべき7つのこと
西岡 賢一郎
 
Amazon SageMaker ML Governance 3つの機能紹介
Amazon SageMaker ML Governance 3つの機能紹介Amazon SageMaker ML Governance 3つの機能紹介
Amazon SageMaker ML Governance 3つの機能紹介
西岡 賢一郎
 
Feature StoreのOnline StoreとOffline Storeの違いについて理解する
Feature StoreのOnline StoreとOffline Storeの違いについて理解するFeature StoreのOnline StoreとOffline Storeの違いについて理解する
Feature StoreのOnline StoreとOffline Storeの違いについて理解する
西岡 賢一郎
 
機械学習の特徴量を管理するAmazon SageMaker Feature Store
機械学習の特徴量を管理するAmazon SageMaker Feature Store機械学習の特徴量を管理するAmazon SageMaker Feature Store
機械学習の特徴量を管理するAmazon SageMaker Feature Store
西岡 賢一郎
 
機械学習用のデータを準備する Amazon SageMaker Data Wrangler - ノーコードで前処理から学習まで
機械学習用のデータを準備する Amazon SageMaker Data Wrangler - ノーコードで前処理から学習まで機械学習用のデータを準備する Amazon SageMaker Data Wrangler - ノーコードで前処理から学習まで
機械学習用のデータを準備する Amazon SageMaker Data Wrangler - ノーコードで前処理から学習まで
西岡 賢一郎
 
Amazon SageMakerでカスタムコンテナを使った学習
Amazon SageMakerでカスタムコンテナを使った学習Amazon SageMakerでカスタムコンテナを使った学習
Amazon SageMakerでカスタムコンテナを使った学習
西岡 賢一郎
 
Amazon SageMakerでscikit-learnで作ったモデルのEndpoint作成
Amazon SageMakerでscikit-learnで作ったモデルのEndpoint作成Amazon SageMakerでscikit-learnで作ったモデルのEndpoint作成
Amazon SageMakerでscikit-learnで作ったモデルのEndpoint作成
西岡 賢一郎
 
Amazon AthenaでSageMakerを使った推論
Amazon AthenaでSageMakerを使った推論Amazon AthenaでSageMakerを使った推論
Amazon AthenaでSageMakerを使った推論
西岡 賢一郎
 
Amazon Athenaで独自の関数を使う Amazon Athena UDF - AthenaでTweetの感情分析
Amazon Athenaで独自の関数を使う Amazon Athena UDF - AthenaでTweetの感情分析Amazon Athenaで独自の関数を使う Amazon Athena UDF - AthenaでTweetの感情分析
Amazon Athenaで独自の関数を使う Amazon Athena UDF - AthenaでTweetの感情分析
西岡 賢一郎
 
未来のカタチ x AI
未来のカタチ x AI未来のカタチ x AI
未来のカタチ x AI
西岡 賢一郎
 
TorchDataチュートリアル解説
TorchDataチュートリアル解説TorchDataチュートリアル解説
TorchDataチュートリアル解説
西岡 賢一郎
 
Amazon SageMaker JumpStart
Amazon SageMaker JumpStartAmazon SageMaker JumpStart
Amazon SageMaker JumpStart
西岡 賢一郎
 
Amazon SageMaker Studio Lab紹介
Amazon SageMaker Studio Lab紹介Amazon SageMaker Studio Lab紹介
Amazon SageMaker Studio Lab紹介
西岡 賢一郎
 
Amazon SageMaker Canvasを使ったノーコード機械学習
Amazon SageMaker Canvasを使ったノーコード機械学習Amazon SageMaker Canvasを使ったノーコード機械学習
Amazon SageMaker Canvasを使ったノーコード機械学習
西岡 賢一郎
 
PMFを目指すプロダクト開発組織が組織拡大するときににやるべきこと
PMFを目指すプロダクト開発組織が組織拡大するときににやるべきことPMFを目指すプロダクト開発組織が組織拡大するときににやるべきこと
PMFを目指すプロダクト開発組織が組織拡大するときににやるべきこと
西岡 賢一郎
 
H2O Waveを使ったAIアプリケーション作成入門
H2O Waveを使ったAIアプリケーション作成入門H2O Waveを使ったAIアプリケーション作成入門
H2O Waveを使ったAIアプリケーション作成入門
西岡 賢一郎
 

More from 西岡 賢一郎 (20)

Amazon SageMaker Foundation Modelsで事前学習済みモデルを利用する
Amazon SageMaker Foundation Modelsで事前学習済みモデルを利用するAmazon SageMaker Foundation Modelsで事前学習済みモデルを利用する
Amazon SageMaker Foundation Modelsで事前学習済みモデルを利用する
 
Amazon SageMaker Ground Truthを使って手動のラベル付けを簡略化する
Amazon SageMaker Ground Truthを使って手動のラベル付けを簡略化するAmazon SageMaker Ground Truthを使って手動のラベル付けを簡略化する
Amazon SageMaker Ground Truthを使って手動のラベル付けを簡略化する
 
Amazon SageMakerのNotebookからJobを作成する
Amazon SageMakerのNotebookからJobを作成するAmazon SageMakerのNotebookからJobを作成する
Amazon SageMakerのNotebookからJobを作成する
 
リモートワークで知っておきたい コミュニケーション時の過大な期待
リモートワークで知っておきたい コミュニケーション時の過大な期待リモートワークで知っておきたい コミュニケーション時の過大な期待
リモートワークで知っておきたい コミュニケーション時の過大な期待
 
リモートワークで意識すべき7つのこと
リモートワークで意識すべき7つのことリモートワークで意識すべき7つのこと
リモートワークで意識すべき7つのこと
 
Amazon SageMaker ML Governance 3つの機能紹介
Amazon SageMaker ML Governance 3つの機能紹介Amazon SageMaker ML Governance 3つの機能紹介
Amazon SageMaker ML Governance 3つの機能紹介
 
Feature StoreのOnline StoreとOffline Storeの違いについて理解する
Feature StoreのOnline StoreとOffline Storeの違いについて理解するFeature StoreのOnline StoreとOffline Storeの違いについて理解する
Feature StoreのOnline StoreとOffline Storeの違いについて理解する
 
機械学習の特徴量を管理するAmazon SageMaker Feature Store
機械学習の特徴量を管理するAmazon SageMaker Feature Store機械学習の特徴量を管理するAmazon SageMaker Feature Store
機械学習の特徴量を管理するAmazon SageMaker Feature Store
 
機械学習用のデータを準備する Amazon SageMaker Data Wrangler - ノーコードで前処理から学習まで
機械学習用のデータを準備する Amazon SageMaker Data Wrangler - ノーコードで前処理から学習まで機械学習用のデータを準備する Amazon SageMaker Data Wrangler - ノーコードで前処理から学習まで
機械学習用のデータを準備する Amazon SageMaker Data Wrangler - ノーコードで前処理から学習まで
 
Amazon SageMakerでカスタムコンテナを使った学習
Amazon SageMakerでカスタムコンテナを使った学習Amazon SageMakerでカスタムコンテナを使った学習
Amazon SageMakerでカスタムコンテナを使った学習
 
Amazon SageMakerでscikit-learnで作ったモデルのEndpoint作成
Amazon SageMakerでscikit-learnで作ったモデルのEndpoint作成Amazon SageMakerでscikit-learnで作ったモデルのEndpoint作成
Amazon SageMakerでscikit-learnで作ったモデルのEndpoint作成
 
Amazon AthenaでSageMakerを使った推論
Amazon AthenaでSageMakerを使った推論Amazon AthenaでSageMakerを使った推論
Amazon AthenaでSageMakerを使った推論
 
Amazon Athenaで独自の関数を使う Amazon Athena UDF - AthenaでTweetの感情分析
Amazon Athenaで独自の関数を使う Amazon Athena UDF - AthenaでTweetの感情分析Amazon Athenaで独自の関数を使う Amazon Athena UDF - AthenaでTweetの感情分析
Amazon Athenaで独自の関数を使う Amazon Athena UDF - AthenaでTweetの感情分析
 
未来のカタチ x AI
未来のカタチ x AI未来のカタチ x AI
未来のカタチ x AI
 
TorchDataチュートリアル解説
TorchDataチュートリアル解説TorchDataチュートリアル解説
TorchDataチュートリアル解説
 
Amazon SageMaker JumpStart
Amazon SageMaker JumpStartAmazon SageMaker JumpStart
Amazon SageMaker JumpStart
 
Amazon SageMaker Studio Lab紹介
Amazon SageMaker Studio Lab紹介Amazon SageMaker Studio Lab紹介
Amazon SageMaker Studio Lab紹介
 
Amazon SageMaker Canvasを使ったノーコード機械学習
Amazon SageMaker Canvasを使ったノーコード機械学習Amazon SageMaker Canvasを使ったノーコード機械学習
Amazon SageMaker Canvasを使ったノーコード機械学習
 
PMFを目指すプロダクト開発組織が組織拡大するときににやるべきこと
PMFを目指すプロダクト開発組織が組織拡大するときににやるべきことPMFを目指すプロダクト開発組織が組織拡大するときににやるべきこと
PMFを目指すプロダクト開発組織が組織拡大するときににやるべきこと
 
H2O Waveを使ったAIアプリケーション作成入門
H2O Waveを使ったAIアプリケーション作成入門H2O Waveを使ったAIアプリケーション作成入門
H2O Waveを使ったAIアプリケーション作成入門
 

Recently uploaded

FIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance Osaka Seminar: CloudGate.pdfFIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance
 
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアルLoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
CRI Japan, Inc.
 
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
Matsushita Laboratory
 
FIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance Osaka Seminar: Welcome Slides.pdfFIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance
 
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
harmonylab
 
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
Toru Tamaki
 
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdfFIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance
 
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさJSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
0207sukipio
 
This is the company presentation material of RIZAP Technologies, Inc.
This is the company presentation material of RIZAP Technologies, Inc.This is the company presentation material of RIZAP Technologies, Inc.
This is the company presentation material of RIZAP Technologies, Inc.
chiefujita1
 
CS集会#13_なるほどわからん通信技術 発表資料
CS集会#13_なるほどわからん通信技術 発表資料CS集会#13_なるほどわからん通信技術 発表資料
CS集会#13_なるほどわからん通信技術 発表資料
Yuuitirou528 default
 
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
Fukuoka Institute of Technology
 
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
Matsushita Laboratory
 
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdfFIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance
 
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdfFIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance
 

Recently uploaded (14)

FIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance Osaka Seminar: CloudGate.pdfFIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance Osaka Seminar: CloudGate.pdf
 
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアルLoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
 
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
 
FIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance Osaka Seminar: Welcome Slides.pdfFIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance Osaka Seminar: Welcome Slides.pdf
 
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
 
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
 
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdfFIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
 
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさJSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
 
This is the company presentation material of RIZAP Technologies, Inc.
This is the company presentation material of RIZAP Technologies, Inc.This is the company presentation material of RIZAP Technologies, Inc.
This is the company presentation material of RIZAP Technologies, Inc.
 
CS集会#13_なるほどわからん通信技術 発表資料
CS集会#13_なるほどわからん通信技術 発表資料CS集会#13_なるほどわからん通信技術 発表資料
CS集会#13_なるほどわからん通信技術 発表資料
 
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
 
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
 
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdfFIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
 
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdfFIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
 

機械学習をこれから始める人が読んでおきたい 特徴選択の有名論文紹介

  • 2. 今回紹介する論文 ● An Introduction to Variable and Feature Selection ○ 著者:Isabelle Guyon, Andre Elisseeff ○ 投稿:Journal of Machine learning Research 3 (2003) 1157-1182 ○ 引用:16136件 (2021/03/07時点) ● 論文の内容 ○ より良いモデルを構築するための特徴選択と生成について ■ ランキング、特徴選択手法、次元削減、バリデーション ○ 3つの代表的な特徴選択手法について紹介 ■ filter, wrapper, embedded ● この動画で紹介する内容 ○ 特徴量の評価 ○ 3つの代表的な特徴選択 ○ ディープラーニングの特徴選択
  • 4. 特徴選択に取り掛かる前に 発見的なチェックリスト 1. ドメイン知識があるか → Yes: 知識を生かしたAd hocな特徴を作成 2. 特徴のスケールはそろっているか → No: 標準化 3. 特徴が相互依存している可能性があるか → No: 特徴量を組み合わせる 4. 計算コストの関係で特徴を削減する必要があるか → No: 離散化や重み付けなど 5. 特徴一つ一つを評価する必要があるか → Yes: 変数のランク付け 6. そもそも予測器は必要か → No: やめる 7. データが汚いか → Yes: 外れ値を取り除く 8. 初めに何をすべきかわかっているか → No: 線形モデル 9. 時間と計算資源、データ量が十分にあるか → Yes: 複数の特徴選択やモデルを試す 10. 安定した解法を望むか → Yes: バリデーション
  • 6. Variable ranking ● 最も単純な変数の評価方法 ● 個々の変数の予測性能を評価し、スコアの高い変数を選択 ● この結果がベースラインとなることが多い ● 学習不足になる可能性はあるが過学習しにくい (例) 目的変数によるスコアリングの種類 ● 回帰: ある変数と目的変数の相関係数 ● 分類: ある変数に閾値を設けることでどの程度予測できるか (正解率, fpr, fnr) ● どちらでも: ある変数と目的変数間の相互情報量
  • 7. 特徴量の関係を考慮: 冗長な特徴量 [疑問点 1] 冗長と見られる変数を含めたままで良いか ● 2つの変数は分布が似通っている ● 2変数を用いて45度回転させると、 (b)の分布となる ● クラス分割の境界(赤線)が得られる ● 組み合わせで変換した変数の一つで クラス分類が可能に 冗長と見られる変数でも、追加することで効果を得られる場合がある
  • 8. 特徴量の関係を考慮: 冗長と相関 [疑問点 2] 変数間の相関が高いことは冗長なのか ● 同じく冗長に見える二つの変数で、 変数間の共分散が大きい場合を考える ● (a): クラスの平均を通る直線上に分布 ● (b): その直線と直交するように分布 ● (a)は変数の和をとっても単体と変わらないが (b)では組み合わせがクラス分割を可能に 完全に相関がある場合はその変数は単体で十分だが、”高い”相関は変数選 択の上で冗長とは限らない 完全な相関 やや高い相関
  • 9. 特徴量の関係を考慮: 同時利用することで役に立つ変数 [疑問点 3] 変数単体で役に立たないからといって除外して良いか ● (a): 単体だと役に立たない変数 x1 が x2 との組み合わせで線形分離可能に ● (b): 単体で役に立たない変数 x3, x4 が 組み合わせることでXOR functionで 分類可能に x4 x3 x2 x1 x1 x2 x3 x4 単体で役に立たない変数も他の変数との組み合わせによって有用になる場 合がある
  • 11. 特徴量の部分集合を選択 ● Variable ranking は個々の変数の予測性能に基づいている ○ 特徴をいくつ選択するべきか ○ スコアが低くても組み合わせが有効なケースもあった ● 特徴の部分集合で評価する必要がある 1. Filter methods (= Variable ranking) → モデルの学習とは独立した前処理としての手法 2. Wrapper methods → モデルを用いて特徴量の部分集合を評価 3. Embedded methods → モデルの学習と同時に特徴選択 (モデルに固有)
  • 12. 1. Filter methods ● モデルの学習とは独立した処理 ● 処理が高速 ● 個々の変数と目的変数間の関係から特徴を選択 ● Wrapper, Embeddedの前処理としても用いられる 全特徴量 選択された 特徴量 モデル 評価
  • 13. 1. Filter methods ● 例) 目的変数との相関が低い特徴を排除 ● 全特徴について目的変数との相関係数を計算し、高いものから必要な 数だけ選択 ○ 閾値 (0.5以上など)を設けて選択することも可能 X1 X2 X3 X4 X5 y ... 0.8 0.9 0.2 0.3 0.6
  • 14. 2. Wrapper methods ● 特徴の部分集合を用いて学習、評価を繰り返す ● 計算コスト大 ● 探索手法 (Forward selection, Backward elimination) ● 評価用データで選択された特徴を評価 全特徴量 モデル 特徴の 部分集合 評価
  • 15. 2. Wrapper methods ● 例) Forward selection ○ 全特徴量50から30に減らしたい場合 1. 特徴量0個から初め、特徴量が1つのモデルを50個作成し検証用データ でのスコアが最大になる特徴を1つ選択 2. 未選択の特徴量から同様にスコアが最大になる特徴量を1つ選択 3. 選択済みの特徴量が30個になるまで2に戻る X1 … X50 X8 X1 … X50 X8 X1 … X50 X8 X14 X14 X37
  • 16. 3. Embedded methods ● モデルの学習と同時に特徴選択を行う ● Wrapper よりも高速 ● モデルを再学習させる必要なし 全特徴量 モデル + 評価 特徴の 部分集合
  • 17. 3. Embedded methods ● 例) Lasso回帰 ○ 線形回帰において過学習を防ぎ汎化性を高めるための手法の1つ ○ 学習の段階で不要と思われる変数の係数を0にする ○ 重要な特徴の部分集合を選択している 通常の線形回帰: Lasso回帰:
  • 19. ディープラーニングの登場 ● 従来の機械学習 ○ 特徴選択、生成は人が行う ■ 選択: 今回紹介した3つの手法 (初めは主に filter) ■ 生成: 特徴量同士の和や積、ビニングなど ○ 特徴量の質がモデルの性能を決定 ● ディープラーニング ○ 特徴量の選択、生成が不要 データ 特徴選択 生成 学習 データ 特徴抽出+学習 AI 機械学習 ディープ ラーニング
  • 20. ディープラーニングの登場 ● ディープラーニングの特徴選択 ○ “ディープ” に重ねられた層で数理的なモデルを表現し、複雑な処理を実現 ○ データに内在している特徴量を自動で抽出している ● 問題点 ○ 学習時間の増大 ○ パラメータ数が増え過学習しやすい ○ どのように特徴選択が行われているか解き明かすことが難しい ・・・ 入力層 出力層 中間層 (数十~層)
  • 21. まとめ ● An Introduction to Variable and Feature Selectionの紹介 ○ 特徴量の評価 ■ 特徴のランキング ■ 冗長な特徴 ■ 相関の高い特徴 ■ 他と組み合わせることで効果がでる特徴 ○ 特徴選択 ■ Filter methods ■ Wrapper methods ■ Embedded methods ● ディープラーニングでの特徴量

Editor's Notes

  1. 今回は機械学習をこれから始める人がよんでおきたい特徴量選択の有名論文を紹介しようと思います。 このチャンネルでは、開発や解析などの内容について発信していきます。 興味のある方がいましたらチャンネル登録よろしくお願いいたします。
  2. それでは、さっそく本題に入っていきましょう。 今回は、Introduction to variable and feature selectionという論文を紹介します。 2003年の論文で古いのですが、特徴量について非常によくまとまっている論文です。 引用数はなんと16136件で、今も引用は増えていっています。 これから機械学習を始める人は基礎教養として読んでおくと良いと思います。 ただ、本文だけで23ページの量があるため、ざっくりと内容を知りたい人のためにこの動画で解説します。 本格的に研究などをしたい方はぜひご自分でも読んで見てください。 この論文では、よりよい機械学習のモデルを作るための特徴選択と生成の方法と代表的な特徴量選択手法が紹介されています。 この動画では、特徴量自体の評価の方法と3つの代表的な特徴選択方法と、最後に論文とは離れて最近良く使われているディープラーニングにおける特徴選択の話をしようと思います
  3. まずそもそも特徴選択は何故必要となるのでしょうか。 特徴選択は大きく分けて3つの目的があります。 1つめは予測器の精度をあげること。予測精度が低いモデルよりも予測精度が高いモデルのほうがいいというのは当たり前ですね。 2つめは低コストな計算をすること。精度が高くても計算に長時間かかるようでは現実的に使えなくなります。 計算を早くするためにも特徴量選択が必要となってきます。 最後、3つめは解釈のしやすさです。 予測の精度が高くなるためにどんな特徴量が重要なのかを解釈したいときなどに重要になります。 複雑なアルゴリズムほど、解釈しにくくなる事が多いです。 特徴選択の必要性については、この3点を抑えておきましょう。
  4. この論文では特徴量選択の前に確認する発見的チェックリストが紹介されています。2003年のものなので現在はそのまま使えるかどうかは怪しいですが紹介します。 ドメイン知識があるか → Yes: その知識を生かして"ad hoc"な特徴を作ろう 特徴のスケールは揃っているか → No: 標準化をしよう 特徴が相互依存している可能性があるか → Yes: 特徴の組み合わせなどを試そう 計算コスト、速度の関係で特徴を切り捨てなければいけないか → No: 特徴の離散化や重み付け和などで拡張しよう 特徴一つ一つを評価する必要があるか → Yes: 変数のランク付けを行おう → もしその必要がなくてもこの方法は一つのベースラインとなる そもそも予測器は必要か → No: 今すぐやめよう データが汚いか → Yes: 変数のランクを用いて外れ値となるデータを除こう 初めに何をすべきかわかっているか → No: とりあえず線形モデルを使おう 時間と計算資源、データ量は十分にあるか → Yes: ここで紹介する特徴選択を初め、その他モデルの選択もたくさん試そう 安定した解法を望むか → Yes: バリデーションをしよう 以上、10個のチェック項目がこの論文では紹介してあります。 全部をそのまま使えるというわけではなさそうですが、一度確認してみると良いと思います。
  5. それではまずは特徴量の評価に入っていきましょう。 ここでは、特徴量をランク付けする話と複数の依存した特徴量の処理について解説します。
  6. 特徴量を評価するものとして、よく特徴量のランク付けをします。 特定の指標により特徴量をスコアリングし、スコアの高い順に選択したりします。 このスコアの高い特徴量を用いた予測のみで学習したモデルをベースラインとすることが多いです。 スコアに基づいてただ変数を減らしているだけなので、変数の不足による学習不足の可能性はあるが(バイアスが生じる)、 過学習に陥ること(バリアンスはほとんどない)少なくなるという研究もあるようです。 特徴量のランキングでは、特徴量をそれぞれ別に評価しており、特徴量同士の関係は考慮されていません。 特定の特徴量が他の特徴量に影響をうけることはよくあります。 そこで、ここからは複数の特徴量で関係性を考慮した例を3つ紹介します。
  7. まず最初に複数の特徴量を考えるときに出てくるのが、冗長な特徴量です。 2つの特徴量の分布が似通ってるときは冗長な特徴量を与えてしまっているように見えます。 似たような特徴量を与えても、計算量が増えるだけで予測精度の向上しないのではという疑問が出てきます。 実は、冗長と見られる変数を追加することで、ノイズの低減やよいクラスの分類が得られることがあります。 なので、単純に変数が冗長だからといって削除してしないほうが良いということになります。
  8. 冗長というと相関の話をしないといけません。 高い相関をもつ変数を追加した場合はどうなるでしょうか。 完全に相関がある変数を追加した場合は、新しく完全に相関した変数を変数を追加する意味はありません。 一方で相関が高い変数を追加した場合は、クラス分割を有効にすることもあります。 この場合でも、全く完全相関する変数でない限りは、学習に使う特徴量の候補として残しておきましょう。
  9. 特徴量の関係を考慮することの最後の例を紹介します。 変数単体では役に立たないが、他の変数と組み合わせて使うことで役に立つようになる変数も存在します。 単体では分類に役に立たないが他と合わせると分類しやすくなるというのは線形分離でも分かりやすい例が考えつくと思います。 なので、単体で分類に役に立たないからと言って、この変数も安易に取り除くことができないということになります。
  10. ここまで変数のランキングや、変数の関係考慮した例などについて紹介しました。 ここからは、具体的に特徴選択で使われる3つの手法について紹介します。
  11. 先程、機械学習に使う特徴量を選択するということは、予測精度を上げたり、学習速度を上げたり、解釈をしやすくするために必要というお話をしました。 しかし、特徴選択をやるにしてもどのように特徴選択をするかが難しいです。 特徴選択は大きく分けて3つの手法、Filter methods, Wrapper methods, Embedded methodsに分けることができます。 Filter methodsはモデルと独立した前処理となり、先程紹介したランキングを用いた変数の選択となります。 Wrapper methodsはモデルを実際に用いて、特徴量の部分集合を評価することで特徴量を選択していきます。 Embedded methodsはモデルの学習と同時に特徴を選択するモデル固有のものとなってきます。 それぞれについて説明していきます。
  12. まずはFilter methodsです。 Filter methodsはモデルとは独立した処理で、高速に選択ができるという利点があります。 よくやるやり方としては、それぞれの変数と目的変数の関係を用いて特徴量を選択していきます。 ただし、特徴量の関係を考慮するところで話したように、他の特徴量との組み合わせで有用になるような特徴もあったりします。
  13. Filter methodsの例を一つ紹介します。 ここでは目的変数と相関が高い特徴のみを残し、相関が低い特徴を排除します。 適当な閾値を設けることで、学習に使う特徴を少なくすることが可能になります。 特徴量の解釈をするときに、filter methodsで特徴を減らしておくと解釈しやすくなることもあります。 ただし、何度もここまで言っていますが、このような削り方をしてしまうと本当は予測に聞いていた特徴を意図せず取り除いてしまうことがあります。。
  14. 次にWrapper methodsを紹介します。 Wrapper methodsでは特徴の部分集合を使って学習を実施し、精度が良かった特徴の組み合わせを使っていきます。 Wrapper methodsは特徴量を組み合わせて実施するので計算量が爆発するように思えるかもしれません。 特徴の組み合わせの作り方は様々な方法があります。 例えば、主に特徴を徐々に増やして評価するforward selectionと、全特徴から特徴を徐々に減らしていくbackward eliminationの2つがあります。 forward selectionはbackward eliminationに比べて低コストでよい特徴の集合を見つけられます。 一方で、forward selectionは組み合わせによって効果を発揮する特徴量を見逃す可能性もります。 Wrapper methodsでの特徴選択では他には遺伝的アルゴリズムを用いたものなどもあります。
  15. ここでは簡単にforward selectionについて紹介します。 元々の特徴量が50個あるものを30小に減らしたい場合、初めに特徴量が1つのモデルを50作成し、スコアが最大となる特徴を選択します。 次に、さきほど選択した特徴に加えて、もう一つ特徴を加えてモデルを作成し、スコアが最大となった特徴のみを残します。 これを繰り返すことによって、30個の特徴の組み合わせを作成します。 スコアの設定の仕方としては、回帰の場合は決定係数を使ったりします。
  16. 最後にEmbedded methodsについて紹介します。 Embedded methodsはモデルの学習と同時に特徴選択を行っていきます。 特徴の選択の仕方などはモデルに依存します。 特徴量を増減したときに再度学習を走らせる必要がないため、Wrapper methodsよりも高速に特徴選択をできます。 Lasso回帰や決定木のアルゴリズムなどがEmbedded methodsを使用したアルゴリズムとして有名です。
  17. 例えば、Lasso回帰では重要でない特徴量の係数をゼロとして閉まって計算から省く性質があります。 このようにアルゴリズムの中で特徴量を選択しているのをEmbedded methodsと言います。 wrapper methodsと区別がつきにくいかもしれませんが、アルゴリズムの中で選択しているのかアルゴリズムの外で選択しているのかで区別してみるといいと思います。 この論文には、他にもバリデーションの話など色々書かれていますので、この動画を見て興味が出た方はぜひ読んでみてください。 古い論文ではありますが、機械学習をやっていくための基礎的な知識を手に入れるのに非常によい論文だと思います。
  18. ここまで論文の紹介をしていたのですが、やはりみなさんディープラーニングではどうなっているか気になると思うので、論文の内容とは離れてしまうのですが、簡単にディープラーニングに置ける特徴選択についてもお話しします。
  19. 従来の機械学習では、論文に書いてあったような特徴の選択および特徴自体の生成を人間が行っていました。 特徴選択に関しては、おもにfilter methods, wrapper methods, embedded methodsの3つを特徴量の生成に関しては、特徴量同士から生成したりビニングをしたりしていました。 そして、特徴量の質がモデルの性能に大きな影響を与えていました。 しかし、ディープラーニングでは、この特徴量の選択・生成がいらなくなっています。 この論文を読んで、特徴量の選択だけでもめんどくさいと思った人は、それだったらディープラーニングでいいのではと思うかもしれません。 しかし、ディープラーニングはディープラーニングで別の問題が存在します。
  20. ディープラーニングでは、ディープに重ねられた層で数理的なモデルを表現し、複雑な処理を実現することができます。 これによって、データに内在している特徴量を自動で抽出しています。 しかし、この層によって学習時間の増大やパラメータ数が増えて過学習しやすかったりします。 過学習に関しては、dropoutなど過学習を防ぐ手法も出ていたり、過学習を更にすすめると精度向上するというような発見もされたりしています。 これらに関してはこのチャンネルで将来的に扱っていこうかと思います。
  21. まとめです。 今回はAn introduction to Variable and Feature Selectionの紹介をしました。 特徴量をランキングすることで削減する方法や、冗長な特徴などの重要性などについてお話ししました。 また、単体では無意味ではあるが他の特徴と組み合わせることで意味が出てくる特徴のお話もしました。 特徴選択としては、前処理として実行するfilter methodsと特徴を組み合わせて学習し、よい特徴の組み合わせを決めるWrapper methods、最後にアルゴリズム内で特徴選択をおこなうEmbedded methodsについて紹介しました。 また、論文とは別の話にはなったのですが、特徴選択と生成が必要なくなってきているディープラーニングの世界について少しだけお話ししました。 このチャンネルでは、このような解析関連の話だけでなく、解析技術を実用化していくために開発の話もしていきます。 今回の動画がもしためになりましたら、高評価とチャンネル登録をよろしくお願いいたします。