機械学習と深層学習入門

機械学習と
深層学習入門
2020/07/06 学部ゼミ

目次
1
1. 機械学習（Machine Learning）について
・機械学習とは
・機械学習の種類
・教師あり学習の手法
（k-NN, 線形回帰, ロジスティック回帰, SVM）
2. 深層学習（Deep Learning）について
・深層学習とは
・活性化関数と学習手法
・深層学習の種類（CNN, RNN, GAN）
3. 書籍紹介

2
機械学習（Machine Learning）について

機械学習とは
「人間が持つ学習にあたる仕組みを
機械（特にコンピュータ）で実現する
技術・手法の総称」（Wikipedia）
何かしらの目的を達成するための
知識や行動を、データを読み込ま
せることで機械に獲得させるため
の技術
3
AI
機械学習
(Machine Learning)
深層学習
（Deep Learning）
例)PC, スマホ
例)線形回帰
ロジスティック回帰
SVM
例)CNN
RNN

教師あり学習
（supervised learning）
教師なし学習
（unsupervised learning）
強化学習
（reinforcement learning）
機械学習
（machine learning）
機械学習の種類
4

教師あり学習
教師あり学習とは
「説明変数から目的変数を予測するモデルを求める手法」
→入出力データから予測モデルを開発する
・回帰（regression）：目的変数が株価や価格などの実数値
（例）不動産データで住宅規模から販売価格を予測
・分類（classification）：目的変数が「男性・女性」「犬・猫」などのカテゴリー
（例）不動産データで見込み販売価格で家が売れるかどうか
5

モデル特徴利点欠点
K-近傍法(k-neighbors) 訓練データセットから一番近い点
を見つける
最も単純・理解しやすい処理速度が遅い・多数の特徴量を
扱えない
線形モデル(linear model) 線形関数（linear function）を用い
て予測を行う・係数や切片を予測
訓練も予測も高速・予測手法を理
解しやすい
モデルの制約が強い
ナイーブベイズ(naive bayes) 各要素が独立に予測対象に影響を
与えていると仮定して、ベイズの
定理を用いて確率を予測
線形モデルより高速線形モデルより精度が劣る
決定木(decision tree)) 木構造のモデルによって分類結果のモデルが容易に可視化でき
る・データスケールに影響されな
い
過剰適合しやすく、汎化性能が低
い
ランダムフォレスト
(random forest)
異なる決定木を大量に生成し、結
果を集計して予測
汎化性能が高い・パラメータ
チューニングやスケール変換がい
らない・最も一般的手法
高次元で疎なデータ（テキスト
等）に機能しない・訓練も予測も
遅い
勾配ブースティング決定木
(gradient boosting)
一つ前の決定木の誤りを次の木が
修正するように順番に複数の決定
木を生成する
最も強力で広く使われている・パ
ラメータの設定がうまくいけばラ
ンダムフォレストより性能がよい
パラメータのチューニングが重
要・訓練の時間が長い・高次元で
疎なデータに機能しない
サポートベクターマシン
(support vector machine)
回帰によって分類する・マージン
の最大化を取り入れたもの
さまざまなデータセットに対して
機能する強力なモデル
理解が難しい・データの前処理と
パラメータ調整が高度
ニューラルネットワーク
(neural network)
生物のシナプス結合を模したネッ
トワーク・様々な種類があり教師
あり学習と教師なし学習の両方が
ある
大量のデータから複雑なモデルを
構築できる
大量のデータと十分な計算時間が
必要・理解が難しい

教師なし学習
教師なし学習とは
「目的変数がなく入力データそのものに注目した学習」
→データに潜むパターンや示唆を見出そうとするもの
・クラスタリング（Clustering）：多数のデータ
を探索的にいくつかの類似のグループに分類
（例）手書き文字認識（教師ラベルなしの場合）
・次元削減：多数の特徴量で構成されるデータ
を少数の本質的な特徴量データに変換する
（例）主成分分析，非負値行列因子分解
7

強化学習
強化学習とは
「ある価値を最大化するための行動ルールを学習」
→一つ一つの行動に正解はなく、与えられた環境における価値を
最大化するように「エージェント（機械）」を学習させる
＊即時報酬ではなく、未来の価値（Q値）を最大化する
（例）赤ちゃんの歩行習得，株の売買，AlphaGo
→ランダムに試して、その最終的な結果を学習する
・Q学習・Sarsa・Sモンテカルロ法
8

教師あり学習の手法
9
k-近傍法（k-Nearest Neighbor）
「与えられたデータからの距離が近いものをk個集め、
それらの多数決から目的とする値を求める手法」
メリット
・モデルの理解のしやすさ
・パラメータの調整が少ない
デメリット
・処理速度が遅い
・特徴量が多いと精度が落ちる
K=3K=5

10
k-NNを用いた分類・回帰
「分類」の場合
似たk個のデータのクラスで最も数が多い
クラスにデータを分類（多数決）
「回帰」の場合
似たk個のデータのそれぞれの値の平均値や
中央値、もしくは重み付けした集計値を用い
て予測
（例）身長と体重から服のサイズを分類（例）身長から体重を予測

11
線形モデル(linear model)を用いた回帰
𝑤 ∶ 特徴量 𝑥 に対する「重み」（傾き）𝑥 ∶ 特徴量 𝑏 ∶ バイアス（切片）
データの分布を線形関数(linear function)で近似する手法
 重回帰（2つ以上の入力データからある値を予測）
 単回帰（1つの入力データからある値を予測）
（例）身長(x)から体重(y)を予測
（例）身長(x1)・ウエスト(x2)・体脂肪率(x3)から体重(y)を予測

12
通常最小二乗法(ordinary least squares :OLS)
（引用： https://mathtrain.jp/leastsquares ）
正規方程式による解法
（解析的手法：式変形により解を求める手法）
厳密な解が得られる一方で常に解があるとは限らない
計算コストが大きい
→LinearRegression（パラメータの調整がいらない）
勾配降下法による解法
（数値的解法：具体的な数値を代入し続け、近似的な解を得る手法）
誤差が生じることもあるが、ほとんどの場合解が求められる
→SGDRegressor（パラメータ（学習率）の調整が必要）

勾配降下法（Gradient Descent）
13
（引用：http://www.fward.net/archives/2126）
勾配降下法の考え方
１，ランダムな初期値を設定し、損失関数
（二乗誤差）を計算
２，重みwで偏微分をし、勾配を求める
３，傾きが0に近づく方向に重みwを
学習率に応じて調整
学習率…どの程度の大きさで重みの更新をするか
（引用：https://hidehiroqt.com/archives/32）

勾配降下法の種類
14
手法特徴メリットデメリット
バッチ勾配降下法
（最急降下法）
全ての訓練データを
使用
・安定している
・遅い
・Local Minimumに
収束しやすい
確率的勾配降下法
（SGD）
ランダムに一個の
データを選んで使用
・速い
・Global Minimum
に収束しやすい
・安定しない
ミニバッチ勾配
降下法
ランダムに選んだ
複数のデータを使用
・速い
・安定している
・Global Minimum
・特になし
Global MinimumとLocal Minimum→

15
過学習（Over Fitting）
訓練データに過度に適合し、
テストデータに対する汎化性能が低くなっている状態
過学習とは

16
正則化（regularization）
・過剰適合を防ぐためにモデルを制約すること
・適切な係数を取捨選択したり、係数の大きさを小さくして過学習を防止
・本当に大切な係数を見つけ出す
 L1正則化→Lasso回帰
・係数の絶対値の和（L1ノルム）を小さくする
→いくつかの係数が完全に0になり、少数の係数のみが値をとる（スパース）
 L2正則化→リッジ回帰
・係数のL2ノルムを小さくする
→係数の値をできる限り0に近づける（個々の特徴量の影響を少なくする）
正則化とは

17
正則化を用いた線形回帰
Lasso回帰(Lasso regression)
・線形モデルを用いた回帰手法の1つ（L1正則化を用いた線形回帰モデル）
・いくつかの係数の値を完全に0にする
→いくつかの特徴量を完全に無視する（自動的に特徴量を選択している）
・モデルの解釈が容易であり、どの特徴量が重要なのか明らか
・モデルの簡潔さ（0に近い係数の数）と訓練セットに対する性能が
トレードオフ（scikit-learnではαパラメータで調整可能）
・十分な訓練データがある場合は線形回帰と同じ性能になる
参考（https://stats.biopapyrus.jp/sparse-modeling/lasso.html）

18
正則化を用いた線形回帰
リッジ回帰(ridge regression)
・線形モデルを用いた回帰手法の1つ（L2正則化を用いた線形回帰モデル）
・係数の絶対値を0に近づける
→予測をうまく行いつつ、個々の特徴量が出力に与える影響をなるべく小さくする
・制約が強いモデルのため、過剰適合の危険は少ない
＝訓練セットに対する精度は低いが、汎化性能が高い
・モデルの簡潔さ（0に近い係数の数）と訓練セットに対する性能が
トレードオフ（scikit-learnではαパラメータで調整可能）
・十分な訓練データがある場合は線形回帰と同じ性能になる
参考（https://stats.biopapyrus.jp/sparse-modeling/ridge.html）

19
ロジスティック回帰(Logistic regression)とは
数値の説明変数から確率を計算して予測をおこなう分類モデル
（正確には線形モデルではなく、一般化線形モデル）
一般化線形モデルとは
目的変数が正規分布以外の確率分布に従う場合でも
使うことができるようにした線形モデル
（例）目的変数：服のサイズ（S, M, L）（離散）
説明変数：身長（連続）
→目的変数の確率に対しリンク関数（log）を導入
→交差エントロピー誤差を最小化し、パラメータβを最適化

20
線形サポートベクトルマシン
(Linear Support Vector Machine)
 汎化性の高さや応用分野の広さから、
データ分析の現場で最も注目を集めるモデル
 「マージン最大化」という考えに基づき主に
2値分類で使われる
（他クラス分類や回帰への拡張も可能）
 計算コストが大きいため大規模なデータには
適さない（中規模データセットで使われる）

23
深層学習（Deep Learning）について

深層学習（Deep Learning）
24
深層学習とは
ニューラルネットワーク（Neural Network）の発展形
ニューラルネットワークとは
・教師あり学習の一種
・神経細胞(ニューロン)の振る舞いを模したもの
→他の神経細胞から伝わった
信号xが閾値θを超えると発火y
→それぞれの信号に重み付けw
https://udemy.benesse.co.jp/ai/neural-network.html

深層ニューラルネットワーク
25
ニューロンのモデルを並べ、複数の層を作ったものを
深層ニューラルネットワーク（Deep Neural Network）という
https://www.tel.co.jp/museum/magazine/communication/160229_report01_02/03.html

深層にするメリット
26
層を適切に重ねることで非線形表現を可能にする（＝任意の関数を近似できる）
単一のニューロンの活性化を表す式
𝑦 =
0 (𝑤1 𝑥1 + 𝑤2 𝑥2 ≤ θ)
1 (𝑤1 𝑥1 + 𝑤2 𝑥2 > θ)
https://qiita.com/fan2tamo/items/dfe09498cbd6a89f6ef7
を用いて表せるのは線形表現（OR, AND, NAND）のみ
→w1, w2 , θの値をうまく調整することで表現できる
（ANDの例: w1=0.5, w2=0.5, θ=0.7）
＊赤丸が出力y=0, 黒丸が出力y=1
https://watlab-blog.com/2019/12/12/mlp-xor/
XORを表現するには
OR, AND, NANDの組み合わせが必要

活性化関数（Activation function ）
27
活性化関数とは
入力を変換し、出力するための非線形関数

代表的な活性化関数
28
ReLU（Rectified Linear Unit）/ランプ関数
・入力が0以上ならその値を出力し、0以下なら0を出力にする
・主に中間層で用いられる

29
恒等関数（Identity function）
・入力をそのまま出力にする
・主に回帰問題の出力層で用いられる

30
シグモイド関数（Sigmoid function）
・0から1までの値（=確率）を出力にする
・主に2値分類の出力層で用いられる

31
ソフトマックス関数（Softmax function）
・0から1までの値（=確率）を出力にする
・主に多値分類の出力層で用いられる
＊出力層のニューロンの数を分類する数と同じにし、
それぞれの確率をソフトマックス関数で出力する。
＊全てのニューロンの確率を合計すると1になる。

ニューラルネットワークの学習
32
• ある入力に対する出力（予測結果）が正解ラベルと最大限一致するように
ニューラルネットの「重みパラメータ」を更新し、調整すること
• 損失関数で誤差を計算し、誤差逆伝播法（Backpropagation）で重みを計算する
学習とは
損失関数とは
・予測と正解の誤差を示す関数
・誤差が小さいほど優秀なモデル
・損失関数を最小化するのが学習の目的
・一般的な損失関数は
回帰：二乗誤差
分類：交差エントロピー誤差
誤差逆伝播法とは
・重みパラメータの調整手法
・微分の連鎖率と勾配降下法を用いて計算
・出力層から入力層に向けて逆方向に
重みの修正をおこなう

畳み込みニューラルネットワーク（CNN）
33
• 画像認識によく用いられるニューラルネット
• 生物の視覚野に学んだ構造
• 入力は画像データ
• 畳み込み層(Convolution layer)とプーリング層(Pooling layer)の繰り返し
CNN（Convolutional Neural Network）とは
https://products.sint.co.jp/aisia/blog/vol1-16

34
畳み込み層（Convolution layer）
• 入力画像にフィルタをかけて
特徴を抽出した特徴マップを出力
• 画像全体をフィルタがスライドし
特徴がどこにあっても抽出できる
• フィルタは誤差逆伝播法での学習に
より自動生成される
（CNNの学習とはフィルタを更新すること）
• フィルタの数だけ特徴マップが生成
される

35
プーリング層（Pooling layer）
• 特徴マップから重要な情報を残しながら
元の画像を縮小=次元削減
• プーリング層の出力が次の畳み込み層の
入力となり、新しいフィルタを生成する
• 特徴の位置感度を低下することで、
位置に対するロバスト性を高める

再帰型ニューラルネットワーク（RNN）
36
• 自然言語処理や音声認識によく用いられるニューラルネット
• ある層の出力が遡って入力される再帰結合を持つ
• 入力は時系列データ
• 過去の情報を保持しながら学習を進める
• LSTM, GRU, Attention RNN等多くの発展形がある
RNN（Recurrent Neural Network）とは
https://deepage.net/deep_learning/2017/05/23/recurrent-neural-networks.html

敵対的生成ネットワーク（GAN）
37
• 画像生成等の生成モデル（あるデータを元に新しいデータを生成する）
として用いられるニューラルネット
• 生成器（Generator）と識別器（Discriminator）から構成される
• GeneratorはDiscriminatorに偽物だと識別されないようなデータを生成し
DiscriminatorはGeneratorに騙されないように識別をおこなう
GAN（Generative Adversarial Network）とは
https://ledge.ai/gan/

機械学習入門したい人向け（基礎編）
39
 機械学習図鑑
（本屋でチラ見しただけだけど網羅的でわかりやすそうだった）
 機械学習のエッセンス
（最近ちょっと話題。
やってないからわからないけど数学の基礎から学べる）

機械学習入門したい人向け（基礎&実装編）
40
 東京大学のデータサイエンティスト
育成講座
（網羅的だしシンプルでわかりやすい。
Python触れたことない人でもとっつきやすいと思う。）
 Pythonではじめる機械学習
（最強。
機械学習について何か一冊と言われたらこれを勧めたい。）

機械学習入門したい人向け（深層学習編）
41
 ゼロから作るDeep Learning①②
（Deep Larningやるなら誰もが通る道。
フレームワークなしで構築するから勉強になる。
②は自然言語処理）
 PyTorchによる発展ディープラーニング
（Pytorchユーザーはこれやってる人が多い印象。
やってないから詳細はわかりません。
ディープラーニングのフレームワークを使った実装は
公式のtutorialとQitta以上に役立つ書籍出会えてない。）

機械学習入門したい人向け（理論編）
42
 はじめてのパターン認識
（機械学習の理論入門といえばこの本。
はじめてのとか言うから簡単だと思いがちだけど、数弱には辛い。
これができないようではPRML（黄色い本）とかは手が出ない
らしいから厳しい世界。）
 MLP/MLSシリーズ
（シリーズ通して良書ってわけではないっぽいけど、
興味あるものはやってみればいいと思う。基本むずい。
緑は入門シリーズ。深層学習は良書と噂。）

参考資料
・【書籍】Pythonではじめる機械学習~sckit-learnで学ぶ特徴量
エンジニアリングと機械学習の基礎~ （オライリー・ジャパン）
・【書籍】東京大学のデータサイエンティスト育成講座
~pythonで手を動かして学ぶデータ分析~ （マイナビ出版）
・【HP】 MathWorks社「機械学習とは？」
（https://jp.mathworks.com/discovery/machine-learning.html）
・【HP】 Platinum Data Blog
「強化学習入門〜これから強化学習を学びたい人のための基礎知識〜」
（http://blog.brainpad.co.jp/entry/2017/02/24/121500）
・【HP】その他都度リンク挿入しました
43

機械学習と深層学習入門

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to 機械学習と深層学習入門

Similar to 機械学習と深層学習入門 (16)

機械学習と深層学習入門