SlideShare a Scribd company logo
1 of 11
Download to read offline
1/11
最急降下法
宮澤 彬
総合研究大学院大学 博士前期
miyazawa-a@nii.ac.jp
July 13, 2015
(modified: December 2, 2015)
2/11
最急降下法
関数の停留点(特に極小点)を,反復的な計算で求めるにはどうすれば
よいか.接線の傾きが負である点から,0 に近づく方向に移動していけ
ばよさそうである.
O x
y
y = f (x)
f (x∞) = 0
x0 xk x∞
3/11
Armijo 条件
0 < ξ1 < 1 であるような定数 ξ1 に対して,
f (xk + αdk) ≤ f (xk) + ξ1α f (xk) · dk
を満たす α > 0 を選ぶ.この条件を Armijo 条件 1
という.
O x
y
y = f (xk) + ξ1α f (xk) · dk
y = f (xk) + α f (xk) · dk
y = f (x)
xk xk + αdk
1 スペイン語読みをするならばおそらく/arˈmixo/.
4/11
Wolfe 条件
0 < ξ1 < ξ2 < 1 であるような ξ1, ξ2 に対して
ξ2 f (xk) · dk ≤ f (xk + αdk) · dk
を満たす α > 0 を選ぶ.この条件を曲率条件 (curvature condition)
と呼ぶ.この条件と Armijo 条件を合わせて Wolfe 条件と呼ぶ.
O x
y
ξ2 f (xk)
f (xk)
y = f (x)
xk xk + αdk
5/11
Zoutendijk 条件
定理 目的関数 f (x) は下に有界で,かつ,初期点 x0 における準位集合
{x ; f (x) ≤ f (x0)} におけるを含む開集合 U において連続的微分可能
であるとする.また勾配 f (x) は U で Lipschitz 連続であるとする.
すなわち,ある正定数 L が存在して,任意の x, y ∈ U に対して
f (x) − f (y) ≤ L x − y
が成り立つとする.
このとき xk+1 = xk + αkdk を以下の条件を満たすようにとる.
各 αk が Wolfe 条件を満たす.
各 dk が降下方向である.すなわち f (xk) · dk < 0 を満たす.
すると点列 (xk)k について
∞
k=0
f (xk) · dk
dk
2
< ∞
が成り立つ.
6/11
Zoutendijk 条件
証明 曲率条件と xk+1 = xk + αkdk から
ξ2 f (xk) · dk ≤ f (xk+1) · dk
(ξ2 − 1) f (xk) · dk ≤ ( f (xk+1) − f (xk)) · dk
が成り立つ.Lipschitz 条件より
( f (xk+1) − f (xk)) · dk ≤ f (xk+1) − f (xk) dk
≤ L xk+1 − xk dk
≤ αkL dk
2
が成り立つ.これらから
αk ≥
( f (xk+1) − f (xk)) · dk
L dk
2
≥
ξ2 − 1
L
f (xk) · dk
dk
2
を得る.
7/11
Zoutendijk 条件
得られた αk を Armijo 条件に代入して
f (xk+1) ≤ f (xk) + ξ1αk f (xk) · dk
≤ f (xk) −
ξ1 (1 − ξ2)
L
( f (xk) · dk)
2
dk
2
となる.ここで k = 0 から m までの和をとると
m
k=0
(f (xk+1) − f (xk)) ≤ −
m
k=0
ξ1 (1 − ξ2)
L
( f (xk) · dk)
2
dk
2
f (xm+1) − f (x0) ≤ −
ξ1 (1 − ξ2)
L
m
k=0
( f (xk) · dk)
2
dk
2
を得る.
8/11
Zoutendijk 条件
上式の右辺は m が増加するにつれて単調に減少する.また f は下に有
界であると仮定していたので
∞
k=0
( f (xk) · dk)
2
dk
2 < ∞ (Zoutendijk)
を得る.
上の (Zoutendijk) を Zoutendijk 条件 2
と呼ぶ.
2 オランダ語読みをするならばおそらく/ˈzɑutəndɛ̞ɪk/.
9/11
Zoutendijk 条件
Zoutendijk 条件が成り立つとする.このとき
S :=
∞
k=0 ( f (xk) · dk)
2
/ dk
2
はある有限の値である.
Cauchy-Schwarz の不等式から,任意の自然数 m について
m
k=0
| f (xk) · dk|
dk
2
≤
m
k=0
( f (xk) · dk)
2
dk
2 ≤ S
が成り立つ.ゆえに
∞
k=0
| f (xk) · dk|
dk
≤
√
S
となり,この級数は収束することが分かる.したがって
| f (xk) · dk|
dk
→ 0 (k → ∞)
となる.
10/11
最急降下法の大域収束性
特に dk = − f (xk) をとる.この dk は f (xk) · dk = − f (xk)
2
< 0
を満たすので,降下方向である.さらに先に示した結果から,
| f (xk) · dk|
dk
= f (xk) → 0 (k → ∞)
を満たす.
Cauchy-Schwarz の不等式における等号成立条件から, dk を固定し
て考えたとき,この dk は f (xk) · dk を最小にするものである.つま
り最も急に減少させるものである.そのため dk = − f (xk) とする方
法を最急降下法 (steepest descent method) と呼ぶ.
11/11
参考文献・おわりに
主に以下を参考にした.
矢部博, 新・工科系の数学「工学基礎 最適化とその応用」, 数理工
学社, 2006.
また,このスライドのソースコードは
https://github.com/pecorarista/documents にある.

More Related Content

What's hot

[DL輪読会]Control as Inferenceと発展
[DL輪読会]Control as Inferenceと発展[DL輪読会]Control as Inferenceと発展
[DL輪読会]Control as Inferenceと発展Deep Learning JP
 
3D CNNによる人物行動認識の動向
3D CNNによる人物行動認識の動向3D CNNによる人物行動認識の動向
3D CNNによる人物行動認識の動向Kensho Hara
 
[DL輪読会]深層強化学習はなぜ難しいのか?Why Deep RL fails? A brief survey of recent works.
[DL輪読会]深層強化学習はなぜ難しいのか?Why Deep RL fails? A brief survey of recent works.[DL輪読会]深層強化学習はなぜ難しいのか?Why Deep RL fails? A brief survey of recent works.
[DL輪読会]深層強化学習はなぜ難しいのか?Why Deep RL fails? A brief survey of recent works.Deep Learning JP
 
FEPチュートリアル2021 講義3 「潜在変数が連続値、生成モデルが正規分布の場合」の改良版
FEPチュートリアル2021 講義3 「潜在変数が連続値、生成モデルが正規分布の場合」の改良版FEPチュートリアル2021 講義3 「潜在変数が連続値、生成モデルが正規分布の場合」の改良版
FEPチュートリアル2021 講義3 「潜在変数が連続値、生成モデルが正規分布の場合」の改良版Masatoshi Yoshida
 
機械学習モデルのハイパパラメータ最適化
機械学習モデルのハイパパラメータ最適化機械学習モデルのハイパパラメータ最適化
機械学習モデルのハイパパラメータ最適化gree_tech
 
Sift特徴量について
Sift特徴量についてSift特徴量について
Sift特徴量についてla_flance
 
【解説】 一般逆行列
【解説】 一般逆行列【解説】 一般逆行列
【解説】 一般逆行列Kenjiro Sugimoto
 
Control as Inference (強化学習とベイズ統計)
Control as Inference (強化学習とベイズ統計)Control as Inference (強化学習とベイズ統計)
Control as Inference (強化学習とベイズ統計)Shohei Taniguchi
 
連続最適化勉強会
連続最適化勉強会連続最適化勉強会
連続最適化勉強会shima o
 
はじめてのパターン認識 第5章 k最近傍法(k_nn法)
はじめてのパターン認識 第5章 k最近傍法(k_nn法)はじめてのパターン認識 第5章 k最近傍法(k_nn法)
はじめてのパターン認識 第5章 k最近傍法(k_nn法)Motoya Wakiyama
 
パターン認識と機械学習 §6.2 カーネル関数の構成
パターン認識と機械学習 §6.2 カーネル関数の構成パターン認識と機械学習 §6.2 カーネル関数の構成
パターン認識と機械学習 §6.2 カーネル関数の構成Prunus 1350
 
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習Deep Learning JP
 
最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング
最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング
最近のKaggleに学ぶテーブルデータの特徴量エンジニアリングmlm_kansai
 
第8章 ガウス過程回帰による異常検知
第8章 ガウス過程回帰による異常検知第8章 ガウス過程回帰による異常検知
第8章 ガウス過程回帰による異常検知Chika Inoshita
 
顕著性マップの推定手法
顕著性マップの推定手法顕著性マップの推定手法
顕著性マップの推定手法Takao Yamanaka
 
統計的学習理論チュートリアル: 基礎から応用まで (Ibis2012)
統計的学習理論チュートリアル: 基礎から応用まで (Ibis2012)統計的学習理論チュートリアル: 基礎から応用まで (Ibis2012)
統計的学習理論チュートリアル: 基礎から応用まで (Ibis2012)Taiji Suzuki
 
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...Deep Learning JP
 
今さら聞けないカーネル法とサポートベクターマシン
今さら聞けないカーネル法とサポートベクターマシン今さら聞けないカーネル法とサポートベクターマシン
今さら聞けないカーネル法とサポートベクターマシンShinya Shimizu
 
Introduction to A3C model
Introduction to A3C modelIntroduction to A3C model
Introduction to A3C modelWEBFARMER. ltd.
 

What's hot (20)

[DL輪読会]Control as Inferenceと発展
[DL輪読会]Control as Inferenceと発展[DL輪読会]Control as Inferenceと発展
[DL輪読会]Control as Inferenceと発展
 
3D CNNによる人物行動認識の動向
3D CNNによる人物行動認識の動向3D CNNによる人物行動認識の動向
3D CNNによる人物行動認識の動向
 
機械学習と主成分分析
機械学習と主成分分析機械学習と主成分分析
機械学習と主成分分析
 
[DL輪読会]深層強化学習はなぜ難しいのか?Why Deep RL fails? A brief survey of recent works.
[DL輪読会]深層強化学習はなぜ難しいのか?Why Deep RL fails? A brief survey of recent works.[DL輪読会]深層強化学習はなぜ難しいのか?Why Deep RL fails? A brief survey of recent works.
[DL輪読会]深層強化学習はなぜ難しいのか?Why Deep RL fails? A brief survey of recent works.
 
FEPチュートリアル2021 講義3 「潜在変数が連続値、生成モデルが正規分布の場合」の改良版
FEPチュートリアル2021 講義3 「潜在変数が連続値、生成モデルが正規分布の場合」の改良版FEPチュートリアル2021 講義3 「潜在変数が連続値、生成モデルが正規分布の場合」の改良版
FEPチュートリアル2021 講義3 「潜在変数が連続値、生成モデルが正規分布の場合」の改良版
 
機械学習モデルのハイパパラメータ最適化
機械学習モデルのハイパパラメータ最適化機械学習モデルのハイパパラメータ最適化
機械学習モデルのハイパパラメータ最適化
 
Sift特徴量について
Sift特徴量についてSift特徴量について
Sift特徴量について
 
【解説】 一般逆行列
【解説】 一般逆行列【解説】 一般逆行列
【解説】 一般逆行列
 
Control as Inference (強化学習とベイズ統計)
Control as Inference (強化学習とベイズ統計)Control as Inference (強化学習とベイズ統計)
Control as Inference (強化学習とベイズ統計)
 
連続最適化勉強会
連続最適化勉強会連続最適化勉強会
連続最適化勉強会
 
はじめてのパターン認識 第5章 k最近傍法(k_nn法)
はじめてのパターン認識 第5章 k最近傍法(k_nn法)はじめてのパターン認識 第5章 k最近傍法(k_nn法)
はじめてのパターン認識 第5章 k最近傍法(k_nn法)
 
パターン認識と機械学習 §6.2 カーネル関数の構成
パターン認識と機械学習 §6.2 カーネル関数の構成パターン認識と機械学習 §6.2 カーネル関数の構成
パターン認識と機械学習 §6.2 カーネル関数の構成
 
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習
 
最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング
最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング
最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング
 
第8章 ガウス過程回帰による異常検知
第8章 ガウス過程回帰による異常検知第8章 ガウス過程回帰による異常検知
第8章 ガウス過程回帰による異常検知
 
顕著性マップの推定手法
顕著性マップの推定手法顕著性マップの推定手法
顕著性マップの推定手法
 
統計的学習理論チュートリアル: 基礎から応用まで (Ibis2012)
統計的学習理論チュートリアル: 基礎から応用まで (Ibis2012)統計的学習理論チュートリアル: 基礎から応用まで (Ibis2012)
統計的学習理論チュートリアル: 基礎から応用まで (Ibis2012)
 
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
 
今さら聞けないカーネル法とサポートベクターマシン
今さら聞けないカーネル法とサポートベクターマシン今さら聞けないカーネル法とサポートベクターマシン
今さら聞けないカーネル法とサポートベクターマシン
 
Introduction to A3C model
Introduction to A3C modelIntroduction to A3C model
Introduction to A3C model
 

Viewers also liked

最適化超入門
最適化超入門最適化超入門
最適化超入門Takami Sato
 
勾配降下法の 最適化アルゴリズム
勾配降下法の最適化アルゴリズム勾配降下法の最適化アルゴリズム
勾配降下法の 最適化アルゴリズムnishio
 
最急降下法で制約つき最適化問題を解いてみた
最急降下法で制約つき最適化問題を解いてみた最急降下法で制約つき最適化問題を解いてみた
最急降下法で制約つき最適化問題を解いてみたKazuhiro Hishinuma
 
ウィナーフィルタと適応フィルタ
ウィナーフィルタと適応フィルタウィナーフィルタと適応フィルタ
ウィナーフィルタと適応フィルタToshihisa Tanaka
 
5分で分かる自己組織化マップ
5分で分かる自己組織化マップ5分で分かる自己組織化マップ
5分で分かる自己組織化マップDaisuke Takai
 
PRMLの線形回帰モデル(線形基底関数モデル)
PRMLの線形回帰モデル(線形基底関数モデル)PRMLの線形回帰モデル(線形基底関数モデル)
PRMLの線形回帰モデル(線形基底関数モデル)Yasunori Ozaki
 

Viewers also liked (6)

最適化超入門
最適化超入門最適化超入門
最適化超入門
 
勾配降下法の 最適化アルゴリズム
勾配降下法の最適化アルゴリズム勾配降下法の最適化アルゴリズム
勾配降下法の 最適化アルゴリズム
 
最急降下法で制約つき最適化問題を解いてみた
最急降下法で制約つき最適化問題を解いてみた最急降下法で制約つき最適化問題を解いてみた
最急降下法で制約つき最適化問題を解いてみた
 
ウィナーフィルタと適応フィルタ
ウィナーフィルタと適応フィルタウィナーフィルタと適応フィルタ
ウィナーフィルタと適応フィルタ
 
5分で分かる自己組織化マップ
5分で分かる自己組織化マップ5分で分かる自己組織化マップ
5分で分かる自己組織化マップ
 
PRMLの線形回帰モデル(線形基底関数モデル)
PRMLの線形回帰モデル(線形基底関数モデル)PRMLの線形回帰モデル(線形基底関数モデル)
PRMLの線形回帰モデル(線形基底関数モデル)
 

Similar to 最急降下法

060 期待値・中心極限定理
060 期待値・中心極限定理060 期待値・中心極限定理
060 期待値・中心極限定理t2tarumi
 
20170327_レムニスケートにまつわる色々な計算
20170327_レムニスケートにまつわる色々な計算20170327_レムニスケートにまつわる色々な計算
20170327_レムニスケートにまつわる色々な計算matsumoring
 
050 確率と確率分布
050 確率と確率分布050 確率と確率分布
050 確率と確率分布t2tarumi
 
wq-1. ポアソン分布、指数分布、アーラン分布
wq-1. ポアソン分布、指数分布、アーラン分布wq-1. ポアソン分布、指数分布、アーラン分布
wq-1. ポアソン分布、指数分布、アーラン分布kunihikokaneko1
 
東京都市大学 データ解析入門 6 回帰分析とモデル選択 1
東京都市大学 データ解析入門 6 回帰分析とモデル選択 1東京都市大学 データ解析入門 6 回帰分析とモデル選択 1
東京都市大学 データ解析入門 6 回帰分析とモデル選択 1hirokazutanaka
 
高速フーリエ変換
高速フーリエ変換高速フーリエ変換
高速フーリエ変換AtCoder Inc.
 
Nonparametric Factor Analysis with Beta Process Priors の式解説
Nonparametric Factor Analysis with Beta Process Priors の式解説Nonparametric Factor Analysis with Beta Process Priors の式解説
Nonparametric Factor Analysis with Beta Process Priors の式解説Tomonari Masada
 
半正定値計画問題と最大カット Sedemifinite Programming and Approximation Algorithm for Maxcu...
半正定値計画問題と最大カット Sedemifinite Programming and Approximation Algorithm for Maxcu...半正定値計画問題と最大カット Sedemifinite Programming and Approximation Algorithm for Maxcu...
半正定値計画問題と最大カット Sedemifinite Programming and Approximation Algorithm for Maxcu...Yuya Masumura
 
カーネル法:正定値カーネルの理論
カーネル法:正定値カーネルの理論カーネル法:正定値カーネルの理論
カーネル法:正定値カーネルの理論Daiki Tanaka
 
ガンマ分布族のなす空間の曲率
ガンマ分布族のなす空間の曲率ガンマ分布族のなす空間の曲率
ガンマ分布族のなす空間の曲率Masaki Asano
 
整数格子点上の劣モジュラ被覆に対する高速アルゴリズム
整数格子点上の劣モジュラ被覆に対する高速アルゴリズム整数格子点上の劣モジュラ被覆に対する高速アルゴリズム
整数格子点上の劣モジュラ被覆に対する高速アルゴリズムTasuku Soma
 
2014年度秋学期 応用数学(解析) 第2部・基本的な微分方程式 / 第5回 微分方程式とは,変数分離形 (2014. 10. 23)
2014年度秋学期 応用数学(解析) 第2部・基本的な微分方程式 / 第5回 微分方程式とは,変数分離形 (2014. 10. 23)2014年度秋学期 応用数学(解析) 第2部・基本的な微分方程式 / 第5回 微分方程式とは,変数分離形 (2014. 10. 23)
2014年度秋学期 応用数学(解析) 第2部・基本的な微分方程式 / 第5回 微分方程式とは,変数分離形 (2014. 10. 23)Akira Asano
 
Scala 初心者が米田の補題を Scala で考えてみた
Scala 初心者が米田の補題を Scala で考えてみたScala 初心者が米田の補題を Scala で考えてみた
Scala 初心者が米田の補題を Scala で考えてみたKazuyuki TAKASE
 
導来代数幾何入門
導来代数幾何入門導来代数幾何入門
導来代数幾何入門Naoya Umezaki
 

Similar to 最急降下法 (20)

060 期待値・中心極限定理
060 期待値・中心極限定理060 期待値・中心極限定理
060 期待値・中心極限定理
 
PRML 10.4 - 10.6
PRML 10.4 - 10.6PRML 10.4 - 10.6
PRML 10.4 - 10.6
 
20170327_レムニスケートにまつわる色々な計算
20170327_レムニスケートにまつわる色々な計算20170327_レムニスケートにまつわる色々な計算
20170327_レムニスケートにまつわる色々な計算
 
統計概論 isseing333
統計概論 isseing333統計概論 isseing333
統計概論 isseing333
 
050 確率と確率分布
050 確率と確率分布050 確率と確率分布
050 確率と確率分布
 
wq-1. ポアソン分布、指数分布、アーラン分布
wq-1. ポアソン分布、指数分布、アーラン分布wq-1. ポアソン分布、指数分布、アーラン分布
wq-1. ポアソン分布、指数分布、アーラン分布
 
東京都市大学 データ解析入門 6 回帰分析とモデル選択 1
東京都市大学 データ解析入門 6 回帰分析とモデル選択 1東京都市大学 データ解析入門 6 回帰分析とモデル選択 1
東京都市大学 データ解析入門 6 回帰分析とモデル選択 1
 
回帰
回帰回帰
回帰
 
高速フーリエ変換
高速フーリエ変換高速フーリエ変換
高速フーリエ変換
 
Nonparametric Factor Analysis with Beta Process Priors の式解説
Nonparametric Factor Analysis with Beta Process Priors の式解説Nonparametric Factor Analysis with Beta Process Priors の式解説
Nonparametric Factor Analysis with Beta Process Priors の式解説
 
半正定値計画問題と最大カット Sedemifinite Programming and Approximation Algorithm for Maxcu...
半正定値計画問題と最大カット Sedemifinite Programming and Approximation Algorithm for Maxcu...半正定値計画問題と最大カット Sedemifinite Programming and Approximation Algorithm for Maxcu...
半正定値計画問題と最大カット Sedemifinite Programming and Approximation Algorithm for Maxcu...
 
カーネル法:正定値カーネルの理論
カーネル法:正定値カーネルの理論カーネル法:正定値カーネルの理論
カーネル法:正定値カーネルの理論
 
ガンマ分布族のなす空間の曲率
ガンマ分布族のなす空間の曲率ガンマ分布族のなす空間の曲率
ガンマ分布族のなす空間の曲率
 
整数格子点上の劣モジュラ被覆に対する高速アルゴリズム
整数格子点上の劣モジュラ被覆に対する高速アルゴリズム整数格子点上の劣モジュラ被覆に対する高速アルゴリズム
整数格子点上の劣モジュラ被覆に対する高速アルゴリズム
 
2014年度秋学期 応用数学(解析) 第2部・基本的な微分方程式 / 第5回 微分方程式とは,変数分離形 (2014. 10. 23)
2014年度秋学期 応用数学(解析) 第2部・基本的な微分方程式 / 第5回 微分方程式とは,変数分離形 (2014. 10. 23)2014年度秋学期 応用数学(解析) 第2部・基本的な微分方程式 / 第5回 微分方程式とは,変数分離形 (2014. 10. 23)
2014年度秋学期 応用数学(解析) 第2部・基本的な微分方程式 / 第5回 微分方程式とは,変数分離形 (2014. 10. 23)
 
Scala 初心者が米田の補題を Scala で考えてみた
Scala 初心者が米田の補題を Scala で考えてみたScala 初心者が米田の補題を Scala で考えてみた
Scala 初心者が米田の補題を Scala で考えてみた
 
Prml07
Prml07Prml07
Prml07
 
ndwave3.pdf
ndwave3.pdfndwave3.pdf
ndwave3.pdf
 
linhyp.pdf
linhyp.pdflinhyp.pdf
linhyp.pdf
 
導来代数幾何入門
導来代数幾何入門導来代数幾何入門
導来代数幾何入門
 

More from Akira Miyazawa

LuaTeX-jaとbeamerで言語学関連のスライドを作る
LuaTeX-jaとbeamerで言語学関連のスライドを作るLuaTeX-jaとbeamerで言語学関連のスライドを作る
LuaTeX-jaとbeamerで言語学関連のスライドを作るAkira Miyazawa
 
メタファーの自動生成に向けた客観的評価指標の検討
メタファーの自動生成に向けた客観的評価指標の検討メタファーの自動生成に向けた客観的評価指標の検討
メタファーの自動生成に向けた客観的評価指標の検討Akira Miyazawa
 
An incremental algorithm for transition-based CCG parsing
An incremental algorithm for transition-based CCG parsingAn incremental algorithm for transition-based CCG parsing
An incremental algorithm for transition-based CCG parsingAkira Miyazawa
 
スペクトラル・クラスタリング
スペクトラル・クラスタリングスペクトラル・クラスタリング
スペクトラル・クラスタリングAkira Miyazawa
 
Foundations of Statistical Natural Language Processing (chapter 5)
Foundations of Statistical Natural Language Processing (chapter 5)Foundations of Statistical Natural Language Processing (chapter 5)
Foundations of Statistical Natural Language Processing (chapter 5)Akira Miyazawa
 

More from Akira Miyazawa (7)

LuaTeX-jaとbeamerで言語学関連のスライドを作る
LuaTeX-jaとbeamerで言語学関連のスライドを作るLuaTeX-jaとbeamerで言語学関連のスライドを作る
LuaTeX-jaとbeamerで言語学関連のスライドを作る
 
メタファーの自動生成に向けた客観的評価指標の検討
メタファーの自動生成に向けた客観的評価指標の検討メタファーの自動生成に向けた客観的評価指標の検討
メタファーの自動生成に向けた客観的評価指標の検討
 
An incremental algorithm for transition-based CCG parsing
An incremental algorithm for transition-based CCG parsingAn incremental algorithm for transition-based CCG parsing
An incremental algorithm for transition-based CCG parsing
 
PRML 第14章
PRML 第14章PRML 第14章
PRML 第14章
 
スペクトラル・クラスタリング
スペクトラル・クラスタリングスペクトラル・クラスタリング
スペクトラル・クラスタリング
 
PRML 第4章
PRML 第4章PRML 第4章
PRML 第4章
 
Foundations of Statistical Natural Language Processing (chapter 5)
Foundations of Statistical Natural Language Processing (chapter 5)Foundations of Statistical Natural Language Processing (chapter 5)
Foundations of Statistical Natural Language Processing (chapter 5)
 

最急降下法

  • 3. 3/11 Armijo 条件 0 < ξ1 < 1 であるような定数 ξ1 に対して, f (xk + αdk) ≤ f (xk) + ξ1α f (xk) · dk を満たす α > 0 を選ぶ.この条件を Armijo 条件 1 という. O x y y = f (xk) + ξ1α f (xk) · dk y = f (xk) + α f (xk) · dk y = f (x) xk xk + αdk 1 スペイン語読みをするならばおそらく/arˈmixo/.
  • 4. 4/11 Wolfe 条件 0 < ξ1 < ξ2 < 1 であるような ξ1, ξ2 に対して ξ2 f (xk) · dk ≤ f (xk + αdk) · dk を満たす α > 0 を選ぶ.この条件を曲率条件 (curvature condition) と呼ぶ.この条件と Armijo 条件を合わせて Wolfe 条件と呼ぶ. O x y ξ2 f (xk) f (xk) y = f (x) xk xk + αdk
  • 5. 5/11 Zoutendijk 条件 定理 目的関数 f (x) は下に有界で,かつ,初期点 x0 における準位集合 {x ; f (x) ≤ f (x0)} におけるを含む開集合 U において連続的微分可能 であるとする.また勾配 f (x) は U で Lipschitz 連続であるとする. すなわち,ある正定数 L が存在して,任意の x, y ∈ U に対して f (x) − f (y) ≤ L x − y が成り立つとする. このとき xk+1 = xk + αkdk を以下の条件を満たすようにとる. 各 αk が Wolfe 条件を満たす. 各 dk が降下方向である.すなわち f (xk) · dk < 0 を満たす. すると点列 (xk)k について ∞ k=0 f (xk) · dk dk 2 < ∞ が成り立つ.
  • 6. 6/11 Zoutendijk 条件 証明 曲率条件と xk+1 = xk + αkdk から ξ2 f (xk) · dk ≤ f (xk+1) · dk (ξ2 − 1) f (xk) · dk ≤ ( f (xk+1) − f (xk)) · dk が成り立つ.Lipschitz 条件より ( f (xk+1) − f (xk)) · dk ≤ f (xk+1) − f (xk) dk ≤ L xk+1 − xk dk ≤ αkL dk 2 が成り立つ.これらから αk ≥ ( f (xk+1) − f (xk)) · dk L dk 2 ≥ ξ2 − 1 L f (xk) · dk dk 2 を得る.
  • 7. 7/11 Zoutendijk 条件 得られた αk を Armijo 条件に代入して f (xk+1) ≤ f (xk) + ξ1αk f (xk) · dk ≤ f (xk) − ξ1 (1 − ξ2) L ( f (xk) · dk) 2 dk 2 となる.ここで k = 0 から m までの和をとると m k=0 (f (xk+1) − f (xk)) ≤ − m k=0 ξ1 (1 − ξ2) L ( f (xk) · dk) 2 dk 2 f (xm+1) − f (x0) ≤ − ξ1 (1 − ξ2) L m k=0 ( f (xk) · dk) 2 dk 2 を得る.
  • 8. 8/11 Zoutendijk 条件 上式の右辺は m が増加するにつれて単調に減少する.また f は下に有 界であると仮定していたので ∞ k=0 ( f (xk) · dk) 2 dk 2 < ∞ (Zoutendijk) を得る. 上の (Zoutendijk) を Zoutendijk 条件 2 と呼ぶ. 2 オランダ語読みをするならばおそらく/ˈzɑutəndɛ̞ɪk/.
  • 9. 9/11 Zoutendijk 条件 Zoutendijk 条件が成り立つとする.このとき S := ∞ k=0 ( f (xk) · dk) 2 / dk 2 はある有限の値である. Cauchy-Schwarz の不等式から,任意の自然数 m について m k=0 | f (xk) · dk| dk 2 ≤ m k=0 ( f (xk) · dk) 2 dk 2 ≤ S が成り立つ.ゆえに ∞ k=0 | f (xk) · dk| dk ≤ √ S となり,この級数は収束することが分かる.したがって | f (xk) · dk| dk → 0 (k → ∞) となる.
  • 10. 10/11 最急降下法の大域収束性 特に dk = − f (xk) をとる.この dk は f (xk) · dk = − f (xk) 2 < 0 を満たすので,降下方向である.さらに先に示した結果から, | f (xk) · dk| dk = f (xk) → 0 (k → ∞) を満たす. Cauchy-Schwarz の不等式における等号成立条件から, dk を固定し て考えたとき,この dk は f (xk) · dk を最小にするものである.つま り最も急に減少させるものである.そのため dk = − f (xk) とする方 法を最急降下法 (steepest descent method) と呼ぶ.
  • 11. 11/11 参考文献・おわりに 主に以下を参考にした. 矢部博, 新・工科系の数学「工学基礎 最適化とその応用」, 数理工 学社, 2006. また,このスライドのソースコードは https://github.com/pecorarista/documents にある.