岩波データサイエンス Vol.5
[特集]
スパースモデリングと
多変量データ解析
2017/3/20 岩波データサイエンス Vol.5 1
この本
• 岩波データサイエンス Vol.5
• [特集]
スパースモデリングと多変量
データ解析
– 岩波データサイエンス刊⾏委
員会 編
– 2017年2⽉刊⾏
– 岩波書店
2017/3/20 岩波データサイエンス Vol.5 2
目次
• 特集「スパースモデリングと多変量
データ解析」
• 池田・伊庭・麻生
<基礎編>
• モデル選択超速習
– AICからスパースまで
• 伊庭幸人
• スパース性を用いた推定
• 池田思朗
• スパースモデリングを体験してみる
• 岩波データサイエンス刊⾏委員会
<展開編>
• 依存関係にスパース性を入れる
– グラフィカルlassoの話
• 井手剛
• 画像処理とスパース
• 本谷秀堅
• 時間遷移のスパース性
– マーケットシェアの遷移を捉える
スパースグラフモデリング
• 日野英逸
<応用編>
• ⾏列データの分解
• 麻生英樹
– <コラム>⾏列のトレースノルム
– 麻生英樹
• ⾏列分解をリコメンデーションに活かす
– Rによる実践例
• 尾崎隆
2017/3/20 岩波データサイエンス Vol.5 3
「スパースモデリングと多変量データ解析」
• 10年前の海外の理論分野の学会
» (統計学、情報理論、信号処理等)
– “スパースモデリング”で埋め尽くされていた
– その中心 ・・・ “L1ノルムによる正則化”
– 「L2ノルムが20世紀のノルムだとすればL1ノルムは21世紀のノルムだ」
(Candes) (…いささか大げさ?)
• L1ノルム正則化を用いることで
それまで諦めていた情報処理が可能になったことは事実
2017/3/20 岩波データサイエンス Vol.5 4
「スパースモデリングと多変量データ解析」
• 【海外】
– 理論的枠組みが確⽴すると、、、
– ⇒ 他の分野での問題に応用
– ⇒ あらゆるデータ解析において取り込まれる
– ⇒“スパースモデリング”は基礎的な方法としてすっかり定着
• 【国内】 〜 状況は少し異なる
– 1980年代後半に石川眞澄の先駆的な研究はあったが、、、
⇒ 流⾏を作るまでには⾄らず・・・
– 2010年代から“スパースモデリング”注目
⇒今、まさに普及している時期
2017/3/20 岩波データサイエンス Vol.5 5
「スパースモデリングと多変量データ解析」
• 本特集では スパースモデリングを概観
– 基礎的な枠組みを示し、
何ができて、どうやればいいのか を解説
– 応用、実践もあり
• ビジネスへの応用もすでに始まっているが、
• 実際の普及はまだまだこれからだろう
• ⇒本書が、応用を目指すDSの役に⽴てれば・・・
• できるだけ実践的な面を強調(≠数理⾯強調)
• ビジネスへの応用を意識した⾏列分解⼿法の解説も加えた
2017/3/20 岩波データサイエンス Vol.5 6
「スパースモデリングと多変量データ解析」
<基礎編>
• 「モデル選択超速習」(伊庭)
• “スパース以前”のモデル選択をめぐる諸問題
• ⇒スパースモデリングの位置付け
• 「スパース性を用いた推定」(池田)
• “本特集の要”
• 「lasso」(・・・スパースモデリングの代表格)の
入門、実用上の注意、バリエーション、数値計算手法
• 「スパースモデリングを体験してみる」(岩波DS刊⾏委員会)
• R での実⾏例
2017/3/20 岩波データサイエンス Vol.5 7
「スパースモデリングと多変量データ解析」
<展開編>
• 「依存関係にスパース性を入れる」(井手)
• ガウス型のグラフィカルモデル (→ Vol.3参照)
• 考えるのは、“直接的な影響”と“間接的なものを含んだ影響”の違い
• 「画像処理とスパース」(本谷)
• “辞書”の概念を用いた画像処理において
スパースの考え方がどのように使われるか、が示される
• 「時間遷移のスパース性」(日野)
• マルコフ連鎖モデルの遷移⾏列の推定にスパースモデルを応用
• 最近の研究;ビジネスデータへの応用例としても興味深い
2017/3/20 岩波データサイエンス Vol.5 8
「スパースモデリングと多変量データ解析」
<応用編>
• 「⾏列データの分解」(麻生)
• 特異値分解や主成分分析などの古典的話題からはじめて、
• スパースモデリングや非負値の制約付きの分解までをコンパクトに
• “知識の整理”にもお勧め
• 「⾏列分解をリコメンデーションに活かす」(尾崎)
• ⾏列分解の“実践編”
• R のパッケージを利用;リコメンデーションへの応用例
2017/3/20 岩波データサイエンス Vol.5 9
その他の参考文献
• [1]荒木孝治(2013), 罰則付き回帰とデータ解析環境R, オペレーションズリサーチ, 2013年5⽉号
• [2]Hastie, T., and Tibshirani, R. (2014), 統計的学習の基礎: データマイニング・推論・予測,
共⽴出版
• [3]廣瀬慧(2014), Lasso タイプの正則化法に基づくスパース推定法を用いた超高次元データ解析,
数理解析研究所講究録 1908 : 57-77
(http://www.kurims.kyoto-u.ac.jp/~kyodo/kokyuroku/contents/pdf/1908-05.pdf)
• [4]⿅島久嗣, 「数理情報⼯学特論第⼀【機械学習とデータマイニング】1章:概論(3)」講義資
料(www.geocities.co.jp/kashi_pong/1-3.pdf)
• [5]冨岡亮太(2015), スパース性に基づく機械学習, 講談社
• [6]山下信雄(2013), Coordinate Descent 法について, 「最適化の基盤とフロンティア」研究部会
講演資料
(https://www.slideshare.net/amp-kyoto/coordinate-descent)
• [7] Das, K. and Sobel, M.(2015), Dirichlet Lasso: A Bayesian approach to variable
selection, Statistical Modelling, vol.15 (3) (2015), 215–232
• [8] Efron, B., Hastie, T., Johnstone, I., and Tibshirani, R. (2004), Least Angle
Regression(with discussion), The Annals of Statistics, 32, 407–499.
2017/3/20 岩波データサイエンス Vol.5 10

岩波データサイエンス_Vol.5_勉強会資料00