Submit Search
Upload
データサイエンス概論第一=3-1 線形代数に基づくデータ解析の基礎
•
Download as PPTX, PDF
•
11 likes
•
4,639 views
S
Seiichi Uchida
Follow
九州大学大学院システム情報科学研究院「データサイエンス実践特別講座」が贈る,数理・情報系『でない』学生さんのための「データサイエンス講義
Read less
Read more
Data & Analytics
Report
Share
Report
Share
1 of 65
Download now
Recommended
データサイエンス概論第一=2-2 クラスタリング
データサイエンス概論第一=2-2 クラスタリング
Seiichi Uchida
データサイエンス概論第一=3-2 主成分分析と因子分析
データサイエンス概論第一=3-2 主成分分析と因子分析
Seiichi Uchida
データサイエンス概論第一=1-1 データとは
データサイエンス概論第一=1-1 データとは
Seiichi Uchida
データサイエンス概論第一=2-1 データ間の距離と類似度
データサイエンス概論第一=2-1 データ間の距離と類似度
Seiichi Uchida
データサイエンス概論第一=4-1 相関・頻度・ヒストグラム
データサイエンス概論第一=4-1 相関・頻度・ヒストグラム
Seiichi Uchida
データサイエンス概論第一=0 まえがき
データサイエンス概論第一=0 まえがき
Seiichi Uchida
データサイエンス概論第一=8 パターン認識と深層学習
データサイエンス概論第一=8 パターン認識と深層学習
Seiichi Uchida
データサイエンス概論第一=1-2 データのベクトル表現と集合
データサイエンス概論第一=1-2 データのベクトル表現と集合
Seiichi Uchida
Recommended
データサイエンス概論第一=2-2 クラスタリング
データサイエンス概論第一=2-2 クラスタリング
Seiichi Uchida
データサイエンス概論第一=3-2 主成分分析と因子分析
データサイエンス概論第一=3-2 主成分分析と因子分析
Seiichi Uchida
データサイエンス概論第一=1-1 データとは
データサイエンス概論第一=1-1 データとは
Seiichi Uchida
データサイエンス概論第一=2-1 データ間の距離と類似度
データサイエンス概論第一=2-1 データ間の距離と類似度
Seiichi Uchida
データサイエンス概論第一=4-1 相関・頻度・ヒストグラム
データサイエンス概論第一=4-1 相関・頻度・ヒストグラム
Seiichi Uchida
データサイエンス概論第一=0 まえがき
データサイエンス概論第一=0 まえがき
Seiichi Uchida
データサイエンス概論第一=8 パターン認識と深層学習
データサイエンス概論第一=8 パターン認識と深層学習
Seiichi Uchida
データサイエンス概論第一=1-2 データのベクトル表現と集合
データサイエンス概論第一=1-2 データのベクトル表現と集合
Seiichi Uchida
データサイエンス概論第一 6 異常検出
データサイエンス概論第一 6 異常検出
Seiichi Uchida
異常検知と変化検知 9章 部分空間法による変化点検知
異常検知と変化検知 9章 部分空間法による変化点検知
hagino 3000
データサイエンス概論第一=4-2 確率と確率分布
データサイエンス概論第一=4-2 確率と確率分布
Seiichi Uchida
データサイエンス概論第一=3-3 回帰分析
データサイエンス概論第一=3-3 回帰分析
Seiichi Uchida
主成分分析
主成分分析
大貴 末廣
13 分類とパターン認識
13 分類とパターン認識
Seiichi Uchida
1 データとデータ分析
1 データとデータ分析
Seiichi Uchida
因果推論の基礎
因果推論の基礎
Hatsuru Morita
5 クラスタリングと異常検出
5 クラスタリングと異常検出
Seiichi Uchida
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)
Yoshitaka Ushiku
データ解析7 主成分分析の基礎
データ解析7 主成分分析の基礎
Hirotaka Hachiya
クラシックな機械学習の入門 11.評価方法
クラシックな機械学習の入門 11.評価方法
Hiroshi Nakagawa
データサイエンス概論第一=1-3 平均と分散
データサイエンス概論第一=1-3 平均と分散
Seiichi Uchida
データサイエンス概論第一 5 時系列データの解析
データサイエンス概論第一 5 時系列データの解析
Seiichi Uchida
機械学習におけるオンライン確率的最適化の理論
機械学習におけるオンライン確率的最適化の理論
Taiji Suzuki
距離とクラスタリング
距離とクラスタリング
大貴 末廣
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
tmtm otm
0 データサイエンス概論まえがき
0 データサイエンス概論まえがき
Seiichi Uchida
【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたい
【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたい
Takuji Tahara
強化学習その1
強化学習その1
nishio
九大_DS実践_距離とクラスタリング
九大_DS実践_距離とクラスタリング
RyomaBise1
[Tokyor08] Rによるデータサイエンス第2部 第3章 対応分析
[Tokyor08] Rによるデータサイエンス第2部 第3章 対応分析
Yohei Sato
More Related Content
What's hot
データサイエンス概論第一 6 異常検出
データサイエンス概論第一 6 異常検出
Seiichi Uchida
異常検知と変化検知 9章 部分空間法による変化点検知
異常検知と変化検知 9章 部分空間法による変化点検知
hagino 3000
データサイエンス概論第一=4-2 確率と確率分布
データサイエンス概論第一=4-2 確率と確率分布
Seiichi Uchida
データサイエンス概論第一=3-3 回帰分析
データサイエンス概論第一=3-3 回帰分析
Seiichi Uchida
主成分分析
主成分分析
大貴 末廣
13 分類とパターン認識
13 分類とパターン認識
Seiichi Uchida
1 データとデータ分析
1 データとデータ分析
Seiichi Uchida
因果推論の基礎
因果推論の基礎
Hatsuru Morita
5 クラスタリングと異常検出
5 クラスタリングと異常検出
Seiichi Uchida
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)
Yoshitaka Ushiku
データ解析7 主成分分析の基礎
データ解析7 主成分分析の基礎
Hirotaka Hachiya
クラシックな機械学習の入門 11.評価方法
クラシックな機械学習の入門 11.評価方法
Hiroshi Nakagawa
データサイエンス概論第一=1-3 平均と分散
データサイエンス概論第一=1-3 平均と分散
Seiichi Uchida
データサイエンス概論第一 5 時系列データの解析
データサイエンス概論第一 5 時系列データの解析
Seiichi Uchida
機械学習におけるオンライン確率的最適化の理論
機械学習におけるオンライン確率的最適化の理論
Taiji Suzuki
距離とクラスタリング
距離とクラスタリング
大貴 末廣
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
tmtm otm
0 データサイエンス概論まえがき
0 データサイエンス概論まえがき
Seiichi Uchida
【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたい
【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたい
Takuji Tahara
強化学習その1
強化学習その1
nishio
What's hot
(20)
データサイエンス概論第一 6 異常検出
データサイエンス概論第一 6 異常検出
異常検知と変化検知 9章 部分空間法による変化点検知
異常検知と変化検知 9章 部分空間法による変化点検知
データサイエンス概論第一=4-2 確率と確率分布
データサイエンス概論第一=4-2 確率と確率分布
データサイエンス概論第一=3-3 回帰分析
データサイエンス概論第一=3-3 回帰分析
主成分分析
主成分分析
13 分類とパターン認識
13 分類とパターン認識
1 データとデータ分析
1 データとデータ分析
因果推論の基礎
因果推論の基礎
5 クラスタリングと異常検出
5 クラスタリングと異常検出
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)
データ解析7 主成分分析の基礎
データ解析7 主成分分析の基礎
クラシックな機械学習の入門 11.評価方法
クラシックな機械学習の入門 11.評価方法
データサイエンス概論第一=1-3 平均と分散
データサイエンス概論第一=1-3 平均と分散
データサイエンス概論第一 5 時系列データの解析
データサイエンス概論第一 5 時系列データの解析
機械学習におけるオンライン確率的最適化の理論
機械学習におけるオンライン確率的最適化の理論
距離とクラスタリング
距離とクラスタリング
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
0 データサイエンス概論まえがき
0 データサイエンス概論まえがき
【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたい
【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたい
強化学習その1
強化学習その1
Similar to データサイエンス概論第一=3-1 線形代数に基づくデータ解析の基礎
九大_DS実践_距離とクラスタリング
九大_DS実践_距離とクラスタリング
RyomaBise1
[Tokyor08] Rによるデータサイエンス第2部 第3章 対応分析
[Tokyor08] Rによるデータサイエンス第2部 第3章 対応分析
Yohei Sato
Stat r 9_principal
Stat r 9_principal
fusion2011
presentation for padoc
presentation for padoc
Masato Nakai
[論文解説]A Bayesian Perspective on Generalization and Stochastic Gradient Descent
[論文解説]A Bayesian Perspective on Generalization and Stochastic Gradient Descent
Ryutaro Yamauchi
ae-3. ディープラーニングの基礎
ae-3. ディープラーニングの基礎
kunihikokaneko1
続・心理学のためのpsychパッケージ
続・心理学のためのpsychパッケージ
考司 小杉
修士論文発表:「非負値行列分解における漸近的Bayes汎化誤差」
修士論文発表:「非負値行列分解における漸近的Bayes汎化誤差」
Naoki Hayashi
ae-11. 実データの分析,意味の抽出,外れ値の判断
ae-11. 実データの分析,意味の抽出,外れ値の判断
kunihikokaneko1
Similar to データサイエンス概論第一=3-1 線形代数に基づくデータ解析の基礎
(9)
九大_DS実践_距離とクラスタリング
九大_DS実践_距離とクラスタリング
[Tokyor08] Rによるデータサイエンス第2部 第3章 対応分析
[Tokyor08] Rによるデータサイエンス第2部 第3章 対応分析
Stat r 9_principal
Stat r 9_principal
presentation for padoc
presentation for padoc
[論文解説]A Bayesian Perspective on Generalization and Stochastic Gradient Descent
[論文解説]A Bayesian Perspective on Generalization and Stochastic Gradient Descent
ae-3. ディープラーニングの基礎
ae-3. ディープラーニングの基礎
続・心理学のためのpsychパッケージ
続・心理学のためのpsychパッケージ
修士論文発表:「非負値行列分解における漸近的Bayes汎化誤差」
修士論文発表:「非負値行列分解における漸近的Bayes汎化誤差」
ae-11. 実データの分析,意味の抽出,外れ値の判断
ae-11. 実データの分析,意味の抽出,外れ値の判断
More from Seiichi Uchida
9 可視化
9 可視化
Seiichi Uchida
12 非構造化データ解析
12 非構造化データ解析
Seiichi Uchida
15 人工知能入門
15 人工知能入門
Seiichi Uchida
14 データ収集とバイアス
14 データ収集とバイアス
Seiichi Uchida
10 確率と確率分布
10 確率と確率分布
Seiichi Uchida
8 予測と回帰分析
8 予測と回帰分析
Seiichi Uchida
7 主成分分析
7 主成分分析
Seiichi Uchida
6 線形代数に基づくデータ解析の基礎
6 線形代数に基づくデータ解析の基礎
Seiichi Uchida
4 データ間の距離と類似度
4 データ間の距離と類似度
Seiichi Uchida
3 平均・分散・相関
3 平均・分散・相関
Seiichi Uchida
2 データのベクトル表現と集合
2 データのベクトル表現と集合
Seiichi Uchida
「あなたがいま読んでいるものは文字です」~画像情報学から見た文字研究のこれから
「あなたがいま読んでいるものは文字です」~画像情報学から見た文字研究のこれから
Seiichi Uchida
Machine learning for document analysis and understanding
Machine learning for document analysis and understanding
Seiichi Uchida
データサイエンス概論第一=7 画像処理
データサイエンス概論第一=7 画像処理
Seiichi Uchida
An opening talk at ICDAR2017 Future Workshop - Beyond 100%
An opening talk at ICDAR2017 Future Workshop - Beyond 100%
Seiichi Uchida
More from Seiichi Uchida
(15)
9 可視化
9 可視化
12 非構造化データ解析
12 非構造化データ解析
15 人工知能入門
15 人工知能入門
14 データ収集とバイアス
14 データ収集とバイアス
10 確率と確率分布
10 確率と確率分布
8 予測と回帰分析
8 予測と回帰分析
7 主成分分析
7 主成分分析
6 線形代数に基づくデータ解析の基礎
6 線形代数に基づくデータ解析の基礎
4 データ間の距離と類似度
4 データ間の距離と類似度
3 平均・分散・相関
3 平均・分散・相関
2 データのベクトル表現と集合
2 データのベクトル表現と集合
「あなたがいま読んでいるものは文字です」~画像情報学から見た文字研究のこれから
「あなたがいま読んでいるものは文字です」~画像情報学から見た文字研究のこれから
Machine learning for document analysis and understanding
Machine learning for document analysis and understanding
データサイエンス概論第一=7 画像処理
データサイエンス概論第一=7 画像処理
An opening talk at ICDAR2017 Future Workshop - Beyond 100%
An opening talk at ICDAR2017 Future Workshop - Beyond 100%
データサイエンス概論第一=3-1 線形代数に基づくデータ解析の基礎
1.
1 九州大学大学院システム情報科学研究院 データサイエンス実践特別講座 データサイエンス概論第一 第3回 主成分分析と回帰分析: 3-1 線形代数に基づくデータ解析の基礎 システム情報科学研究院情報知能工学部門 内田誠一
2.
2 データサイエンス概論第一の内容 データとは データのベクトル表現と集合
平均と分散 データ間の距離 データ間の類似度 データのクラスタリング (グルーピング) 線形代数に基づくデータ解析の基礎 主成分分析と因子分析 回帰分析 相関・頻度・ヒストグラム 確率と確率分布 信頼区間と統計的検定 時系列データの解析 異常検出
3.
3 ちょっと「くどい」感じですが, これがわからないと 主成分分析もよくわからないと思います 線形代数に基づくデータの解析
「分析」の基本的な考え方 ベクトルの分解と合成 基底 完全にもとに戻らくなくてもOKなケース 画像で考えてみる データ解析に適した基底とは何か? データ集合の主成分分析 主成分分析の原理 主成分分析でわかること(その1) 顔画像データ集合を例に主成分分析 の挙動を理解する 主成分を求める実際の方法 主成分分析でわかること(その2) 因子分析との関係 データ集合に関する回帰 「回帰による予測」の基本的考え方 「モデルあてはめ」の方法 重回帰分析 より複雑なモデルの利用 回帰分析で注意したい点
4.
4 線形代数に基づく データの解析 ベクトルと内積さえわかればOK! これを学べば主成分分析やフーリエ解析など 非常によくわかります!
5.
5 線形代数に基づくデータの解析① 「分析」の基本的な考え方 あなたのカレーにジャガイモは何グラム入ってる?
6.
66 「分析」とは? (デジタル大辞泉より) 1. 複雑な事柄を一つ一つの要素や成分に分け、その構成 などを明らかにすること。「情勢の―があまい」「事故の原 因を―する」 2.
哲学で、複雑な現象・概念などを、それを構成している 要素に分けて解明すること。⇔総合。 3. 物質の組成を調べ、その成分の種類や量の割合を明ら かにすること。
7.
7 分析の例: カレーにジャガイモは何グラム入ってる? 何がどれぐらい混ざっているか わかったら,どんなカレーか クリアになる! ジャガイモ 50g 分析 色々なものが混ざっているので パッと見ただけでは どんなカレーかわからない 玉ねぎ 80gニンジン 0g 肉150g カレー粉
10g
8.
8 参考:「温泉の成分表」 これがあるからどんな温泉かがわかる! 8 環境省「鉱泉分析法指針」より
9.
9 分析の際にケアすべきポイント(1/4) 基本的に見落としはNG ジャガイモ 50g 玉ねぎ 80gニンジン 0g 肉150g カレー粉
10g 混ぜ 合わせ 水 2000g 見落とし 後述の 「完備性」と関係 水無しカレー!
10.
10 分析の際にケアすべきポイント(2/4) 分析項目に重複がないほうが良いだろう ジャガイモ 50g 玉ねぎ 80gニンジン 0g 肉150g カレー粉
10g 後述の 「直交性」と関係 混ぜ 合わせ やたらスパイシーな カレー! 唐辛子 2g クミン 1g 水 2000g 実はカレー粉の中に 入っている成分
11.
11 分析の際にケアすべきポイント(3/4) 分析する単位は統一したほうがよいだろう ジャガイモ 30 ㎤ 玉ねぎ 80gニンジン
0本 肉0.15 kg カレー粉 10000 mg 後述の 「正規性」と関係 混ぜ 合わせ 水 3カップ 元のカレーには 完全に戻るのだが... 比べにくい!
12.
12 分析の際にケアすべきポイント(4/4) 解釈容易な成分に分解したほうがよい モゴモゴ 100g 後述の「基底の 任意性」と関係 混ぜ 合わせ 元のカレーには 完全に戻るのだが... マニョマニョ 400g ホゲホゲ 50g ちりとてちん
35g
13.
13 これからの話: カレーからベクトルへ 何がどれぐらい混ざっているか わかったら,どんな高次元 ベクトルかクリアになる! 分析 色々なものが混ざっているので パッと見ただけでは どんな高次元ベクトルかわからない 10 8 6
14.
14 線形代数に基づくデータの解析② ベクトルの分解と合成 カレーの話をベクトルに置き換えただけ! 恐れずに足らず! 高校時代の 知識でOK
15.
15 6 2 x 0 1 1e 1 0 2e 単位 ベクトル 6 2 2 1 成分の 成分の ex ex ベクトルの分解: 甦れ,高校の時のおぼろげな記憶! どうやって? (次スライド)
16.
16 「内積」を使えば成分量が計れる! 6 2 x 0 1 1eの中に はどれぐらい入っている? 2 0 1 6 2 1
ex × × + 成分量が測れる!中の内積で 1ex
17.
1717 思い出そう:内積 高校の時,習いましたよね? 要するに,「要素どおしの積をとって,全部足す」 その原理で,何次元ベクトルでも計算可能 𝒙 = 3 5 , 𝒚
= 6 1 の内積 → 𝒙 ∙ 𝒚 = 3 × 6 + 5 × 1 = 23 内積の書き方4種(どれも 同じ) 𝒙 ∙ 𝒚 𝒙, 𝒚 𝒙, 𝒚 𝒙 𝑇 𝒚 3 5 と 6 1 の内積 3 5 2 と 6 1 2 の内積 3 5 6 1 3 5 2 6 1 2 × × × × × = 18 = 5 = 18 = 5 = 4 18 + 5 = 23 18 + 5 + 4 = 27 ※この調子で,4次元でも,100万次元でも可能 再掲
18.
18 0 2 11
eex 成分の 6 0 22 eex 成分の x 6 2 6 0 0 2 ベクトルの合成 元に戻るところが 美しい! 6 2
19.
19 カレーとの関係: 単位ベクトルとはジャガイモである 1e 1ex が カレー
𝒙 ベクトル 𝒙 には だけ入っている には ジャガイモ が 50個 だけ入っている (1g) 要するに50g 計量単位
20.
20 カレーとの関係: 単位ベクトルとはジャガイモである ジャガイモ ○g にんじん □g 肉
△g : 1e 2e 1ex 加算 大きさ 元と同じカレー𝒙 元と同じベクトル𝒙 2ex カレー 𝒙 ベクトル 𝒙
21.
21 さて,単位ベクトルを回転してみる! 0 1 1e 1 0 2e 回転 21 23 1e 23 21 2e 皆さんの良く知っている 単位ベクトル 左を30°回転させてできた 単位ベクトル
22.
22 6 2 x 21 23 1e 133 33 2 1 成分の 成分の ex exnew 単位 ベクトル 23 21 2e 回転してできた単位ベクトルでも 先ほどのベクトルを分解できる どうやって? (次スライド)
23.
23 めんどくさそうな単位ベクトルでも 「内積」を使えば成分量が計れる! 6 2 x 21 23 1eに はどれぐらい入っている? 33 21 23 6 2 1
ex × × +
24.
24 1 1 1 1 1 1 cos ex e ex ex ex x xex 成分の x 1e ※単位ベクトルとの内積によりその成分が求まる 成分量を計っている様子を 図で幾何的に見てみる 𝒙
∙ 𝒚 = 𝒙 𝒚 cos 𝜃 単位ベクトルは 長さ1
25.
25 2329 23321 22 eex
成分の 2323 23323 11 eex 成分の x 6 2 2329 23321 2323 23323 ベクトルの合成 やはり元に戻る
26.
26 以上は2次元の場合の例でしたが, 3次元でも(もちろんそれ以上でも)同じ話 26 0 0 1 1e 0 1 0 2e 1 0 0 3e 6 1 2 x 2 0 0 1 6 1 2 1 ex
27.
2727 分解と合成,一連の話をまめとると...(1/2) 𝒙を𝑑次元ベクトルとする 内積により第𝑖番目の単位ベクトル𝒆𝑖の成分量𝛼𝑖を出す ちなみに各𝒆𝑖も𝑑次元ベクトル その成分量に応じて単位ベクトルを混ぜれば,元の𝒙に! 𝒙 =
𝛼1 𝒆1 + ⋯ + 𝛼𝑖 𝒆𝑖 + ⋯ + 𝛼 𝑑 𝒆 𝑑 = 𝛼𝑖 𝒆𝑖 𝛼𝑖 = 𝒙 ∙ 𝒆𝑖
28.
2828 分解と合成,一連の話をまめとると...(2/2) (ふざけているように見えるかもしれませんが,これが本質!) 言い換えると,成分量𝛼1, … ,
𝛼𝑖, … , 𝛼 𝑑は, 材料セット𝒆1, … , 𝒆𝑖, … , 𝒆 𝑑から𝒙 を作るための「レシピ」 材料セット 𝒆1, … , 𝒆𝑖, … , 𝒆 𝑑 カレー𝒙 𝛼𝑖 = 𝒙 ∙ 𝒆𝑖 ⋮ → 𝛼1 グラム → 𝛼𝑖 グラム ⋮ → 𝛼 𝑑 グラム レシピ(分析結果) 𝛼𝑖 𝒆𝑖 あの味を完璧に再現できた!
29.
2929 ここまでのおさらい 分析とは,いろいろな成分に分解することである 分解することで,よくわかることがある 「ベクトルの分析」も同じ ベクトル 𝒙を「単位ベクトル群」に分解することで,理解する ベクトルの分析には「単位ベクトル」との内積が使える さらに合成すれば元通りに 分析時に「見落とし」や「重複」がなければ元通り 分析の方法は一意ではない 回転させた単位ベクトル群でも可能
30.
30 線形代数に基づくデータの解析③ 基底 「分解して合成すれば元に戻る」ための条件
31.
31 (数学的には厳密ではないが) 単位ベクトルのセットのことを「基底」と呼ぶ 31 0 1 1e 1 0 2e 21 23 1e 23 21 2e これはわかりやすい「基底」 こちらも「基底」
32.
3232 「分解して合成すれば元に戻る」ための条件① 基底の完備性(1/2) 2次元で基底が1つしかないと,もとに戻らない! 0 1 1e オリジナル 分解・合成後 水無しカレー!
33.
3333 「分解して合成すれば元に戻る」ための条件① 基底の完備性(2/2) 任意の2次元ベクトル𝒙は,2個の2次元単位ベクトルによる 分解→合成の結果,元の𝒙に戻れる 任意の3次元ベクトル𝒙は,3個の3次元単位ベクトルに よる分解→合成の結果,元の𝒙に戻れる 任意の𝑑次元ベクトル𝒙は, 𝑑 個の𝑑次元単位ベクトルに よる分解→合成の結果,元の𝒙に戻れる この状況を「完備」と言います (ほんの少し数学的にはイイカゲンなことを言ってますが,気にしない,気にしない)
34.
3434 「分解して合成すれば元に戻る」ための条件② 基底の直交性 単位ベクトルが互いに90度で交わっていること 高校の時に習ったかもしれませんが,𝒆𝑖 ∙ 𝒆𝑗=0
(ただし𝑖 ≠ 𝑗) 非直交だと,分解合成で元に戻らない! 頑張れば戻せないこともないが,かなり面倒くさい 要は2基底𝒆1と𝒆2が独立でない,ということ 1e 2e 分解 合成 x 1e 2e xx '
35.
3535 「分解して合成すれば元に戻る」ための条件③ 基底の正規性 単位ベクトルの長さは,常に1で! 6 2 x 0 1 1e 2 0 2e 12 2 22 11 exex exex 成分の 成分の 24 0 2 0 122122 軸はも入ってたら第がe 長さ2
36.
3636 以上3つの条件を満たす単位ベクトルの組を 「完備正規直交基底」と呼ぶ 以下はいずれも2次元の完備正規直交基底 =どちらでもカレーは元通り! もちろん3次元以上でも同様 長さ1
37.
37 線形代数に基づくデータの解析④ 完全にもとに戻らくなくてもOKなケース =完備でなくてもOKなケース
38.
3838 そこそこ元に戻るなら, 完備でなくてもOKなケースもある もしデータが第1軸付近にしかないのなら,1個の単位ベク トルだけで「大体」OK? 0 1 1e オリジナル 分解・合成後 1.0 3.5 0 3.5 いつもゼロ近く 確かにオリジナルとは 違うが,「大体」同じ データ分布 注:コロンブスの卵
39.
39 𝛼𝑖 𝒆𝑖 は除く カレーの例で説明すると(1/2): プロの味でなくても,ご家庭の味でOKなケース! 39 材料セット 𝒆1, …
, 𝒆𝑖, … , 𝒆𝑗, … , 𝒆 𝑑 プロのカレー𝒙 𝛼𝑖 = 𝒙 ∙ 𝒆𝑖 ⋮ → 𝛼1 グラム → 𝛼𝑖 グラム ⋮ → 𝛼𝑗 グラム レシピ(分析結果) 同じじゃないけど,そこそこ旨い ⋮ → 𝛼 𝑑 グラム 常にほとんどゼロ (プロの隠し味) ご家庭のカレー𝒙′
40.
40 𝛼𝑖 𝒆𝑖 大事な を除いてしまうと カレーの例で説明すると(2/2): 「どこで手を抜くか?」もセンスの一つ 40 材料セット 𝒆1,
… , 𝒆𝑖, … , 𝒆𝑗, … , 𝒆 𝑑 プロのカレー𝒙 𝛼𝑖 = 𝒙 ∙ 𝒆𝑖 ⋮ → 𝛼1 グラム → 𝛼𝑖 グラム ⋮ → 𝛼𝑗 グラム レシピ(分析結果) 全然違う~!こりゃだめだ... ⋮ → 𝛼 𝑑 グラム 水無カレー𝒙′ 絶対に必要なやつ (いつも量が多い)
41.
4141 完備でなくてもソコソコ戻る, より一般的なケース こういうケースも単位ベクトルは1つで(ほぼ)OK オリジナル 分解・合成後 1e 先ほどの例
42.
4242 画像が圧縮できるのは,実はこの性質を使ってます (皆さん,知らずにお世話になっているんです) 地デジ放送やデジカメ写真,すべてこの原理で情報圧縮 第1次元 第2次元 第3次元 第400万次元
43.
4343 「そこそこでOK」とするメリット 𝑑次元ベクトルを, 𝑑個未満の成分で表現できる したがって: 主要な成分だけを概観できる! •
→ 主成分分析のアイディア 主要でない成分を捨てることで, データ圧縮にもなる ⋮ → 𝛼1 グラム → 𝛼𝑖 グラム ⋮ → 𝛼𝑗 グラム レシピ(分析結果) ⋮ → 𝛼 𝑑 グラム
44.
44 線形代数に基づくデータの解析⑤ 画像で考えてみる もうちょっとイメージを固めてみましょう
45.
45 そういえば画像もベクトルだった! 超高次元だけれども... 第1次元 第2次元 第3次元 第400万次元 400万画素の画像 ということは,画像も分解・合成できるはず!
46.
46 画像もベクトル! 同じ枠組みで分解と合成できるはず 46 材料セット(完備正規直交基底) 𝒆1, … ,
𝒆𝑖, … , 𝒆 𝑑 原画像𝒙 𝛼𝑖 = 𝒙 ∙ 𝒆𝑖 ⋮ → 𝛼1 → 𝛼𝑖 ⋮ → 𝛼 𝑑 レシピ(分析結果) 𝛼𝑖 𝒆𝑖 原画像を完璧に再現できる! ? ? ? ? ? ? では完備正規直交基底 𝒆1, … , 𝒆𝑖, … , 𝒆 𝑑には何を? 同じ𝑑次元ベクトル (=同サイズの画像)
47.
47 画像の分解・合成のための,一番わかりやすい 完備正規直交基底は?(1/2) 47 ⋮ ⋮ ⋮
⋮ ⋯ ⋯ ⋯ ⋱ 任意の𝑑次元ベクトル (𝑑 = 𝐻 × 𝑊画素から なる画像)は右の 𝑑個の画像成分に 分解・合成できる! 単位ベクトル:𝑑個の𝑑 = 𝐻 × 𝑊画像= 𝑑個の𝑑次元ベクトル 1画素のみが1 それ以外は0 確かに,完備,大きさ1(正規),そして直交しているが...
48.
48 画像の分解・合成のための,一番わかりやすい 完備正規直交基底は?(2/2) 48 ⋮ ⋮ ⋮
⋮⋱ 原画像𝒙の画素の輝度値 212, 209, 225,..., 193 211, 210, 214,..., 189 ⋯=212× +209× +225× +193× ⋯+211× +210× +214× +189× 確かに画像をベクトルに分解できた! でも, 分析というよりは,単に画素輝度値を並べただけ...
49.
49 http://www.matsusaka-u.ac.jp/~okumura/compression/dct.html よりよい基底:2次元離散コサイン(DCT)基底 任意の 8x8画像は 右の64個の 8x8画像の 組み合わせ (重み付き和) で表現可能
50.
50 8x8画像用の2次元DCT基底を使えば 50 材料セット(基底) 𝒆1, … ,
𝒆𝑖, … , 𝒆64 原画像𝒙 どんな8x8 画像でもOK 𝛼𝑖 = 𝒙 ∙ 𝒆𝑖 ⋮ → 𝛼1 → 𝛼𝑖 ⋮ → 𝛼64 レシピ(分析結果) 𝛼𝑖 𝒆𝑖 原画像を完璧に再現できる! 共に8x8画像= 64次元ベクトル 画像(𝑑次元ベクトル) 間の内積
51.
51 ちなみに,画像間の内積って何? ... , だから 要素の第要素の第 の内積ベクトル 全部の要素 iBiA BA i × × × × ∑ 10
52.
52 4,41,1 EE ~
8,85,5 EE ~ 16,169,9 EE ~ 32,3217,17 EE ~ 64,6433,33 EE ~ 8,81,1 EE ~ 16,161,1 EE ~ 32,321,1 EE ~ 64,641,1 EE ~ =元画像 64x64画像での分解・合成
53.
53 線形代数に基づくデータの解析⑥ データ解析に適した基底とは何か? 無限のチョイスの中で,どれを選ぶか?
54.
5454 こんな感じで回転させれば 無限通りの「完備正規非直交基底」ができる モノの見方(=分析の方法)は無限にあるということ 同じベクトルでも 基底が変われば 見方も変わる! というわけで, 同じ人でも ああ言われたり こう言われたり...
55.
55 基底が変われば成分量が変わる: = ものの見方が変わる! 55 133 33 2 1 成分の 成分の ex ex 6 2 2 1 成分の 成分の ex ex 6 2 x 6 2 x
56.
56 基底が変わればモノの見方が変わることを カレーで表現すると... 56 ジャガイモ ○g にんじん □g 肉
△g : たんぱく質 ●g ビタミンC ■g 脂質 ▲g : 同じカレー! :
57.
57 (2つの分析結果は1対1対応!) ビタミンC ビタミンB ビタミンB にんじん ビタミンC 肉 にんじん 肉 𝜃だけ回転 カレー カレー 𝜃 ある基底での分析結果を回転するだけで, 他の基底での分析結果が求まる カレー
58.
5858 逆に困った! 各分析課題にとって 「よい」基底とは何かを考えないと... 「どれがよい?」と言われても,どの正規直交基底も任意の ベクトルを(分解・合成して)元に戻せる点では同じ... んん?... でも各課題では「任意のベクトル」じゃなくて, 特定のベクトル集合にとって「よい基底」でOKでは?
59.
59 ここで思い出そう,以下のスライド! このように分布している データに適した基底!
60.
6060 なるべく「コンパクト」に分布を表現できる 基底がよいかも! =より少ない情報でデータの分布状況を把握できる 1e2e 1e 2e 𝒆1の成分だけで(ほぼ)表現できそう (=分解・合成したらほぼ戻る) 𝒆1と𝒆2両方の成分がないと ちゃんと表現できない...
61.
6161 もうちょっと高次元の場合でも, コンパクトに表現したほうが分布把握が容易 このような基底の取り方なら,実質的には2次元で済む 𝒆1は「絶対必要」,𝒆2は「まぁ必要」,𝒆3は「不要」 𝑥1 𝑥2 𝑥3 1e 2e 3e
Download now