Download free for 30 days
Sign in
Upload
Language (EN)
Support
Business
Mobile
Social Media
Marketing
Technology
Art & Photos
Career
Design
Education
Presentations & Public Speaking
Government & Nonprofit
Healthcare
Internet
Law
Leadership & Management
Automotive
Engineering
Software
Recruiting & HR
Retail
Sales
Services
Science
Small Business & Entrepreneurship
Food
Environment
Economy & Finance
Data & Analytics
Investor Relations
Sports
Spiritual
News & Politics
Travel
Self Improvement
Real Estate
Entertainment & Humor
Health & Medicine
Devices & Hardware
Lifestyle
Change Language
Language
English
Español
Português
Français
Deutsche
Cancel
Save
Submit search
EN
Uploaded by
考司 小杉
PDF, PPTX
13,161 views
距離と分類の話
Kazutan.R#2(Hijiyama.R#2) on 2015.05.23
Education
◦
Read more
11
Save
Share
Embed
Embed presentation
Download
Download as PDF, PPTX
1
/ 41
2
/ 41
3
/ 41
4
/ 41
5
/ 41
6
/ 41
7
/ 41
8
/ 41
9
/ 41
10
/ 41
11
/ 41
12
/ 41
13
/ 41
14
/ 41
15
/ 41
16
/ 41
17
/ 41
18
/ 41
19
/ 41
20
/ 41
21
/ 41
22
/ 41
23
/ 41
24
/ 41
25
/ 41
26
/ 41
27
/ 41
28
/ 41
29
/ 41
30
/ 41
31
/ 41
32
/ 41
33
/ 41
34
/ 41
35
/ 41
36
/ 41
37
/ 41
38
/ 41
39
/ 41
40
/ 41
41
/ 41
More Related Content
PDF
負の二項分布について
by
Hiroshi Shimizu
PDF
初めてのグラフカット
by
Tsubasa Hirakawa
PPTX
ベイズ統計学の概論的紹介
by
Naoki Hayashi
PDF
「内積が見えると統計学も見える」第5回 プログラマのための数学勉強会 発表資料
by
Ken'ichi Matsui
PPTX
ブートストラップ法とその周辺とR
by
Daisuke Yoneoka
PDF
距離まとめられませんでした
by
Haruka Ozaki
PDF
5分でわかるかもしれないglmnet
by
Nagi Teramo
PPTX
[DL輪読会]相互情報量最大化による表現学習
by
Deep Learning JP
負の二項分布について
by
Hiroshi Shimizu
初めてのグラフカット
by
Tsubasa Hirakawa
ベイズ統計学の概論的紹介
by
Naoki Hayashi
「内積が見えると統計学も見える」第5回 プログラマのための数学勉強会 発表資料
by
Ken'ichi Matsui
ブートストラップ法とその周辺とR
by
Daisuke Yoneoka
距離まとめられませんでした
by
Haruka Ozaki
5分でわかるかもしれないglmnet
by
Nagi Teramo
[DL輪読会]相互情報量最大化による表現学習
by
Deep Learning JP
What's hot
PDF
機械学習におけるオンライン確率的最適化の理論
by
Taiji Suzuki
PDF
Rで階層ベイズモデル
by
Yohei Sato
PDF
BERTに関して
by
Saitama Uni
PDF
PCAの最終形態GPLVMの解説
by
弘毅 露崎
PDF
Recent Advances on Transfer Learning and Related Topics Ver.2
by
Kota Matsui
PPTX
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
by
RyuichiKanoh
PDF
ベイズ推論とシミュレーション法の基礎
by
Tomoshige Nakamura
PPTX
ようやく分かった!最尤推定とベイズ推定
by
Akira Masuda
PPTX
勾配降下法の最適化アルゴリズム
by
nishio
PDF
合成変量とアンサンブル:回帰森と加法モデルの要点
by
Ichigaku Takigawa
PDF
Rでisomap(多様体学習のはなし)
by
Kohta Ishikawa
PDF
不均衡データのクラス分類
by
Shintaro Fukushima
PPTX
[DL輪読会]Neural Ordinary Differential Equations
by
Deep Learning JP
PDF
状態空間モデルの考え方・使い方 - TokyoR #38
by
horihorio
PDF
階層ベイズとWAIC
by
Hiroshi Shimizu
DOCX
マハラノビス距離とユークリッド距離の違い
by
wada, kazumi
PDF
基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法
by
Ken'ichi Matsui
PPTX
PRMLrevenge_3.3
by
Naoya Nakamura
PDF
クラシックな機械学習入門:付録:よく使う線形代数の公式
by
Hiroshi Nakagawa
PDF
Stanコードの書き方 中級編
by
Hiroshi Shimizu
機械学習におけるオンライン確率的最適化の理論
by
Taiji Suzuki
Rで階層ベイズモデル
by
Yohei Sato
BERTに関して
by
Saitama Uni
PCAの最終形態GPLVMの解説
by
弘毅 露崎
Recent Advances on Transfer Learning and Related Topics Ver.2
by
Kota Matsui
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
by
RyuichiKanoh
ベイズ推論とシミュレーション法の基礎
by
Tomoshige Nakamura
ようやく分かった!最尤推定とベイズ推定
by
Akira Masuda
勾配降下法の最適化アルゴリズム
by
nishio
合成変量とアンサンブル:回帰森と加法モデルの要点
by
Ichigaku Takigawa
Rでisomap(多様体学習のはなし)
by
Kohta Ishikawa
不均衡データのクラス分類
by
Shintaro Fukushima
[DL輪読会]Neural Ordinary Differential Equations
by
Deep Learning JP
状態空間モデルの考え方・使い方 - TokyoR #38
by
horihorio
階層ベイズとWAIC
by
Hiroshi Shimizu
マハラノビス距離とユークリッド距離の違い
by
wada, kazumi
基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法
by
Ken'ichi Matsui
PRMLrevenge_3.3
by
Naoya Nakamura
クラシックな機械学習入門:付録:よく使う線形代数の公式
by
Hiroshi Nakagawa
Stanコードの書き方 中級編
by
Hiroshi Shimizu
Similar to 距離と分類の話
PPTX
距離とクラスタリング
by
大貴 末廣
PPTX
データサイエンス概論第一=2-1 データ間の距離と類似度
by
Seiichi Uchida
PDF
九大_DS実践_距離とクラスタリング
by
RyomaBise1
PDF
Datamining 5th knn
by
sesejun
PDF
Datamining 5th Knn
by
sesejun
PDF
DS Exercise Course 4
by
大貴 末廣
距離とクラスタリング
by
大貴 末廣
データサイエンス概論第一=2-1 データ間の距離と類似度
by
Seiichi Uchida
九大_DS実践_距離とクラスタリング
by
RyomaBise1
Datamining 5th knn
by
sesejun
Datamining 5th Knn
by
sesejun
DS Exercise Course 4
by
大貴 末廣
More from 考司 小杉
PDF
学部生向けベイズ統計イントロ(公開版)
by
考司 小杉
PDF
R stan導入公開版
by
考司 小杉
PDF
MCMCによるベイズ因子分析法について
by
考司 小杉
PPTX
StanとRでベイズ統計モデリング読書会Ch.9
by
考司 小杉
PPTX
Mds20190303
by
考司 小杉
PPTX
HCGシンポジウム2018;心理学における新しい統計学との付き合い方
by
考司 小杉
PPTX
心理統計の課題をRmdで作る
by
考司 小杉
PPTX
Mplus tutorial
by
考司 小杉
PDF
続・心理学のためのpsychパッケージ
by
考司 小杉
PDF
家族データに対する非対称MDSの応用(2)
by
考司 小杉
PPTX
Jap2017 ss65 優しいベイズ統計への導入法
by
考司 小杉
PPTX
日本教育心理学会2016WSスライド
by
考司 小杉
PDF
Yamadai.R#3 Function
by
考司 小杉
PDF
SappoRo.R #2 初心者向けWS資料
by
考司 小杉
PPTX
Kandai R 入門者講習
by
考司 小杉
PDF
Hijiyama.R Entry session
by
考司 小杉
PDF
Yamadai.R #1 Introduction to R
by
考司 小杉
PPTX
HCG20181212
by
考司 小杉
PPTX
20180602kosugi
by
考司 小杉
PDF
Kenshu
by
考司 小杉
学部生向けベイズ統計イントロ(公開版)
by
考司 小杉
R stan導入公開版
by
考司 小杉
MCMCによるベイズ因子分析法について
by
考司 小杉
StanとRでベイズ統計モデリング読書会Ch.9
by
考司 小杉
Mds20190303
by
考司 小杉
HCGシンポジウム2018;心理学における新しい統計学との付き合い方
by
考司 小杉
心理統計の課題をRmdで作る
by
考司 小杉
Mplus tutorial
by
考司 小杉
続・心理学のためのpsychパッケージ
by
考司 小杉
家族データに対する非対称MDSの応用(2)
by
考司 小杉
Jap2017 ss65 優しいベイズ統計への導入法
by
考司 小杉
日本教育心理学会2016WSスライド
by
考司 小杉
Yamadai.R#3 Function
by
考司 小杉
SappoRo.R #2 初心者向けWS資料
by
考司 小杉
Kandai R 入門者講習
by
考司 小杉
Hijiyama.R Entry session
by
考司 小杉
Yamadai.R #1 Introduction to R
by
考司 小杉
HCG20181212
by
考司 小杉
20180602kosugi
by
考司 小杉
Kenshu
by
考司 小杉
距離と分類の話
1.
距離と分類のおはなし
2.
自己紹介 • 小杉考司(こすぎこうじ) • 山口大学教育学部 •
専門;数理社会心理学 • kosugi@yamaguchi-u.ac.jp • Twitter; @kosugitti
3.
距離のおはなし
4.
距離の公理 • 2点x とyの距離をd(x,y)とすると, •
の条件を満たせば全て「距離」。 d(x, y) 0 d(x, y) = d(y, x) x = y ) d(x, y) = 0 d(x, z) + d(z, y) d(x, y) 非負性(正定値性) 対称性 三角不等式
5.
dist関数 • にはdist関数が最初から入っている •
データ行列を与えると距離行列にして返す
6.
dist関数 A B C
D 1 # # # # 2 # # # # 3 # # # # … # # # # A B C B # C # # D # # #下三角行列に変わる
7.
dist関数 • dist関数には様々なオプション・・・ • 6種類の距離!
8.
method= euclidean • もっとも一般的な距離 •
二次元ならピタゴラスの定理で表される d(x, y) = p (x1 y1)2 + (x2 y2)2 + · · · + (xn yn)2 x y
9.
method= maximum • 二変数の差のうち,要素同士の差の絶対値が最大の ものを距離とする。 d(x,
y) = max(|xi yi|)
10.
method= manhattan • ブロック化された都市ではまっすぐ行けないよね d(x,
y) = P (|xi yi|) fig by Wikipedia
11.
method= canberra • マンハッタンとくればキャンベラ? •
マンハッタン距離の亜種,拡張,でしょうか d(x, y) = P |xi yi| |xi+yi| キャンベラ級強襲揚陸艦
12.
method= binary • 0/1データに対する距離 •
一方が1の時に他方も1であれば「近い」 • 一方が1の時に他方が0であれば「遠い」 • 一方が0の時はノーカウント
13.
method= minkowski • 一般化された距離 •
p=1ならマンハッタン • p=2ならユークリッド • pはオプションで指定可能(デフォルトは2)
14.
距離の一般化 を特に チェビシェフの距離 または 優勢次元距離という x y
15.
マハラノビス距離 x y 第一主成分 第二主成分 A B 相関を仮定した距離 心理変数に有用? 外れ値の検出にも
16.
相関や共分散も • 相関係数は類似度を表す指標(とも言える) • 相関係数はベクトルのcosθ •
1-類似度=距離(と考えることもできる) θ
17.
で計算 いつものアイリスデータ 5列目はどけておく
18.
で計算 • マハラノビス距離は関数mahalanobisを使う • 引数として中心と共分散行列が必要
19.
マハラノビス距離 x y A B colMeans(y) colMeans(x) cov(x,y)
20.
で計算 • 一対比較したい場合は,各点からの距離を教えてあげ る必要がある。 • for文で対応
21.
で計算 • StatMatchパッケージのmahalanobis.dist関数を 使うと難しいことを考えなくていいよ
22.
データから距離へ v1 v2 v3
v4 … … … … vm 1 2 3 . . . . . . N { {ケ ス を 分 類 し た い の ? 変数を分類したいの? ー m mの行列 N Nの行列 行列の 分解へ
23.
データから距離へ 相関行列なら因子分析 分散共分散行列なら PCAやSEM 距離行列なら MDSやクラスター クロス集計表なら 双対尺度法や 関係・ 関連を表 す行列
24.
分類のおはなし
25.
クラスター分析の分類 • 外的基準(教師信号)なしの分類法 • 階層的/非階層的/空間的;クラスタ同士の包含関係・ 上下関係があるかどうか •
ハード/ソフト;複数のクラスタに属することを許す かどうか
26.
クラスター分析の分類 ハード ソフト 階層的 最長距離法/最短距離法/ 群平均法/重心法/中央値法/ Ward法/McQuitty法 非階層的 k-means法 x-means法 改良k-means法 c-means法 混合分布モデル 空間的 自己組織化マップ
27.
クラスター分析の分類 ハード ソフト 階層的 hclust関数 methodオプションで指定 非階層的 e1071のcmeans() MclustのMclust() 空間的 パッケージkohonen パッケージsom
28.
分析結果にどの程度 影響するのか?[階層型編] • hclust関数の様々な手法による分類例 最短 最長 群平均 重心 中央値 ward McQ
29.
分析結果にどの程度 影響するのか?[階層型編]
30.
cf. http://d.hatena.ne.jp/hamadakoichi/20100324 分析結果にどの程度 影響するのか?[階層型編]
31.
• 明確な基準がないのでこれで決まり,とは言えない • 一般にWard法がもっともバランスが良い方法とさ れているのでオススメ •
クラスタ数も決め方にルールはない。 • 決めるときはcutreeで 分析結果にどの程度 影響するのか?[階層型編]
32.
分析結果にどの程度 影響するのか?[非階層型編] • k-means法は直感的に分かりやすく,アルゴリズ ムも簡単で,収束も早い。 • 大規模データもすぐに分類しちゃう。 •
にもデフォルト(stat)で入ってるぐらい。
33.
分析結果にどの程度 影響するのか?[非階層型編] • k-means法に代表される非階層型モデルは,当初 クラスタ数をアプリオリに定めることに批判 • 統計的基準でクラスタ数を決めるように→xmeans •
クラスタと個体との距離をマハラノビス距離で補正 するように→改良k-means
34.
分析結果にどの程度 影響するのか?[非階層型編] http://aaaazzzz036.hatenablog.com/entry/ 2013/11/27/212109
35.
分類の分類に 決まり手はない 好きにやったらいいんじゃないの?
36.
因子分析の分類 • 意外と知られていないのが因 子分析のQ-technique • 個体
項目のデータセットを 転置して因子分析 • →人の因子が出る。プロトタ イプを見つけたりするのに便 利。
37.
因子分析の分類 • 従来の項目を分類する因子分析はR-technique • 項目
時系列 → 項目因子 P-technique → 時間因子 O-technique • 個人 時系列 → 人因子 S-technique → 時間因子 T-technique
38.
v1 v2 v3
v4 … … … … vm 1 2 3 . . . . . . N v1 v2 v3 v4 … … … … vm 1 2 3 . . . . . . N v1 v2 v3 v4 … … … … vm 1 2 3 . . . . . . N データの相と元 • 相mode;変数セットの種類 • 元way;変数セットの組合せ回数 v1 v2 v3 v4 … … … … vm 1 2 3 . . . . . . N 変数 個人 変数 個人 二相二元データ v1 v2 v3 v4 … … … … vm 1 2 3 . . . . . . N 時系列 変数 個人 時間 三相三元データ
39.
データの相と元 • 例えば個人 テレビ番組の種類
放映曜日 評定であ れば四相二元データ,というように増やしていける • それでもデータは二次元のスプレッドシートに広がっ ていく • それぞれの相に対して因子を想定するのが当世風= どこの側面の関連・潜在変数を見るかは自由
40.
因子分析の分類 • 要は多変量解析というのは • データの関連性を見る(距離でも相関でも
でも) • 見るときにどっちからとか気にしない • 関係性行列になったら分析はなんとでもなる!
41.
自由にやろうぜ。
Download