Download free for 30 days
Sign in
Upload
Language (EN)
Support
Business
Mobile
Social Media
Marketing
Technology
Art & Photos
Career
Design
Education
Presentations & Public Speaking
Government & Nonprofit
Healthcare
Internet
Law
Leadership & Management
Automotive
Engineering
Software
Recruiting & HR
Retail
Sales
Services
Science
Small Business & Entrepreneurship
Food
Environment
Economy & Finance
Data & Analytics
Investor Relations
Sports
Spiritual
News & Politics
Travel
Self Improvement
Real Estate
Entertainment & Humor
Health & Medicine
Devices & Hardware
Lifestyle
Change Language
Language
English
Español
Português
Français
Deutsche
Cancel
Save
Submit search
EN
SU
Uploaded by
Seiichi Uchida
PPTX, PDF
3,477 views
データサイエンス概論第一=4-1 相関・頻度・ヒストグラム
九州大学大学院システム情報科学研究院「データサイエンス実践特別講座」が贈る,数理・情報系『でない』学生さんのための「データサイエンス講義
Data & Analytics
◦
Read more
2
Save
Share
Embed
Embed presentation
Download
Downloaded 218 times
1
/ 24
2
/ 24
3
/ 24
4
/ 24
5
/ 24
6
/ 24
7
/ 24
8
/ 24
9
/ 24
10
/ 24
11
/ 24
12
/ 24
13
/ 24
14
/ 24
15
/ 24
16
/ 24
17
/ 24
18
/ 24
19
/ 24
20
/ 24
21
/ 24
22
/ 24
23
/ 24
24
/ 24
More Related Content
PPTX
データサイエンス概論第一=1-1 データとは
by
Seiichi Uchida
PPTX
データサイエンス概論第一=2-2 クラスタリング
by
Seiichi Uchida
PPTX
データサイエンス概論第一 6 異常検出
by
Seiichi Uchida
PPTX
データサイエンス概論第一=3-3 回帰分析
by
Seiichi Uchida
PPTX
データサイエンス概論第一=3-2 主成分分析と因子分析
by
Seiichi Uchida
PPTX
データサイエンス概論第一=1-2 データのベクトル表現と集合
by
Seiichi Uchida
PPTX
データサイエンス概論第一=3-1 線形代数に基づくデータ解析の基礎
by
Seiichi Uchida
PPTX
データサイエンス概論第一=1-3 平均と分散
by
Seiichi Uchida
データサイエンス概論第一=1-1 データとは
by
Seiichi Uchida
データサイエンス概論第一=2-2 クラスタリング
by
Seiichi Uchida
データサイエンス概論第一 6 異常検出
by
Seiichi Uchida
データサイエンス概論第一=3-3 回帰分析
by
Seiichi Uchida
データサイエンス概論第一=3-2 主成分分析と因子分析
by
Seiichi Uchida
データサイエンス概論第一=1-2 データのベクトル表現と集合
by
Seiichi Uchida
データサイエンス概論第一=3-1 線形代数に基づくデータ解析の基礎
by
Seiichi Uchida
データサイエンス概論第一=1-3 平均と分散
by
Seiichi Uchida
What's hot
PDF
0 データサイエンス概論まえがき
by
Seiichi Uchida
PDF
1 データとデータ分析
by
Seiichi Uchida
PPTX
データサイエンス概論第一=2-1 データ間の距離と類似度
by
Seiichi Uchida
PPTX
データサイエンス概論第一=4-2 確率と確率分布
by
Seiichi Uchida
PPTX
統計分析
by
大貴 末廣
PDF
9 可視化
by
Seiichi Uchida
PPTX
データサイエンス概論第一=0 まえがき
by
Seiichi Uchida
PPTX
距離とクラスタリング
by
大貴 末廣
PDF
15 人工知能入門
by
Seiichi Uchida
PPTX
画像処理応用
by
大貴 末廣
PPTX
データサイエンス概論第一 5 時系列データの解析
by
Seiichi Uchida
PDF
2 データのベクトル表現と集合
by
Seiichi Uchida
PPTX
相関分析と回帰分析
by
大貴 末廣
PDF
6 線形代数に基づくデータ解析の基礎
by
Seiichi Uchida
PPTX
ベイズ統計学の概論的紹介
by
Naoki Hayashi
PPTX
画像処理基礎
by
大貴 末廣
PDF
2 4.devianceと尤度比検定
by
logics-of-blue
PPTX
主成分分析
by
大貴 末廣
PPTX
Python基礎その2
by
大貴 末廣
PPTX
ブートストラップ法とその周辺とR
by
Daisuke Yoneoka
0 データサイエンス概論まえがき
by
Seiichi Uchida
1 データとデータ分析
by
Seiichi Uchida
データサイエンス概論第一=2-1 データ間の距離と類似度
by
Seiichi Uchida
データサイエンス概論第一=4-2 確率と確率分布
by
Seiichi Uchida
統計分析
by
大貴 末廣
9 可視化
by
Seiichi Uchida
データサイエンス概論第一=0 まえがき
by
Seiichi Uchida
距離とクラスタリング
by
大貴 末廣
15 人工知能入門
by
Seiichi Uchida
画像処理応用
by
大貴 末廣
データサイエンス概論第一 5 時系列データの解析
by
Seiichi Uchida
2 データのベクトル表現と集合
by
Seiichi Uchida
相関分析と回帰分析
by
大貴 末廣
6 線形代数に基づくデータ解析の基礎
by
Seiichi Uchida
ベイズ統計学の概論的紹介
by
Naoki Hayashi
画像処理基礎
by
大貴 末廣
2 4.devianceと尤度比検定
by
logics-of-blue
主成分分析
by
大貴 末廣
Python基礎その2
by
大貴 末廣
ブートストラップ法とその周辺とR
by
Daisuke Yoneoka
Similar to データサイエンス概論第一=4-1 相関・頻度・ヒストグラム
PDF
Introduction to statistics
by
Kohta Ishikawa
PDF
データ解析4 確率の復習
by
Hirotaka Hachiya
PDF
統計学における相関分析と仮説検定の基本的な考え方とその実践
by
id774
PDF
反応時間データをどう分析し図示するか
by
SAKAUE, Tatsuya
PDF
2022年度秋学期 統計学 第11回 分布の「型」を考える - 確率分布モデルと正規分布 (2022. 12. 6)
by
Akira Asano
PDF
2022年度秋学期 統計学 第14回 分布についての仮説を検証するー仮説検定(1) (2023. 1. 10)
by
Akira Asano
PDF
理科教育学研究のための統計分析入門
by
Hiroshi Unzai
PDF
DS Exercise Course 5
by
大貴 末廣
PDF
九大_DS実践_統計分析
by
RyomaBise1
PDF
統計処理環境Rで学ぶ言語研究のための統計入門
by
corpusling
PDF
2021年度秋学期 統計学 第14回 分布についての仮説を検証する - 仮説検定(1)(2022. 1. 11)
by
Akira Asano
PPTX
Introduction to Statistical Estimation (統計的推定入門)
by
Taro Tezuka
PDF
Rm20140507 4key
by
youwatari
PDF
Rm20150513 4key
by
youwatari
PDF
Zansa0130presentation
by
Zansa
PDF
R-study-tokyo02
by
Yohei Sato
PDF
2014年度秋学期 統計学 第11回 分布の「型」を考える - 確率分布モデルと正規分布 (2014. 12. 10)
by
Akira Asano
PDF
2022年度春学期 統計学 第14回 分布についての仮説を検証するー仮説検定(1)
by
Akira Asano
PPTX
第二回統計学勉強会@東大駒場
by
Daisuke Yoneoka
PDF
Rm20150520 6key
by
youwatari
Introduction to statistics
by
Kohta Ishikawa
データ解析4 確率の復習
by
Hirotaka Hachiya
統計学における相関分析と仮説検定の基本的な考え方とその実践
by
id774
反応時間データをどう分析し図示するか
by
SAKAUE, Tatsuya
2022年度秋学期 統計学 第11回 分布の「型」を考える - 確率分布モデルと正規分布 (2022. 12. 6)
by
Akira Asano
2022年度秋学期 統計学 第14回 分布についての仮説を検証するー仮説検定(1) (2023. 1. 10)
by
Akira Asano
理科教育学研究のための統計分析入門
by
Hiroshi Unzai
DS Exercise Course 5
by
大貴 末廣
九大_DS実践_統計分析
by
RyomaBise1
統計処理環境Rで学ぶ言語研究のための統計入門
by
corpusling
2021年度秋学期 統計学 第14回 分布についての仮説を検証する - 仮説検定(1)(2022. 1. 11)
by
Akira Asano
Introduction to Statistical Estimation (統計的推定入門)
by
Taro Tezuka
Rm20140507 4key
by
youwatari
Rm20150513 4key
by
youwatari
Zansa0130presentation
by
Zansa
R-study-tokyo02
by
Yohei Sato
2014年度秋学期 統計学 第11回 分布の「型」を考える - 確率分布モデルと正規分布 (2014. 12. 10)
by
Akira Asano
2022年度春学期 統計学 第14回 分布についての仮説を検証するー仮説検定(1)
by
Akira Asano
第二回統計学勉強会@東大駒場
by
Daisuke Yoneoka
Rm20150520 6key
by
youwatari
More from Seiichi Uchida
PDF
データサイエンス概論第一=8 パターン認識と深層学習
by
Seiichi Uchida
PDF
データサイエンス概論第一=7 画像処理
by
Seiichi Uchida
PDF
8 予測と回帰分析
by
Seiichi Uchida
PDF
14 データ収集とバイアス
by
Seiichi Uchida
PDF
13 分類とパターン認識
by
Seiichi Uchida
PDF
5 クラスタリングと異常検出
by
Seiichi Uchida
PDF
4 データ間の距離と類似度
by
Seiichi Uchida
PDF
3 平均・分散・相関
by
Seiichi Uchida
PDF
7 主成分分析
by
Seiichi Uchida
PDF
12 非構造化データ解析
by
Seiichi Uchida
PDF
10 確率と確率分布
by
Seiichi Uchida
PDF
「あなたがいま読んでいるものは文字です」~画像情報学から見た文字研究のこれから
by
Seiichi Uchida
PDF
Machine learning for document analysis and understanding
by
Seiichi Uchida
PPTX
An opening talk at ICDAR2017 Future Workshop - Beyond 100%
by
Seiichi Uchida
データサイエンス概論第一=8 パターン認識と深層学習
by
Seiichi Uchida
データサイエンス概論第一=7 画像処理
by
Seiichi Uchida
8 予測と回帰分析
by
Seiichi Uchida
14 データ収集とバイアス
by
Seiichi Uchida
13 分類とパターン認識
by
Seiichi Uchida
5 クラスタリングと異常検出
by
Seiichi Uchida
4 データ間の距離と類似度
by
Seiichi Uchida
3 平均・分散・相関
by
Seiichi Uchida
7 主成分分析
by
Seiichi Uchida
12 非構造化データ解析
by
Seiichi Uchida
10 確率と確率分布
by
Seiichi Uchida
「あなたがいま読んでいるものは文字です」~画像情報学から見た文字研究のこれから
by
Seiichi Uchida
Machine learning for document analysis and understanding
by
Seiichi Uchida
An opening talk at ICDAR2017 Future Workshop - Beyond 100%
by
Seiichi Uchida
データサイエンス概論第一=4-1 相関・頻度・ヒストグラム
1.
1 九州大学大学院システム情報科学研究院 データサイエンス実践特別講座 データサイエンス概論第一 第4回 確率分布と検定: 4-1 相関・頻度・ヒストグラム システム情報科学研究院情報知能工学部門 内田誠一
2.
2 データサイエンス概論第一の内容 データとは データのベクトル表現と集合
平均と分散 データ間の距離 データ間の類似度 データのクラスタリング (グルーピング) 線形代数に基づくデータ解析の基礎 主成分分析と因子分析 回帰分析 相関・頻度・ヒストグラム 確率と確率分布 信頼区間と統計的検定 時系列データの解析 異常検出
3.
3 相関 「身長が高ければ,体重も重い」傾向
4.
4 相関とは? Aを聞いてBを知る
5.
55 前にやった「分散」を思い出しましょう 実はあの時ちゃんと言わなかったことが...
6.
6 データの広がり方(=分散)に潜む関係~相関 𝑥1 𝑥2 𝑥1 𝑥2 𝑥1 𝑥2 Case 1 Case 2
Case 3 身長と体重は? 身長と数学の点数は? 身長とバレーボール攻撃失敗率は?
7.
77 データの広がり方(=分散)に潜む関係~相関 Case 1:
無相関 𝑥1 →大,𝑥2 →特段の傾向無し 要するに,𝑥1と𝑥2は無関係 身長と数学の点数 Case 2: 正の相関 𝑥1 →大,𝑥2 →大 身長と体重 Case 3: 負の相関 𝑥1 →大,𝑥2 →小 身長とバレーボール攻撃失敗率 シーソー的 二人三脚的
8.
88 相関とは? データの要素間の関係・傾向 Ex. 𝑥1 →大なら𝑥2
→大 ,とか これは平均では記述できない 各軸独立の分散では記述できない 皆さんがすでに学んだ「主成分分析や回帰分析」も,ある 意味で相関を見つけているわけです
9.
99 多次元(𝑑 > 2)ベクトルの相関 もちろん同じようなことがわかる 関係はより複雑になりうる 右図では 𝑥1
→大,𝑥2 →大,𝑥3 →小 こういう相関関係をどうやって 見つけるか? 主成分分析が便利です! 𝑥1 𝑥2 𝑥3
10.
10 相関係数 相関の程度を測る
11.
1111 相関係数ρ~相関の定量化 (1/3) 簡単のために𝑥1も𝑥2も平均ゼロとする =分布をずらしただけ この時,相関を(なるべく簡単な言葉で)定義すると... 𝜌 = 𝑥1
∙ 𝑥2 の平均値 𝑥1の分散 ∙ 𝑥2の分散 分子が大事 分母は正規化の役目 (標準化)
12.
1212 相関係数ρ~相関の定量化 (2/3) 「𝑥1が定まると𝑥2がどれぐらい定まるか」の指標でもある 𝑥1と𝑥2の相関が±1
(※) →どちらかが決まれば他方は一意に定まる 𝑥1と𝑥2の相関が0 →両者は無相関.一方の値は他方に影響せず 𝜌 = 𝑥1∙𝑥2 の平均値 𝑥1の分散∙𝑥2の分散 = 𝑥1∙𝑎𝑥1 の平均値 𝑥1の分散∙𝑎𝑥1の分散 = 𝑎 𝑥1∙𝑥1 の平均値 𝑎 𝑥1の分散 = 𝑥1∙𝑥1 の平均値 𝑥1の分散 = 𝑥1∙𝑥1 の平均値 𝑥1∙𝑥1 の平均値 = 1 もし𝑥2 = 𝑎𝑥1 すなわち𝑥1が決まれば𝑥2の値は𝑎𝑥1に一意に決まる なら, 𝑎>0の場合 ※参考 𝑥1 𝑥2
13.
1313 相関係数ρ~相関の定量化 (3/3) 相関係数ρがわかると,分布の形をある程度想像できる Wikipedia “相関係数” 𝑥1 𝑥2
14.
14 頻度とヒストグラム シンプルだが重要なデータ可視化法
15.
1515 頻度~わかりやすい場合 さいころを1000回振って出た目の回数 「1」が168回,「2」が164回, ..., 「6」が164回 5段階アンケートの回答結果の集計 「非常によい」が103名,「よい」が30名,..., 「非常に悪い」が0名 今日のメニュー注文者数 「かつ丼」が58食,「ラーメン」が102食,
..., 「高菜めし」が21食
16.
16 ヒストグラムによる頻度分布の可視化: さいころを1000回振って出た目のヒストグラム 4の目が出た回数 頻度 164回 それぞれの値のことを 「ビン」と呼ぶ
17.
1717 頻度~そのままでは計りにくい場合(1/2) あるクラスの学生の身長 ..., 167.301cmが0人,167.302cmが1人, 167.303cmが0人,.... ピッタリ同じ身長の人はほぼいないだろうから,頻度は高々1 ある交差点での1日の車の通過台数 ..., 1829台が0日,1830台が1日,1831台が0日,.... 同じ台数になるというのは,結構ミラクル? 「値が連続的に変化しうる対象」の場合,頻度は計りにくい
18.
1818 頻度~そのままでは計りにくい場合(2/2) → 区間を考えればOK あるクラスの学生の身長 「140cm未満」が1人,「140-145cm」が2人,..., 「160-165cm」が9人, ... ある交差点での1日の車の通過台数 「1500台未満」が0日,「1500-1600台」が3日,.... 頻度がよくわかるように! (ただし区間幅の設定によって集計結果が変わることに注意)
19.
19 ヒストグラム=頻度分布 (2/2) あるクラスの学生の身長のヒストグラム 160cm ~165cm 頻度 9人 それぞれの区間のことを 「ビン」と呼ぶ
20.
2020 以上2ケースのまとめ データ𝑥が取りうる値が有限個(例えば𝐵個)の場合 𝐵個のビンからなるヒストグラム 1つのビン=1つの値に対応 データ𝑥が取りうる値が無限個の場合 𝑥の値の全範囲を𝐵個の区間に分ける
𝐵個のビンからなるヒストグラム 1つのビン=1つの区間に対応 =値が連続的に 変化する場合
21.
2121 2次元ヒストグラムも可能(1/2) あるクラスの学生の(身長, 体重) 50kg以下 50-60kg 60-70kg 70kg以上 0 2 4 6 8 10 12 14
22.
2222 2次元ヒストグラムも可能(2/2) ヒートマップで表す場合も 先ほどの(身長, 体重) もっと本格的(?)なヒートマップの例 Excelの 「条件付き書式」で 簡単にできます Python + Matplotlib
+ plt.hist2d
23.
2323 参考:相関がある場合の2次元ヒストグラム これは無相関 正の相関 負の相関 負の相関 𝑥1 𝑥2 𝑥1 𝑥2 𝑥1 𝑥2 𝑥1 𝑥2
24.
2424 参考: 散布図 区間に分けずに連続値の分布をそのまま表す 2次元ベクトル 𝑥,
𝑦 の集合の可視化におすすめ ただし... 同じ値がたまたま2回以上あってもわからない データが増えすぎると... 𝑥 𝑦 散布図 ヒストグラム+ヒートマップ
Download