Download free for 30 days
Sign in
Upload
Language (EN)
Support
Business
Mobile
Social Media
Marketing
Technology
Art & Photos
Career
Design
Education
Presentations & Public Speaking
Government & Nonprofit
Healthcare
Internet
Law
Leadership & Management
Automotive
Engineering
Software
Recruiting & HR
Retail
Sales
Services
Science
Small Business & Entrepreneurship
Food
Environment
Economy & Finance
Data & Analytics
Investor Relations
Sports
Spiritual
News & Politics
Travel
Self Improvement
Real Estate
Entertainment & Humor
Health & Medicine
Devices & Hardware
Lifestyle
Change Language
Language
English
Español
Português
Français
Deutsche
Cancel
Save
Submit search
EN
SU
Uploaded by
Seiichi Uchida
PPTX, PDF
3,943 views
データサイエンス概論第一=1-3 平均と分散
九州大学大学院システム情報科学研究院「データサイエンス実践特別講座」が贈る,数理・情報系『でない』学生さんのための「データサイエンス講義
Data & Analytics
◦
Read more
3
Save
Share
Embed
Embed presentation
Download
Downloaded 213 times
1
/ 20
2
/ 20
3
/ 20
4
/ 20
5
/ 20
6
/ 20
7
/ 20
8
/ 20
9
/ 20
10
/ 20
11
/ 20
12
/ 20
13
/ 20
14
/ 20
15
/ 20
16
/ 20
17
/ 20
18
/ 20
19
/ 20
20
/ 20
More Related Content
PPTX
データサイエンス概論第一=2-2 クラスタリング
by
Seiichi Uchida
PPTX
データサイエンス概論第一=1-1 データとは
by
Seiichi Uchida
PPTX
データサイエンス概論第一=3-1 線形代数に基づくデータ解析の基礎
by
Seiichi Uchida
PPTX
データサイエンス概論第一=1-2 データのベクトル表現と集合
by
Seiichi Uchida
PPTX
データサイエンス概論第一=4-1 相関・頻度・ヒストグラム
by
Seiichi Uchida
PPTX
データサイエンス概論第一=3-2 主成分分析と因子分析
by
Seiichi Uchida
PPTX
データサイエンス概論第一 6 異常検出
by
Seiichi Uchida
PPTX
データサイエンス概論第一=0 まえがき
by
Seiichi Uchida
データサイエンス概論第一=2-2 クラスタリング
by
Seiichi Uchida
データサイエンス概論第一=1-1 データとは
by
Seiichi Uchida
データサイエンス概論第一=3-1 線形代数に基づくデータ解析の基礎
by
Seiichi Uchida
データサイエンス概論第一=1-2 データのベクトル表現と集合
by
Seiichi Uchida
データサイエンス概論第一=4-1 相関・頻度・ヒストグラム
by
Seiichi Uchida
データサイエンス概論第一=3-2 主成分分析と因子分析
by
Seiichi Uchida
データサイエンス概論第一 6 異常検出
by
Seiichi Uchida
データサイエンス概論第一=0 まえがき
by
Seiichi Uchida
What's hot
PPTX
データサイエンス概論第一=2-1 データ間の距離と類似度
by
Seiichi Uchida
PPTX
データサイエンス概論第一=3-3 回帰分析
by
Seiichi Uchida
PPTX
データサイエンス概論第一=4-2 確率と確率分布
by
Seiichi Uchida
PDF
データサイエンス概論第一=8 パターン認識と深層学習
by
Seiichi Uchida
PDF
2 データのベクトル表現と集合
by
Seiichi Uchida
PDF
1 データとデータ分析
by
Seiichi Uchida
PPTX
距離とクラスタリング
by
大貴 末廣
PDF
7 主成分分析
by
Seiichi Uchida
PDF
5 クラスタリングと異常検出
by
Seiichi Uchida
PDF
3 平均・分散・相関
by
Seiichi Uchida
PDF
6 線形代数に基づくデータ解析の基礎
by
Seiichi Uchida
PPTX
相関分析と回帰分析
by
大貴 末廣
PDF
9 可視化
by
Seiichi Uchida
PDF
4 データ間の距離と類似度
by
Seiichi Uchida
PDF
階層ベイズによるワンToワンマーケティング入門
by
shima o
PDF
初めてのグラフカット
by
Tsubasa Hirakawa
PPTX
主成分分析
by
大貴 末廣
PPTX
データサイエンス概論第一 5 時系列データの解析
by
Seiichi Uchida
PDF
RBM、Deep Learningと学習(全脳アーキテクチャ若手の会 第3回DL勉強会発表資料)
by
Takuma Yagi
PDF
不均衡データのクラス分類
by
Shintaro Fukushima
データサイエンス概論第一=2-1 データ間の距離と類似度
by
Seiichi Uchida
データサイエンス概論第一=3-3 回帰分析
by
Seiichi Uchida
データサイエンス概論第一=4-2 確率と確率分布
by
Seiichi Uchida
データサイエンス概論第一=8 パターン認識と深層学習
by
Seiichi Uchida
2 データのベクトル表現と集合
by
Seiichi Uchida
1 データとデータ分析
by
Seiichi Uchida
距離とクラスタリング
by
大貴 末廣
7 主成分分析
by
Seiichi Uchida
5 クラスタリングと異常検出
by
Seiichi Uchida
3 平均・分散・相関
by
Seiichi Uchida
6 線形代数に基づくデータ解析の基礎
by
Seiichi Uchida
相関分析と回帰分析
by
大貴 末廣
9 可視化
by
Seiichi Uchida
4 データ間の距離と類似度
by
Seiichi Uchida
階層ベイズによるワンToワンマーケティング入門
by
shima o
初めてのグラフカット
by
Tsubasa Hirakawa
主成分分析
by
大貴 末廣
データサイエンス概論第一 5 時系列データの解析
by
Seiichi Uchida
RBM、Deep Learningと学習(全脳アーキテクチャ若手の会 第3回DL勉強会発表資料)
by
Takuma Yagi
不均衡データのクラス分類
by
Shintaro Fukushima
Similar to データサイエンス概論第一=1-3 平均と分散
PPTX
ベイズ統計学の概論的紹介
by
Naoki Hayashi
PDF
統計学の基礎の基礎
by
Ken'ichi Matsui
PDF
データ解析4 確率の復習
by
Hirotaka Hachiya
PDF
行列計算を利用したデータ解析技術
by
Yoshihiro Mizoguchi
PDF
Prml2.1 2.2,2.4-2.5
by
Takuto Kimura
PDF
PRML2.1 2.2
by
Takuto Kimura
PDF
PRML 2.3.2-2.3.4 ガウス分布
by
Akihiro Nitta
PDF
Prml 1.2,4 5,1.3|輪講資料1120
by
Hayato K
PDF
PRML 2.3.1-2.3.2
by
KunihiroTakeoka
PDF
第8回スキル養成講座講義資料.pdf
by
keiodig
PDF
PRML輪講用資料10章(パターン認識と機械学習,近似推論法)
by
Toshiyuki Shimono
PDF
統計学超入門「平均」を使いこなす
by
webcampusschoo
PDF
PRML復々習レーン#3 前回までのあらすじ
by
sleepy_yoshi
PPTX
ラビットチャレンジレポート 応用数学
by
ssuserf4860b
PDF
Prml1.2.4
by
Tomoyuki Hioki
PDF
PRML_titech 2.3.1 - 2.3.7
by
Takafumi Sakakibara
PPTX
mathemaical_notation
by
Kenta Oono
PDF
Excelを使って学ぶ、統計の基礎 先生:米谷 学
by
schoowebcampus
PDF
2015年度秋学期 統計学 第5回 分布をまとめる ― 記述統計量(平均・分散など) (2015. 10. 28)
by
Akira Asano
PDF
統計概論 isseing333
by
Issei Kurahashi
ベイズ統計学の概論的紹介
by
Naoki Hayashi
統計学の基礎の基礎
by
Ken'ichi Matsui
データ解析4 確率の復習
by
Hirotaka Hachiya
行列計算を利用したデータ解析技術
by
Yoshihiro Mizoguchi
Prml2.1 2.2,2.4-2.5
by
Takuto Kimura
PRML2.1 2.2
by
Takuto Kimura
PRML 2.3.2-2.3.4 ガウス分布
by
Akihiro Nitta
Prml 1.2,4 5,1.3|輪講資料1120
by
Hayato K
PRML 2.3.1-2.3.2
by
KunihiroTakeoka
第8回スキル養成講座講義資料.pdf
by
keiodig
PRML輪講用資料10章(パターン認識と機械学習,近似推論法)
by
Toshiyuki Shimono
統計学超入門「平均」を使いこなす
by
webcampusschoo
PRML復々習レーン#3 前回までのあらすじ
by
sleepy_yoshi
ラビットチャレンジレポート 応用数学
by
ssuserf4860b
Prml1.2.4
by
Tomoyuki Hioki
PRML_titech 2.3.1 - 2.3.7
by
Takafumi Sakakibara
mathemaical_notation
by
Kenta Oono
Excelを使って学ぶ、統計の基礎 先生:米谷 学
by
schoowebcampus
2015年度秋学期 統計学 第5回 分布をまとめる ― 記述統計量(平均・分散など) (2015. 10. 28)
by
Akira Asano
統計概論 isseing333
by
Issei Kurahashi
More from Seiichi Uchida
PDF
15 人工知能入門
by
Seiichi Uchida
PDF
13 分類とパターン認識
by
Seiichi Uchida
PDF
12 非構造化データ解析
by
Seiichi Uchida
PDF
10 確率と確率分布
by
Seiichi Uchida
PDF
8 予測と回帰分析
by
Seiichi Uchida
PDF
データサイエンス概論第一=7 画像処理
by
Seiichi Uchida
PDF
0 データサイエンス概論まえがき
by
Seiichi Uchida
PDF
14 データ収集とバイアス
by
Seiichi Uchida
PDF
Machine learning for document analysis and understanding
by
Seiichi Uchida
PDF
「あなたがいま読んでいるものは文字です」~画像情報学から見た文字研究のこれから
by
Seiichi Uchida
PPTX
An opening talk at ICDAR2017 Future Workshop - Beyond 100%
by
Seiichi Uchida
15 人工知能入門
by
Seiichi Uchida
13 分類とパターン認識
by
Seiichi Uchida
12 非構造化データ解析
by
Seiichi Uchida
10 確率と確率分布
by
Seiichi Uchida
8 予測と回帰分析
by
Seiichi Uchida
データサイエンス概論第一=7 画像処理
by
Seiichi Uchida
0 データサイエンス概論まえがき
by
Seiichi Uchida
14 データ収集とバイアス
by
Seiichi Uchida
Machine learning for document analysis and understanding
by
Seiichi Uchida
「あなたがいま読んでいるものは文字です」~画像情報学から見た文字研究のこれから
by
Seiichi Uchida
An opening talk at ICDAR2017 Future Workshop - Beyond 100%
by
Seiichi Uchida
データサイエンス概論第一=1-3 平均と分散
1.
1 九州大学大学院システム情報科学研究院 データサイエンス実践特別講座 データサイエンス概論第一 第1回 データとベクトル表現: 1-3 平均と分散 システム情報科学研究院情報知能工学部門 内田誠一
2.
2 データサイエンス概論第一の内容 データとは データのベクトル表現と集合
平均と分散 データ間の距離 データ間の類似度 データのクラスタリング (グルーピング) 線形代数に基づくデータ解析の基礎 主成分分析と因子分析 回帰分析 相関・頻度・ヒストグラム 確率と確率分布 信頼区間と統計的検定 時系列データの解析 異常検出
3.
3 データの平均 分布(=データ集合)の性質を記述する第一歩. 実は「平均」と言っても,いくつか種類があります
4.
44 分布の形を探る:データ集合の平均 N 個のデータがあれば,基本は「全データを合計して」「N
で割る」 正式には「算術平均」とか「相加平均」という名前がついている 例1:N = 5人の体重{62, 50, 49, 53, 73}の場合 平均=(62+50+49+53+73)/5 例2: N = 5人の「(体重,身長)の組」データの場合 平均= 62 173 + 50 162 + 49 158 + 53 156 + 73 176 /5 = 62 + 50 + 49 + 53 + 73 /5 173 + 162 + 158 + 156 + 176 /5
5.
5 算術平均(要は「普通の平均」)を式で書くと... 𝒙 = 𝒙1 +
𝒙2 + 𝒙3 + ⋯ + 𝒙 𝑁 𝑁 𝒙 = 1 𝑁 𝑖=1 𝑁 𝒙𝑖 それぞれ合計して個数𝑁で割るだけ 総和記号∑を使って書くと...
6.
66 算術平均=分布の重心 (1/2) 平均=重心, 全データの代表値としても使えそう 第1次元での平均 第2次元での平均
7.
77 算術平均=分布の重心 (2/2) ただし,重心が「代表例」になるかどうかは要注意
分散(後述)などを調べる必要あり 要するに,「平均」だけでは見えないこともある !?!? !?
8.
88 参考:算術平均以外の「平均」: 加重平均 (1/2) 重みを付けて算術平均 𝒙
= 𝑤1 𝒙1 + 𝑤2 𝒙2 + 𝑤3 𝒙3 + ⋯ + 𝑤 𝑁 𝒙 𝑁 𝑤1 + 𝑤2 + 𝑤3 + ⋯ + 𝑤 𝑁 = ∑ 𝑤 𝑖 𝑥 𝑖 ∑ 𝑤 𝑖 確からしさ𝑤𝑖 1 0.9 0.95 0.1 重みの例 時々,軽めに 申告しちゃいます
9.
99 参考:算術平均以外の「平均」: 加重平均 (2/2) 算術平均は加重平均の特殊な場合 確からしさ𝑤𝑖
1 1 1 1 重みの例 𝒙 = 𝑤1 𝒙1 + 𝑤2 𝒙2 + 𝑤3 𝒙3 + ⋯ + 𝑤 𝑁 𝒙 𝑁 𝑤1 + 𝑤2 + 𝑤3 + ⋯ + 𝑤 𝑁 = 1 𝑁 ∑ 𝑥 𝑖 1 1が𝑁個
10.
1010 参考:算術平均以外の「平均」: 幾何平均(相乗平均) 「全部かけあわせて」「𝑁乗根」 数値(=1次元ベクトル=スカラー)にしか使えない
それも正の数値しか扱えない 𝑁 = 3のときの幾何学的解釈 𝑥 = 𝑁 𝑥1 𝑥2 𝑥3 ⋯ 𝑥 𝑁 𝑥1 𝑥2 𝑥3 𝑥 𝑥 𝑥 体積が等しい 𝑥 = 𝑒 1 𝑁 ∑ log 𝑒 𝑥 𝑖
11.
1111 参考:算術平均 vs. 幾何平均 at
「はずれ値」の影響 1,1,1,1,1,1,1,1,1,10000 算術平均なら 10009/10 = 1000.9 幾何平均なら 10 10000 =2.5 9個 はずれ値 なので,幾何平均は 正の数(≠ベクトル)にしか使えないし, 重心的解釈もできないが, 外れ値には強い どんな方法も万能ではない! メリット・デメリットを見極めて, 適切な方法を選択すること!
12.
12 データの分散 分布(=データ集合)の性質を記述する第二歩. 今回は入り口だけ.もうちょっと進んだ内容は,そのうちに...
13.
1313 分散=データの広がり具合 簡単に言えば,分散=広がり具合 上図では,「第1次元の分散>第2次元の分散」 非常に広がっている 第2次元 狭い 第1次元
14.
1414 (ベクトルの分散は後回しにして) 数の集合の分散を求めよう 数の集合𝑥1, 𝑥2,
… , 𝑥 𝑁の分散 =「 (算術)平均値との差の二乗」の平均 分散が大きい→平均値と大きく違う数が多い→広がっている 𝜎2 = 𝑥1 − 𝑥 2 + ⋯ + 𝑥 𝑁 − 𝑥 2 𝑁 = 1 𝑁 𝑖=1 𝑁 𝑥𝑖 − 𝑥 2 算術平均 ベクトルではない
15.
1515 式だけ見せられてもわからない! → 分散の意味を確認する 𝜎2 = 𝑥1 −
𝑥 2 + ⋯ + 𝑥 𝑁 − 𝑥 2 𝑁 平均 𝑥𝑥1 𝑥 𝑁 この間の距離を 二乗したもの 𝑥1 − 𝑥 2 分散=全データが平均的に「平均 𝑥とどれぐらい離れているか?」 ※ただし離れ具合は「二乗距離」で評価. なお,距離については第二回で.
16.
1616 練習 1, 1,
1, 1, 1 の分散は? 1, 5, 4, 2, 8 の分散は?
17.
1717 標準偏差 𝜎2は「標準偏差」と呼ばれ,𝜎と書く 前頁の分散の式から,標準偏差
やっぱり広がり具合を表す • 𝑥𝑖と 𝑥の違い(距離)の平均値 ちなみに,「𝜎2」という表記を分散を表す「1つの記号」と見たほうが 気が楽な場合も多し 𝜎 = 1 𝑁 𝑖=1 𝑁 𝑥𝑖 − 𝑥 2
18.
1818 分散,ちょっとした話(1/2) 全部の数が一様に∆だけプラスされても,分散は同じ 値が 𝑥𝑖から𝑥𝑖 +
∆になったとすると, 平均は 𝑥から 𝑥 + ∆ になるので, ずれても,広がり(分散)は同じ! 1 𝑁 𝑖=1 𝑁 𝑥𝑖 + ∆ − 𝑥 + ∆ 2 = 1 𝑁 𝑖=1 𝑁 𝑥𝑖 − 𝑥 2 =𝜎2 +∆
19.
1919 分散,ちょっとした話(2/2) では全部の数が一様に𝛼倍なったらどうなる? 値が 𝑥𝑖から𝛼𝑥𝑖になったとすると,算術平均は 𝑥から𝛼
𝑥になるので, 1 𝑁 𝑖=1 𝑁 𝛼𝑥𝑖 − 𝛼 𝑥 2 = 𝛼2 𝑁 𝑖=1 𝑁 𝑥𝑖 − 𝑥 2 =𝛼2 𝜎2 𝛼2 倍に!
20.
2020 練習 1, 1,
1, 1, 1 の分散は? 1, 5, 4, 2, 8 の分散は? 1001, 1005, 1004, 1002, 1008の分散は? 10, 50, 40, 20, 80 の分散は? +1000 ×10
Download