1
九州大学大学院システム情報科学研究院
データサイエンス実践特別講座
データサイエンス概論第一
第1回 データとベクトル表現:
1-3 平均と分散
システム情報科学研究院情報知能工学部門
内田誠一
2
データサイエンス概論第一の内容
 データとは
 データのベクトル表現と集合
 平均と分散
 データ間の距離
 データ間の類似度
 データのクラスタリング
(グルーピング)
 線形代数に基づくデータ解析の基礎
 主成分分析と因子分析
 回帰分析
 相関・頻度・ヒストグラム
 確率と確率分布
 信頼区間と統計的検定
 時系列データの解析
 異常検出
3
データの平均
分布(=データ集合)の性質を記述する第一歩.
実は「平均」と言っても,いくつか種類があります
44
分布の形を探る:データ集合の平均
 N 個のデータがあれば,基本は「全データを合計して」「N で割る」
 正式には「算術平均」とか「相加平均」という名前がついている
 例1:N = 5人の体重{62, 50, 49, 53, 73}の場合
 平均=(62+50+49+53+73)/5
 例2: N = 5人の「(体重,身長)の組」データの場合
 平均=
62
173
+
50
162
+
49
158
+
53
156
+
73
176
/5
=
62 + 50 + 49 + 53 + 73 /5
173 + 162 + 158 + 156 + 176 /5
5
算術平均(要は「普通の平均」)を式で書くと...
𝒙 =
𝒙1 + 𝒙2 + 𝒙3 + ⋯ + 𝒙 𝑁
𝑁
𝒙 =
1
𝑁
𝑖=1
𝑁
𝒙𝑖
それぞれ合計して個数𝑁で割るだけ
総和記号∑を使って書くと...
66
算術平均=分布の重心 (1/2)
平均=重心,
全データの代表値としても使えそう
第1次元での平均
第2次元での平均
77
算術平均=分布の重心 (2/2)
 ただし,重心が「代表例」になるかどうかは要注意
 分散(後述)などを調べる必要あり
 要するに,「平均」だけでは見えないこともある
!?!? !?
88
参考:算術平均以外の「平均」:
加重平均 (1/2)
 重みを付けて算術平均
𝒙 =
𝑤1 𝒙1 + 𝑤2 𝒙2 + 𝑤3 𝒙3 + ⋯ + 𝑤 𝑁 𝒙 𝑁
𝑤1 + 𝑤2 + 𝑤3 + ⋯ + 𝑤 𝑁
= ∑ 𝑤 𝑖 𝑥 𝑖
∑ 𝑤 𝑖
確からしさ𝑤𝑖 1 0.9 0.95 0.1
重みの例
時々,軽めに
申告しちゃいます
99
参考:算術平均以外の「平均」:
加重平均 (2/2)
 算術平均は加重平均の特殊な場合
確からしさ𝑤𝑖 1 1 1 1
重みの例
𝒙 =
𝑤1 𝒙1 + 𝑤2 𝒙2 + 𝑤3 𝒙3 + ⋯ + 𝑤 𝑁 𝒙 𝑁
𝑤1 + 𝑤2 + 𝑤3 + ⋯ + 𝑤 𝑁
=
1
𝑁
∑ 𝑥 𝑖
1
1が𝑁個
1010
参考:算術平均以外の「平均」:
幾何平均(相乗平均)
 「全部かけあわせて」「𝑁乗根」
 数値(=1次元ベクトル=スカラー)にしか使えない
 それも正の数値しか扱えない
 𝑁 = 3のときの幾何学的解釈
𝑥 = 𝑁
𝑥1 𝑥2 𝑥3 ⋯ 𝑥 𝑁
𝑥1
𝑥2
𝑥3
𝑥
𝑥
𝑥
体積が等しい
𝑥 = 𝑒
1
𝑁
∑ log 𝑒 𝑥 𝑖
1111
参考:算術平均 vs. 幾何平均
at 「はずれ値」の影響
 1,1,1,1,1,1,1,1,1,10000
 算術平均なら
 10009/10 = 1000.9
 幾何平均なら

10
10000 =2.5
9個 はずれ値
なので,幾何平均は
正の数(≠ベクトル)にしか使えないし,
重心的解釈もできないが,
外れ値には強い
どんな方法も万能ではない!
メリット・デメリットを見極めて,
適切な方法を選択すること!
12
データの分散
分布(=データ集合)の性質を記述する第二歩.
今回は入り口だけ.もうちょっと進んだ内容は,そのうちに...
1313
分散=データの広がり具合
 簡単に言えば,分散=広がり具合
 上図では,「第1次元の分散>第2次元の分散」
非常に広がっている
第2次元
狭い
第1次元
1414
(ベクトルの分散は後回しにして)
数の集合の分散を求めよう
 数の集合𝑥1, 𝑥2, … , 𝑥 𝑁の分散
 =「 (算術)平均値との差の二乗」の平均
 分散が大きい→平均値と大きく違う数が多い→広がっている
𝜎2
=
𝑥1 − 𝑥 2
+ ⋯ + 𝑥 𝑁 − 𝑥 2
𝑁
=
1
𝑁
𝑖=1
𝑁
𝑥𝑖 − 𝑥 2
算術平均
ベクトルではない
1515
式だけ見せられてもわからない!
→ 分散の意味を確認する
𝜎2
=
𝑥1 − 𝑥 2
+ ⋯ + 𝑥 𝑁 − 𝑥 2
𝑁
平均 𝑥𝑥1 𝑥 𝑁
この間の距離を
二乗したもの 𝑥1 − 𝑥 2
分散=全データが平均的に「平均 𝑥とどれぐらい離れているか?」
※ただし離れ具合は「二乗距離」で評価.
なお,距離については第二回で.
1616
練習
 1, 1, 1, 1, 1 の分散は?
 1, 5, 4, 2, 8 の分散は?
1717
標準偏差
 𝜎2は「標準偏差」と呼ばれ,𝜎と書く
 前頁の分散の式から,標準偏差
 やっぱり広がり具合を表す
• 𝑥𝑖と 𝑥の違い(距離)の平均値
 ちなみに,「𝜎2」という表記を分散を表す「1つの記号」と見たほうが
気が楽な場合も多し
𝜎 =
1
𝑁
𝑖=1
𝑁
𝑥𝑖 − 𝑥 2
1818
分散,ちょっとした話(1/2)
全部の数が一様に∆だけプラスされても,分散は同じ
値が 𝑥𝑖から𝑥𝑖 + ∆になったとすると, 平均は 𝑥から 𝑥 + ∆ になるので,
ずれても,広がり(分散)は同じ!
1
𝑁
𝑖=1
𝑁
𝑥𝑖 + ∆ − 𝑥 + ∆
2
=
1
𝑁
𝑖=1
𝑁
𝑥𝑖 − 𝑥 2
=𝜎2
+∆
1919
分散,ちょっとした話(2/2)
では全部の数が一様に𝛼倍なったらどうなる?
値が 𝑥𝑖から𝛼𝑥𝑖になったとすると,算術平均は 𝑥から𝛼 𝑥になるので,
1
𝑁
𝑖=1
𝑁
𝛼𝑥𝑖 − 𝛼 𝑥 2
=
𝛼2
𝑁
𝑖=1
𝑁
𝑥𝑖 − 𝑥 2
=𝛼2
𝜎2
𝛼2
倍に!
2020
練習
 1, 1, 1, 1, 1 の分散は?
 1, 5, 4, 2, 8 の分散は?
 1001, 1005, 1004, 1002, 1008の分散は?
 10, 50, 40, 20, 80 の分散は?
+1000
×10

データサイエンス概論第一=1-3 平均と分散