Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

データサイエンス概論第一=1-3 平均と分散

547 views

Published on

九州大学大学院システム情報科学研究院「データサイエンス実践特別講座」が贈る,数理・情報系『でない』学生さんのための「データサイエンス講義

Published in: Data & Analytics
  • Be the first to comment

  • Be the first to like this

データサイエンス概論第一=1-3 平均と分散

  1. 1. 1 九州大学大学院システム情報科学研究院 データサイエンス実践特別講座 データサイエンス概論第一 第1回 データとベクトル表現: 1-3 平均と分散 システム情報科学研究院情報知能工学部門 内田誠一
  2. 2. 2 データサイエンス概論第一の内容  データとは  データのベクトル表現と集合  平均と分散  データ間の距離  データ間の類似度  データのクラスタリング (グルーピング)  線形代数に基づくデータ解析の基礎  主成分分析と因子分析  回帰分析  相関・頻度・ヒストグラム  確率と確率分布  信頼区間と統計的検定  時系列データの解析  異常検出
  3. 3. 3 データの平均 分布(=データ集合)の性質を記述する第一歩. 実は「平均」と言っても,いくつか種類があります
  4. 4. 44 分布の形を探る:データ集合の平均  N 個のデータがあれば,基本は「全データを合計して」「N で割る」  正式には「算術平均」とか「相加平均」という名前がついている  例1:N = 5人の体重{62, 50, 49, 53, 73}の場合  平均=(62+50+49+53+73)/5  例2: N = 5人の「(体重,身長)の組」データの場合  平均= 62 173 + 50 162 + 49 158 + 53 156 + 73 176 /5 = 62 + 50 + 49 + 53 + 73 /5 173 + 162 + 158 + 156 + 176 /5
  5. 5. 5 算術平均(要は「普通の平均」)を式で書くと... 𝒙 = 𝒙1 + 𝒙2 + 𝒙3 + ⋯ + 𝒙 𝑁 𝑁 𝒙 = 1 𝑁 𝑖=1 𝑁 𝒙𝑖 それぞれ合計して個数𝑁で割るだけ 総和記号∑を使って書くと...
  6. 6. 66 算術平均=分布の重心 (1/2) 平均=重心, 全データの代表値としても使えそう 第1次元での平均 第2次元での平均
  7. 7. 77 算術平均=分布の重心 (2/2)  ただし,重心が「代表例」になるかどうかは要注意  分散(後述)などを調べる必要あり  要するに,「平均」だけでは見えないこともある !?!? !?
  8. 8. 88 参考:算術平均以外の「平均」: 加重平均 (1/2)  重みを付けて算術平均 𝒙 = 𝑤1 𝒙1 + 𝑤2 𝒙2 + 𝑤3 𝒙3 + ⋯ + 𝑤 𝑁 𝒙 𝑁 𝑤1 + 𝑤2 + 𝑤3 + ⋯ + 𝑤 𝑁 = ∑ 𝑤 𝑖 𝑥 𝑖 ∑ 𝑤 𝑖 確からしさ𝑤𝑖 1 0.9 0.95 0.1 重みの例 時々,軽めに 申告しちゃいます
  9. 9. 99 参考:算術平均以外の「平均」: 加重平均 (2/2)  算術平均は加重平均の特殊な場合 確からしさ𝑤𝑖 1 1 1 1 重みの例 𝒙 = 𝑤1 𝒙1 + 𝑤2 𝒙2 + 𝑤3 𝒙3 + ⋯ + 𝑤 𝑁 𝒙 𝑁 𝑤1 + 𝑤2 + 𝑤3 + ⋯ + 𝑤 𝑁 = 1 𝑁 ∑ 𝑥 𝑖 1 1が𝑁個
  10. 10. 1010 参考:算術平均以外の「平均」: 幾何平均(相乗平均)  「全部かけあわせて」「𝑁乗根」  数値(=1次元ベクトル=スカラー)にしか使えない  それも正の数値しか扱えない  𝑁 = 3のときの幾何学的解釈 𝑥 = 𝑁 𝑥1 𝑥2 𝑥3 ⋯ 𝑥 𝑁 𝑥1 𝑥2 𝑥3 𝑥 𝑥 𝑥 体積が等しい 𝑥 = 𝑒 1 𝑁 ∑ log 𝑒 𝑥 𝑖
  11. 11. 1111 参考:算術平均 vs. 幾何平均 at 「はずれ値」の影響  1,1,1,1,1,1,1,1,1,10000  算術平均なら  10009/10 = 1000.9  幾何平均なら  10 10000 =2.5 9個 はずれ値 なので,幾何平均は 正の数(≠ベクトル)にしか使えないし, 重心的解釈もできないが, 外れ値には強い どんな方法も万能ではない! メリット・デメリットを見極めて, 適切な方法を選択すること!
  12. 12. 12 データの分散 分布(=データ集合)の性質を記述する第二歩. 今回は入り口だけ.もうちょっと進んだ内容は,そのうちに...
  13. 13. 1313 分散=データの広がり具合  簡単に言えば,分散=広がり具合  上図では,「第1次元の分散>第2次元の分散」 非常に広がっている 第2次元 狭い 第1次元
  14. 14. 1414 (ベクトルの分散は後回しにして) 数の集合の分散を求めよう  数の集合𝑥1, 𝑥2, … , 𝑥 𝑁の分散  =「 (算術)平均値との差の二乗」の平均  分散が大きい→平均値と大きく違う数が多い→広がっている 𝜎2 = 𝑥1 − 𝑥 2 + ⋯ + 𝑥 𝑁 − 𝑥 2 𝑁 = 1 𝑁 𝑖=1 𝑁 𝑥𝑖 − 𝑥 2 算術平均 ベクトルではない
  15. 15. 1515 式だけ見せられてもわからない! → 分散の意味を確認する 𝜎2 = 𝑥1 − 𝑥 2 + ⋯ + 𝑥 𝑁 − 𝑥 2 𝑁 平均 𝑥𝑥1 𝑥 𝑁 この間の距離を 二乗したもの 𝑥1 − 𝑥 2 分散=全データが平均的に「平均 𝑥とどれぐらい離れているか?」 ※ただし離れ具合は「二乗距離」で評価. なお,距離については第二回で.
  16. 16. 1616 練習  1, 1, 1, 1, 1 の分散は?  1, 5, 4, 2, 8 の分散は?
  17. 17. 1717 標準偏差  𝜎2は「標準偏差」と呼ばれ,𝜎と書く  前頁の分散の式から,標準偏差  やっぱり広がり具合を表す • 𝑥𝑖と 𝑥の違い(距離)の平均値  ちなみに,「𝜎2」という表記を分散を表す「1つの記号」と見たほうが 気が楽な場合も多し 𝜎 = 1 𝑁 𝑖=1 𝑁 𝑥𝑖 − 𝑥 2
  18. 18. 1818 分散,ちょっとした話(1/2) 全部の数が一様に∆だけプラスされても,分散は同じ 値が 𝑥𝑖から𝑥𝑖 + ∆になったとすると, 平均は 𝑥から 𝑥 + ∆ になるので, ずれても,広がり(分散)は同じ! 1 𝑁 𝑖=1 𝑁 𝑥𝑖 + ∆ − 𝑥 + ∆ 2 = 1 𝑁 𝑖=1 𝑁 𝑥𝑖 − 𝑥 2 =𝜎2 +∆
  19. 19. 1919 分散,ちょっとした話(2/2) では全部の数が一様に𝛼倍なったらどうなる? 値が 𝑥𝑖から𝛼𝑥𝑖になったとすると,算術平均は 𝑥から𝛼 𝑥になるので, 1 𝑁 𝑖=1 𝑁 𝛼𝑥𝑖 − 𝛼 𝑥 2 = 𝛼2 𝑁 𝑖=1 𝑁 𝑥𝑖 − 𝑥 2 =𝛼2 𝜎2 𝛼2 倍に!
  20. 20. 2020 練習  1, 1, 1, 1, 1 の分散は?  1, 5, 4, 2, 8 の分散は?  1001, 1005, 1004, 1002, 1008の分散は?  10, 50, 40, 20, 80 の分散は? +1000 ×10

×