SlideShare a Scribd company logo
1 変数の集計

 統計学入門
             2008.04
         2009.05.7 修正
   2011.04.27 演習解答例追加
 2012.04.25 演習 2 解答メモ追加
     四分位偏差 説明追加
     (講義後の修正まで)
データの分布
• だいたいどんな値 (代表値)
• 値のバラエティさ  (ばらつき)
• その中でどんな値が多いか (ヒストグラ
  ム)          2 0. 2
         - 0. 0. 0




                       1 50   1 60         1 70   1 80   1 90
         - 0. 0. 0 2




                                     m
               2 0.




• 分布形状                 1 50   1 60
                                     f 2
                                           1 70   1 80   1 90




 – 単峰性、双峰性、多峰性
 – 左に偏った J 型分布、左右対称分布
   右に偏った L 型分布
分布の形状
   単峰性       双峰性      多峰性




左に裾を引いている    対称性    右に裾を引いている
  J 型分布                 L 型分布
共通一次試験 (1980 年 )
民間給与実態統計調査(平成 9
      年)
データの縮約
• n 個のデータ
    x1, x2, ・・・ xn
  を数個の値にまとめる!

• 代表値(位置、 location )
• ばらつき(広がり、 dispersion )

• 5数要約
• グラフ表現
代表値
• データが概ねどんな値か
• (数直線上の)どのあたりの位置にあ
       - 0.0. 0 2




  るか
            2 0.




                    1 50   1 60       1 70   1 80   1 90

                                  m




•   (算術)平均値 arithmetic mean
•   中央値 median
•   最小値 minimum
•   最大値 maximum
「良い」代表値とは
                                絶




                                             2
                 デ   代                       乗
                         誤      対
                     表
• ある定めた基準の元で
                 ー
                         差      誤            誤
                 タ   値                       差
                                差
  「良い」
                 x1 a x1-a          |x1-a|       (x1-a)2
• 代表値とはn個の様々
  な値を、 1 個の値に置   x2 a    x2-a       |x2-a|       (x2-a)2
  き換えること
                 ・・      ・    ・              ・
• 置き換えたときの誤差
                 ・・      ・    ・              ・
• 誤差は無いほどよい      ・・      ・    ・              ・
• できるだけ小さく       xn a    xn-a |xn-a|          (xn-a)2
• 最小化しよう
                 和              Σ |xn-a|     Σ (xn-a)2
平均値 (mean)
• mean          x1 + x2 +  + xn
             x=
                        n
• 代表値として一番良く使われる
• 最小 2 乗法 (Least Square Methods) の意味で最
  良

 誤差の 2 乗
   Q(a)=(x1-a)2+(x2-a)2+ ・・・ +(xn-a)2
 を最小にする a
平均値

16


14


12


10


8


6


4


2


0
     1   2   3   4   5   6   7   8   9   10
中央値 (median)
• 平均値の問題点
  はずれ値 (outlier) の影響を受けやすい

            平均値
• 多数のデータからは離れた値になって
  いる
      中央値
• 集団の代表値としては中央値の方が妥当
      Me = x((n+1)/2)  ないしは  (x(n/2)
  +x(n/2+1))/2
平均値と中央値との関係
• 平均値は外れ値の影響を受けやすい
• 中央値は外れ値に頑健 (robust)

 http://bstat.f7.ems.okayama-u.ac.jp/~yan/dataplot/
平均値の改良
• truncated mean, trimmed mean (切捨て平
  均)
  – 大きい方 α 、小さい方 α のデータを捨てて
    残りの 1-2α のデータで平均値を計算する
  – α としては 0.25 が良く使われる

           平均値


    平均値          α=1/6 の場合
最小値、最大値
• 洪水対策
    過去のデータでの最大降水量に対
  して対策を立てる

• 許容量
    被害が起きた最小の値に対して対
  策を立てる
5 数要約  (fivnum)
                            five-number summary
• 大きさの順序に並び換え
     x(1)<x(2)< ・・・ <x(n)


• x(1)     最小値
• x(n/4)    第1四分位値 (Q1)
• x(2n/4)    第2四分位値 (Q2) =中央値
  (Me)
• x(3n/4)    第3四分位値 (Q3)
• x(n)     最大値
箱髭図 (boxplot)
• 5 数要約のグラフ表現



                         x(n)
                         Q3
                        median
                         Q1
                         x(1)



     (boxplot height)
度数分布表とヒストグラム
 frequency table and histogram
• 階級数 k
  – √n
  – 1 + log n/log 2
  – 10 ~ 20
• 階級の幅 w
  – w=(x(n)-x(1))/k
• 端点 a0
   a0 < x(1)< a0 + w/2
度数分布表の追加情報
階級     階級値 度数     相対度数   累積度数      累積相対度数


a0~a1 m1     f1   f1/n   f1        (f1)/n
a1~a2 m2     f2   f2/n   f1+f2     (f1+f2)/n


ak-1~ak mk   fk   fk/n   f1+‥+fk   (f1+‥+fk)/n
             n    1
演習
• 統計学 168 人の試験の成績は
    最小値  24 点
    最大値  87 点
  であった。度数分布表を作るための階
  級を定めよ。
• 169 人の身長を調査したところ
    最小値  143.2cm
    最大値  175.7cm
  であった。度数分布表を作るための階
  級を定めよ。
演習問題の解答例
n=168 人                                         階級
   x(1)= 最小値 =24                                 22~27
   x(n)= 最大値 =87                                 27~32
  n = 168 = 12.96                                32~37
                  log 168      2.2253            37~42
1 + log 2 n = 1 +         = 1+        = 8.393
                   log 2       0.3010            42~47
階級数k = 8~13                                      47~52
        x( n ) − x(1) 87 − 24                    52~57
                                     63
幅  w =               =        = 4.85~ = 7.85     57~62
               k        13           8
    w = 5 と決める                                   62~67
                                                 67~72
端点 a0 :  a0 ≤ x(1) ≤ a0 + w / 2
                                                 72~77
a0 ≤ 24 ≤ a0 + 5 / 2
                                                 77~82
a0 ≤ 24 ≤ a0 + 2.5
                                                 82~87
24 − 2.5 = 21.5 ≤ a0 ≤ 24                        87~92
a0 = 22  と決める
講  評
「階級を定める」ということは、
すべての小区間を決めること!          22~27   22.5~27.5
                        27~32   27.5~32.5
階級数 k、                          32.5~37.5
                        32~37
階級の幅 w、                         37.5~42.5
                        37~42
端点  a0 を決めるだけでは不十分。             42.5~47.5
                        42~47
                        47~52   47.5~52.5
端点の値がどちらの階級に属するか(以下、未           52.5~57.5
                        52~57
満)という議論を避けるために、端点の値がデ           57.5~62.5
                        57~62
ータに出てこないように端点を定めることもあ
                        62~67   62.5~67.5
る。
                        67~72   67.5~72.5
                        72~77   72.5~77.5
データの有効桁(成績のよう整数値のデータで
あれば、1の位)に対して、その一つ下の桁(   77~82   77.5~82.5
整数値であれば、小数点以下1桁目)に5を付   82~87   82.5~87.5
けた値を端点の値とする。            87~92   87.5~92.5

前の演習問題であれば、右側のように定めれば
良い。
演習
• 統計学 168 人の試験の成績は
    最小値  24 点
    最大値  87 点
  であった。度数分布表を作るための階
  級を定めよ。
• 169 人の身長を調査したところ
    最小値  143.2cm
    最大値  175.7cm
  であった。度数分布表を作るための階
  級を定めよ。
       Log(169,2)+1=8.4 32.5/13=2.5 W=4
       √169=13                        32.5/8=4.06   143.2-4/2=141.2
       R=X(n)-X(1)=175.7-143.2=32.5                 A0=142
ばらつき (dispersion) の尺度
 • 代表値は同じでも、分布が異なる
> mean(height)
151.57142857142856
> mean(height2)
151.3571428571429
                            2 0. 2
                       - 0. 0. 0




> histogram(height)                  1 50   1 60         1 70   1 80   1 90

                                                   f 2


> histogram(height2)




      height2 ~tarumi/lispstat/height2.lsp
バラツキの尺度
• 範囲 (range)
• 四分位範囲 (interquartile range)
• 平均偏差 (mean deviation)

• 分散 (variance)
• 標準偏差 (standard deviation)
範囲 (range)
  四分位範囲 (quartile range)
• 最小値から最大値までの幅
     R = x(n) - x(1)
• 外れ値 (Outlier) の影響を受けやすい
• 両端 25 %のデータを捨てた真中の
  50% のデータでの範囲=四分位範囲 =
  Q3 - Q1
            R


            R
            QR
四分位偏差
• 平成 24 年度からの高校数学Ⅰでは四分位
  範囲の代わりに、四分位偏差が取り上
  げられている。
           Q3 − Q1 四分位範囲
  四分位偏差 =         =
              2      2
• 統計学の分野では四分位範囲の方がよ
  くつかわれる。
平均偏差 (mean deviation)
• 偏差
       d i = xi − x
• 平均偏差
                  n          n
              1          1         
       d = d = ∑ | di | = ∑ |x i − x |
              n i =1     n i =1
分散 (variance)
標準偏差 (standard deviation)
• 分散 偏差2乗の平均
          1 n
       s = ∑ ( xi − x )
        2               2

          n i =1
             n
        1
       = (∑ xi ) − ( x )
               2         2

        n i =1
• 標準偏差   分散の平方根
           1 n
    s= s =
        2
             ∑ ( xi − x )
           n i =1
                          2
不偏分散 (unbiased variance)
• 標本分散としては不偏分散 u2 を使うこ
  とも多い
       1 n
    s = ∑ ( xi − x )
     2               2

       n i =1
                 n
         1
    u =
     2
             ∑ ( xi − x )
        n − 1 i =1
                          2



             2
       ns
      
     =
       n −1
演習
• height
  – 148, 160, 159, 153, 151, 140, 156, 137, 149, 160, 151,
    157, 157, 144
  – 和 2122          2 乗和 322338
• height2
  – 138, 162, 158, 151, 145, 134, 160, 137, 151, 163, 152,
    163, 158, 147
  – 和 2119          2 乗和 322019
• weight
  – 41, 49, 45, 43, 42, 29, 49, 31, 47, 47, 42, 39, 48, 36
  – 和 588 2 乗和 25226

More Related Content

What's hot

Pengenalan Kabupaten Bandung Barat
Pengenalan Kabupaten Bandung BaratPengenalan Kabupaten Bandung Barat
Pengenalan Kabupaten Bandung Barat
readoneitz
 
Konsep dan Skenario Perencanaan Kecamatan Wonogiri
Konsep dan Skenario Perencanaan Kecamatan WonogiriKonsep dan Skenario Perencanaan Kecamatan Wonogiri
Konsep dan Skenario Perencanaan Kecamatan Wonogiri
Latifah Tio
 
PENJELASAN PERDA RDTR DAN PZ
PENJELASAN PERDA RDTR DAN PZ PENJELASAN PERDA RDTR DAN PZ
PENJELASAN PERDA RDTR DAN PZ
joihot
 
Pedoman penataan ruang kawasan rawan bencana longsor
Pedoman penataan ruang kawasan rawan bencana longsorPedoman penataan ruang kawasan rawan bencana longsor
Pedoman penataan ruang kawasan rawan bencana longsor
Penataan Ruang
 
Greater Jakarta Transport - on the way to transformation
Greater Jakarta Transport - on the way to transformationGreater Jakarta Transport - on the way to transformation
Greater Jakarta Transport - on the way to transformation
Institute for Transport Studies (ITS)
 
Bab 1 pendahuluan
Bab 1 pendahuluanBab 1 pendahuluan
Bab 1 pendahuluan
muhfidzilla
 
Cisco 1900 series router datasheet
Cisco 1900 series router datasheetCisco 1900 series router datasheet
Cisco 1900 series router datasheet
Amy Huang
 
Perda no. 2 tahun 2010 tentang rtrw kota probolinggo 2009 2028
Perda no. 2 tahun 2010 tentang rtrw kota probolinggo 2009 2028 Perda no. 2 tahun 2010 tentang rtrw kota probolinggo 2009 2028
Perda no. 2 tahun 2010 tentang rtrw kota probolinggo 2009 2028
Adi T Wibowo
 
Presentasi Review RDTR Kota Simpang Ampek
Presentasi Review RDTR Kota Simpang AmpekPresentasi Review RDTR Kota Simpang Ampek
Presentasi Review RDTR Kota Simpang Ampek
henny ferniza
 
Review RDTR Kota Simpang Ampek
Review RDTR Kota Simpang AmpekReview RDTR Kota Simpang Ampek
Review RDTR Kota Simpang Ampek
henny ferniza
 
RPLP Kelurahan Mangasa
RPLP Kelurahan Mangasa RPLP Kelurahan Mangasa
RPLP Kelurahan Mangasa
Ilham Hidayatullah
 
belajar biopori yukk (untuk kawasan rawa)
belajar biopori yukk (untuk kawasan rawa)belajar biopori yukk (untuk kawasan rawa)
belajar biopori yukk (untuk kawasan rawa)
Redha Ahmad Dani
 
Dokumen Teknis RZWP3K - DKI Jakarta.pdf
Dokumen Teknis RZWP3K - DKI Jakarta.pdfDokumen Teknis RZWP3K - DKI Jakarta.pdf
Dokumen Teknis RZWP3K - DKI Jakarta.pdf
joihot
 
Raperda tentang RDTR dan Peraturan Zonasi Jakarta 2030
Raperda tentang RDTR dan Peraturan Zonasi Jakarta 2030Raperda tentang RDTR dan Peraturan Zonasi Jakarta 2030
Raperda tentang RDTR dan Peraturan Zonasi Jakarta 2030
joihot
 

What's hot (16)

Rtrw dki
Rtrw dkiRtrw dki
Rtrw dki
 
Pengenalan Kabupaten Bandung Barat
Pengenalan Kabupaten Bandung BaratPengenalan Kabupaten Bandung Barat
Pengenalan Kabupaten Bandung Barat
 
Konsep dan Skenario Perencanaan Kecamatan Wonogiri
Konsep dan Skenario Perencanaan Kecamatan WonogiriKonsep dan Skenario Perencanaan Kecamatan Wonogiri
Konsep dan Skenario Perencanaan Kecamatan Wonogiri
 
PENJELASAN PERDA RDTR DAN PZ
PENJELASAN PERDA RDTR DAN PZ PENJELASAN PERDA RDTR DAN PZ
PENJELASAN PERDA RDTR DAN PZ
 
Pedoman penataan ruang kawasan rawan bencana longsor
Pedoman penataan ruang kawasan rawan bencana longsorPedoman penataan ruang kawasan rawan bencana longsor
Pedoman penataan ruang kawasan rawan bencana longsor
 
Greater Jakarta Transport - on the way to transformation
Greater Jakarta Transport - on the way to transformationGreater Jakarta Transport - on the way to transformation
Greater Jakarta Transport - on the way to transformation
 
Bab 1 pendahuluan
Bab 1 pendahuluanBab 1 pendahuluan
Bab 1 pendahuluan
 
Cisco 1900 series router datasheet
Cisco 1900 series router datasheetCisco 1900 series router datasheet
Cisco 1900 series router datasheet
 
Perda no. 2 tahun 2010 tentang rtrw kota probolinggo 2009 2028
Perda no. 2 tahun 2010 tentang rtrw kota probolinggo 2009 2028 Perda no. 2 tahun 2010 tentang rtrw kota probolinggo 2009 2028
Perda no. 2 tahun 2010 tentang rtrw kota probolinggo 2009 2028
 
Review RTRW kota semarang
Review RTRW kota semarangReview RTRW kota semarang
Review RTRW kota semarang
 
Presentasi Review RDTR Kota Simpang Ampek
Presentasi Review RDTR Kota Simpang AmpekPresentasi Review RDTR Kota Simpang Ampek
Presentasi Review RDTR Kota Simpang Ampek
 
Review RDTR Kota Simpang Ampek
Review RDTR Kota Simpang AmpekReview RDTR Kota Simpang Ampek
Review RDTR Kota Simpang Ampek
 
RPLP Kelurahan Mangasa
RPLP Kelurahan Mangasa RPLP Kelurahan Mangasa
RPLP Kelurahan Mangasa
 
belajar biopori yukk (untuk kawasan rawa)
belajar biopori yukk (untuk kawasan rawa)belajar biopori yukk (untuk kawasan rawa)
belajar biopori yukk (untuk kawasan rawa)
 
Dokumen Teknis RZWP3K - DKI Jakarta.pdf
Dokumen Teknis RZWP3K - DKI Jakarta.pdfDokumen Teknis RZWP3K - DKI Jakarta.pdf
Dokumen Teknis RZWP3K - DKI Jakarta.pdf
 
Raperda tentang RDTR dan Peraturan Zonasi Jakarta 2030
Raperda tentang RDTR dan Peraturan Zonasi Jakarta 2030Raperda tentang RDTR dan Peraturan Zonasi Jakarta 2030
Raperda tentang RDTR dan Peraturan Zonasi Jakarta 2030
 

Similar to 020 1変数の集計

K070k80 点推定 区間推定
K070k80 点推定 区間推定K070k80 点推定 区間推定
K070k80 点推定 区間推定t2tarumi
 
PRML 8.4-8.4.3
PRML 8.4-8.4.3 PRML 8.4-8.4.3
PRML 8.4-8.4.3
KunihiroTakeoka
 
Datamining 5th Knn
Datamining 5th KnnDatamining 5th Knn
Datamining 5th Knnsesejun
 
Datamining 5th knn
Datamining 5th knnDatamining 5th knn
Datamining 5th knnsesejun
 
K070 点推定
K070 点推定K070 点推定
K070 点推定t2tarumi
 
20130223_集計・分析の基礎@アンケート研究会
20130223_集計・分析の基礎@アンケート研究会20130223_集計・分析の基礎@アンケート研究会
20130223_集計・分析の基礎@アンケート研究会
Takanori Hiroe
 
ラビットチャレンジレポート 応用数学
ラビットチャレンジレポート 応用数学ラビットチャレンジレポート 応用数学
ラビットチャレンジレポート 応用数学
ssuserf4860b
 
mathemaical_notation
mathemaical_notationmathemaical_notation
mathemaical_notationKenta Oono
 
086 独立性の検定
086 独立性の検定086 独立性の検定
086 独立性の検定t2tarumi
 
070 統計的推測 母集団と推定
070 統計的推測 母集団と推定070 統計的推測 母集団と推定
070 統計的推測 母集団と推定t2tarumi
 
ラビットチャレンジレポート 機械学習
ラビットチャレンジレポート 機械学習ラビットチャレンジレポート 機械学習
ラビットチャレンジレポート 機械学習
ssuserf4860b
 
PRML2.3.8~2.5 Slides in charge
PRML2.3.8~2.5 Slides in chargePRML2.3.8~2.5 Slides in charge
PRML2.3.8~2.5 Slides in charge
Junpei Matsuda
 
Rで実験計画法 前編
Rで実験計画法 前編Rで実験計画法 前編
Rで実験計画法 前編
itoyan110
 
統計学基礎
統計学基礎統計学基礎
統計学基礎
Yuka Ezura
 
K060 中心極限定理clt
K060 中心極限定理cltK060 中心極限定理clt
K060 中心極限定理cltt2tarumi
 
K030 appstat201203 2variable
K030 appstat201203 2variableK030 appstat201203 2variable
K030 appstat201203 2variablet2tarumi
 
パターン認識第9章 学習ベクトル量子化
パターン認識第9章 学習ベクトル量子化パターン認識第9章 学習ベクトル量子化
パターン認識第9章 学習ベクトル量子化Miyoshi Yuya
 
Java数値(浮動小数点)課題勉強会
Java数値(浮動小数点)課題勉強会Java数値(浮動小数点)課題勉強会
Java数値(浮動小数点)課題勉強会
Tetsuya Yoshida
 
お披露目会05/2010
お披露目会05/2010お披露目会05/2010
お披露目会05/2010
JAVA DM
 

Similar to 020 1変数の集計 (20)

K070k80 点推定 区間推定
K070k80 点推定 区間推定K070k80 点推定 区間推定
K070k80 点推定 区間推定
 
PRML 8.4-8.4.3
PRML 8.4-8.4.3 PRML 8.4-8.4.3
PRML 8.4-8.4.3
 
Datamining 5th Knn
Datamining 5th KnnDatamining 5th Knn
Datamining 5th Knn
 
Datamining 5th knn
Datamining 5th knnDatamining 5th knn
Datamining 5th knn
 
K070 点推定
K070 点推定K070 点推定
K070 点推定
 
20130223_集計・分析の基礎@アンケート研究会
20130223_集計・分析の基礎@アンケート研究会20130223_集計・分析の基礎@アンケート研究会
20130223_集計・分析の基礎@アンケート研究会
 
ラビットチャレンジレポート 応用数学
ラビットチャレンジレポート 応用数学ラビットチャレンジレポート 応用数学
ラビットチャレンジレポート 応用数学
 
mathemaical_notation
mathemaical_notationmathemaical_notation
mathemaical_notation
 
086 独立性の検定
086 独立性の検定086 独立性の検定
086 独立性の検定
 
070 統計的推測 母集団と推定
070 統計的推測 母集団と推定070 統計的推測 母集団と推定
070 統計的推測 母集団と推定
 
ラビットチャレンジレポート 機械学習
ラビットチャレンジレポート 機械学習ラビットチャレンジレポート 機械学習
ラビットチャレンジレポート 機械学習
 
PRML2.3.8~2.5 Slides in charge
PRML2.3.8~2.5 Slides in chargePRML2.3.8~2.5 Slides in charge
PRML2.3.8~2.5 Slides in charge
 
Rで実験計画法 前編
Rで実験計画法 前編Rで実験計画法 前編
Rで実験計画法 前編
 
6 Info Theory
6 Info Theory6 Info Theory
6 Info Theory
 
統計学基礎
統計学基礎統計学基礎
統計学基礎
 
K060 中心極限定理clt
K060 中心極限定理cltK060 中心極限定理clt
K060 中心極限定理clt
 
K030 appstat201203 2variable
K030 appstat201203 2variableK030 appstat201203 2variable
K030 appstat201203 2variable
 
パターン認識第9章 学習ベクトル量子化
パターン認識第9章 学習ベクトル量子化パターン認識第9章 学習ベクトル量子化
パターン認識第9章 学習ベクトル量子化
 
Java数値(浮動小数点)課題勉強会
Java数値(浮動小数点)課題勉強会Java数値(浮動小数点)課題勉強会
Java数値(浮動小数点)課題勉強会
 
お披露目会05/2010
お披露目会05/2010お披露目会05/2010
お披露目会05/2010
 

More from t2tarumi

K090 仮説検定
K090 仮説検定K090 仮説検定
K090 仮説検定t2tarumi
 
K050 t分布f分布
K050 t分布f分布K050 t分布f分布
K050 t分布f分布
t2tarumi
 
K040 確率分布とchi2分布
K040 確率分布とchi2分布K040 確率分布とchi2分布
K040 確率分布とchi2分布t2tarumi
 
K020 appstat201202
K020 appstat201202K020 appstat201202
K020 appstat201202t2tarumi
 
K010 appstat201201
K010 appstat201201K010 appstat201201
K010 appstat201201t2tarumi
 
K080 区間推定
K080 区間推定K080 区間推定
K080 区間推定t2tarumi
 
000 統計学入門 目標
000 統計学入門 目標000 統計学入門 目標
000 統計学入門 目標t2tarumi
 
076 母比率の推定
076 母比率の推定076 母比率の推定
076 母比率の推定t2tarumi
 
080 統計的推測 検定
080 統計的推測 検定080 統計的推測 検定
080 統計的推測 検定t2tarumi
 
060 期待値・中心極限定理
060 期待値・中心極限定理060 期待値・中心極限定理
060 期待値・中心極限定理t2tarumi
 
050 確率と確率分布
050 確率と確率分布050 確率と確率分布
050 確率と確率分布t2tarumi
 
040 相関
040 相関040 相関
040 相関t2tarumi
 
030 2変数の集計
030 2変数の集計030 2変数の集計
030 2変数の集計t2tarumi
 
010 統計学とは
010 統計学とは010 統計学とは
010 統計学とはt2tarumi
 

More from t2tarumi (14)

K090 仮説検定
K090 仮説検定K090 仮説検定
K090 仮説検定
 
K050 t分布f分布
K050 t分布f分布K050 t分布f分布
K050 t分布f分布
 
K040 確率分布とchi2分布
K040 確率分布とchi2分布K040 確率分布とchi2分布
K040 確率分布とchi2分布
 
K020 appstat201202
K020 appstat201202K020 appstat201202
K020 appstat201202
 
K010 appstat201201
K010 appstat201201K010 appstat201201
K010 appstat201201
 
K080 区間推定
K080 区間推定K080 区間推定
K080 区間推定
 
000 統計学入門 目標
000 統計学入門 目標000 統計学入門 目標
000 統計学入門 目標
 
076 母比率の推定
076 母比率の推定076 母比率の推定
076 母比率の推定
 
080 統計的推測 検定
080 統計的推測 検定080 統計的推測 検定
080 統計的推測 検定
 
060 期待値・中心極限定理
060 期待値・中心極限定理060 期待値・中心極限定理
060 期待値・中心極限定理
 
050 確率と確率分布
050 確率と確率分布050 確率と確率分布
050 確率と確率分布
 
040 相関
040 相関040 相関
040 相関
 
030 2変数の集計
030 2変数の集計030 2変数の集計
030 2変数の集計
 
010 統計学とは
010 統計学とは010 統計学とは
010 統計学とは
 

020 1変数の集計

  • 1. 1 変数の集計 統計学入門 2008.04 2009.05.7 修正 2011.04.27 演習解答例追加 2012.04.25 演習 2 解答メモ追加 四分位偏差 説明追加 (講義後の修正まで)
  • 2. データの分布 • だいたいどんな値 (代表値) • 値のバラエティさ  (ばらつき) • その中でどんな値が多いか (ヒストグラ ム) 2 0. 2 - 0. 0. 0 1 50 1 60 1 70 1 80 1 90 - 0. 0. 0 2 m 2 0. • 分布形状 1 50 1 60 f 2 1 70 1 80 1 90 – 単峰性、双峰性、多峰性 – 左に偏った J 型分布、左右対称分布 右に偏った L 型分布
  • 3. 分布の形状 単峰性 双峰性 多峰性 左に裾を引いている 対称性 右に裾を引いている J 型分布 L 型分布
  • 6. データの縮約 • n 個のデータ x1, x2, ・・・ xn を数個の値にまとめる! • 代表値(位置、 location ) • ばらつき(広がり、 dispersion ) • 5数要約 • グラフ表現
  • 7. 代表値 • データが概ねどんな値か • (数直線上の)どのあたりの位置にあ - 0.0. 0 2 るか 2 0. 1 50 1 60 1 70 1 80 1 90 m • (算術)平均値 arithmetic mean • 中央値 median • 最小値 minimum • 最大値 maximum
  • 8. 「良い」代表値とは 絶 2 デ 代 乗 誤 対 表 • ある定めた基準の元で ー 差 誤 誤 タ 値 差 差 「良い」 x1 a x1-a |x1-a| (x1-a)2 • 代表値とはn個の様々 な値を、 1 個の値に置 x2 a x2-a |x2-a| (x2-a)2 き換えること ・・ ・ ・ ・ • 置き換えたときの誤差 ・・ ・ ・ ・ • 誤差は無いほどよい ・・ ・ ・ ・ • できるだけ小さく xn a xn-a |xn-a| (xn-a)2 • 最小化しよう 和 Σ |xn-a| Σ (xn-a)2
  • 9. 平均値 (mean) • mean x1 + x2 +  + xn x= n • 代表値として一番良く使われる • 最小 2 乗法 (Least Square Methods) の意味で最 良 誤差の 2 乗 Q(a)=(x1-a)2+(x2-a)2+ ・・・ +(xn-a)2 を最小にする a
  • 10. 平均値 16 14 12 10 8 6 4 2 0 1 2 3 4 5 6 7 8 9 10
  • 11. 中央値 (median) • 平均値の問題点 はずれ値 (outlier) の影響を受けやすい 平均値 • 多数のデータからは離れた値になって いる 中央値 • 集団の代表値としては中央値の方が妥当 Me = x((n+1)/2)  ないしは  (x(n/2) +x(n/2+1))/2
  • 13. 平均値の改良 • truncated mean, trimmed mean (切捨て平 均) – 大きい方 α 、小さい方 α のデータを捨てて 残りの 1-2α のデータで平均値を計算する – α としては 0.25 が良く使われる 平均値 平均値 α=1/6 の場合
  • 14. 最小値、最大値 • 洪水対策   過去のデータでの最大降水量に対 して対策を立てる • 許容量   被害が起きた最小の値に対して対 策を立てる
  • 15. 5 数要約  (fivnum) five-number summary • 大きさの順序に並び換え    x(1)<x(2)< ・・・ <x(n) • x(1)     最小値 • x(n/4)    第1四分位値 (Q1) • x(2n/4)    第2四分位値 (Q2) =中央値 (Me) • x(3n/4)    第3四分位値 (Q3) • x(n)     最大値
  • 16. 箱髭図 (boxplot) • 5 数要約のグラフ表現 x(n) Q3 median Q1 x(1) (boxplot height)
  • 17. 度数分布表とヒストグラム frequency table and histogram • 階級数 k – √n – 1 + log n/log 2 – 10 ~ 20 • 階級の幅 w – w=(x(n)-x(1))/k • 端点 a0 a0 < x(1)< a0 + w/2
  • 18. 度数分布表の追加情報 階級 階級値 度数 相対度数 累積度数 累積相対度数 a0~a1 m1 f1 f1/n f1 (f1)/n a1~a2 m2 f2 f2/n f1+f2 (f1+f2)/n ak-1~ak mk fk fk/n f1+‥+fk (f1+‥+fk)/n n 1
  • 19. 演習 • 統計学 168 人の試験の成績は   最小値  24 点   最大値  87 点 であった。度数分布表を作るための階 級を定めよ。 • 169 人の身長を調査したところ   最小値  143.2cm   最大値  175.7cm であった。度数分布表を作るための階 級を定めよ。
  • 20. 演習問題の解答例 n=168 人 階級    x(1)= 最小値 =24 22~27    x(n)= 最大値 =87 27~32 n = 168 = 12.96 32~37 log 168 2.2253 37~42 1 + log 2 n = 1 + = 1+ = 8.393 log 2 0.3010 42~47 階級数k = 8~13 47~52 x( n ) − x(1) 87 − 24 52~57 63 幅  w = = = 4.85~ = 7.85 57~62 k 13 8     w = 5 と決める 62~67 67~72 端点 a0 :  a0 ≤ x(1) ≤ a0 + w / 2 72~77 a0 ≤ 24 ≤ a0 + 5 / 2 77~82 a0 ≤ 24 ≤ a0 + 2.5 82~87 24 − 2.5 = 21.5 ≤ a0 ≤ 24 87~92 a0 = 22  と決める
  • 21. 講  評 「階級を定める」ということは、 すべての小区間を決めること! 22~27 22.5~27.5 27~32 27.5~32.5 階級数 k、  32.5~37.5 32~37 階級の幅 w、  37.5~42.5 37~42 端点  a0 を決めるだけでは不十分。 42.5~47.5 42~47 47~52 47.5~52.5 端点の値がどちらの階級に属するか(以下、未 52.5~57.5 52~57 満)という議論を避けるために、端点の値がデ 57.5~62.5 57~62 ータに出てこないように端点を定めることもあ 62~67 62.5~67.5 る。 67~72 67.5~72.5 72~77 72.5~77.5 データの有効桁(成績のよう整数値のデータで あれば、1の位)に対して、その一つ下の桁( 77~82 77.5~82.5 整数値であれば、小数点以下1桁目)に5を付 82~87 82.5~87.5 けた値を端点の値とする。 87~92 87.5~92.5 前の演習問題であれば、右側のように定めれば 良い。
  • 22. 演習 • 統計学 168 人の試験の成績は   最小値  24 点   最大値  87 点 であった。度数分布表を作るための階 級を定めよ。 • 169 人の身長を調査したところ   最小値  143.2cm   最大値  175.7cm であった。度数分布表を作るための階 級を定めよ。 Log(169,2)+1=8.4 32.5/13=2.5 W=4 √169=13 32.5/8=4.06 143.2-4/2=141.2 R=X(n)-X(1)=175.7-143.2=32.5 A0=142
  • 23. ばらつき (dispersion) の尺度 • 代表値は同じでも、分布が異なる > mean(height) 151.57142857142856 > mean(height2) 151.3571428571429 2 0. 2 - 0. 0. 0 > histogram(height) 1 50 1 60 1 70 1 80 1 90 f 2 > histogram(height2) height2 ~tarumi/lispstat/height2.lsp
  • 24. バラツキの尺度 • 範囲 (range) • 四分位範囲 (interquartile range) • 平均偏差 (mean deviation) • 分散 (variance) • 標準偏差 (standard deviation)
  • 25. 範囲 (range) 四分位範囲 (quartile range) • 最小値から最大値までの幅    R = x(n) - x(1) • 外れ値 (Outlier) の影響を受けやすい • 両端 25 %のデータを捨てた真中の 50% のデータでの範囲=四分位範囲 = Q3 - Q1 R R QR
  • 26. 四分位偏差 • 平成 24 年度からの高校数学Ⅰでは四分位 範囲の代わりに、四分位偏差が取り上 げられている。 Q3 − Q1 四分位範囲 四分位偏差 = = 2 2 • 統計学の分野では四分位範囲の方がよ くつかわれる。
  • 27. 平均偏差 (mean deviation) • 偏差 d i = xi − x • 平均偏差 n n 1 1  d = d = ∑ | di | = ∑ |x i − x | n i =1 n i =1
  • 28. 分散 (variance) 標準偏差 (standard deviation) • 分散 偏差2乗の平均 1 n s = ∑ ( xi − x ) 2 2 n i =1 n 1 = (∑ xi ) − ( x ) 2 2 n i =1 • 標準偏差   分散の平方根 1 n s= s = 2 ∑ ( xi − x ) n i =1 2
  • 29. 不偏分散 (unbiased variance) • 標本分散としては不偏分散 u2 を使うこ とも多い 1 n s = ∑ ( xi − x ) 2 2 n i =1 n 1 u = 2 ∑ ( xi − x ) n − 1 i =1 2 2 ns    = n −1
  • 30. 演習 • height – 148, 160, 159, 153, 151, 140, 156, 137, 149, 160, 151, 157, 157, 144 – 和 2122 2 乗和 322338 • height2 – 138, 162, 158, 151, 145, 134, 160, 137, 151, 163, 152, 163, 158, 147 – 和 2119 2 乗和 322019 • weight – 41, 49, 45, 43, 42, 29, 49, 31, 47, 47, 42, 39, 48, 36 – 和 588 2 乗和 25226