Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

2018年6月期 統計検定2級&準1級 対策スライド

1,108 views

Published on

NagoyaStat #10 で利用した、2017年11月の統計検定2級、2017年6月の統計検定準1級に関する解説スライドです。
---
Commentary of statistical certificate Grade 2 and Grade Pre-1
held by the Japan Statistical Society in 2017.

Published in: Science
  • Be the first to comment

2018年6月期 統計検定2級&準1級 対策スライド

  1. 1. 2017年11月 統計検定2級 & 2017年6月 準1級 解説 @ito_yan 2018.06.08 NagoyaStat #10 (統計検定対策回)
  2. 2. 本スライドについて • 2018年6月17日の統計検定に合格するラインに まで持っていくための解説です • 6~7割とれるようになるためのあんちょこです • SやAのグレードが欲しい方は根詰めてください • 公式問題集の解説に味付けをして説明します • 重要な性質は多少掘り下げて証明などします 2
  3. 3. 統計検定2級に対する印象 • 学部教養程度の統計科目に相当 • 公務員試験の資料解釈的な問題もある • 東大の赤本ができれば合格圏内 • 高校の数学IIIができると結構いい線まで行ける • 1級の理工学問題にも一定の対応ができるはず 3
  4. 4. 問2:単回帰分析 • t値 = 係数 / 標準誤差 • 切片や傾きがある値でないかを判定するのに使う • t値は自由度が(サンプル数-2)のt分布に従う • 自由度が2落ちるのは、単回帰ではパラメータが切片と傾 きの2つあるため • 問12の出題とも関連している 4
  5. 5. 問3:変動係数 • 単位が異なるもの同士のちらばりの程度を比較 するための指標 • 標準偏差を平均で割ることで求められる 5
  6. 6. 問3:コレログラム • データをずらした単位時間数(ラグ)を横軸に、元 データとずらしたデータの自己相関関数r(k)を縦 軸にとったものをコレログラムと呼ぶ • ラグが大きくなると、分子の項数は減っていく 6 時点t 1 2 3 … T T+1 T+2 原系列 y1 y2 y3 … yT - - 2つずらした系列 - - y1 … y3 y4 yT
  7. 7. 問3のコレログラムの読み取り方 • キャベツの価格は1年後に関係があると言える • 無相関という帰無仮説下での有意水準5%の棄却 限界値(点線)を、ラグ12の箇所が超えている • グラフ中のACFとはAutoCorrelation Functionの 略で、自己相関関数と訳される 7
  8. 8. 問4:ラスパイレス指数 • 「基準時点の購入金額の割合」とは? • 2015年の各品目の購入金額合計に対する割合 • 「個別価格指数」とは? • 価格を2時点(基準時、比較時)で比較したもの • 2015、2016年の各品目の平均価格の比 • 問題文は相当分かりにくい表現だと思います… 8
  9. 9. 問5:標本抽出の手法 • 集落(クラスター)抽出法 • 母集団をいくつかの集落に分割し、分割した集落 からいくつかの集落を無作為抽出 • 多段抽出法 • 上に加え、抽出した各集落から無作為抽出する • 系統抽出法 • 規則性をもって抽出する方法 • 層化抽出法 • 母集団と各層の比率と比例するサンプル数を各層 に割り当てて抽出 9
  10. 10. 問6:実験研究と観察研究 • 実験研究 • 観察者が何らかの手を加える研究 • 観察研究 • 観察者が何も手を加えない研究 10
  11. 11. 問9:F分布の性質 • のとき、 • F分布の定義式で分母と分子を反転させるだけ • 上側α%点について • 以上から が導出される 11 1/XがF(n,m)に従い、かつ確率が1-αなので、 Fの右下の数値が1-αと書ける
  12. 12. 問12:単回帰の出力結果の読み方 12 出力内容 その意味 Estimate 推定値 Std.Error 標準誤差 t value t値 Pr(>|t|) 係数が0であるとしてt検定したときのp値 (Intercept) 切片 Residual standard error 残差の標準誤差 Degrees of freedom 自由度 Multiple R-Squared 決定係数 F-statistic F-統計量(帰無仮説が定数項以外の回帰係 数がすべて0、対立仮説が1つ以上0でないと いう統計検定で使われる) p-value F-統計量で検定した場合のp値
  13. 13. 問13:母比率の信頼区間 • サンプル数が大きいので中心極限定理が使える • 期待値 、分散 の分布からn個の標本値 (i=1, 2,…,n)が独立に得られたとき、 • 左辺の分母・分子をnで割ると、比率に変換される 13
  14. 14. 信頼区間の導出 • 上側と下側のα/2%点をはずして信頼区間を構成 • μについて整理して信頼区間の式が出てくる • あとはそれぞれの値を求めて代入 14 ベルヌーイ分布の分 散から推定値を導出
  15. 15. 母比率の差の信頼区間 • 独立な2群で母比率の差を推定する • について解いて信頼区間を求める 15
  16. 16. 問14:仮説検定の用語 • 第1種の誤り • 帰無仮説が正しいのに棄却する誤り • 誤る確率を危険率という • 第2種の誤り • 帰無仮説が間違っているのに受容する誤り • 検出力(1-第2種の誤りを犯す確率) • 誤っているものを誤っていると正しく言える • p値 • 帰無仮説の下で得られたデータよりも極端なことが 起こる確率(確率なので当然1以下) 16
  17. 17. 問16:一元配置 • 各水準ごとに分散が同じ正規分布に従っていると 仮定して、一元配置分散分析の仮説は • 帰無仮説「すべての水準で平均が等しい」 • 対立仮説「すべての水準で平均が等しくない」 • つまり「1個以上平均の異なる水準がある」 • 2つの水準ごとにt検定を繰り返すのは危険率が 5%以上になるのでダメ 17
  18. 18. 一元配置の考え方 • 各平均に対する変動 に対して、全体で同じ平 均とした の変動はどの程度大きいか求める • 変動が大きいとき、平均は水準ごとに異なると結論 • (正規分布で分散が同じと仮定したので、)帰無 仮説の下で、F-統計量が計算できる 18
  19. 19. 統計検定準1級に対する印象 • 学部2~3年程度の統計科目に相当 • 東大の基礎統計学シリーズ3冊で合格はできそう • 2級(東大の赤本)の知識でも3~4割は取れそう • ある意味1級よりも難しいところがある • 多変量解析、分散分析、機械学習、時系列解析が あり、一つ一つは浅めだが格段に範囲が広くなる • 1級の理工学の問題の方が覚えることは少なそう • 代わりに数式を大量に振り回す必要が出てきますが 19
  20. 20. 合格の目安になりそうな書籍 • 以下の書籍を1~2冊読めば合格はできそう • サイエンス社 多変量解析入門(永田、棟近) • 東京大学出版会の基礎統計学シリーズ • 人文・社会科学の統計学 • 自然科学の統計学 20
  21. 21. 問3:機械学習の用語 • 正則化 • 機械学習の手法で、推定する回帰パラメータが発 散するのを防ぐためにペナルティを係数に課す • 過学習を防ぐ目的で使われる • クロスバリデーション、交差検証 • 得られている全データを使って学習するのではなく、 一部でモデルを作り、残りのデータでモデルを評価 する 21
  22. 22. 正則化項を導入した問題への対処 • 最小化したい正則化項付きの式は以下の通り • 上式の最小化問題は の制約下でfを最小 化する問題であると置き換えられる • KKT条件から上の問題変換を導出する • 今回のfは対数関数で、凸性がある • logの和もlogになるので • 特にfが二乗誤差でq=1ならLassoと呼ばれる 22
  23. 23. 最小化問題の図形的な解釈 • N=2、q=1とした場合 23 f(β;x,y)の等高線 等高線と当たる場所はパ ラメータの一部が0になる ことがよくある • N=2、q=2とした場合 f(β;x,y)の等高線 等高線と当たる場所はパ ラメータが0になることが ほぼない • 制約の形状が異なるため、L1正則化ではスパー ス性(パラメータの推定値が0になる)が見られる
  24. 24. 問5:2次元正規分布 • 多次元正規分布の確率密度関数 • 分散共分散行列 • 平均ベクトル 24
  25. 25. 2次元正規分布の書き下し • 特にn=2とした場合、 • 以上の式を用いて前スライドの式を書き下す 25
  26. 26. 条件付き確率密度関数の導出 • 頑張って展開すればよい • よってxを与えたときのyの確率密度関数は で与えられる 26 これらを同じ形にするのがポイント
  27. 27. 問6:割合の差の信頼区間 • 2級の問13の場合は独立な2群で比較したが、本 問ではそのような比較はできない • イチローを選択する人が増えると、錦織を選択する 人が減るという関係があるため独立ではない • そこで、イチロー、錦織、その他を選ぶ人数は3項 分布に従っていると考える 27
  28. 28. 多項分布の共分散の導出 28
  29. 29. 割合の差の標準偏差を導出する • 以下の式に対して平方根を取れば標準偏差 • それぞれの出現確率の最尤推定値 は、実 際のデータで観測される割合に一致するので、そ れを代入すれば割合の差の推定値となる 29
  30. 30. 問7:実験計画法の用語 • ブロック因子 • 複数の要素の違いを1つにまとめたもの。問では気 温や湿度の違いを実験日という形でまとめている • 乱塊法実験 • 実験全体ではなく、ブロック因子内で無作為化 30
  31. 31. 問8:時系列解析 • 誤差に系列相関がある単回帰モデル • 誤差項の系列相関とは • 時系列データに対する回帰で生じる誤差項の相関 (回帰直線の上に大きく外れたら、その次のデータ も上に外れている) • j次の標本自己共分散 • j個ずらした時系列と共分散をとったもの 31
  32. 32. 時系列解析の用語 • 偏自己相関 • 2つの時点間にある途中のデータの影響を排除し た純粋な相関関係 • 問では点線より上下に外れているのが横軸が1の ところしかないので、AR(1)モデルが採用される • 点線が無相関の棄却域を表している • AR(1)モデル(AutoRegression、自己回帰) • 今期の誤差項と1期前の誤差項との関係を で与える • 弱定常性を満たしていることになる 32
  33. 33. 弱定常性とは • 期待値が時間によらず一定 • 共分散が時間差にのみ依存 • AR(1)モデルは であれば弱定常性を持つ ことが知られている 33
  34. 34. 1次の自己回帰の仮定・性質 • ホワイトノイズに関して • 誤差項について 34 AR(1)モデルの両辺で期待値を取ることと 弱定常性から導出できる 、特にi=1のとき から導出できる
  35. 35. ダービン・ワトソン統計量 • Tが大きいとき、定義式から近似して導出する 35 最初の2項は分母とほぼ同じ 分子の部分は が同 じ符号だと大きくなる の近似式
  36. 36. ダービン・ワトソン統計量の性質 • 2-(1次の標本自己共分散)/(標本分散) となる • dは0に近いと正の自己相関、4に近いと負の自己 相関、2に近いと自己相関なし • 正の自己相関は誤差項の符号が++++----++++の ように連(同じ符号の繋がり)の数が少なくなる • 同じ符号のものが続くため、ρは1に近くなる • 負の自己相関は誤差項の符号が+-+-+-+-+-のよう に連の数が多くなる • 異なる符号のものが続くため、ρは0に近くなる 36
  37. 37. コクラン・オーカット法 • 残差の系列相関の排除を目的とした手法 • 決定係数が0.995と高いので、誤差項にAR(1)モ デルを導入しても、回帰の結果はそう変わらない • もともと直線でほぼ説明ができている 37 問題文には書かれてないが、 ホワイトノイズに相当
  38. 38. 問10:イェーツの補正 • 分割表における独立性の検定で使われる • 分割表中の期待度数が5を下回るものがある場 合に使われる • カイ二乗値が補正しない場合より小さくなるため、 p値は増加する • 逆に補正しすぎて帰無仮説を棄却すべきなのに棄 却せず、第2種の誤りが発生することがある 38
  39. 39. 問11:定常分布 • 次式を満たすπ(行ベクトル)のこと。Pは遷移行列 • 定常分布は収束した状態である • 本問では、遷移元から遷移先に移動しても、変わら ない傘の本数の確率分布を指す • 意味を考えてπはPの左から掛けるようにすること • Pのi列目が遷移元にある傘の本数 39
  40. 40. 問12:ブートストラップ標本 • 母集団から抽出されたサンプルを繰り返しを許し てランダムに抽出し、データセットを作成する • 1回につき元データのサンプル数と同数抽出する • それぞれのデータセットに対して欲しい統計量 (問12では平均)を計算する • 統計量の分布ができるので、信頼区間などの計 算ができる • 統計量の分布は母集団の分布と同じと考える 40
  41. 41. 問13:クラスタリングの手法 • 最近隣法(距離最短法) • クラスター間のデータ同士で最も小さいデータ間距 離をクラスター間の距離とする • 最遠隣法(距離最長法) • 各クラスター中、最大のデータ間距離をクラスター 間の距離とする 41
  42. 42. 問14:回帰診断のグラフの読み方(1) • (ア)予測値に対する残差のプロット • 横軸:予測値、縦軸:残差(=実測値-予測値) • 0を中心に均一に散らばっていれば等分散性あり • 残差の系列相関の有無を調べられる 42 大き目の残差には番号が 振られるのが一般的
  43. 43. 回帰診断のグラフの読み方(2) • (イ)残差の正規Q-Qプロット • 単回帰の前提として、残差は正規分布に従うことが 仮定されており、その通りならデータは直線に乗る 43 y=xの直線から大きく外れた データには番号が振られる
  44. 44. 回帰診断のグラフの読み方(3) • (ウ)予測値に対する標準化した残差の絶対値の 平方根のプロット • (イ)の縦軸の値の絶対値に平方根をとったもの • 横軸の予測値によって誤差の大きさが変わってくる などの傾向がないかをチェックする 44
  45. 45. 回帰診断のグラフの読み方(4) • (エ)残差とテコ比 • テコ比:各データが予測値に対してどのくらい影響 力があるのか示す • 説明変数の平均から離れているほど影響力大 • 0.5を超えると影響あり、1を超えると特に影響あり 45 テコ比は1を超えている

×