More Related Content
Similar to statistics1 (20)
statistics1
- 2. ・事象と確率
𝑃 𝐴 ∪ 𝐵 = 𝑃 𝐴 + 𝑃 𝐵 − 𝑃(𝐴 ∩ 𝐵)
P(A):事象Aの確率
P(B):事象Bの確率
P(Ac):Aの余事象(Aが起こらないこと)の確率
A ∩ B
A B
Ω
Venn diagram
包除原理
問
ある50名のクラスで、前日にテレビ番組Aを見た生徒は
20名、番組Bを見た生徒は15であった。また両方を見た
生徒は5名であった。どちらの番組も見なかった生徒は何
名か。(答え:20人)
- 3. 条件付確率とベイズの定理(結果から原因の確立を求める)
2つの事象の間の関係を考える操作が条件付き確率の計算
𝑃 𝐵 𝐴 =
𝑃(𝐴 ∩ 𝐵)
𝑃(𝐴)
→ P A ∩ 𝐵 = 𝑃 𝐴 × 𝑃(𝐵|𝐴)
P(B|A):Aが起きたという条件のもとでBが起きる条件付き確率
P(B) = P(B|A)ならばAとBは独立
P A B =
𝑃 𝐵 𝐴 𝑃(𝐴)
𝑃(𝐵)
=
𝑃 𝐵 𝐴 𝑃(𝐴)
𝑃 𝐵 𝐴 𝑃 𝐴 + 𝑃 𝐵 𝐴𝑐 (𝐴𝑐)
↑ベイズの定理
P(A)をAの事前確率といい、P(A|B)を事後確率という
𝑃 𝐴𝑖 B =
𝑃 𝐵 𝐴𝑖 𝑃(𝐴𝑖)
𝑗=1
𝑘
𝑃 𝐵 𝐴𝑗 𝑃(𝐴𝑗)
特定の要因
すべての要因
- 7. 累積分布関数と生存関数
関数グラフ
累積分布関数
𝐹 𝑥 =
𝑥′≤𝑥
𝑝(𝑥′)
𝐹 𝑥 =
−∞
𝑥
𝑓(𝑥′)
離散型
連続型 ※微積分の関係
生存関数:S(x) = 1 – F(x)
確率変数Xが寿命を表す場合、F(x)は時刻x時点で死亡
する確率。
生存関数は時刻x時点でまだ生きている確率を表す。
※ハザード関数:h(x) = f(x)/1-F(x) = (-logS(x))’
ハザード関数は時刻xにおいて生きている者の内、
その後短時間で死亡する者の率を表す。
生存関数の例:
・疾病の再発または回復までの時間
・品質管理の分野では工業製品が故障するまでの時間
・経済の分野では失業期間
- 9. 同時確率密度関数~変数の拡張~
p(x,y) = P(X=x, Y=y):Xが値xをとり、Yが値yをとる確率
離散型→同時確率関数
𝐹 𝑥, 𝑦 = 𝑃 𝑋 ≤ 𝑥, 𝑌 ≤ 𝑦 =
𝑥′≤𝑥,𝑦′≤𝑦
𝑝(𝑥′, 𝑦′)
𝑝𝑋(𝑥) =
𝑦
𝑝(𝑥 , 𝑦 )
周辺確率関数
𝑝𝑌|𝑋 𝑦 𝑥 =
𝑝(𝑥, 𝑦)
𝑝𝑋(𝑥)
条件付き確率関数
連続型→同時確率密度関数
𝑓(𝑥, 𝑦) =
𝜕2
𝜕𝑥𝜕𝑦
𝐹(𝑥, 𝑦)
累積分布関数
𝑃 𝑥1 ≤ 𝑋 ≤ 𝑥2, 𝑦1 ≤ 𝑌 ≤ 𝑦2 =
𝑥1
𝑥2
𝑦1
𝑦2
𝑓(𝑥, 𝑦)𝑑𝑥𝑑𝑦
𝑓𝑋(𝑥) =
−∞
∞
𝑓 𝑥, 𝑦 𝑑𝑦
周辺確率関数
𝑝𝑌|𝑋 𝑦 𝑥 =
𝑝(𝑥, 𝑦)
𝑝𝑋(𝑥)
条件付き確率密度関数
n個の連続確率変数も同様に拡張できる。
条件付き独立??
- 10. ※同時確率関数のイメージ(2次元の正規分布)
#python3
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline
import scipy.stats as st
from scipy.stats import multivariate_normal
from mpl_toolkits.mplot3d import Axes3D
#データの設定
x, y = np.mgrid[10:100:2, 10:100:2]
pos=np.empty(x.shape + (2, ))
pos[:, :, 0] = x
pos[:, :, 1] = y
#多次元正規分布
#それぞれの変数の平均と無難共分散行列を設定
#以下の例では、x,yの平均がそれぞれ、50,
rv = multivariate_normal([50,50], [[100,0],[0,100]])
z = rv.pdf(pos)
fig = plt.figure(dpi=100)
ax = Axes3D(fig)
ax.plot_wireframe(x, y, z)
ax.set_xlabel("x")
ax.set_ylabel("y")
ax.set_zlabel("f(x, y)")
ax.ticklabel_format(style="sci", axis="z", scilimits=(0,0))
- 11. 母関数(モーメント母関数・確率母関数)
確率母関数 𝐺 𝑠 = 𝐸 𝑠𝑋
=
𝑥
𝑠𝑥𝑝(𝑥)
右辺が収束を仮定
𝐺′
1 = 𝐸 𝑋 , 𝐺′′
1 = E[𝑋(𝑋 − 1)]
ここから、Xの期待値と分散を示すことができる
モーメント母関数:s=eθとする
m 𝜃 = 𝐸 𝑒𝜃𝑋
= 𝐺(𝑒𝜃)
m′ 0
= 𝐸 𝑋 , 𝑚′′
0 = 𝐸 𝑋2 , 𝑚
𝑘
0 = 𝐸[𝑋𝑘]
特徴:
(1)確率分布との1対1対応
(2)独立な変数の和が母関数の積に対応
𝑋1 + ⋯ 𝑋𝑛のモーメント母関数mn(θ)はmn(θ)=mn(θ)n
※特性関数:θ=it(準虚数を代入)
- 12. 確率変数の分布の特性値➀
• 期待値
• 中央値(median)
• 最頻値(mode)
• 四分位範囲:第3四分位数-第1四分位数
• 標準偏差: 𝑉[𝑋]
• 変動係数(散らばりの指標): 𝑉[𝑋] 𝐸[𝑋]
期待値
中央値
最頻値
中央値
最頻値
期待値
Xの確率密度関数をf(x)とするとき、
中央値:P(x<= a) = 0.5となるa
最頻値:f(x)が最大となるx
として定義される。
☐分位点関数…
- 16. 特性値の性質(期待値・分散の計算方法)
• 確率変数X, Yと定数a, b, cについて、以下の式が成り立つ。
期待値
𝐸 𝑎𝑋 + 𝑏𝑌 + 𝑐 = 𝑎𝐸 𝑋 + 𝑏𝐸 𝑌 + 𝑐
が成り立つ。また、XとYが独立であれば、
𝐸 𝑋𝑌 = 𝐸 𝑋 𝐸[𝑌]
分散
𝑉 𝑎𝑋 + 𝑏 = 𝑎2𝑉 𝑋 , 𝑉 𝑋 ± 𝑌 = 𝑉 𝑋 + 𝑉 𝑌 ± 2𝐶𝑜𝑣 𝑋, 𝑌
独立であれば、
𝑉 𝑋 + 𝑌 = 𝑉 𝑋 + 𝑉[𝑌]
条件付き期待値
𝐸 E[X|Y ] = 𝐸 𝑋
が成り立つ。また、分散については
𝑉 𝑋 = 𝐸[𝑉 𝑋 𝑌 + 𝑉[𝐸 𝑋 𝑌 ]
※証明つける
- 18. 平均ベクトルと分散共分散行列
• 平均ベクトル:𝜇 = 𝜇1, 𝜇2 … 𝜇k T
• 分散共分散行列:𝑋𝑖, 𝑋𝑗の共分散𝜎𝑖𝑗を(I,j)要素とする行列
=
𝜎11 ⋯ 𝜎1𝑗
⋮ ⋱ ⋮
𝜎𝑖1 ⋯ 𝜎𝑖𝑗
𝑆 =
1
𝑛 − 1 𝑖=1
𝑛
𝑥𝑖 − 𝑥 𝑥𝑖 − 𝑥 𝑇
2
2 10
10
2×10 10×2 2×2
- 19. ※サンプリングによる確率分布(正規分布)の直観的理解
大数の法則:n数の上昇につれて、母集団は正規分布に近似できるようになる。
import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import norm
np.random.seed(100)
plt.subplot(221)
a = norm.rvs(size=500)
plt.hist(a,100)
plt.subplot(222)
b= norm.rvs(size=5000)
plt.hist(b,100)
plt.subplot(223)
c = norm.rvs(size=50000)
plt.hist(c,100)
plt.subplot(224)
d = norm.rvs(size=500000)
plt.hist(d,100)
plt.show()
- 21. ※ポアソン分布(Poisson Distribution)
• 自動車事故件数
• 台風の件数
#python3
import matplotlib.pyplot as plt
from scipy.stats import poisson
x = np.arange(0,20,1)
rv = poisson(5)
y = rv.pmf(x)
plt.plot(x,y,color="red")
plt.show()
𝑓 𝑥 =
𝜇𝑥
exp(−𝜇)
𝑥!
, 𝑥 = 0,1,2,3. .
x:イベント発生数
𝜇:平均発生数