admin管理员组文章数量:1660220
文章目录
- 点估计(Point Estimate)
- 区间估计(Interval Estimate)和置信水平(Confidence Level)
- 单个参数的区间估计
- 总体均值的区间估计
- 总体比例的区间估计
- 总体方差的区间估计
- 两个参数的区间估计
- 两个总体均值之差的区间估计
- 两个总体比例之差的区间估计
- 两个总体方差之比的区间估计
点估计(Point Estimate)
就是用样本统计量作为总体参数的估计,比如用样本均值/方差作为总体均值/方差的估计:想要估计学生平均成绩,从中抽取一个样本,样本平均值为85分,把85直接作为学生总体平均分的估计,85就是点估计。
区间估计(Interval Estimate)和置信水平(Confidence Level)
在点估计的基础上,在一定的置信水平下,给样本统计量加上一个区间范围作为总体参数的取值范围,这个区间叫置信区间(Confidence Interval)。
而置信水平是构造多次置信区间,其中包含了总体参数的置信区间占了多少比例?比如想要估计学生平均成绩,抽取了100个学生样本,这些样本构造了100个置信区间,有95个包含了总体平均分真实值,这时候置信水平就是95%, 显著性水平(Significance Level) α \alpha α则是0.05。 常用的置信水平包括90%,95%,99%。这里要注意,对“在95%的置信水平下总体平均分落在70到90分之间 ” 的一个常见的错误理解是:总体平均分的真实值有95%的概率落在70到90之间。这个“概率”的概念用在这里是不合适的:总体平均分是一个确定的数字而不是一个随机变量,一个确定的数字只有在和不在70到90之间两种情况,不存在“95%的概率”。这里的含义是多次抽样得到的置信区间中,有95%是包含总体平均分真实值。或者:总体均值落在70到90之间的可信程度是95%。
置信区间的特点:
1)当置信水平不变,样本量越大,置信区间越窄
2)当样本量不变,置信水平越高,置信区间越宽
直觉上理解:
1)较大的样本能提供更多信息,在同等可能性(置信水平)下,置信区间的宽度减小,也就是总体参数真实值可能的取值范围缩小。
2)当置信区间比较宽时,这个区间会有更大的可能性(置信水平)包含总体参数真实值。
单个参数的区间估计
总体均值的区间估计
上一篇总结文章中说过,对于均值为
μ
\mu
μ,方差为
σ
2
\sigma^2
σ2,样本量为
n
n
n的总体:如果是正态分布,或者非正态总体但样本量足够大,样本均值
x
ˉ
\bar{x}
xˉ的抽样分布服从均值
μ
\mu
μ,方差为
σ
2
\sigma^2
σ2,或
x
ˉ
−
μ
σ
/
n
\frac{\bar{x}-\mu}{\sigma/\sqrt{n}}
σ/n
在 1 − α 1-\alpha 1−α的置信水平下:
z
1
−
α
/
2
≤
x
ˉ
−
μ
σ
/
n
≤
z
α
/
2
z_{1-\alpha/2}\leq\frac{\bar{x}-\mu}{\sigma/\sqrt{n}}\leq z_{\alpha/2}
z1−α/2≤σ/n
z α / 2 z_{\alpha/2} zα/2是标准正态分布时density曲线右侧面积为 α / 2 \alpha/2 α/2时 z z z的值, 同理可得 z 1 − α / 2 z_{1-\alpha/2} z1−α/2就是density曲线右侧面积为 1 − α / 2 1-\alpha/2 1−α/2时 z z z的值(也是左侧面积为 α / 2 \alpha/2 α/2时的 z z z值)。但因为是关于y轴的对称分布,有 z 1 − α / 2 = − z α / 2 z_{1-\alpha/2}=-z_{\alpha/2} z1−α/2=−zα/2。所以可以得到:
−
z
α
/
2
σ
n
≤
x
ˉ
−
μ
≤
z
α
/
2
σ
n
-z_{\alpha/2}\frac{ \sigma}{\sqrt{n}}\leq \bar{x}-\mu\leq z_{\alpha/2}\frac{ \sigma}{\sqrt{n}}
−zα/2n
总体均值 μ \mu μ的置信区间为:
x
ˉ
±
z
α
/
2
σ
n
\bar{x}\pm z_{\alpha/2}\frac{ \sigma}{\sqrt{n}}
xˉ±zα/2n
常用的
α
\alpha
α值有0.1,0.05和0.01(分别对应置信水平90%,95%和99%), 对应的
z
α
/
2
z_{\alpha/2}
zα/2值分别为
z
0.05
=
1.645
,
z
0.025
=
1.96
,
z
0.025
=
2.58
z_{0.05}=1.645,z_{0.025}=1.96,z_{0.025}=2.58
z0.05=1.645,z0.025=1.96,z0.025=2.58 。以最常用的
α
=
0.05
\alpha=0.05
α=0.05为例,有
z
0.025
=
1.96
,
z
0.975
=
−
z
0.025
=
−
1.96
z_{0.025}=1.96,z_{0.975}=-z_{0.025}=-1.96
z0.025=1.96,z0.975=−z0.025=−1.96。见下图:
图中两块阴影部分的面积都是0.025, 中间面积为0.95,对应经验法则中的“约有95%的数据落在平均数±2个标准差的范围内”,这里平均数为0,标准差为1。同时,
P
(
Z
≤
−
1.96
)
=
P
(
Z
≥
1.96
)
=
1
−
P
(
Z
≤
1.96
)
=
0.025
P(Z\leq-1.96)=P(Z\geq 1.96)=1-P(Z\leq1.96)=0.025
P(Z≤−1.96)=P(Z≥1.96)=1−P(Z≤1.96)=0.025。
上面的是对于方差已知的正态总体(不管是大样本还是小样本),或非正态大样本总体来说的(也就是说对于方差已知的大样本总体,不管是不是正态分布,或者方差已知的小样本正态总体)。如果大样本总体但方差未知,上面式子中的
σ
\sigma
σ就用样本方差
s
s
s来代替,变成
x
ˉ
±
∣
z
α
/
2
∣
s
n
\bar{x}\pm |z_{\alpha/2}|\frac{ s}{\sqrt{n}}
xˉ±∣zα/2∣n
但如果是方差未知的小样本正态总体就不是用正态分布,而是用t分布来构造总体均值的置信区间:
t
=
x
ˉ
−
μ
s
/
n
∼
t
(
n
−
1
)
t=\frac{\bar{x}-\mu}{s/\sqrt{n}}\sim t(n-1)
t=s/n
总结一下总体均值的置信区间,有以下几种情况:
方差已知,大样本:正态分布,
σ
\sigma
σ
方差未知,大样本:正态分布,s
方差已知,小样本正态:正态分布,
σ
\sigma
σ
方差未知,小样本正态:t分布,s
总体比例的区间估计
总体比例指的是:想要估计一个学校中女生占的比例,随机抽取了100个学生,其中女生有50个,那么全校学生中女生的比例是多少?这个要求的比例就是总体比例。
在大样本的情况下,样本比例
p
p
p的抽样分布也近似符合正态分布,设总体比例为
π
\pi
π, 那么
p
∼
N
(
π
,
π
(
1
−
π
)
n
)
p\sim N(\pi, \frac{\pi(1-\pi)}{n})
p∼N(π,nπ(1−π))。与总体均值类似,可以得到
p
−
π
π
(
1
−
π
)
/
n
∼
N
(
0
,
1
)
\frac{p-\pi}{\sqrt{\pi(1-\pi)/n}}\sim N(0,1)
π(1−π)/n
−
z
α
/
2
π
(
1
−
π
)
n
≤
p
−
π
≤
z
α
/
2
π
(
1
−
π
)
n
-z_{\alpha/2}\sqrt{\frac{\pi(1-\pi) }{n}}\leq p-\pi\leq z_{\alpha/2}\sqrt{\frac{\pi(1-\pi) }{n}}
−zα/2nπ(1−π)
因为总体比例 π \pi π未知,在实际计算的时候就用 p p p来代替:
−
z
α
/
2
p
(
1
−
p
)
n
≤
p
−
π
≤
z
α
/
2
p
(
1
−
p
)
n
-z_{\alpha/2}\sqrt{\frac{p(1-p) }{n}}\leq p-\pi\leq z_{\alpha/2}\sqrt{\frac{p(1-p) }{n}}
−zα/2np(1−p)
所以总体比例 π \pi π在 1 − α 1-\alpha 1−α的置信水平下的置信区间为
p
±
z
α
/
2
p
(
1
−
p
)
n
p\pm z_{\alpha/2}\sqrt{\frac{p(1-p) }{n}}
p±zα/2np(1−p)
总体方差的区间估计
对于满足分布为
N
(
μ
,
σ
2
)
N(\mu,\sigma^2)
N(μ,σ2)的正态总体和样本
X
1
,
X
2
,
.
.
.
X
n
X_1,X_2,...X_n
X1,X2,...Xn, 样本方差
s
2
s^2
s2的抽样分布服从自由度为
n
−
1
n-1
n−1的卡方分布:
(
n
−
1
)
s
2
σ
2
∼
χ
2
(
n
−
1
)
\frac{(n-1)s^2}{\sigma^2}\sim \chi^2(n-1)
σ2(n−1)s2∼χ2(n−1), 因此使用卡方分布来构造总体方差的置信区间。
在 1 − α 1-\alpha 1−α置信水平下:
χ 1 − α / 2 2 ≤ ( n − 1 ) s 2 σ 2 ≤ χ α / 2 2 \chi^2_{1-\alpha/2} \leq \frac{(n-1)s^2}{\sigma^2} \leq \chi^2_{\alpha/2} χ1−α/22≤σ2(n−1)s2≤χα/22
所以总体方差 σ 2 \sigma^2 σ2在在 1 − α 1-\alpha 1−α置信水平下的置信区间为:
( n − 1 ) s 2 χ 1 − α / 2 2 ≤ σ 2 ≤ ( n − 1 ) s 2 χ α / 2 2 \frac{(n-1)s^2}{\chi^2_{1-\alpha/2}}\leq \sigma^2 \leq \frac{(n-1)s^2}{\chi^2_{\alpha/2}} χ1−α/22(n−1)s2≤σ2≤χα/22(n−1)s2
同理, χ α / 2 2 \chi^2_{\alpha/2} χα/22是卡方分布density曲线下右侧的面积为 α / 2 \alpha/2 α/2时 χ 2 \chi^2 χ2的值。当然,因为不是对称分布所以 χ 1 − α / 2 2 \chi^2_{1-\alpha/2} χ1−α/22不会等于 − χ α / 2 2 -\chi^2_{\alpha/2} −χα/22。
上面说的都是单个总体参数的区间估计,除此之外还有两个总体参数的区间估计。
两个参数的区间估计
两个总体均值之差的区间估计
又分为独立样本(Independent Sample)和匹配样本(Paired Sample)。
-
独立样本是从两个总体中分别抽取的两个样本,两个样本互相独立。比如分别独立抽取学校A和学校B的学生样本,想要估计同一场考试里的数学成绩平均分之差。
设总体A和总体B都是正态分布,或不是正态分布但都是大样本,总体均值分别为 μ 1 , μ 2 \mu_1,\mu_2 μ1,μ2,总体方差分别为 σ 1 2 , σ 2 2 \sigma_1^2,\sigma_2^2 σ12,σ22,样本量分别为 n 1 , n 2 n_1,n_2 n1,n2, 那么两个样本均值之差满足:
x 1 ˉ − x 2 ˉ ∼ N ( μ 1 − μ 2 , σ 1 2 n 1 + σ 2 2 n 2 ) \bar{x_1}-\bar{x_2}\sim N(\mu_1-\mu_2, \frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}) x1ˉ−x2ˉ∼N(μ1−μ2,n1σ12+n2σ22)
在 1 − α 1-\alpha 1−α置信水平下,总体均值之差的置信区间为
( x 1 ˉ − x 2 ˉ ) ± z α / 2 σ 1 2 n 1 + σ 2 2 n 2 (\bar{x_1}-\bar{x_2})\pm z_{\alpha/2}\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}} (x1ˉ−x2ˉ)±zα/2n1σ12+n2σ22
而在小样本,正态分布,但方差未知的情况下,需要用到样本方差 s 1 2 , s 2 2 s_1^2,s_2^2 s12,s22, 又有两种情况:
-
总体方差未知但相等: σ 1 2 = σ 2 2 \sigma_1^2=\sigma_2^2 σ12=σ22
在 1 − α 1-\alpha 1−α置信水平下,总体均值之差的置信区间为
( x 1 ˉ − x 2 ˉ ) ± t α / 2 ( n 1 + n 2 − 2 ) s p 2 ( 1 n 1 + 1 n 2 ) (\bar{x_1}-\bar{x_2})\pm t_{\alpha/2}(n_1+n_2-2)\sqrt{s_p^2(\frac{1}{n_1}+\frac{1}{n_2})} (x1ˉ−x2ˉ)±tα/2(n1+n2−2)sp2(n11+n21)
, s p 2 = ( n 1 − 1 ) s 1 2 + ( n 2 − 1 ) s 2 2 n 1 + n 2 − 2 s_p^2=\frac{(n_1-1)s_1^2+(n_2-1)s_2^2}{n_1+n_2-2} sp2=n1+n2−2(n1−1)s12+(n2−1)s22 -
总体方差未知且不相等: σ 1 2 ≠ σ 2 2 \sigma_1^2\neq\sigma_2^2 σ12=σ22
在 1 − α 1-\alpha 1−α置信水平下,总体均值之差的置信区间为
( x 1 ˉ − x 2 ˉ ) ± t α / 2 ( v ) s 1 2 n 1 + s 2 2 n 2 (\bar{x_1}-\bar{x_2})\pm t_{\alpha/2}(v)\sqrt{\frac{s_1^2}{n_1}+\frac{s_2^2}{n_2}} (x1ˉ−x2ˉ)±tα/2(v)n1s12+n2s22
, v = ( s 1 2 n 1 + s 2 2 n 2 ) 2 ( s 1 2 / n 1 ) 2 n 1 − 1 + ( s 2 2 / n 2 ) 2 n 2 − 1 v=\frac{(\frac{s_1^2}{n_1}+\frac{s_2^2}{n_2})^2}{\frac{(s_1^2/n_1)^2}{n_1-1}+\frac{(s_2^2/n_2)^2}{n_2-1}} v=n1−1(s12/n1)2+n2−1(s22/n2)2(n1s12+n2s22)2
-
匹配样本中,两个样本的对象相同。比如抽取一个学生样本,想要估计上了一门课程前后考试平均分数之差。
计算方法是先算出各差值 d i d_i di,然后算出各差值的均值 d ˉ \bar{d} dˉ和标准差 σ d \sigma_d σd,那么在 1 − α 1-\alpha 1−α置信水平下匹配样本总体均值之差的置信区间为
d ˉ ± z α / 2 σ d n \bar{d}\pm z_{\alpha/2}\frac{\sigma_d}{\sqrt{n}} dˉ±zα/2n
σd
两个总体比例之差的区间估计
设两个独立样本的样本比例分别为 p 1 p_1 p1和 p 2 p_2 p2, 总体比例分别为 π 1 \pi_1 π1和 π 2 \pi_2 π2,那么在 1 − α 1-\alpha 1−α置信水平下两个独立样本总体比例之差的置信区间为
(
p
1
−
p
2
)
±
z
α
/
2
p
1
(
1
−
p
1
)
n
1
+
p
2
(
1
−
p
2
)
n
2
(p_1-p_2)\pm z_{\alpha/2}\sqrt{\frac{p_1(1-p_1)}{n_1}+\frac{p_2(1-p_2)}{n_2}}
(p1−p2)±zα/2n1p1(1−p1)+n2p2(1−p2)
两个总体方差之比的区间估计
注意样本方差满足卡方分布,两个卡方分布之比是F分布,那么样本方差之比就是F分布了。
设两个独立样本的样本方差分别为 s 1 2 s_1^2 s12和 s 2 2 s_2^2 s22, 总体方差分别为 σ 1 2 \sigma_1^2 σ12和 σ 2 2 \sigma_2^2 σ22,样本方差之比 s 1 2 / s 2 2 s_1^2/s_2^2 s12/s22的抽样分布服从自由度为 n 1 − 1 , n 2 − 1 n_1-1,n_2-1 n1−1,n2−1的F分布: s 1 2 s 2 2 × σ 1 2 σ 2 2 ∼ F ( n 1 − 1 , n 2 − 1 ) \frac{s_1^2}{s_2^2}\times \frac{\sigma_1^2}{\sigma_2^2}\sim F(n_1-1,n_2-1) s22s12×σ22σ12∼F(n1−1,n2−1), 因此使用F分布来构造总体方差之比的置信区间。
在 1 − α 1-\alpha 1−α置信水平下
F 1 − α / 2 ≤ s 1 2 s 2 2 × σ 1 2 σ 2 2 ≤ F α / 2 F_{1-\alpha/2} \leq \frac{s_1^2}{s_2^2}\times \frac{\sigma_1^2}{\sigma_2^2} \leq F_{\alpha/2} F1−α/2≤s22s12×σ22σ12≤Fα/2
所以在 1 − α 1-\alpha 1−α置信水平下,总体方差之比的置信区间为
s 1 2 / s 2 2 F 1 − α / 2 ≤ s 1 2 s 2 2 ≤ s 1 2 / s 2 2 F α / 2 \frac{s_1^2/s_2^2 }{F_{1-\alpha/2}}\leq \frac{s_1^2}{s_2^2} \leq \frac{s_1^2/s_2^2 }{F_{\alpha/2}} F1−α/2s12/s22≤s22s12≤Fα/2s12/s22
版权声明:本文标题:统计学复习笔记(三)—— 置信区间(总体均值比例方差,总体均值之差比例之差方差之比) 内容由热心网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:https://m.elefans.com/dongtai/1729850964a1215404.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论