admin管理员组文章数量:1609899
当面对一个像线性回归的回归问题时,为什么最小方差代价函数(损失函数)是一个好的解决方案呢?在这一节的内容,我们通过概率论的视角会发现最小方差回归是一个很自然的算法。
我们不妨假设,目标变量与输入变量有如下关于:
y ( i ) = θ T x ( i ) + ϵ ( i ) , y^{(i)} = \theta^T x^{(i)} + \epsilon^{(i)}, y(i)=θTx(i)+ϵ(i),
上式中的 ϵ ( i ) \epsilon^{(i)} ϵ(i)是一个误差项,表示模型未捕捉的特征或随机噪声。我们假设这些 ϵ ( i ) \epsilon^{(i)} ϵ(i)是独立同分布于均值为0、方差为 σ 2 \sigma^2 σ2的高斯分布,记作 ϵ ( i ) ∼ N ( 0 , σ 2 ) \epsilon^{(i)} \sim \mathcal{N}(0, \sigma^2) ϵ(i)∼N(0,σ2)。 ϵ ( i ) \epsilon^{(i)} ϵ(i)的概率密度为:
p
(
ϵ
(
i
)
)
=
1
2
π
σ
exp
(
−
(
ϵ
(
i
)
)
2
2
σ
2
)
.
p(\epsilon^{(i)}) = \frac{1}{\sqrt{2 \pi} \sigma} \text{exp} \left( - \frac{(\epsilon^{(i)})^2}{2 \sigma^2} \right).
p(ϵ(i))=2π
替换一下变量则有:
p
(
y
(
i
)
∣
x
(
i
)
;
θ
)
=
1
2
π
σ
exp
(
−
(
y
(
i
)
−
θ
T
x
(
i
)
)
2
2
σ
2
)
.
p(y^{(i)} | x^{(i)}; \theta) = \frac{1}{\sqrt{2 \pi} \sigma} \text{exp} \left( - \frac{(y^{(i)} - \theta^T x^{(i)})^2}{2 \sigma^2} \right).
p(y(i)∣x(i);θ)=2π
p ( y ( i ) ∣ x ( i ) ; θ ) p(y^{(i)} | x^{(i)}; \theta) p(y(i)∣x(i);θ)是对于给定输入特征 x ( i ) x^{(i)} x(i)和参数 θ \theta θ时, y ( i ) y^{(i)} y(i)的条件概率分布。需要注意的是它不能写成 p ( y ( i ) ∣ x ( i ) , θ ) p(y^{(i)} | x^{(i)}, \theta) p(y(i)∣x(i),θ)。因为 θ \theta θ不是随机变量, θ \theta θ是待沽参数,未知却是固定值。
给定
X
X
X(包含所有的数据集
x
(
i
)
x^{(i)}
x(i))和
θ
\theta
θ,如何确定
y
(
i
)
y^{(i)}
y(i)的分布?这个概率由
p
(
y
⃗
∣
X
;
θ
)
p(\vec{y}|X; \theta)
p(y
L
(
θ
)
=
L
(
θ
;
X
,
y
⃗
)
=
p
(
y
⃗
∣
X
;
θ
)
.
L(\theta) = L(\theta; X, \vec{y}) = p(\vec{y} | X; \theta).
L(θ)=L(θ;X,y
又我们假设 ϵ ( i ) \epsilon^{(i)} ϵ(i)是独立的,上式可改写为:
L
(
θ
)
=
∏
i
=
1
m
p
(
y
(
i
)
∣
x
(
i
)
;
θ
)
=
∏
i
=
1
m
1
2
π
σ
exp
(
−
(
y
(
i
)
−
θ
T
x
(
i
)
)
2
2
σ
2
)
\begin{aligned} L(\theta) &= \prod_{i=1}^m \ p(y^{(i)} | x^{(i)}; \theta) \\ &= \prod_{i=1}^m \ \frac{1}{\sqrt{2 \pi} \sigma} \text{exp} \left( - \frac{(y^{(i)} - \theta^T x^{(i)})^2}{2 \sigma^2} \right) \\ \end{aligned}
L(θ)=i=1∏m p(y(i)∣x(i);θ)=i=1∏m 2π
为了求极大似然,使用对数似然函数可以简化我们的计算:
ℓ
(
θ
)
=
log
L
(
θ
)
=
log
∏
i
=
1
m
1
2
π
σ
exp
(
−
(
y
(
i
)
−
θ
T
x
(
i
)
)
2
2
σ
2
)
=
∑
i
=
1
m
log
1
2
π
σ
exp
(
−
(
y
(
i
)
−
θ
T
x
(
i
)
)
2
2
σ
2
)
=
m
log
1
2
π
σ
−
1
σ
2
⋅
1
2
∑
i
=
1
m
(
y
(
i
)
−
θ
T
x
(
i
)
)
2
.
\begin{aligned} \ell(\theta) &= \text{log} \ L(\theta) \\ &= \text{log} \prod_{i=1}^m \frac{1}{\sqrt{2 \pi} \sigma} \text{exp} \left( - \frac{(y^{(i)} - \theta^T x^{(i)})^2}{2 \sigma^2} \right) \\ &= \sum_{i=1}^m \text{log} \frac{1}{\sqrt{2 \pi} \sigma} \text{exp} \left( - \frac{(y^{(i)} - \theta^T x^{(i)})^2}{2 \sigma^2} \right) \\ &= m \text{log} \frac{1}{\sqrt{2 \pi} \sigma} - \frac{1}{\sigma^2} \cdot \frac{1}{2} \sum_{i=1}^m (y^{(i)} - \theta^T x^{(i)})^2.\\ \end{aligned}
ℓ(θ)=log L(θ)=logi=1∏m2π
而这时我们就可以发现极大似然估计和最小均方差是同解的:
1 2 ∑ i = 1 m ( y ( i ) − θ T x ( i ) ) 2 \frac{1}{2} \sum_{i=1}^m (y^{(i)} - \theta^T x^{(i)})^2 21i=1∑m(y(i)−θTx(i))2
上式就是原始最小方差成本函数 J ( θ ) J(\theta) J(θ)。
总结: 在之前的概率假设下,最小方差回归和寻找
θ
\theta
θ的极大似然估计是对应的。在这一系列假设下,最小方差回归是处理极大似然估计的直接方法。
需要注意一点,最后参数
θ
\theta
θ的选择和方差
σ
2
\sigma^2
σ2是无关的,实际上即使
σ
2
\sigma^2
σ2不知道我们也可推出已上结论。这一点在后面的指数族和生成线性模型中也会有应用。
本文标签: 方差概率最小interpretationProbabilistic
版权声明:本文标题:最小均方差的概率阐述(Probabilistic interpretation) 内容由热心网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:https://m.elefans.com/dianzi/1728576255a1164505.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论