admin管理员组

文章数量:1609936

原文:http://cs229.stanford.edu/notes/cs229-notes1.pdf

当面临回归问题时,为什么线性回归,特别是为什么最小二乘损失函数可能是一个合理的选择?在本节中,我们将给出一组概率假设,在此假设下,最小二乘回归是一种非常自然的算法。

让我们假设目标变量和输入是通过下面的方程关联的

上面的是误差项,用于考虑建模时忽略的变量所产生的影响( 比如可能某些特征对于房价的影响很明显,但我们做回归的时候忽略掉了)或者随机的噪声(random noise)。让我们进一步假设 是独立同分布的 (IID ,independently and identically distributed) ,服从高斯分布(Gaussian distribution ,也叫正态分布 Normal distribution),其平均值为 0,方差(variance)为。据此,的概率密度函数可以写成:

可以推出:

这里的记号表示的是这是一个给定的的分布,并且由参数化。此处的分布还可以写成 ~

给定设计矩阵(包含了所有的)和​, 那么的分布是什么?数据的概率以 的形式给出。当取固定值的时候,这经常被看作是一个关于 
(或者是)的函数。当我们想要显式地把它看做一个关于 ​的函数时,我们称之为 似然(likelihood) 函数:

注意,通过上的独立假设,这也可以写成

现在,考虑到这个关于的概率模型,选择参数θ的最佳猜测的合理方法是什么?最大似然原理认为,应选择θ,使数据尽可能高概率。也就是说,我们应该选择θ来最大化L(θ)。我们不仅可以使L(θ)最大化,还可以使L(θ)的任意严格增长函数最大化。特别是,如果我们用最大化对数似然函数ℓ(θ)代替,那么派生就会简单一些:

因此,最大化ℓ(θ)给出了与最小化下面公式相同的答案。

它就是J(θ),我们最初的最小二乘代价函数。

总结:在以往对数据的概率假设下,最小二乘回归对应于寻找θ的最大似然估计。因此,这是一套假设。 其中最小二乘回归可以被证明是一种非常自然的方法,它只是在做最大似然估计。(但要注意的是,概率假设并不是必要的。 最小二乘是一个完美的、合理的过程,而且可能--而且确实有--其他的自然假设也可以用来证明它的合理性。)

还请注意,在前面的讨论中,我们对θ的最终选择并不取决于什么是σ2,事实上,即使σ2未知,我们也会得到相同的结果。我们会利用这个事实之后,当我们讨论指数族和广义线性模型时。

 

 

 

本文标签: 概率机器interpretationProbabilistic