admin管理员组

文章数量:1660165

第3章 统计语言模型

这是1953年古德(I.J.Good)在他老板图灵(Alan Turing)的指导下,提出的在统计中相信可靠的统计数据,而对不可信的统计数据打折扣的一种概率估计方法,同时将折扣出来的那一小部分概率给与未看见的时间(Unseen Events)。古德和图灵还给出一个很漂亮的重新估算概率的公式,这个公式后来被称为古德-图灵估计(Good-Turing Estimate)。

假定在语料库中出现r次的词有Nr个。有,现在假定当r比较小时,它的统计可能不可靠,因此在计算那些出现r次的词的概率时,要使用一个更小一点的次数,是dr。

古德-图灵估计按照下面的公式计算dr:

 

以上,吴军《数学之美》第二版

大数定理:在随机事件的大量重复出现中,往往呈现几乎必然的规律,这个规律就是大数定律。(百度百科)

线性插值:线性插值的几何意义即为概述图中利用过A点和B点的直线来近似表示原函数。(百度百科)

本文标签: 之美古德数学笔记图灵