admin管理员组

文章数量:1612098

1、引言

尽管神经网语言模型的取得了很大的进步,但对于生成任务来,解码策略的选择很重要,即使是使用很先进的语言模型,使用Beam search 的方法,也很容易导致生成的文本,不连贯。重复等,本文提出了一种 核采样(Nucleus Sampling)的解码策略。

2、关注的问题

1、为什么beam seach 的解码方法导致了degeneratext?

从公式上来看我们需要最大化生成文本的概率

采用的解码方法有 beam search greedy decoding(beam=1)

使用这样的解码方法,容易出现 positive-feedback loop 的现象,即容易选取使得该文本序列概率最的词,从直觉上来,容易生成重复的词。

从人类续写的例子来看,人的书写并不是每次都选取概率最的那个词

2、为什么 truncated 采样的方式比在整个词表上好?

长尾分布,即那些概率很小的词,但是这样的词的数量很多,所以,还会大概率的采样到这些词。

截断采样的方式有

1、samping with temperature

2、 Top-k Sampling

top-k的意思是,选取概率最大的前k个词进行采样

3、top-p (Nucleus Sampling)

选取前几个词的概率加起来大于P,然后进行采样。 这样的效果确实很好。

本文标签: 笔记论文casecuriousneural