admin管理员组

文章数量:1652188

RoBERTa A Robustly Optimized BERT Pretraining Approach

Abstract

Devlin等人在 BERT Pre-training of Deep Bidirectional Transformers for Language Understanding 提出的BERT预训练研究虽然已达到最优结果,但

  • 训练成本比较高,很难彻底得到训练
  • 训练的时候通常是在不同大小的私有数据集上进行训练的,很难判断具体哪个部分对结果有促进作用

所以,作者重新衡量了关键参数和数据集大小的影响,并提出了改进BERT的方法,即RoBERTa

1 Introduction

本文贡献:

  • 出了一套重要的BERT设计选择和培训策略,并引入了能够提高下游任务绩效的备选方案

  • 使用了一个新的数据集,CCNEWS,并确认使用更多的数据进行预训练进一步提高了下游任务的性能

  • 训练改进表明,在正确的设计选择下,masked language model的预训练可以与所有其他最近发表的方法相媲美

2 Background

BERT

预训练有两个目标:

  • Masked Language Model (MLM)

    15% token进行替换,其中80%被替换为 [MASK]替换,10%保持不变,10%被随机选择的 token替代。

  • Next Sentence Prediction (NSP)

    用于预测两句话在原文中是否相邻。正例和负例的采样概率相等。NSP目标旨在提高下游任务的性能

BERT的优化算法中,Adam参数: β 1 = 0.9 , β 2 = 0.999 , ϵ = l e − 6 β_1=0.9,β_2=0.999,\epsilon=le-6 β

本文标签: 论文RobustlyRoBERTaoptimizedPretraining