admin管理员组

文章数量:1532285

LLMs之Nemotron-4:《Nemotron-4 340B Technical Report》翻译与解读

导读:
>> 背景痛点:越来越大的语言模型需要大量高质量数据进行对齐训练,但人工标注数据的成本非常高昂。现有公开数据集已经不足以训练最佳对齐的大型语言模型。
>> 解决方案:NVIDIA开发了一个合成数据生成(SDG)流水线,用于生成大量的高质量训练数据,支持监督微调和偏好微调两种对齐方法。发布了Nemotron-4 340B模型家族,包括Nemotron-4-340B-Base、Nemotron-4-340B-Instruct和Nemotron-4-340B-Reward三种模型。
>> 核心思路步骤
使用大型指令模型生成多样化的合成提示,涵盖不同任务、话题和指令。
基于提示生成响应和对话数据,使用奖励模型进行质量过滤和偏好排序。
利用经过筛选的高质量合成数据进行监督微调和偏好微调,分别得到Instruct模型和Reward模型。
​​​​​​​>> 优势
开源的大规模语言模型,可促进该领域的研究进展和商业应用。
有效利用合成数据大幅降低了对齐训练的成本。
开源的合成数据生成流水线有助于社区构建定制的训练数据。
总的来说,这项工作提出了一种基于合成数据的高效对齐方法,并发布了一系列优秀的开源大模型,为语言模型的发展做出了重要贡献。

目录

《Nemotron-4 340B Technical Report》翻译与解读

Abstract

4 Conclusion

Figure 6: Percentage of unsafe responses over all model responses in AEGIS safety evaluations. Lower is better.在AEGIS安全评估中,不安全响应占所有模型响应的百分比。越低越好。


《Nemotron-4 340B Technical Report》翻译与解读

地址

论文地址:https://arxiv/abs/2406.11704

时间

2024 年6月17日

作者

NVIDIA

Abstract

We release the Nemotron-4 340B model family, including Nemotron-4-340B-Base, Nemotron-4- 340B-Instruct, and Nemotron-4-340B-Reward. Our models are open access under the NVIDIA Open Model License Agreement, a permissive model license that allows distribution, modification, and use of the models and its outputs. These models perform competitively to open access models on a wide range of evaluation benchmarks, and were sized to fit on a single DGX H100 with 8 GPUs when deployed in FP8 precision. We believe that the community can benefit from these models in various research studies and commercial applications, especially for generating synthetic data to train smaller language models. Notably, over 98% of data used in our model alignment process is synthetically generated, showcasing the effectiveness of these models in generating synthetic data. To further support open research and facilitate model development, we are also open-sourcing the synthetic data generation pipeline used in our model alignment process.

我们发布了Nemotron-4 340B模型系列,包括Nemotron-4-340B- base, Nemotron-4-340B- instruct和Nemotron-4-340B- reward。我们的模型是根据NVIDIA开放模型许可协议开放获取的,这是一项允许分发、修改和使用模型及其输出的宽松模型许可协议。这些模型在广泛的评估基准上与开放存取模型相比具有竞争力,并且在FP8精度部署时,其尺寸适合单个DGX H100与8个GPU。我们相信社区可以在各种研究和商业应用中受益于这些模型,特别是在生成合成数据以训练较小的语言模型方面。值得注意的是,我们的模型校准过程中使用的98%以上的数据是综合生成的,这表明这些模型在生成综合数据方面是有效的。为了进一步支持开放研究和促进模型开发,我们还开放了模型校准过程中使用的合成数据生成管道的源代码。

4 Conclusion

We present a family of Nemotron-4 340B models: Nemotron-4-340B-Base, Nemotron-4-340B-Instruct and Nemotron-4-340B-Reward. They are provided under a permissive open access license, and we detail their ability across a broad range of tasks. We release the training and inference code for these models. We also provide comprehensive details about our synthetic data generation pipeline and illustrate its effectiveness. We believe these models will stimulate the further development of LLMs and AI applications.

我们提出了Nemotron-4 340B系列模型:Nemotron-4-340B- base, Nemotron-4-340B- instruct和Nemotron-4-340B- reward。它们是在宽松的开放访问许可下提供的,我们详细介绍了它们在广泛任务中的能力。我们发布了这些模型的训练和推理代码。我们还提供了有关合成数据生成管道的详细信息,并说明了其有效性。我们相信这些模型将刺激LLMs和人工智能应用的进一步发展。

Figure 6: Percentage of unsafe responses over all model responses in AEGIS safety evaluations. Lower is better.在AEGIS安全评估中,不安全响应占所有模型响应的百分比。越低越好。

本文标签: NemotronLLMsReportTechnical