admin管理员组

文章数量:1647850

本文是LLM系列文章,针对《Developing Safe and Responsible Large Language Model : Can We
Balance Bias Reduction and Language Understanding in Large Language Models?》的翻译。

开发安全和负责任的大型语言模型:我们能在大型语言模型中平衡偏见减少和语言理解吗?

  • 摘要
  • 1 引言
  • 2 方法
  • 3 实验设置
  • 4 结果和讨论
  • 5 讨论
  • 6 结论

摘要

大型语言模型(LLMs)已经推进了各种自然语言处理(NLP)任务,如文本生成和翻译等。然而,这些模型通常会生成可能使偏见永久化的文本。现有的减轻这些偏见的方法通常会损害知识保留。本研究探讨了LLM是否可以在不牺牲知识或理解的情况下产生安全、无偏见的输出。我们介绍了安全和负责任的大型语言模型(SRLLM),该模型在固有安全的微调LLM之上进行了指令微调,以减少生成文本中的偏见。我们开发了一个专门的数据集,其中包含不安全和相应安全变体的示例,以训练SRLLM识别和纠正有偏见的文本。在我们的专业数据集和分布外测试集上的实验表明,SRLLM在保持知识完整性的同时有效地减少了偏差。这种性能超越了传统的对较小语言模型和仅依赖提示技术的基础LLM的微调。我们的研究结果表明,指令微调是在保留知识的同时尽量减少LLM偏见的有效策略。代码和数据集可以在SR-LLM上访问。

本文标签: responsibleSafeDevelopingModellanguage