admin管理员组

文章数量:1531705

导读

作为ChatGPT的姊妹模型,InstructGPT的核心技术和ChatGPT有很多相通之处。参透InstructGPT的核心技术细节,有助于研究者们在ChatGPT方向上走得更远。

具体来看,一味地让语言模型变大并不意味着它们能更好地遵循用户的意图。大语言模型可能会产生虚假有害的,或是对用户毫无帮助的输出。这些模型并不能匹配用户意图。去年9月,OpenAI的研究科学家Long Ouyang和Scale AI工程经理Aerin在Scale Virtual Events社区(简称Scale)发表了题为「OpenAI’s InstructGPT: Aligning Language Models With Human Intent」的演讲,他们探索了一种新的途径,通过基于人类反馈的微调,使语言模型在广泛的任务中与用户的意图保持一致。本文整理了报告中关于InstructGPT技术细节。

Long Ouyang(演讲嘉宾)

OpenAI研究科学家,斯坦福大学认知心理学博士,目前从事human-in-the-loop mechain learning。他是《Training Language models to follow instructions with human feedback》一文的主要作者,并且协助建立了GPT的变体,如InstructGPT和WebGPT,本次重点讨论了他在InstructGPT方面的工作。InstructGPT是GPT-3的一个变体,具有更好的遵循人类指令的能力,并将继续探索如何利用人类的反馈,“使GPT-3更加有用、真实和无害”。

视频链接:

https://exchange.scale/public/videos/openais-instructgpt-aligning-language-models-with-human-intent-2022-09-13

要点速览:

  • 从业人员需要确保机器学习模型优化人们所关心的功能,而非与用户意图不匹配的代理函数(proxy function)

  • InstructGPT 旨在使 GPT-3 实现「助人、真实、无害」的目标,重点匹配人们的实际偏好

  • 和最初GPT-3的鹦鹉学舌相比,InstructGPT模型能够感知到用户给出指令的意图,并尽力而为,更像是为我们工作的“助手”

  • 尽管模型本身绝大多数是在英语上训练的,I<

本文标签: 更重要核心技术大起模型反馈