admin管理员组

文章数量:1530063

本文是LLM系列文章,针对《A Comprehensive Study of Knowledge Editing for Large Language Models》的翻译。

大型语言模型知识编辑的综合研究

  • 摘要
  • 1 引言
  • 2 背景
    • 2.1 大语言模型
      • 2.1.1 LLM中的Transformer
      • 2.1.2 LLM中的知识存储机制
    • 2.2 相关技术
  • 3 LLM的知识编辑
    • 3.1 前言
    • 3.2 任务定义
    • 3.3 方法
      • 3.3.1 认知阶段:利用外部知识
      • 3.3.2 关联阶段:将知识合并到模型中
      • 3.3.3 掌握阶段: 编辑内部知识
    • 3.4 新基准:KnowEdit
    • 3.5 知识编辑的评价
  • 4 实验
    • 4.1 实验设置
    • 4.2 主要结果
    • 4.3 知识编辑对一般任务的影响
    • 4.4 多任务知识编辑
    • 4.5 错误与案例分析
  • 5 分析
    • 5.1 不同知识编辑方法的比较
    • 5.2 LLM中知识定位的有效性
    • 5.3 LLM中的内隐知识结构
  • 6 应用
    • 6.1 高效的机器学习
    • 6.2 AIGC
    • 6.3 可信AI
    • 6.4 人机交互:个性化代理
  • 7 讨论与结论

摘要

大型语言模型(LLM)在理解和生成与人类交流密切相关的文本方面显示出非凡的能力。然而,一个主要的限制在于训练过程中由于其广泛的参数化而产生的大量计算需求。世界的动态性进一步加剧了这一挑战,需要经常更新LLM,以纠正过时的信息或整合新知识,从而确保其持续相关性。请注意,许多应用程序要求在训练后不断调整模型,以解决不足或不良行为。人们对用于动态模型修改的高效、轻量级方法越来越感兴趣。为此,近年来,LLM的知识编辑技术蓬勃发展,旨在有效地修改LLM在特定领域内的行为,同时保持各种输入的整体性能。在本文中,我们首先定义了知识编辑问题,然后对前沿方法进行了全面的回顾。从教育和认知研究理论中汲取灵感,我们提出了一个统一的分类标准,将知识编辑方法分为三类:诉诸外部知识、将知识融入模型和编辑内部知识。此外,我们引入了一个新的基准,KnowEdit,用于对具有代表性的知识编辑方法进行全面的实证评估。此外,我们对知识位置进行了深入分析,可以更深入地了解LLM中固有的知识结构。最初被认为是有效引导LLM的一种手段,我们希望从知识编辑研究中获得的见解能够揭示LLM的潜在知识机制。为了

本文标签: KnowledgeStudyComprehensiveEditingModels