admin管理员组

文章数量:1614997

目录

引言

大语言模型家族谱系

大语言模型参数增长图

大模型预训练过程

大模型的涌现能力 (Emergent Ability)

复杂系统中的涌现现象

Calibration

Inverse Scaling Prize

Switch Transformer

大数据的重要性

「大模型」还是「大数据」

KNN LM

总结

参考资料

Table of Contents

Resources of LLMs

Open-source Models

Closed-source Models

Commonly Used Corpora

Library Resource

Deep Learning Frameworks

Pre-training

Data Collection

Architecture

Training Algorithms

Pre-training on Code

Adaptation Tuning

Instruction Tuning

Alignment Tuning

Utilization

Capacity Evaluation

The Team


引言

自从20世纪50年代提出图灵测试以来,人类一直在探索通过机器对语言智能的掌握。

语言本质上是一个由语法规则控制的复杂的人类表达系统。它构成了一个开发用于理解和掌握语言的有能力的人工智能(AI)算法是一项重大挑战。在过去的二十年里,语言建模在语言理解和生成方面得到了广泛的研究,并不断发展,从统计语言模型神经语言模型

最近,通过在大规模语料库上对Transformer模型进行预训练,提出了预训练语言模型(PLM),在解决各种自然语言处理(NLP)任务方面表现出强大的能力。由于研究人员发现模型缩放可以提高性能,他们进一步研究了缩放效应通过将模型尺寸增加到甚至更大的尺寸。

有趣的是,当参数尺度超过一定水平时,语言模型不仅能显著提高性能,而且还表现出一些特殊的能力(例如在上下文学习中),它们在小规模语言模型(例如BERT)中不存在。

为了区分参数尺度的差异,社区已经创造了术语“大型语言模型”(LLM),用于表示大量的PLM(例如,包含数十或数百个数十亿个参数)。</

本文标签: 模型语言简介