admin管理员组

文章数量:1531445

依旧照例先感谢前辈们的慷慨分享。
今天学习的是这篇文章↓
原文:转自公主号“AI云原生智能算力架构”
—《大模型技术生态研究报告2024》

文章目录

    • @[TOC](文章目录)
  • 一. 典型大模型平台
    • 1. GPT系列
    • 2. Claude系列
    • 3. PaLM系列
    • 4. Bard
    • 5. 文心一言
    • 6. 讯飞星火认知大模型
    • 7. 腾讯混元
    • 8. 通义千问
  • 一. 典型开源大模型
    • 1. LLaMA系列
    • 2. Falcon系列
    • 3. Pythia系列
    • 4. T5 系列
    • 5. BLOOM 系列
    • 6. GPT-Neo 系列
    • 7. OPT 系列
    • 8. MPT 系列
    • 9. ERNIE 系列
    • 10. GLM 系列
    • 11. Baichuan 系列
    • 12. CPM 系列
    • 13. 盘古系列

一. 典型大模型平台

1. GPT系列

OpenAI 的 GPT 系列模型是自然语言处理领域的重大突破,其中ChatGPT 和 GPT-4 是两个代表性模型。ChatGPT 专注于对各种文本指令做出回应,模型的训练过程包括有监督的指令微调与强化学习

现在的 ChatGPT 支持最长达 32,000 个字符,它可以执行各种任务,包括代码编写、数学问题求解、写作建议等。GPT-4 在推理方面的能力比 ChatGPT 更强,同时也减少了幻象的产生,能够更准确地理解和回应复杂的问题,从而提供更高质量的答案,但是引人注目的多模态功能尚未正式开放体验。

由于单一的语言模型难以胜任所有任务,自从 ChatGPT 和 GPT-4 发布以来,许多开发者已经开始将各种工具和插件集成到这些模型中,以进一步增强它们的功能。现在,ChatGPT Plus 用户可以使用各种插件来增强模型以满足自己的需求,这极大地扩展了模型的用途和适用领域。

2. Claude系列

Claude 系列模型是由 Anthropic 开发的闭源语言大模型,目前包含 Claude 和 Claude-Instant 两种模型可供选择。

最早的 Claude 于 2023年 3 月 15 日发布,并在 2023 年 7 月 11 日,更新至 Claude-2。该系列模型通过无监督预训练、基于人类反馈的强化学习Constitutional AI 技术(包含监督训练和强化学习)进行训练,旨在改进模型的有用性、诚实性和无害性。

值得一提的是,Claude 最高支持 100K 词元的上下文,而 Claude-2 更是拓展到了 200K 词元的上下文。相比于Claude 1.3, Claude 2 拥有更强的综合能力,同时能够生成更长的相应。

3. PaLM系列

PaLM 系列语言大模型由 Google 开发。其初始版本于 2022年 4 月发布,并在 2023 年 3 月公开了 API。

PaLM 基于 Google 提出的 Pathways 机器学习系统搭建,训练数据总量达 780B 个字符,内容涵盖网页、书籍、新闻、开源代码等多种形式的语料。目前 PaLM 共有 8B、62B、540B 三个不同参数量的模型版本。

Google 还开发了多种 PaLM 的改进版本。Med-PaLM 是 PaLM 540B 在医疗数据上进行了微调后的版本,在 MedQA 等医疗问答数据集上取得了最好成绩。PaLM-E 是 PaLM 的多模态版本,能够在现实场景中控制机器人完成简单任务。

2023 年 5 月,Google 发布了 PaLM 2,但并未公开其技术细节。Google 内部文件显示其参数量为 340B,训练数据为PaLM 的 5 倍左右。

4. Bard

Bard 是 Google 开发的对话模型。在 OpenAI 发布 ChatGPT 后,Google 担心其会对自身的搜索业务产生威胁,因此推动了 Bard 的开发。2023 年 2 月 6 日,Bard 正式发布,其基座模型是 Google 此前开发的语言大模型 LaMDA。

后续 Google 为 Bard 开展了持续的升级,包括添加数学与逻辑能力、添加代码能力、支持更多语言等。2023年 5 月,Google 发布了基于新一代语言大模型 PaLM 2 的 Bard。

5. 文心一言

文心一言是基于百度文心大模型的知识增强语言大模型,于 2023年 3 月在国内率先开启邀测。文心一言的基础模型文心大模型于 2019年发布。8 月 31 日,文心一言率先向全社会全面开放,提供 APP、网页版、API 接口等多种形式的开放服务。

文心一言一方面采用有监督精调、人类反馈的强化学习、提示等技术,还具备知识增强、检索增强和对话增强等关键技术。当前,以文心一言为代表的大模型已经逐步赶超国外最优水平。

文心一言基于飞桨深度学习框架进行训练,算法与框架的协同优化后效果和效率都得到提升,模型训练速度达到优化前的 3 倍,推理速度达到优化前的 30 多倍。文心一言还建设了插件机制,通过外部工具、服务的调用,拓展大模型的能力的边界。

6. 讯飞星火认知大模型

讯飞星火认知大模型是科大讯飞于 2023 年 5 月 6 日发布的语言大模型,提供了基于自然语言处理的多元能力,支持多种自然语言处理任务,同时联合中科院人工智能产学研创新联盟和长三角人工智能产业链联盟在业内提出了覆盖 7 大类 481 项任务的《通用人工智能评测体系》;6 月 9 日星火大模型升级到 V1.5 版,实现了开放式知识问答、多轮对话、逻辑和数学能力的提升;8 月 15 日星火大模型升级到 V2.0 版,对于代码和多模态能力进行了提升。

同时,讯飞和华为还联合重磅发布了国内首款支持大模型训练私有化的全国产化产品“星火一体机”,可支持企业快速实现讯飞星火大模型的私有化部署、场景赋能和专属大模型训练优化。

7. 腾讯混元

腾讯混元大模型是腾讯于 2023 年 9 月 7 日发布的千亿参数量语言大模型,具有多轮对话、内容创作、逻辑推理、知识增强能力,训练数据截止于 2023 年 7 月。

为了降低幻觉问题,混元大模型在预训练阶段,利用探真算法对目标函数进行了优化,使用强化学习等方法学会识别陷阱。混元大模型针对位置编码进行了优化,并结合指令跟随能力解决长难任务。此外,混元大模型还具备了问题分解和分布推理能力,从而解决逻辑推理问题。

8. 通义千问

通义千问由阿里巴巴基于“通义”大模型研发,于 2023 年 4 月正式发布。2023 年 8 月,阿里云开源了 70 亿参数通用模型和对话模型。它能够以自然语言方式响应人类的各种指令,拥有强大的能力,如回答问题、创作文字、编写代码、提供各类语言的翻译服务、文本润色、文本摘要以及角色扮演对话等。

借助于阿里云丰富的算力资源和平台服务,通义千问能够实现快速迭代和创新功能。此外,阿里巴巴完善的产品体系以及广泛的应用场景使得通义千问更具可落地性和市场可接受程度。

一. 典型开源大模型


1. LLaMA系列

LLaMA 系列模型是一组参数规模从 7B 到 65B 的基础语言模型,它们都是在数万亿个字符上训练的,展示了如何仅使用公开可用的数据集来训练最先进的模型,而不需要依赖专有或不可访问的数据集。

这些数据集包括 Common Crawl、Wikipedia、OpenWebText2、RealNews、Books 等。LLaMA 模型使用了大规模的数据过滤和清洗技术,以提高数据质量和多样性,减少噪声和偏见。

LLaMA 模型还使用了高效的数据并行和流水线并行技术,以加速模型的训练和扩展。特别地,LLaMA 13B 在 CommonsenseQA 等 9 个基准测试中超过了 GPT-3 (175B),而 LLaMA 65B 与最优秀的模型 Chinchilla-70B和PaLM-540B相媲美。LLaMA通过使用更少的字符来达到最佳性能,从而在各种推理预算下具有优势。

与 GPT 系列相同,LLaMA 模型也采用了 decoder-only 架构,但同时结合了一些前人工作的改进,例如:Pre-normalization,为了提高训练稳定性,LLaMA 对每个 Transformer子层的输入进行了 RMSNorm 归一化,这种归一化方法可以避免梯度爆炸和消失的问题,提高模型的收敛速度和性能;SwiGLU 激活函数,将 ReLU 非线性替换为 SwiGLU 激活函数,增加网络的表达能力和非线性,同时减少参数量和计算量;RoPE 位置编码,模型的输入不再使用位置编码,而是在网络的每一层添加了位置编码,RoPE 位置编码可以有效地捕捉输入序列中的相对位置信息,并且具有更好的泛化能力。这些改进使得 LLaMA 模型在自然语言理解、生成、对话等任务上都取得了较好的结果。

2. Falcon系列

Falcon系列模型是由位于阿布扎比的技术创新研究院(Technology Innovation Institute, TII) 创建的生成式语言大模型,其基于 Apache 2.0 许可发布。

Falcon 大模型家族目前主要包含三个基础模型: Falcon-7B,Falcon-40B,以及 Falcon-180B。三个模型都是在RefinedWe 数据集上训练的,该数据集经历了广泛的过滤和去重过程,以确保高质量的训练数据。同时,三个模型均可用于研究和商业用途。Falcon-7B 基于解码器模型架构,并在精心处理的 RefinedWeb 数据集上使用 1.5 万亿个字符预训练。

除此之外,使用多查询注意力机制增强推理时的可扩展性,并显著降低显存需求。Falcon-40B 拥有 400 亿参数,并在 1 万亿字符上进行了训练。在发布后的两个月里,其在Hugging Face 的开源语言大模型排行榜上排名第一。

该系列最新的Falcon 180B 具有 1800 亿参数的,在 3.5 万亿字符上进行预训练。该模型在推理、编码、熟练度和知识测试等各种任务中表现出色,在Hugging Face 的 开 源 语 言 大 模 型 排 行 榜 上 击 败 了 Meta 的LLaMA2-70B 等竞争对手。在闭源模型中,它的排名仅次于 OpenAI的 GPT 4,性能与谷歌的 PaLM 2 Large 相当,但只有其模型的一半参数量大小

3. Pythia系列

Pythia系列模型是由非营利性人工智能实验室 EleutherAI 开发的一系列生成式语言大模型。该系列有 16 个不同参数量的模型(70M-12B),均是以完全相同的顺序在现有的公开数据集(Pile)上训练的。

每个模型都提供了 154 个模型检查点的公开访问权限,并且提供下载和清洗重组数据的工具,以便进一步研究。EleutherAI 使用相同的架构训练了 2 套 Pythia 版本。每一套包含 8 个模型,涵盖 8种不同的模型尺寸。

一套是直接在 Pile 上训练的,另一套则在经过MinHashLSH 近重复处理后的 Pile 上进行训练,阈值设置为 0.87。经过去重处理后 Pile 大约包含 207B 个字符,而原始 Pile 包含 300B 个字符。

由于 Pythia 系列模型在相同架构基础上涵盖多个不同尺寸,Pythia 很适合被用来研究诸如性别偏见、记忆能力和少样本学习等属性如何收到精确训练数据处理和模型规模的影响。

目前,Pythia 系列的模型可以在开源模型网站 Hugging Face 上直接获取,也可以通过Github 的官方页面获取。

4. T5 系列

T5模型是由 Google Brain 团队在 2019 年提出的一种基于Transformer 结构的序列到序列(Seq2Seq)模型,其主要特点是将多种 NLP 任务(如翻译、摘要、问答等)转化为一个统一的框架下进行训练,使用文本到文本的统一模型范式,保证了模型的灵活性。

T5模型使用了混合精度训练和自适应优化器来加速训练过程,并且使用了数据过滤和动态批处理来提高数据效率。

T5 模型在多个 NLP 任务上都取得了较好的效果,证明了其优秀的泛化能力和迁移能力。

T5模型在预训练阶段使用了 C4 数据集,这是一个包含了超过 750GB 的英文网页文本数据的大规模语料库。T5 模型还探索了不同规模的模型架构和参数量,从小到大分别有 small、base、large、XL、XXL 和XXXL 六种规模。

其中,XXXL 规模的 T5 模型拥有 110 亿个参数,是发布时最大的基于 Transformer 的预训练语言模型之一。

5. BLOOM 系列

BigScience 在 2022 年提出了 BLOOM 系列模型。BLOOM 拥有 1760 亿参数量,是一种基于Transformer 解码器架构的语言大模型,并在 46 种自然语言和 13 种编程语言上进行预训练。

为了能够更好的提升 BLOOM 模型的多语能力,研究者采用了渐进的方式来选择语料库中包含的语言。此外,BLOOM 对原始的 Transformer 架构提出了许多的更改。相比于在嵌入层添加位置信息,BLOOM 采用了 ALiBi技术,基于 keys 和 queries 二者之间距离来计算注意力分数。

虽然ALiBi 技术拥有外推至更长的序列的能力,但其在原始序列上也能够带来更稳定的训练过程以及更好的下游表现,比可学习位置编码和旋转位置编码取得了更好的效果。BLOOM 在嵌入层之后后立即进行层归一化,显著的改善训练稳定性。

由于训练数据较为多样,与单语言分词器相比,BLOOM 最终确定的词表尺寸为 25 万个字符,以支持多种语言。BLOOMZ 与 BLOOM 拥有相同的模型架构与超参数,在包含 130 亿字符的文本上进行微调,通过独立的验证集来选择最优的模型。使用了包含 10-60 亿字符的文本进行微调之后,模型的性能趋于平稳。

此外,对于 13 亿参数量和 71 亿参数量的版本,研究者使用了 SGPT Bi-Encoder 方案进行对比微调。通过训练,可以得到拥有高质量文本嵌入的模型。近期的基准测试发现,这种模型也能够推广到其他的嵌入任务,例如 bitext 挖掘、重排或者特征抽取等任务。

6. GPT-Neo 系列

GPT-Neo 系列模型是由 EleutherAI 开发的预训练语言大模型。GPT-Neo 基于 OpenAI 的 GPT 系列语言模型的架构,但是采用了分散、社区驱动的方法进行训练。GPT-Neo 模型在发布之时,因其较大的参数规模和在各种自然语言处理任务中出色的表现而备受关注。

该模型的最大版本,GPT-Neo 2.7B,有 27 亿个参数。它是在多样化的互联网文本数据上进行训练的,包括书籍、文章和网页,并且已经被证明在广泛的自然语言处理任务上表现良好,如语言生成、摘要和问答。除此之外,其还包含 125M, 350M 和 1.3B 等不同参数规模。

GPT-Neo 项目的一个独特之处在于其强调开源开发和社区参与。EleutherAI 公开了该模型的训练权重,使其他研究人员和开发人员能够使用和构建该模型,并开发出许多相关的应用和 GPT-Neo 模型的扩展,包括对特定任务的微调和修改,以提高其在某些特定类型的数据上的效率或性能。

7. OPT 系列

OPT模型是由 Meta AI 发布的一款 decoder-only 模型,与GPT-3 相媲美。尽管 GPT-3 在零样本学习和少样本学习方面表现出优秀的能力,但其庞大的训练成本和权重未完全开源的问题,限制了研究社区的相关研究进展。

为了应对这些挑战,Meta AI 发布了 OPT 模型,其参数规模从 125M 到 175B 不等,并开源了相关的实验代码。此外,团队还公开了详细的训练日志,深入解释了他们的决策背后的原因和动机,为研究社区的使用和进一步研究提供了重要的参考资源。关于训练成本,OPT-175B 的性能相当,但训练代价仅为 GPT-3的七分之一。

在构建训练语料方面,OPT 使用了多个高质量语料库,包括 RoBERTa 的 BookCorpus 和 Stories,以及更新的 CCNews 版本,还有 Pile 的 CommonCrawl、DM Mathematics、Project Gutenberg、HackerNews、OpenSubtitles、OpenWebText2、USPTO 和 Wikipedia。所使用的这些语料库都经过了严格的收集和过滤,以确保数据的质量和可用性。

8. MPT 系列

MPT(MosaicML Pretrained Transformer)系列模型是由 MosaicML研发的开源可商用模型。 MPT-7B 在 2023 年 5 月发布,有MPT-7B-Instruct、MPT-7B-Chat 以及 MPT-7B-StoryWriter-65k+三个版本,其中 MPT-7B-StoryWriter-65k+支持 65K 长度的上下文输入。

2023年 6 月,MPT-30B 发布,拥有比 MPT-7B 更强大的性能,超过了原始的 GPT-3。跟 MPT-7B 一样,MPT-30B 也有两个经过微调的变体:MPT-30B-Instruct 和 MPT-30B-Chat,它们在单轮指令跟随和多轮对话方面表现出色。

MPT-30B 在训练时使用 8,000 字符长度的上下文窗口、通过 ALiBi支持更长上下文以及通过 FlashAttention 实现高效的推理和训练性能。得益于预训练数据混合比例的控制,MPT-30B系列还具有强大的编程能力。

9. ERNIE 系列

2019 年,百度将大规模知识与海量数据融合学习的方法,在超大规模模型中引入丰富语言知识与世界知识,突破多源异构数据难以统一表示与学习的瓶颈,显著提升了模型效果和学习效率,并在国内开源首个中文预训练大模型。

ERNIE自发布以来在语言理解、文本生成、跨模态语义理解等领域取得多项技术突破,在权威公开数据集上取得世界最好效果总计 90 余项,在国际权威语义评测 GLUE、SuperGlue 等评测上,取得世界冠军 20 余项。

系列模型在金融、通信、企业服务、互联网等行业取得广泛应用,极大促进该领域在国内的研究和产业发展。ERNIE 3.0 大模型最高参数量达到 1000 亿,首次在百亿级预训练模型中引入大规模知识图谱,提出了海量无监督文本与大规模知识图谱的平行预训练方法,促进了结构化知识和无结构文本之间的信息共享,大幅提升了模型对于知识的记忆和推理能力。

10. GLM 系列

GLM系列模型是清华大学和智谱 AI 等合作研发的开源语言大模型。GLM 采用了自回归填空作为预训练任务,并且使用多任务预训练的方式提升模型生成长文本的能力和序列到序列任务的能力。

为了能够更好地进行预训练,GLM 采用了二维位置编码,第一维表示当前位置的原文本中的位置信息,第二维表示对应的掩码的位置信息。此外,为了能够尽量推理和训练所占用的显存,GLM-130B 可以使用 INT4 进行量化并且不会明显影响模型效果。

通过优化,GLM-130B 可以在 4 张 RTX 3090 Ti(24G)显卡或 8 张 RTX 2080 Ti(11G)的显卡上进行推理。ChatGLM 是基于 GLM 结构开发的具有62 亿参数量的语言大模型,支持 2048 的上下文长度。其使用了包含1 万亿字符的中英文语料进行训练,能够支持中文和英文两种语言的任务。

通过监督微调、反馈自助、人类反馈强化学习等多种训练技术,ChatGLM 拥有强大的生成能力,能够生成更符合人类偏好的内容。与 GLM 相似,通过 INT4 量化和 P-Tuning v2[99]等高效微调的算法,ChatGLM 能够在 7G 显存的条件下进行微调。

在 ChatGLM 的基础上,ChatGLM 2 使用了包含 1.4 万亿字符的中英预料进行预训练,并使用人类偏好的数据对模型进行对齐训练,拥有比前一版本更加强大的能力,在多个任务上取得提升。

通过 FlashAttention 技术,ChatGLM 2能够处理更长的长下文,支持的长下文长度达到了 3.2 万字符。此外,通过 Multi-Query Attention 技术,ChatGLM 2 能够进一步地提升推理速度,减小对显卡的显存占用。

11. Baichuan 系列

Baichuan 是由百川智能开发的开源可商用的语言大模型,在权威的中文和英文 benchmark 上均取得同尺寸最好的效果,其基于Transformer 解码器架构。

Baichuan-7B 是在大约 1.2 万亿字符上训练的 70 亿参数模型,支持中英双语,最大 4096 的上下文窗口长度。Baichuan-13B 在 Baichuan-7B 的基础上进一步扩大参数量到 130 亿,并且在高质量的语料上训练了 1.4 万亿 字符,超过 LLaMA-13B 40%,是当前开源 13B 尺寸下训练数据量最多的模型。

其支持中英双语,使用 ALiBi 位置编码,最大 4096 的上下文窗口长度,使用rotary-embedding,是现阶段被大多数模型采用的位置编码方案,具有很好的外推性。百川同时开源了预训练和对齐模型,预训练模型是面向开发者的“基座”,而对齐模型则面向广大需要对话功能的普通用户。

除了原始权重,为实现更高效的推理,百川开源了 INT8 和 INT4 的量化版本,相对非量化版本在几乎没有效果损失的情况下大大降低了部署的机器资源需求。

Baichuan2-7B 和 Baichuan2-13B,均基于2.6 万亿高质量多语言数据进行训练,在保留了上一代开源模型良好的生成与创作能力,流畅的多轮对话能力以及部署门槛较低等众多特性的基础上,两个模型在数学、代码、安全、逻辑推理、语义理解等能力有显著提升。

12. CPM 系列

CPM 系列模型由北京智源人工智能研究院和清华大学的合作研发,目前包括了 CPM-1、CPM-2,CPM-3 和 CPM-Bee 典型模型。CPM-1,作为首款中文大规模预训练语言模型,拥有 26 亿参数。

其预训练任务采用了经典的自回归语言模型,以 100GB 数据为基础,包括大量丰富多样的中文语料,包括百科、小说、对话、问答、新闻等类型。在多个公开的中文数据集上的实验表明,CPM-1 在对话、文本生成等各类下游任务中,无论是少样本学习还是零样本学习,都表现出卓越的性能。

CPM-2模型采用“编码器-解码器”框架,通过词表优化、知识继承、混合专家化等技术,显著缓解了大规模预训练模型训练的计算开销对应用的使用限制。CPM-3 是基于 BMTrain高效训练框架实现,在预训练阶段采用多样化的任务设计和提示模板预训练技术,在零样本和少样本场景中表现出色。

CPM-Bee 的是一个完全开源、允许商用的百亿参数中英文基座模型。它采用Transformer 自回归架构,通过对预训练预料进行严格后处理提升数据质量,最终在万亿级高质量数据上完成预训练,进一步强化了模型的基础能力。

13. 盘古系列

鹏程·盘古α 由以鹏城实验室为首的技术团队联合协作开发的,他们首次利用“鹏城云脑Ⅱ”和国产 MindSpore 框架,采用自动混合并行模式,在 2048 卡算力集群上进行大规模分布式训练,训练出业界首个以中文为核心 2000 亿参数的预训练生成语言模型。

鹏程.盘古α具备丰富的应用场景,如知识问答、知识检索、知识推理、阅读理解等,并且拥有很强的小样本学习能力。鹏程.盘古α收集了近 80TB 的原始数据,包括开源数据集、common crawl 网页数据、电子书等,搭建了面向大型语料库预处理的分布式集群,通过数据清洗过滤、去重、质量评估等处理流程,构建了一个约 1.1TB 的高质量中文语料数据集。

研究对比了智源研究院发布的首个 26 亿参数的中文预训练语言模型「悟道·文源」CPM,通过在 1.1TB 数据中策略抽样了 100GB 等量数据集训练了 2.6B 参数规模的「鹏程.盘古α」模型,并在已收集的 16 个下游任务上进行了对比。

实验结果表明,鹏程.盘古α-2.6B 比 CPM-2.6B 模型具有更强的语言学习能力,特别是在生成任务和小样本学习方面。

实验还对比了鹏程.盘古α-13B 和鹏程.盘古α-2.6B 模型的性能。在所有的生成任务和大部分的 PPL 任务上,13B 的模型性能优于 2.6B,说明鹏程.盘古α-13B 模型具有较强的小样本学习能力。

本文标签: 模型典型平台