admin管理员组

文章数量:1530967

2024年6月27日发(作者:)

证券研究报告|2023年05月31日

电子AI+系列专题报告

边缘AI:大语言模型的终端部署,推动新一轮终端需求

核心观点

大模型参数量级飞涨,相应训练集需同比提升。李开复定义AI2.0时代的

特征是通过海量数据,无需标注自监督学习,训练一个基础大模型,并在各

领域将其专业化。据相关论文,当模型的参数量大于某阈值,会展现出类似

推理、无监督学习等未曾出现的能力,这种现象被称为“涌现”,因此目前

大语言模型参数均在十亿量级以上。同时,Deepmind研究表明,模型参数的

上涨需要配合等比例上升的优质数据集来达到最佳训练效果。因此,大模型

参数在十亿级以上发展并受限于优质数据集的增速是AI发展的必然趋势。

大模型增长挑战芯片算力和内存,无法实现完整端侧部署。大模型训练和推

理的三大瓶颈是算力、显存和通信,根据我们的测算,算力方面GPT-3训练

所需算力为121528TFLOPS,若30天内完成,需要1558颗A100。内存角度,

GPT-3训练至少需要3.2T内存,至少44张A100,推理任务则主要受显存限

制,需要4至8张A100,因此完整的模型无法在终端上离线运行。

优化后大模型可在旗舰机型芯片上运行,AI落地有望推动新一轮换机潮。

AI部署本地化具有必要性,优势包括更低的延迟、更小的带宽、提高数据安

全、保护数据隐私、高可靠性等。完整的大模型仅参数权重就占满一张80G

的GPU,但是通过量化、知识蒸馏、剪枝等优化,大模型可以在手机本地实

现推理。高通团队使用骁龙8Gen2部署StableDiffusion,实现本地运营

15秒出图,证明了大模型本地化运行的可能,也体现出目前手机芯片的局限

性。根据IDC数据,1Q23全球手机销量中主处理器频率超过2.8GHz的占比

36%,价格在1000美金以上的占比13%,即旗舰机型占比较低,随着AI大模

型在边缘端落地,有望推动新一轮换机潮。

以大语言模型为核心,以语言为接口,控制多AI模型系统,构建“贾维斯”

式智能管家。我们认为大语言模型不仅可以实现对话、创意,未来也有望作

为众多复杂AI模型的控制中心,同时也是接受用户指令的交互窗口,实现

《钢铁侠》电影中“贾维斯”式综合智能管家。23年5月,Google推出PaLM

2轻量版Gecko,其可在最新的旗舰机型上离线运行。同月,OpenAI首次推

出ChatGPT移动端应用,各家大厂正式进入AI模型移动端创新、竞争时期。

智能音箱、全屋智能中控屏、手机、MR等均有望成为这一时代的交互入口。

产业链相关公司:半导体:晶晨股份、瑞芯微、全志科技、北京君正、兆易

创新;消费电子:传音控股、歌尔股份、福立旺、闻泰科技、创维数字。

风险提示:AI技术发展不及预期;边缘端芯片发展不及预期。

重点公司盈利预测及投资评级

公司

代码

公司

名称

投资

评级

买入

买入

买入

买入

买入

买入

买入

昨收盘

(元)

86.36

93.77

127.95

18.29

18.70

50.08

15.74

总市值

(亿元)

358.62

451.57

1,028.65

625.59

32.42

622.40

181.04

EPS

2023E

1.77

1.64

3.09

0.52

0.94

0.94

0.94

2024E

PE

2023E

48.79

57.22

41.41

35.17

19.89

53.28

16.74

2024E

超配

行业研究·行业专题

电子

超配·维持评级

证券分析师:胡剑

************

******************.cn

S1

证券分析师:周靖翔

************

证券分析师:胡慧

************

*****************.cn

S2

证券分析师:李梓澎

*************

************************.cn

*******************.cn

S1S1

证券分析师:叶子

*************

****************.cn

S3

联系人:李书颖

*************

********************.cn

联系人:詹浏洋

************

**********************.cn

市场走势

资料来源:Wind、国信证券经济研究所整理

相关研究报告

《电子行业周报-AI+开启半导体新周期》——2023-05-29

《复盘英伟达的AI发展之路》——2023-05-29

《电子行业周报-半导体周期拐点临近,国产化进程提速》——

2023-05-24

《电子行业周报-景气拐点将至,以时间换空间》——

2023-05-15

《电子行业周报-在行业周期筑底阶段无需过度悲观》——

2023-05-08

晶晨股份

北京君正

传音控股

歌尔股份

福立旺

闻泰科技

创维数字

2.23

1.87

4.61

0.76

1.35

1.35

1.35

38.66

50.23

27.73

24.22

13.89

37.20

11.69

资料来源:Wind、国信证券经济研究所预测

请务必阅读正文之后的免责声明及其项下所有内容

证券研究报告

内容目录

百亿参数大模型具备涌现能力,训练数据需等比例提升..............................5

大模型的参数下限:AI2.0时代,基础大模型参数指数级增长................................5

大模型的参数上限:参数的增加需要同等量级的训练集增加..................................6

大模型训练对硬件的挑战:算力、内存和通信..............................................8

终端部署具有必要性,轻量化技术优化模型.......................................11

超低时延的智慧场景,终端部署具有必要性...............................................11

缩减优化模型,部署终端设备...........................................................12

“贾维斯”式智能管家,引领全新换机需求.......................................16

大语言模型有望成为复杂AI系统的控制中心和交互入口....................................16

当前旗舰机款手机芯片仅可运行优化版十亿参数级大模型...................................19

风险提示.....................................................................23

请务必阅读正文之后的免责声明及其项下所有内容

2

证券研究报告

图表目录

图1:AI2.0时代的特征是通过超级海量数据无需标注训练一个大模型.............................5

图2:过去五年LLM模型参数快速增长........................................................6

图3:参数量的指数提升线性提高模型性能....................................................6

图4:当模型的参数量大于一定程度时模型效果会突然提升......................................6

图5:小模型的性能也随着规模扩大而逐步提高................................................6

图6:2022年最大的五个transfomer模型条件.................................................7

图7:各模型位于LM损失等高线图上的位置...................................................7

图8:LaMDA模型训练数据来源...............................................................7

图9:静态内存............................................................................8

图10:动态内存...........................................................................8

图11:模型大小与设备内存的增长示意图.....................................................9

图12:算力计算公式......................................................................10

图13:近年推出的大预言模型有效算力比率..................................................10

图14:边缘计算的应用场景................................................................11

图15:云计算与边缘计算的区别............................................................11

图16:云计算与边缘计算..................................................................11

图17:边缘AI的数据传输.................................................................12

图18:量化可以降低功耗和占用面积........................................................13

图19:NVIDIATuringGPU体系结构中各种数据类型相对的张量运算吞吐量和带宽减少倍数........13

图20:优化AI完全在终端侧高效运行13

图21:骁龙8Gen2旗舰芯片组15秒出图....................................................13

图22:知识蒸馏基本框架..................................................................14

图23:单独训练子模型反哺主模型..........................................................14

图24:联邦学习的升级版14

图25:两种经典剪枝方法..................................................................15

图26:剪枝算法流程......................................................................15

图27:钢铁侠和16

图28:微软亚洲研究院的Jarvis项目.......................................................16

图29:HuggingFaceAI模型写作系统四个步骤...............................................17

图30:Plugin插件界面....................................................................17

图31:PaLM2的从小到大的四种版本.........................................................18

图32:PaLM2在部分测试中体现出了优异性...................................................18

图33:ChatGPTApp欢迎界面...............................................................18

图34:微软bingchat应用................................................................18

图35:2019年美国语音助理市场份额........................................................19

图36:全球智能音箱市场下滑..............................................................19

图37:语音交互过程示意图................................................................19

请务必阅读正文之后的免责声明及其项下所有内容

3

证券研究报告

图38:Siri信号流示意图..................................................................20

图39:双通检测(AOP唤醒主CPU).........................................................20

图40:苹果A11芯片开始搭载20

图41:全球手机分处理器频率销量占比......................................................21

图42:全球手机分价格段销量占比..........................................................21

图43:AIGC支撑AI多模交互...............................................................21

图44:鸟鸟和类ChatGPT模型分身对话......................................................21

图45:全球AR/VR出货量预测..............................................................22

图46:全球智能家居啊出货量预测..........................................................22

表1:GPT参数和训练集规模快速增长.........................................................8

表2:大语言模型的计算....................................................................9

表3:大预言模型算力测算.................................................................10

请务必阅读正文之后的免责声明及其项下所有内容

4

证券研究报告

百亿参数大模型具备涌现能力,训练数据需等

比例提升

大模型的参数下限:AI2.0时代,基础大模型参数指数级增长

李开复提出本次由GPT-4、ChatGPT引发的AI新机遇与之前有所不同,属于AI2.0

时代。AI1.0时代具体指的是以CNN(卷积神经网络)为核心,机器视觉和自然

语言处理快速发展的时期,暴涨的数据量伴随搜集、清洗、标注整个过程的成本

增加,且单一领域的数据集和模型形成孤岛,每个领域和应用的优化都是割裂的,

难以形成“通用”。

AI2.0时代的特征是通过海量数据,无需标注自监督学习,训练一个基础大模型,

并在各个应用领域将其专业化。具体来说有三个特点:1)对于拥有的超级海量的

数据,无需进行人工标注,即进行自监督学习;2)基础模型规模非常大,参数规

模从十亿到千亿级别;3)训练出的基础模型具有跨领域知识,而后通过微调用降

低成本的方法来训练,以适应不同领域的任务。AI2.0的巨大跃迁之处在于,它

克服了前者单领域、多模型的限制。

图1:

AI2.0时代的特征是通过超级海量数据无需标注训练一个大模型

资料来源:创新工场,国信证券经济研究所整理

以大语言模型(LargeLanguageModel,LLM)为例,语言模型已经存在了几十年,

从最基本的N-gram模型(语言由简单的向量表示),到更复杂的RNN模型、LSTM

神经网络,再到2017年GoogleBrain提出Transformer。Transformer不再基

于对每个单词的单独理解进行处理,而是将句子和段落作为一个整体进行处理,

使LLM能够从自然语言中深入理解人类的意图,并让一系列应用成为可能:从描

述中生成艺术创作、将大量非结构化数据提炼成简洁的摘要、更准确的翻译、回

答复杂的查询等。

以模型中的参数数量衡量,大型语言模型的参数在过去五年中以指数级增长。模

型的性能非常依赖于模型的规模,具体包括:参数数量、数据集大小和计算量,

模型的效果会随着三者的指数增加而线性提高,这种现象被称为ScalingLaw(缩

放能力)。

请务必阅读正文之后的免责声明及其项下所有内容

5

证券研究报告

图2:

过去五年LLM模型参数快速增长

图3:

参数量的指数提升线性提高模型性能

资料来源:Sunyan’sSubstack,国信证券经济研究所整理资料来源:《Scalinglawsforneurallanguagemodels》,国信证

券经济研究所整理

当模型的参数量大于一定程度的时候,模型能力会突然提升,并拥有一些未曾出

现的能力,如推理能力、无标注学习能力等,这种现象被称为涌现能力。在Jason

Wei的论文中,具体定义为“在小模型中没有表现出来,但是在大模型中变现出

来的能力”。“涌现能力”只是对一种现象的描述,而并非模型的某种真正的性

质,出现涌现能力的原因也尚待探索。

其中一种观点认为,大模型的涌现能力来自于其不连续的评价指标。如果换成更

为平滑的指标,相对较小的模型的效果也并非停滞不前,规模在阈值以下的模型,

随着规模的提高,生成的内容也在逐渐靠近正确答案。斯坦福的研究人员将NLP

中不连续的非线性评价指标转为连续的线性评价指标,结果模型的性能变得更加

99

平滑、可预测。具体来看,10以上模型能力提升加速,因此目前来看10几乎是

大语言模型参数量的下限。

图4:

当模型的参数量大于一定程度时模型效果会突然提升

图5:

小模型的性能也随着规模扩大而逐步提高

资料来源:《Languagemodelsarefew-shotlearners》,国信证

券经济研究所整理

资料来源:《AreEmergentAbilitiesofLargeLanguageModels

aMirage?》,国信证券经济研究所整理

大模型的参数上限:参数的增加需要同等量级的训练集增加

参数数量的增速应与训练token数量的增长速度大致相同,从而让模型损失(L)

实现最小化,性能最大化。Deepmind在《TraningCompute-OptimalLargeLanguage

Models》中,通过在5到5000亿个token上训练400多个语言模型,参数个数范

请务必阅读正文之后的免责声明及其项下所有内容

6

证券研究报告

围从7000万到160亿,发现模型大小和训练集数量应该相等地缩放,从而达到最

佳效果。目前看来,单一语言模态的大模型,100B量级的参数足以满足大多数知

识检索和浅层推理的需求,但充分释放这些参数的全部潜力需要1000B量级的训

练token。

作为验证,通过训练一个预测的计算最优模型Chinchilla来检验这个假设,该模

型使用与Gopher使用相同的FLOTs,但具有70B个参数和4倍多的数据,最终在

大量下游评估任务中,Chinchilla表现显着优于Gopher,且其缩小的模型尺寸大

大降低了推理成本,并极大地促进了下游在较小硬件上的使用。

图6:

2022年最大的五个transfomer模型条件

图7:

各模型位于LM损失等高线图上的位置

资料来源:DeepMind,国信证券经济研究所整理资料来源:Sunyan’sSubstack,国信证券经济研究所整理

因此,优质大模型的训练,高质量的大数据集是必要条件。目前主要的数据获取

渠道是公开的论坛,例如谷歌的LaMDA模型,在论文中表示其预训练数据50%对

话数据来自公共论坛;12.5%C4数据;12.5%的代码文档来自与编程相关的网站;

12.5%维基百科;6.25%英文网页文档;6.25%的非英语网络文档,数据集中的单词

总数为1.56T,而OpenAI使用了45T数据。未来如何获得高质量的训练集始终是

各家大厂的首要竞争领域。

图8:

LaMDA模型训练数据来源

资料来源:谷歌,国信证券经济研究所整理

请务必阅读正文之后的免责声明及其项下所有内容

7

证券研究报告

表1:

GPT参数和训练集规模快速增长

模型

GPT

GPT2

发布时间

2017.6

2019.2

参数量

1.17亿

小:1.24亿

中:3.55亿

大:7.74亿

超大:15亿

小:0.6亿

基础:2.2亿

大:7.7亿

TB-3B:30亿

T5-11B:110亿

1750亿

1750亿

数据规模

5GB

40GB

Tokens

1.17亿

15亿

T5

201950G340亿

GPT3

ChatGPT

2020.6

2020.6

45TB

>45TB

1750亿

7740亿

资料来源:ChatGPT,Google,国信证券经济研究所整理

大模型训练对硬件的挑战:算力、内存和通信

内存方面,大模型训练的内存可以大致理解为参数、优化器状态、激活、梯度四

部分的和。它们大致分为两类:静态内存和动态内存。参数、优化器状态较为固

定,属于静态内存,激活和梯度等中间变量属于动态内存,是最主要的内存占用

原因,动态内存通常是静态内存的数倍。

图9:

静态内存

图10:

动态内存

资料来源:知乎,国信证券经济研究所整理资料来源:知乎,国信证券经济研究所整理

我们可以粗略的计算训练1750亿参数的GPT3所需内存,大约需要3.2TB以上。

静态内存方面,大多数Transformer都是以混合精度训练的,如FP16+FP32,以

减少训练模型内存,则一个参数占2个字节,参数和优化器状态合计占用内存

1635G。而动态内存,根据不同的批量大小、并行技术等结果相差较大,通常是静

态内存的数倍。更简洁的估算方法,可以假设典型的LLM训练中,优化器状态、

梯度和参数所需的内存为20N字节,其中N是模型参数数量,则1750亿参数的

GPT3大概需要3.2TB内存。

推理所需内存则较小,假设以FP16存储,175B参数的GPT3推理大约需要内存

327G,则对应4张80GA100,如果以FP32运算,则需要10张。

请务必阅读正文之后的免责声明及其项下所有内容

8

证券研究报告

表2:

大语言模型的计算

公式

模型参数

注释

优化器内存

梯度内存

激活重计算

模型训练内存

需求

模型推理内存

需求

资料来源:Eleutherai,国信证券经济研究所整理

图11:

模型大小与设备内存的增长示意图

资料来源:NVIDIA,国信证券经济研究所整理

算力方面,根据OpenAI在2020年发表的论文,训练阶段算力需求是模型参数数量与

训练数据集规模乘积的6倍:训练阶段算力需求=6×模型参数数量×训练集规模;推

理阶段算力需求是模型参数数量与训练数据集规模乘积的2倍:推理阶段算力需求=2

×模型参数数量×训练及规模。

训练阶段:考虑采用精度为32位的单精度浮点数数据进行训练和推理。以A100PCle

芯片为例(H100PCle芯片同理),根据前述公式,GPT-3训练所需运算次数为:样本

请务必阅读正文之后的免责声明及其项下所有内容

9

证券研究报告

token数3000亿个*6*参数量1750亿个=315*10^21FLOPs;考虑训练时间要求在30天

完成(训练时间为2592000秒),则对应GPT-3训练所需算力为121528TFLOPS;结合

A100有效算力78TFLOPS,得到所需GPU数量为1558个,对应AI服务器为195台。

推理阶段:按谷歌每日搜索量35亿次进行估计,假设每次访问提问4次,每次提问+

回答需处理字数425字,平均每个字转换为token比例为4/3,则每日GPT-3需推理

token数为79330亿个,则推理所需运算次数为4760*10^21FLOPs;考虑推理时间以每

日为单位(推理时间为86400秒),则对应GPT-3推理所需算力为55*10^6TFLOPS;

结合A100有效算力78TFLOPS,得到所需GPU数量为706315个,对应AI服务器为8.8

万台。

图12:

算力计算公式

图13:

近年推出的大预言模型有效算力比率

资料来源:NVIDIA,国信证券经济研究所整理资料来源:NVIDIA,国信证券经济研究所整理

表3:

大预言模型算力测算

A100PCle

TensorFloat32(TF32)

有效算力

GPT-3训练所需运算次数

训练阶段算力需求测算GPT-3训练所需算力

所需GPU数量

GPU单价

对应GPU价值

TensorFloat32(TF32)

有效算力

GPT-3推理所需运算次数

推理阶段算力需求测算GPT-3推理所需算力

所需GPU数量

GPU单价

对应GPU价值

156TFLOPS

78TFLOPS

315*10^21FLOPs

121528TFLOPS

1558

1.5万美元

2337万美元

156TFLOPS

78TFLOPS

4760*10^21FLOPs

55*10^6TFLOPS

706315

1.5万美元

105.95亿美元

H100PCle

756TFLOPS

378TFLOPS

315*10^21FLOPs

121528TFLOPS

322

3.65万美元

1175.3万美元

756TFLOPS

378TFLOPS

4760*10^21FLOPs

55*10^6TFLOPS

145748

3.65万美元

53.2亿美元

资料来源:NVIDIA,国信证券经济研究所整理

因此,训练大模型必然需要采用分布式方案。不仅要满足算力的需求,还要解决上千

块GPU的分布式训练问题,需要考虑到上百台服务器之间的通信、拓扑、模型并行、

流水并行等,这也是复现GPT-3的核心难点,模型发布后一年也只有NVIDIA、微软等

大厂成功复现,目前开源的GPT模型库就主要是NVIDIA的Megatron-LM和微软的

DeepSpeed。

请务必阅读正文之后的免责声明及其项下所有内容

10

证券研究报告

终端部署具有必要性,轻量化技术优化模型

超低时延的智慧场景,终端部署具有必要性

云计算和边缘计算的主要区别在于处理所在的位置。边缘计算,处理发生在网络

边缘,更靠近数据源,而云计算,处理发生在数据中心。边缘计算是指在尽可能

靠近数据源或终端的地方捕获和处理数据。通过在数据源的物理位置附近放置服

务器或其他硬件来处理数据,在本地完成处理而不是在云端或集中式数据中心,

它能最大限度地减少延迟和数据传输成本,允许实时反馈和决策。

图14:

边缘计算的应用场景

图15:

云计算与边缘计算的区别

资料来源:NVIDIA,国信证券经济研究所整理资料来源:NVIDIA,国信证券经济研究所整理

边缘计算的历史可以追溯到上世纪90年代,当时内容分发网络(CDN)充当分布

式数据中心。但CDN仅限于缓存图像和视频,而不是海量数据工作负载;2000年

左右,智能设备的爆炸式增长给现有IT基础设施带来了压力,诸如点对点(P2P)

网络的发明减轻了这种压力,在这种网络中,计算机无需通过单独的集中式服务

器计算机即可连接并共享资源;10年代,大公司开始通过公共云向终端用户出租

计算和数据存储资源;2020年后,边缘计算融合了CDN的低延迟能力、P2P网络

去中心化平台以及云的可扩展性和弹性,共同构建了一个更高效、更有弹性和更

可靠的计算框架。

图16:

云计算与边缘计算

资料来源:NVIDIA,国信证券经济研究所整理

目前,越来越多的场景将计算基础设施更靠近传入数据源,让AI模型在云端训练,

并部署在终端设备上。例如计算机视觉等高度数据密集型、低时延要求类的任务,

将AI模型部署在终端的优势包括:

1)更低的延迟:因为传感器和物联网设备产生的数据不再需要发送到集中式云进

请务必阅读正文之后的免责声明及其项下所有内容

11

证券研究报告

行处理,可以实现更快的响应,获得结果的时间可能从几秒减少到几分之一秒。

2)减少带宽:当数据发送到云端时,它通过广域网传输,需要满足全球覆盖和高

带宽,成本较高。而边缘计算可以利用局域网处理数据,从而以更低的成本获得

更高的带宽。

3)数据安全:边缘计算允许组织将所有数据和计算保存在合适的位置,关键数据

不需要跨系统传输,减少遭受网络安全攻击的风险。

4)保护用户隐私:人工智能可以分析现实世界的信息,而无需将其暴露给人类,

大大增加了任何需要分析外貌、声音、医学图像或任何其他个人信息的隐私安全。

即使部分数据是出于培训目的而上传,也可以将其匿名化以保护用户身份。

5)高可靠性:去中心化和离线功能使边缘AI更加稳定,不受网络访问限制,这

是关键任务系统稳定运行的必要条件。

当边缘AI应用程序遇到它无法准确处理的数据时,它通常会将其上传到云端,以

便AI算法可以重新训练并从中学习。因此,模型在边缘运行的时间越长,模型就

会变得越准确,由于可以获得如此多的价值,企业正在迅速采用边缘计算。

Gartner预测,到2023年底,50%的大型企业将拥有记录在案的边缘计算战略,

而2021年这一比例还不到5%。

图17:

边缘AI的数据传输

资料来源:NVIDIA,国信证券经济研究所整理

缩减优化模型,部署终端设备

通过优化,预估模型算力成本大约会降至原来的1/4,为模型的边缘部署提供技术基

础,目前常见的优化方法有三类:

1)量化:量化是模型压缩的一种常用手段,核心思想是将模型参数从高精度转换

为低精度,将多bit高精度的数(FP32、FP16等)量化为较少bit低精度的数值

(INT8、INT4等),即从浮点到定点数的转换。量化方法可分为训练时量化(PTQ,

post-trainingquantization),这种量化方式需要重新训练来缓解量化带来的精

度损失;训练后量化(QAT,quantization-awaretraining),在大模型场景上,

更青睐于QAT,因为能够更好的保证性能。量化的优势包括减少内存占用,节省

存储空间,降低功耗和占用面积,提升计算速度。

请务必阅读正文之后的免责声明及其项下所有内容

12

证券研究报告

图18:

量化可以降低功耗和占用面积

图19:

NVIDIATuringGPU体系结构中各种数据类型相对的张

量运算吞吐量和带宽减少倍数

资料来源:NVIDIA,国信证券经济研究所整理资料来源:NVIDIA,国信证券经济研究所整理

高通团队采用量化技术等,首次在安卓手机上部署StableDiffusion,实现本地

运营15秒出图,证明了百亿参数级大模型优化后可在终端本地运行的可能。

StableDiffusion是一个从文本到图像的生成式AI模型,参数达到11亿,计算

量是智能手机上运行的典型工作负载大小的10倍以上,主要限于在云端运行。高

通技术团队使用高通AI软件栈(QualcommAIStack)执行全栈AI优化,使用高

通AI模型增效工具包(AIMET)对模型进行量化,HuggingFace的FP32version1-5

开源模型开始,通过量化、编译和硬件加速进行优化,在搭载Snapdragon8Gen2

移动平台的手机上运行,15秒内完成了推理,生成一张512x512像素的图像。

推理部分是在Hexagon处理器上完成的,通过让模型在专用AI硬件上高效运行,

可消耗更少的内存带宽来节省电量。相比之下,在高通发布Demo视频之前,已经

有开发者展示了在搭载高通骁龙865的8GRAM索尼Xperia5II上运行Stable

Diffusion,生成一张分辨率512x512的图像需要1个小时。

图20:

优化AI完全在终端侧高效运行StableDiffusion

图21:

骁龙8Gen2旗舰芯片组15秒出图

资料来源:

Apple

,国信证券经济研究所整理

资料来源:Apple,国信证券经济研究所整理

2)知识蒸馏(knowledgedistillation):是模型压缩的一种常用的方法,不同

于剪枝和量化,知识蒸馏是通过构建一个轻量化的小模型,利用性能更好的大模

型的监督信息,来训练这个小模型,以期达到更好的性能和精度。最早是由Hinton

在2015年首次提出并应用在分类任务上面,这个大模型被称之为教师模型,小模

型称之为学生模型。来自教师模型输出的监督信息称之为知识,而学生模型学习

迁移来自教师模型的监督信息的过程称之为蒸馏。

在子模型场景当中,子模型是完整模型的子集,每个子模型能够独立的训练,学

请务必阅读正文之后的免责声明及其项下所有内容

13

证券研究报告

习到某个特定的特征空间的知识。某个设备的数据仅仅占了完整数据集的一部分;

映射到特征空间也仅仅是一个区域;使用这个设备的数据集进行训练仅仅更新了

完整模型的一部分。因此可以将模型的子集提取出来单独训练,最后整合实现高

效的模型更新。

图22:

知识蒸馏基本框架

图23:

单独训练子模型反哺主模型

资料来源:NVIDIA,国信证券经济研究所整理资料来源:NVIDIA,国信证券经济研究所整理

基于知识蒸馏技术,边缘设备除了简单的请求,也可以实现模型更新,反哺集中

式数据中心的大模型。联邦学习最早是谷歌在2017年4月提出的,可以让数据不

离开设备的前提下进行机器学习,且适应性强,保护数据隐私,安全系数高。机

器学习模型在现实中的性能表现取决于用来训练它的数据具有多高的相关度,最

好的数据就是每天使用的设备。联邦学习会通过服务器发送一部分模型到终端手

机,通过几分钟就可以完成训练,然后把训练成果传回服务器。

图24:

联邦学习的升级版FedCG

资料来源:量子位,国信证券经济研究所整理

3)剪枝算法:过参数化主要是指在训练阶段,在数学上需要进行大量的微分求解,

去获取数据中的微小变化,一旦完成迭代式的训练之后,网络模型推理的时候就

不需要这么多参数。而剪枝算法正是基于过参数化理论提出的,核心思想是减少

网络模型中参数量和计算量,同时尽量保证模型的性能不受影响。主要是分为

DropOut和DropConnect两种经典的剪枝算法:DropOut:随机的将一些神经

元的输出置零,称之为神经元剪枝;DropConnect:随机将部分神经元间的连接

Connect置零,使得权重连接矩阵变得稀疏。

请务必阅读正文之后的免责声明及其项下所有内容

14

证券研究报告

图25:

两种经典剪枝方法

图26:

剪枝算法流程

资料来源:CV技术指南,国信证券经济研究所整理资料来源:CV技术指南,国信证券经济研究所整理

请务必阅读正文之后的免责声明及其项下所有内容

15

证券研究报告

“贾维斯”式智能管家,引领全新换机需求

大语言模型有望成为复杂AI系统的控制中心和交互入口

大模型协作让“贾维斯”式智能管家更进一步。Jarvis全称JustARatherVery

IntelligentSystem,是漫威宇宙中钢铁侠的AI助手,不仅能完成智能家居管理,

还能实时监控周围环境、与用户实时沟通、为用户计算最优策略等,这些强大的

功能显然这不是一个单独的AI模型可以解决的。微软亚洲研究院曾在Github上

开源过一个叫做Jarvis的项目,该系统由LLM作为控制器和许多来自

HuggingFaceHub的AI模型作为协作执行者组成,该系统让LLM充当控制器来管

理现有的AI模型,使用语言作为通用接口来调用外部模型,解决实际任务。

图27:

钢铁侠和Jarvis

图28:

微软亚洲研究院的Jarvis项目

资料来源:漫威,国信证券经济研究所整理资料来源:《HuggingGPT:SolvingAITaskswithChatGPTandits

FriendsinHuggingFace》,国信证券经济研究所整理

该系统的具体工作流程包括四个步骤:1)任务规划,使用ChatGPT等大语言模型

分析用户请求,了解用户意图,并将其拆解成可解决的任务;2)模型选择,为了

解决计划的任务,ChatGPT根据描述选择托管在HuggingFace上的AI模型;3)

任务执行,调用并执行每个选定的模型,并将结果返回给ChatGPT。4)生成响应,

最后使用ChatGPT整合所有模型的预测,生成Response。未来,智能音箱、家用

中控屏、甚至于手机、MR都有可能成为“贾维斯”式管家的交互入口,及时性、

可靠性、隐私性或是算力角度,将作为模型协作控制中心的大语言模型部署到边

缘设备上必要性越来越强。

请务必阅读正文之后的免责声明及其项下所有内容

16

证券研究报告

图29:

HuggingFaceAI模型写作系统四个步骤

资料来源:《HuggingGPT:SolvingAITaskswithChatGPTanditsFriendsinHuggingFace》,国信

证券经济研究所整理

2023年5月第三周,OpenAI向所有ChatGPTPlus用户推出Beta版本,有望成

为“贾维斯”核心控制中心,打造全新的流量入口和应用生态。Beta版本ChatGPT

支持联网和70多种第三方插件,覆盖购物、餐饮、旅行、天气、运算、翻译、分

析数据等多种功能。ChatGPTPlugin的发布为智能助理的出现提供了条件,让语

言成为各大模型交互的通用接口。尽管目前尚处于初期,效果不尽如人意,但通

过人类语言指挥ChatGPT帮自己与各种应用交互仍是令人兴奋的尝试。

随之而出现的,则是用户和App提供方的担忧。App公司普遍担忧GPT4太过聪明,

接入的App不仅害怕数据失去独占优势,还担心GPT4通过推理洞悉尚未发现的业

务。我们认为,出于数据资源所有权分配以及数据安全的担心将推动终端部署大

模型的需求。

图30:

Plugin插件界面

资料来源:36氪,国信证券经济研究所整理

请务必阅读正文之后的免责声明及其项下所有内容

17

证券研究报告

各家大厂对终端运行大模型的尝试频频,2023年5月11日,Google在其第15

届I/O开发者大会上发布了PaLM2,相比PaLM5400亿参数,它的算法经过优化,

使得体积更小,但整体性能更好,计算效率更高,支持100多种语言和20多种编

程语言,支持多模态的PaLM2还能看懂和生成音视频内容。与ChatGPT相比,PaLM2

优势在于响应速度更快。谷歌表示,名为Gemini的下一代模型将是多模式的,具

有突破性的功能,但它仍在接受培训,距离发布还有几个月的时间。

另外,PaLM2模型从小到大有4种版本:“壁虎”(Gecko)、“水獭”(Otter)、

“野牛”(Bison)、“独角兽”(Unicorn),实现在不同等级的设备上部署。

例如在智能手机上就可以运行规模比较小的Gecko模型,让移动端也能拥有大语

言模型。Gecko模型可以在完全离线的情况下在智能手机上运行,它可以在旗舰

手机上每秒处理20个token,大约是每秒16个单词。谷歌没有明确说明使用了

什么硬件来测试,但提到是在“最新的手机上”运行,这证明了与大模型具备类

似能力的轻量化版本可以实现本地化部署。

图31:

PaLM2的从小到大的四种版本

图32:

PaLM2在部分测试中体现出了优异性

资料来源:Google,国信证券经济研究所整理资料来源:Google,国信证券经济研究所整理

2023年5月19日,OpenAI在美国区iOS商城发布ChatGPTApp,这是用户首次

可以在搜索引擎或浏览器之外的移动设备上访问ChatGPT。目前App可以免费使

用,并可同步网页端历史信息。在其欢迎界面上,App提醒用户ChatGPT是有可

能提供不准确的信息,并且建议用户不要提供敏感信息,因为匿名信息也可能会

被OpenAI的训练员用来改善系统。目前ChatGPTApp仅支持iPhone8及更新的机

型,支持iOS16.1及更新的系统,切仅支持文字交互模式,不支持多模态的图片

或视频输出,也不能调用摄像头,不支持联网、插件功能。ChatGPT移动端的推

出也有望推动谷歌等其他大厂快速跟进,AI模型全面进入移动端创新阶段。

图33:

ChatGPTApp欢迎界面

图34:

微软Bingchat应用

资料来源:OpenAI,国信证券经济研究所整理资料来源:Bing,国信证券经济研究所整理

请务必阅读正文之后的免责声明及其项下所有内容

18

证券研究报告

当前旗舰机款手机芯片仅可运行优化版十亿参数级大模型

上一代人工智能程度较低拉低交互体验,阻碍AIoT发展。2011年Apple推出Siri,

使语音助手成为当时人工智能竞赛热门赛道,引发Google(GoogleAssistant)、

Amazon(Alexa)、微软(Cortana)等科技巨头纷纷加码跟进,抢占AIoT控制流量入

口。由于通过指挥控制系统进行工作,上一代语音助理仅可以理解有限的问题和

请求列表(包含在数据库中的单词列表),如果用户要求虚拟助手做一些代码中没

有的事情,机器人会简单地说它无法提供帮助。由于智能化较低,全球语音助理、

智能音箱及其他语音交互AIoT行业发展经过初期高速成长期后陷入沉寂。

图35:

2019年美国语音助理市场份额

图36:

全球智能音箱市场下滑

资料来源:IT之家,微软研究,

国信证券经济研究所整理资料来源:IDC,国信证券经济研究所整理

以苹果手机的Siri为例,目前旗舰机型手机芯片能支持离线唤醒和语音识别。

成功唤醒电子设备是实现人机语音交互的基础。当设备处于待机状态时,需要识

别用户输入的语音唤醒信号,如果识别成功则切换到工作状态。目前常见的唤醒

方法是通过预设的唤醒参数检测用户的语音输入,唤醒参数如唤醒门限、拾音方

向、噪声抑制参数、放大增益等,参数的取值决定了电子设备唤醒率的高低。这

通常由一个独立的小芯片,在本地实现。

图37:

语音交互过程示意图

资料来源:

集微网

,国信证券经济研究所整理

检测关键词的探测器(Detector)不仅要长时间待机且功耗要足够低到对电池寿

命无显著影响,并最小化内存占用和处理器需求。以iPhone的Siri为例,iPhone

的AlwaysonProcessor(AOP)是一个小的、低功耗的辅助处理器,即嵌入式运

动协处理器。AOP可以访问麦克风信号,并用自己有限的处理能力运行一个修剪

版神经网络模型(DNN)。当分数超过阈值时,运动协处理器唤醒主处理器,主处

理器使用较大的DNN分析信号。第一个检测器使用5层32个节点的隐藏单元的

DNN(AOP运行),第二个检测器使用5层192个节点的隐藏单元DNN(主CPU)。

请务必阅读正文之后的免责声明及其项下所有内容

19

证券研究报告

而在AppleWatch中,因为电池体积缩小、产品体积缩小,对功耗提出了新的需

求,采用的是单通道检测,机器学习模型介于手机上的第一次和第二次检测之间,

并仅在手表运动协处理器检测到抬手手势时运行。如果语音内容超过了本地模型

的理解范围,数据就会传递到Siri服务器,用更复杂的模型识别。

图38:

Siri信号流示意图

图39:

双通检测(AOP唤醒主CPU)

资料来源:

Apple

,国信证券经济研究所整理

资料来源:Apple,国信证券经济研究所整理

iPhone6时代,Siri仅可以离线被“唤醒”,A12仿生芯片时代,Siri可以支持

部分离线请求。A11是苹果首次搭载神经网络引擎处理器单元(NeuralNetwork

ProcessingUnitNPU),但主要是支持面部识别。2018年苹果推出的A12Bionic,

采用了台积电7nm工艺制程,苹果自研的Fusion架构,NPU从双核直接升级到八

核,能够实现每秒5万亿次计算。搭载A12仿生芯片的iPhoneXS首次支持Siri

离线运行,在不联网的情况下,Siri可以执行拨打电话、打开特定应用、设置闹

钟等请求,也可以实现语音输入等功能,但是无法响应预设内容以外的请求。这

说明10亿参数以下的RNN模型已经完全可以离线运行,但是复杂请求无法实现。

图40:

苹果A11芯片开始搭载NPU

资料来源:Apple,国信证券经济研究所整理

请务必阅读正文之后的免责声明及其项下所有内容

20

证券研究报告

目前具备运行优化模型能力的终端仅限头部品牌旗舰手机。根据目前各家公司对

于边缘端部署的情况推测,即使经过量化、剪枝、蒸馏等方式优化大模型后,仍

然需要旗舰版的手机芯片可以勉强承载运行。假设旗舰机型主处理器频率应在

2.8GHz以上,或是价格在1000美金以上,根据IDC数据,1Q23全球手机销量中

主处理器频率超过2.8GHz的占比36%,销售价格在1000美金以上的手机销量占

比13%。

图41:

全球手机分处理器频率销量占比

图42:

全球手机分价格段销量占比

资料来源:IDC,国信证券经济研究所整理资料来源:IDC,国信证券经济研究所整理

随着AIGC赋能语音助理,AIoT交互体验升级有望激发终端换机需求。AI助手在

大语言模型和算力加持下,自然语言理解能力大幅提升,具备了实际生产力后,

用户产生使用AI助手的需求,从而推动手机换机新周期。此外,智能音箱、全屋

智能中控屏、VR/AR/MR等同样有望成为“贾维斯”的交互入口。

23年4月,脱口秀演员鸟鸟介绍了自己的分身“鸟鸟分鸟”,这个数字分身为阿

里训练出来的类ChatGPT语音助手,能够模仿她的音色、语气以及文本风格。阿

里展示了“鸟鸟分鸟”模型接入智能音箱使用效果,其智能语音交互功能获得颠

覆式升级,聊天技能明显升级,AI有望真正实现对IoT赋能。

图43:

AIGC支撑AI多模交互

图44:

鸟鸟和类ChatGPT模型分身对话

资料来源:

腾讯研究院,国信证券经济研究所整理资料来源:阿里巴巴,国信证券经济研究所整理

请务必阅读正文之后的免责声明及其项下所有内容

21

证券研究报告

图45:

全球AR/VR出货量预测

图46:

全球智能家居出货量预测

资料来源:

IDC,国信证券经济研究所整理资料来源:IDC,国信证券经济研究所整理

请务必阅读正文之后的免责声明及其项下所有内容

22

证券研究报告

风险提示

宏观AI应用推广不及预期。AI技术在应用推广的过程可能面临各种挑战,比如:

(1)AI技术需要更多的时间来研发和调试,而且在应用过程中可能会受到数据

质量、资源限制和技术能力等因素的制约;(2)AI技术的实施需要更多的资源

和资金支持;(3)市场竞争可能也会影响企业在AI应用推广方面的表现。因此,

投资者应审慎评估相关企业的技术实力、资金实力以及管理能力,相关企业的AI

应用存在推广进度不及预期的风险。

AI投资规模低于预期。尽管AI技术在过去几年中受到广泛关注,但AI相关领域

的企业投资回报并不总是符合预期。部分企业在AI领域可能缺乏足够的经验和资

源,难以把握市场机会。此外,市场竞争也可能会影响企业的投资力度。因此,

存在AI领域投资规模低于预期,导致企业相关业务销售收入不及预期的风险。

AI服务器渗透率提升低于预期。虽然AI服务器的应用已经较为广泛,但AI服务

器渗透率提升的速度存在低于预期的风险,这与企业对AI技术的投资意愿有关,

也可能与市场需求和技术进展的速度有关。

AI监管政策收紧。由于AI技术的快速发展和广泛应用,监管机构可能会加强对

AI技术的监管力度。监管机构可能会制定严格的AI技术使用规定,以保障人们

的隐私和数据安全,这些监管政策可能会对企业的业务模式和发展战略造成影响。

请务必阅读正文之后的免责声明及其项下所有内容

23

证券研究报告

免责声明

分析师声明

作者保证报告所采用的数据均来自合规渠道;分析逻辑基于作者的职业理解,通过合理判断并得出结论,

力求独立、客观、公正,结论不受任何第三方的授意或影响;作者在过去、现在或未来未就其研究报告

所提供的具体建议或所表述的意见直接或间接收取任何报酬,特此声明。

国信证券投资评级

类别

股票

投资评级

级别

买入

增持

中性

卖出

超配

中性

低配

说明

股价表现优于市场指数20%以上

股价表现优于市场指数10%-20%之间

股价表现介于市场指数±10%之间

股价表现弱于市场指数10%以上

行业指数表现优于市场指数10%以上

行业指数表现介于市场指数±10%之间

行业指数表现弱于市场指数10%以上

行业

投资评级

重要声明

本报告由国信证券股份有限公司(已具备中国证监会许可的证券投资咨询业务资格)制作;报告版权归

国信证券股份有限公司(以下简称“我公司”)所有。本报告仅供我公司客户使用,本公司不会因接收人

收到本报告而视其为客户。未经书面许可,任何机构和个人不得以任何形式使用、复制或传播。任何有

关本报告的摘要或节选都不代表本报告正式完整的观点,一切须以我公司向客户发布的本报告完整版本

为准。

本报告基于已公开的资料或信息撰写,但我公司不保证该资料及信息的完整性、准确性。本报告所载的

信息、资料、建议及推测仅反映我公司于本报告公开发布当日的判断,在不同时期,我公司可能撰写并

发布与本报告所载资料、建议及推测不一致的报告。我公司不保证本报告所含信息及资料处于最新状态;

我公司可能随时补充、更新和修订有关信息及资料,投资者应当自行关注相关更新和修订内容。我公司

或关联机构可能会持有本报告中所提到的公司所发行的证券并进行交易,还可能为这些公司提供或争取

提供投资银行、财务顾问或金融产品等相关服务。本公司的资产管理部门、自营部门以及其他投资业务

部门可能独立做出与本报告中意见或建议不一致的投资决策。

本报告仅供参考之用,不构成出售或购买证券或其他投资标的要约或邀请。在任何情况下,本报告中的信息和

意见均不构成对任何个人的投资建议。任何形式的分享证券投资收益或者分担证券投资损失的书面或口头承诺

均为无效。投资者应结合自己的投资目标和财务状况自行判断是否采用本报告所载内容和信息并自行承担风险,

我公司及雇员对投资者使用本报告及其内容而造成的一切后果不承担任何法律责任。

证券投资咨询业务的说明

本公司具备中国证监会核准的证券投资咨询业务资格。证券投资咨询,是指从事证券投资咨询业务的机

构及其投资咨询人员以下列形式为证券投资人或者客户提供证券投资分析、预测或者建议等直接或者间

接有偿咨询服务的活动:接受投资人或者客户委托,提供证券投资咨询服务;举办有关证券投资咨询的

讲座、报告会、分析会等;在报刊上发表证券投资咨询的文章、评论、报告,以及通过电台、电视台等

公众传播媒体提供证券投资咨询服务;通过电话、传真、电脑网络等电信设备系统,提供证券投资咨询

服务;中国证监会认定的其他形式。

发布证券研究报告是证券投资咨询业务的一种基本形式,指证券公司、证券投资咨询机构对证券及证券

相关产品的价值、市场走势或者相关影响因素进行分析,形成证券估值、投资评级等投资分析意见,制

作证券研究报告,并向客户发布的行为。

证券研究报告

国信证券经济研究所

深圳

深圳市福田区福华一路125号国信金融大厦36层

邮编:518046

上海

上海浦东民生路1199弄证大五道口广场1号楼12层

邮编:200135

北京

北京西城区金融大街兴盛街6号国信证券9层

邮编:100032

本文标签: 模型训练证券数据参数