admin管理员组

文章数量:1532381

2023年12月19日发(作者:)

OpenAI:我们刚刚发布了

GPT-4 ,这是OPenAl在扩大深度学习方面的最新里程碑。1 ) GPT-4

是一个大型的多模态模型(接受图像和文本输入,发出文本输出),虽然在许多现实世界的场景中 能力不如人类。2)但GPT-4在各种专业和学术基准上表现出人类水平的表现。例如它通过了模拟 的律师考试,分数在应试者的前10%

;相比之下GPT-3.5的分数则在后10%左右。我们花了

6个 月的时间,利用我们对抗学习和来自ChatGPT的经验反复调整GPT-4 ,结果在事实性、可引导性 以及合规性取得了有史以来最好的结果(尽管远非完美).

在过去的两年里,我们重建了整个深度学习堆栈,并与AZUre一起,为我们的工作负荷从头开始共同设计 了一台超级计算机。一年前,我们训练了

GPT-3.5作为系统的第一次"试运行"。我们发现并修复了一些错 误,并改进了我们的理论基础。因此,我们的GPTT训练运行(至少对我们来说是如此I )前所未有的稳 定,成为我们第一个训练性能能够提前准确预测的大型模型随着我们继续专注于可竟的扩展,我们的目 标是磨练我们的方法,以帮助我们越来越提前地预测和准备未来的能力--我们认为这对安全至关重要。

我们正在通过ChatGPT和APl发布GPT-4的文本输入功能。为了准备更广泛地提供图像输入功能,我们正 在与一个合作伙伴紧密合作,以开始。我们还在开源OPenAlEvals,这是我们自动评估人工智能模型性能的 框架,允许任何人报告我们模型中的缺点,以帮助指导进一步的改进。

GPT4与上一代GPT3.5在不同考试中的分数对比

Exam results (ordered by GPT 3.5 performance)

Estimated percentile lower bound (among test takers)

展望-图像输入:GPT-4可以接受文本和图像的提示,这与纯文本平行,让用户指定任何视觉或语言任务。

具体来说,它可以生成文本输出(自然语言、代码等),给定的输入包括穿插的文本和图像,在一系列的 领域中,包括带有文字和照片的文件、图表或屏幕截图,GPT-4表现出与纯文本输入类似的能力。此外, 它还可以使用为纯文本语言模型开发的测试时间技术,包括少数几个镜头和思维链提示。目前图像输入仍 然是没有公开提供的一个研究方向。

Al的可引导性:我们一直在努力实现我们在定义人工智能行为的文章中概述的计划的各个方面,包括可引 导性,与经典的ChatGPT个性的固定言语、语气和风格不同,开发者(以及很快ChatGPT用户)现在可以 通过在“系统”消息中描述这些方向来规定他们的Al的风格和任务。系统消息允许APl用户在范围内大幅 定制他们的用户体验。我们将继续在这里进行改进,但我们鼓励你尝试并让我们知道你的想法。

GPT4的局限性:尽管有这样的能力,GPTY也有与早期GPT模型类似的局限性。最重要的是,它仍然不是 完全可靠的(它对事实产生"幻觉",并出现推理错误)o在使用语言模型的输出时,特别是在高风险的情 况下,应该非常小心,准确的协议(如人类审查,用额外的背景接地,或完全避免高风险的使用)与特定 的使用案例的需求相匹配.虽然仍然是一个真实的问题,但相对于以前的模型(这些模型本身也在不断改 进),GPT-4大大减少了幻觉。在我们的内部对抗性事实性评估中,GPT-4的得分比我们最新的GPT-3.5高

40%.

Internal Factual Eval by Category

Accuracy

On nine categories of internal adversarially-designed factual evals, we compare G

versions. There are significant gains across all topics. An accuracy of 1.0 means th∙

agreement with human ideal responses for all questions in the eval.

TrUthfUlQA等外部评测:该基准测试了模型从对抗性选择的不正确陈述中分离事实的能力。这些问题与在 统计学上具有吸引力的事实错误答案配对。GPT-4基础模型在这项任务上只比GPT-3.5略胜一筹;然而在

RLHF后训练(应用我们对GPT-3.5使用的相同过程)之后,存在很大差距。

他的模型在输出时可能会有各种偏差-我们在这些方面已经取得了进展,但仍有更多工作要做。根据我们 最近的博文,我们的目标是使我们建立的人工智能系统具有合理的默认行为,以反映广泛的用户价值观, 允许这些系统在广泛的范围内进行定制,并获得公众对这些范围的意见。

GPT-4通常缺乏对其绝大部分数据截止后(2021年9月)发生的事件的了解,也不会从其经验中学习。它 有时会犯一些简单的推理错误,这似乎与这么多领域的能力不相符,或者过于轻信用户的明显虚假陈述。 有时它也会像人类一样在困难的问题上失败,例如在它产生的代码中引入安全漏洞。

GPT-4也可能在预测中自信地犯错,在它可能犯错的时候不注意反复检查工作。有趣的是,基础的预训练 模型是高度校准的(它对答案的预测信心一般与正确的概率相匹配)。然而,通过我们目前的后训练过程, 校准程度降低了。

总的来说,我们的模型级干预措施增加了诱发不良行为的难度,但这样做仍然是可能的。此外,仍然存在" 越狱"的情况,以产生违反我们使用指南的内容。随着人工智能系统的"每个令牌的风险”的增加,在这 些干预措施中实现极高的可靠性将变得至关重要;目前,重要的是用部署时间的安全技术来补充这些限制, 如监测滥用。

GPT-4和后续模型有可能以有益和有害的方式大大影响社会。我们正在与外部研究人员合作,以改善我们 对潜在影响的理解和评估,以及建立对未来系统中可能出现的危险能力的评估。我们将很快分享我们对

GPT-4和其他人工智能系统的潜在社会和经济影响的更多思考。

APl和费用:要获得GPT-4 API

(请在我们的等待名单上注册。我们将从今天开始邀请一些开发者,并逐步 扩大规模,以平衡容量与需求。如果你是研究人工智能的社会影响或人工智能对接问题的研究人员,你也 可以通过我们的研究人员访问计划申请补贴的访问。一旦你有了访问权,你就可以向gpt-4模型提出纯文本 请求(图像输入仍处于有限的测试阶段),随着时间的推移,我们会自动更新到我们推荐的稳定模型(你 可以通过调用gpt-4-0314来锁定当前版本,我们将支持到6月14日)。定价为每IOOOPromttOkeno.03美 元,每l∞0

completion token0.06美元。默认的速率限制是每分钟40k代币和每分钟200个请求。

GPT-4的上下文长度限制为8,192个token ,我们还提供支持32,768个token

(约50页文本)版本的有限访 问,gpt-4-32k,它也将随着时间的推移自动更新(当前版本gpb4-32k-0314,也支持到6月14日)。价格 是每1000 prompt toke∩0.06美元,每IOoo completion

tokens.0.12美元。我们仍在改进长上下文的模型质量, 并希望得到关于它在你的使用案例中的表现的反馈。我们正在根据容量以不同的速度处理对8K和32K引擎 的请求。

投资建议:我们认为随着GPT4的重磅发布,相关多模态大模型的垂直领域应用或将进一步得到开发,多 模态大模型相关的应用场景将伴随大模型能力的提升和成本降低逐步普及,美股建议关注:【微软】(OffiCe

目前拥有接近4亿的用户,收购OPenAl后OffiCeARPU提升与AZUre云相关业务有望贡献增量收入)、【英 伟达、台积电】等半导体公司(搜索和相关AlGC内容创作对GPU相关资本开支的拉动将提升半导体行业 收入与业绩)。

我们推荐关注多模态大模型的应用场景如:

D客服聊天机器人:技术加成下提升大数据分析和互动能力,多模态应用对多种内容形式快速反应,海外 建议关注【谷歌】"NAP】

(TwiIioJ ,国内建议关注【神州泰岳】【焦点科技】【宏景科技】【神州数码】

2)信息搜索与内容检索:信息检索效率大幅提升,检索范围覆盖面更广,海外建议关注【微软】IShiftPixyL

国内建议关注【三六零】【昆仑万维】

3)商品与内容推荐:海外建议关注【Jasper】

(Shopify).国内建议关注【顺网科技】【蓝色光标】【工 人行】【值得买】【浙文互联】【中文在线】

4)虚拟数字人:虚拟人垂类应用场景有望拓宽,海外建议关注【微美全息】【Unity],国内建议关注【芒 果超媒】【汤姆猫】【蓝色光标】【中文在线】【风语筑】【捷成股份】【奥飞娱乐】【遥望科技】

5)教育:推动个性化、差异化教育发展,海外建议关注【Quizlet】

[Speak] [Coursera] [Duolingual],

国内建议关注【科大讯飞】【汉王科技】【传智教育】

6)游戏设计:驱动原画设计、社交玩法创新,海外建议关注【Unity】(Roblox],国内建议关注【网易】 【完美世界】

ChatGPT每日产业新闻点评

0315更新:重磅!

GPT-4正式发布,具备多模态和超越上一代的专业学术能力,谷歌开放人工智能语言 模型

PaLM API

GPT-4是OPenAl在扩大深度学习方面的最新里程碑。1) GPT-4是一个大型的多模态模型(接受图像和文 本输入,发出文本输出),虽然在许多现实世界的场景中能力不如人类。2)但GPT4在各种专业和学术 基准上表现出人类水平的表现。GPT-4在事实性、可引导性以及合规

性取得了有史以来最好的结果,并成 为OPenAl第一个能够提前准确预测训练的大模型。此外谷歌公司今日宣布开放其PaLMAPh让开发者能 够使用其最先进的Al语言模型之一:PaLM.该公司还推出了一些人工智能企业工具,称将帮助企业“通过 简单的自然语言提示生成文本、图像、代码、视频、音频等多种内容”。

0313更新:多模态大模型GPT4本周或将发布,百度文心大模型3月16日上线

微软多模态大模型GPTW或将在本周发布,微软德国首席技术官Andreas Braun在线下活动中表示多模态 大模型GPT4即将在本周发布,将提供完全不同的可能性并且适用于所有语言,而微软在过去一周左右接 连发布了展示多模态的语言大模型论文Kosmos-I和VisuaIChatGPT,此前微软一直在测试和调整来自

OpenAI的多模态模型,而国内Al巨头百度也计划于3月16日14时发布类ChatGPT产品文心一言,相关

多模态大模型的垂直领域应用或将进一步得到开发C正如我们GPT4展望报告中提及的GPT4十大猜想,GPT4

未来可能会是多模态的具有思维链推理能力的大模型,标志着Al的智能涌现速度超越Scaling Law的提升 速度,生成式Al时代全要素生产率或可以重新加速上升。

0307更新:微软操作系统Windows 11宣布加入更多人工智能体验

微软Windows系统和硬件总负责人PanoSPanay在CES 2023曾说过:“Al将彻底改变你在Windows上做 任何事情的方式",并透出微软正打造模糊云端和边缘界限、集成大*

Al技术的全新操作系统。3月7日 微软宣布WindoWSIl将加入更多人工智能体验,如1) Al视频通话:眼神接触(EyeContact),背景效 果(BaCkgrOUndBIUr)、自动取景(Automatic Framing)和语音焦点(VOiCeFOCUS)等功能将增强用户体 验;2)语音访问应用:用户在Windows 11上中处理Word文档、在文件资源管理器中管理文件等;3)

开始菜单提供人工智能驱动的推荐内容来个性化用户的体验。我们预计微软或将联合OPenAl的大语言模 型更新现有的操作系统功能体验如文件搜索、邮件、助手等,而网传2024年发布的全新一代WindOWS或 将围绕Al和大预言模型展开新一代操作系统的交互革命。

0303更新:马斯克推特宣布或组建AI实验室Based AI , Dojo训练集群已开始训练大语言模型。

宏图3发布会上首次提及Dojo已开始训练LLM,此前马斯克在推特上宣布开始招揽前DeePMind员工成立

BaSedAI实验室,开发OPenAl聊天机器人ChatGPT替代品事宜。我们认为特斯拉在real-WOrIdAI (自动驾 驶、Tesla Bot)方向的领先程度毋庸置疑,开发ChatGPT相关替代品可能与推特有关。我们认为其他科技 互联网大厂如谷歌、Meta、革果将持续在此领域投入并追求ChatGPT产品能力的复现,相关竞品的发布时 间或将提前。

0302更新:OPenAl宣布ChatGPT开放API,且价格为上一代版本1/10 ,全行业ChatGPT时代即将 到来!

2023年3月2日,OPenAl宣布开放ChatGPTAPI,且价格仅为上一代版本1/10,意味着ChatGPT将可以赋 能干行百业。Snap、Shopify公司已经接入。我们认为AIGC的核心定律在于D每年深度学习成本降低60%,

模型能力提升40%以上2)新技术遵循巴斯模型的S曲线快速渗透。新一代生成式Al革命将迅速推动产业 快速增长,关注应用场景I

ChatGPT相关事件时间轴

ChatGPT相关重要节点梳理

事件

时间 重要性

代码助手C。Pilot发布正式

ChatGPT正式发布

2022

6

2022

11

AlGc产品开启商业化

具有划时代意义的对话工具

ChatGPT或将引发搜索引擎

ChatGPT结合的搜索引擎

Bing发布

2023

2

月 行业的革命

ChatGPT

开放

APl

接口

2023

3

成本仅为上一代产品的1/10

展望2023年

谷歌I/O开发者大会

2023

5

公布对抗ChatGPT的产品细

2023

5

公布ChatGPT应用场景

微 微软BUild 2023开发者大

苹果WWDC大会

2023

6

3D内容生态和相关Al建造工 具

2023年上

苹果MR发布

OpenAI GPT4模型发布

半年

2023年上

全新的硬件场景

参数和跨模态能力或将迎来

显著提升

OPenAI前员工创立的团队

Anthropic的对标产品Cla ude半年

未知

发布

GPT4十大猜想

1) GPT4.0未来可能会是多模态的具有思维链推理能力的大模型,标志着AI的智能涌现速度超越Scaling Law的提升速度.PC是人类思维的“自行车”(SteVe Jobs),而生成式Al可能会是人类思维的“Copilot/

大副”・全要素生产率在PC时代飞速增长,在互联网普及后(2005-2022)增长缓慢.生成式Al时代全 要素生产率或可以■新加速上升。

2)生成式Al时代的技术基础不仅是深度学习的基础模型/大模型(Foundation Model),也或许会包括 神经计算科学与符号推理的更多贡献。

3)大模型/并行计算最重要的应用应该包括AGI通用人工智能(OpenAI)、合成生物学(AIPhaFOld)、 可控核聚变(DeePMind)、科学计算与模拟仿真(NVidia,需要并行计算,但也将大模型加速)经典 的经济增长模型(索洛模型)尽管预设了劳动力和资本在经济增长中可以互相取代,但是也假设了劳动力 按照实物生产力付酬9劳动力按照人I I增长模型限制。如果AGl的劳动力出现,经济增长的假设或可更新.

4)算力重要的将是软件栈上的硬件优化,模型重要的将是数据集上的算法工程优化,应用重要的是数据 采集应用开发•算力公司的新机会在于怎么在Z级别的算力上实现规模拓展(SCaIingOUt)和摒弃传统核 内存共享,以及云边计算;模型公司壁垒在于DOmain SPedfiC的数据:应用壁垒在于传感器(软件传感 器的App、场景或者硬件传感器)。更为重要的依然是算力网络-基础模型-应用-数据的“飞轮

工但我们认 为与云计算时代的解相相反,生成式Al时代的经济效应的“飞轮”是高度耦合的,因为云计算关键在于弹性 和可伸缩可拓展性带来的成本优化,而Al关键在于效能提高到某个阈值之后的应用价值急速上升。而数据 栈可能从data source和activation tool向数仓逐渐创新。

5)生成式Al改变微观经济学假设:我们认为软件行业、互联网行业、开源、生成式Al均为对传统微观经 济学的挑战。软件意味着非个性化产品的边际生产成本接近于0

(但产品定制化和营销成本高),互联网 意味着产品的边际分发与营销费用接近于0

(直到流量红利结束和获客成本上升),开源意味着产品本身 的价格为0

(但部署和开发有成本),生成式Al意味着产品的个性/定制化生产边际成本接近于0。波特三 战略包括成本领先、差异化、聚焦。差异化产品在生成式Al时代将不再具有竞争壁垒,但差异化数据将可 能具有很高价值。

6)生成式Al改变软件与互联网的结构.MarCAndreeSSen著名的论断为软件吞食世界 我们认为互联网 /开源已改变软件(SaaS) ,

SaaS的本质是抽象出的最佳实践叮最解耦拓展的结合,而AI可能会以1、 改变最佳实践2、改变定制化开发3、改变工作流4、改变开源测试重构SaaS. Al改变互联网则在于 全新的交互与更强的粘性,上一代推荐/搜索算法主要承担大规模的结构化embedding,把人归结为特征统 一,而相对较难生成对个体的深层次理解。因此新的更深的大模型下,不再是统一的超文本跨平台一致地 供给现存的个性化内容,而是个性化的交互产生个性化的全新内容产品。

7)AI生成产品会比Al生成内容大很多倍。多模态大模型将可能让深度学习对个体的多层次理解成为可能, 生成式Al让“AI生成设计”到“AI生成产品”成为可能,这个市场会比“AI生成内容”大很多倍,真正的释放个 体个性化需求与创意的商品将对仿真,柔性生产和柔性供应链提出全新的要求。

8)创作者经济。克雷创造了超算,Linus创造了

LinUX,亨特创造了

KenShi。在生成式Al的辅助下,个人 有望创造真正出色的软件、游戏、产品。

9)基础模型的人类对齐(HUmanAHgnment)。

10)用更好的数学语言描绘大模型的“涌现”的能力。无论涌现的能力来自流形上的概率分布,还是范畴论 中把梯度递降和自动微分实现为函子。对于基础模型的深刻理解与控制的要求我们必须能够在超级Al之前 的生成式Al的黑箱之Wa内用更先进的数学语言去推导与描述,如果蒸汽机没有牛顿力学热力学与微积分, 如果曼哈顿工程没有狭义相对论,都只会是经验的不可控工程。大卫希尔伯特曾说"我们必须知道,必将知 道”,我们认为用在深度学习的大模型上有一定的恰当之处。即我们必须深刻理解大模型的数学语言而非仅 仅当作黑箱应用。

本文标签: 模型应用能力模态人工智能