admin管理员组

文章数量:1532362

1.产品发布

1.1摩根大通推出多模态文档理解模型DocLLM

发布日期:2024-1-3

摩根大通宣布推出用于多模态文档理解的DocLLM (chinaz)

主要内容:摩根大通发布了DocLLM,一款专为多模态文档理解设计的生成式语言模型,通过轻量级扩展LLM,避免昂贵的图像编码器,以提高文档分析效能。在16个已知数据集中,DocLLM在多种文档智能任务中表现优越,对未见数据集具有强大泛化能力。摩根大通承诺以轻量级方式将视觉融入DocLLM,进一步提升其多模态文档理解能力。

论文地址:https://arxiv/pdf/2401.0090

1.2同花顺:问财大模型内测申请开启

发布日期:2024-1-2

内测申请开启!同花顺问财大模型—HithinkGPT来了!

主要内容:同花顺问财HithinkGPT大模型的内测申请已经开始。投顾对话机器人同花顺问财现在经过成功升级,基于HithinkGPT,成为国内金融领域首个应用大模型技术的智能投顾产品。问财HithinkGPT大模型采用transformer的decoder-only架构,提供7B、13B、30B、70B和130B五种版本选择。此模型最大允许32k文本输入,支持API接口调用、网页嵌入、共建和私有化部署等能力,并为用户提供一站式标注和评测服务。

2.技术更新

2.1高情商的NPC来了,刚伸出手,它就做好了要配合下一步动作的准备

发布日期:2024-1-3

高情商的NPC来了,刚伸出手,它就做好了要配合下一步动作的准备

主要内容该研究专注于人与虚拟人的互动任务,特别是涉及物体的互动任务,提出了一项名为在线全身动作反应合成的新任务。新任务将基于人类的动作生成虚拟人的反应。为了支持新任务,作者构建了两个数据集,分别命名为 HHI 和 CoChair,并提出了一个统一的方法。具体来说,作者首先构建了社交可供性表示,然后提出了一种社交可供性预测的方案,使虚拟人能够基于预测进行决策。实验证明,该方法可以在两个数据集上有效生成高质量的反应动作,并且能在一块 A100 上实现 25 FPS 的实时推理速度。此外,作者还在现有的人类互动数据集 Interhuman 和 Chi3D 上验证了方法的有效性。

论文地址:https://arxiv/pdf/2312.08983.pdf

项目主页:Interactive Humanoid: Online Full-Body Motion Reaction Synthesis with Social Affordance Canonicalization and Forecasting

2.2 deepin操作系统推出8种AI修图功能

发布日期:2024-1-3

AI 来袭,deepin深度看图让你的照片焕然一新! – 深度科技社区

主要内容:深度操作系统宣布他们最近推出了一款名为“看图AI插件”的新产品。安装后,用户可以在设备上体验8种AI修图功能,包括图像上色、提升分辨率、模糊背景、删除背景、手绘漫画、2D漫画、3D漫画和素描。这些功能不依赖于互联网在线模型,也不受算力硬件的限制,在个人电脑上可以轻松运行。

2.3维基百科+大模型打败幻觉!斯坦福WikiChat性能碾压GPT-4,准确率高达97.3%

发布日期:2024-1-3

维基百科+大模型打败幻觉!斯坦福WikiChat性能碾压GPT-4,准确率高达97.3%

主要内容:斯坦福大学的研究团队发布了名为WikiChat的聊天机器人,该机器人被称为首个几乎不产生幻觉的聊天机器人。在新的基准测试中,WikiChat获得了97.3%的事实准确性,相比之下,GPT-4的得分仅为66.1%。研究人员还发现了检索增强生成(RAG)的几个缺点,并添加了几个重要步骤,以进一步减轻幻觉,并改进「对话性」指标。通过这些优化,WikiChat在事实性方面比微调后的SOTA RAG模型Atlas高出8.5%,在相关性、信息性、自然性、非重复性和时间正确性方面也大大领先。最后,作者将基于GPT-4的WikiChat提炼成7B参数的LLaMA,这个模型在事实准确性方面仍然能拿到91.1%的高分,并且运行速度提高了6.5倍,能效更好,可以本地部署。

论文地址:https://aclanthology/2023.findings-emnlp.157.pdf

项目代码:GitHub - stanford-oval/WikiChat: WikiChat stops the hallucination of large language models by retrieving data from Wikipedia.

2.4 ChatGPT文明模拟器再上线,一键穿越回火山爆发当天的庞贝古城

发布日期:2024-1-3

ChatGPT文明模拟器再上线,一键穿越回火山爆发当天的庞贝古城-36氪

主要内容:随着GPT-4的功能更新,AI模拟历史已经不再是单纯的文字扮演游戏。多模态人工智能的兴起,使得GPT-4能够解读和创建图像,为历史模拟带来了重大提升。历史教授Benjamin Breen公开了将ChatGPT与历史课教学结合的方法和案例,证明了大语言模型非常擅长根据主要源文本的简短片段生成可信的历史背景和人物。通过使用GPT-4和DALL-E3进行多模态历史模拟,我们可以从不同视角思考历史运作的方式,并让过去成为另一种情形。Benjamin教授使用GPT-4和DALL-E3模拟了维苏威火山喷发当天的古代庞贝古城,生成了一幅充满细腻真实感的图像。通过这种方式,我们可以建立一个反馈循环,让图像生成引擎中提取的历史细节能够实际影响文本模拟的发展方向。

项目地址:https://docs.google/documen

3.商业动态

3.1 IDC钉钉联合发布2024 AIGC应用层十大趋势

发布日期:2024-1-3

重磅!IDC、钉钉联合发布 2024 AIGC 应用层十大趋势

主要内容:钉钉联合国际知名咨询机构IDC发布了首份《2024 AIGC应用层十大趋势白皮书》。随着AIGC技术的发展,智能化应用将呈现爆发式增长。IDC预测,到2024年,全球将涌现出超过5亿个新应用,相当于过去40年间出现的应用总和。根据《白皮书》,2024年AIGC应用的十大趋势关键词涵盖应用层创新、AI Agent、专属模型、超级入口、多模态、AI原生应用、AI工具化和AI普惠化

3.2原钉钉副总裁创业杀入AI Agent赛道,获亿元融资

发布日期:2024-1-3

原钉钉副总裁创业杀入AI Agent赛道,获亿元融资 | 36氪独家-36氪

主要内容:人工智能公司斑头雁智能科技近日完成近千万美元A轮融资,用于继续深入打造企业级AI Agent(人工智能代理)产品BetterYeah AI。该公司由钉钉创始团队成员、原副总裁张毅创立,另外两位联合创始人也来自原钉钉核心团队。BetterYeah AI客户多为行业TOP企业,已在部分业务场景实现突破,包括销售、客服和营销场景。该公司拥有整套自研RPA等超级自动化工具集和Web Builder低代码平台,可为Agent提供手和脚,在更多场景里使用,并大幅降低开发成本。

本文标签: 模型来了下一步模拟器它就