百度发布文心大模型5.0正式版

2026-01-24 19:50:16 来源: 科技日报 点击数:

冯妍 科技日报记者 王春

近日,百度发布并上线原生全模态大模型文心5.0正式版(以下简称文心5.0)。该模型参数达2.4万亿,采用原生全模态统一建模技术,具备全模态理解与生成能力,支持文本、图像、音频、视频等多种信息的输入与输出。在40余项权威基准的综合评测中,文心5.0的语言与多模态理解能力超越Gemini-2.5-Pro、GPT-5-High等模型,稳居国际第一梯队;其图像与视频生成能力与垂直领域专精模型相当,整体处于全球领先水平。

创新应用原生全模态技术提升模型能力

什么是原生全模态?

人类交流的时候总是边想、边说、边打手势,还要边观察和倾听对方的表现与回应,大模型也一样要将文本、图像、视频、音频等多种不同的数据统合在一起,这就是多模态数据处理。业界多数的作法是将这些数据分开来进行分析,有的部分专管听,有的部分专管看,有的部分专管理解,后期再进行融合。

“与‘后期融合’的多模态方案不同,文心5.0的技术路线采用统一的自回归架构进行原生全模态建模,将文本、图像、视频、音频等多源数据在同一模型框架中进行联合训练。”百度集团副总裁、深度学习技术及应用国家工程研究中心副主任吴甜介绍。文心5.0能够使多模态特征在统一架构下充分融合并协同优化,实现原生的全模态统一理解与生成。

此外,文心5.0采用超大规模混合专家结构,具备超稀疏激活参数,激活参数比低于3%,在保持模型强大能力的同时,有效提升推理效率。研发基于大规模工具环境,合成长程任务轨迹数据,并采用基于思维链和行动链的端到端多轮强化学习训练,显著提升了模型的智能体和工具调用能力。

目前,个人用户已可在文心App、文心一言官网体验文心5.0大模型,企业与开发者可通过百度千帆平台对其进行调用。

百度千帆平台是以智能体为核心的一站式企业级服务平台。智能体是大模型在产业场景落地的最佳形态之一。百度千帆平台产品负责人张婷介绍,平台可以为企业提供全周期、稳定支持多场景业务的运行环境,显著降低企业智能体创新门槛。目前,百度千帆平台上已累计开发超130万个智能体,以“百度AI搜索”为代表的工具日均调用量已突破千万次。百度相关负责人介绍,上海辞书出版社通过百度千帆将文心大模型引入“智慧修订”场景,辅助编辑完成严谨的事实性校对,使审校效率提升3倍,准确率提升80%,让专业人才从烦琐的核查中解放出来,回归创造性工作。

多项技术助模型“跑得稳、答得对、用得起”

基于文心基础大模型,百度构建了矩阵模型和专精模型。矩阵模型面向产品级应用和通用场景快速落地,包括文心Lite模型、视频大模型和语音大模型;专精模型面向行业应用和垂直场景,包括搜索闪电专精模型、电商蒸汽机模型、文心数字人大模型及行业大模型。

百度应用模型研发部负责人贾磊在1月22日举办的“百度文心Moment大会”上分享了多项最新的模型技术。贾磊说,希望让模型在真实应用场景里“跑得稳、答得对、用得起”。

如“5分钟超越真人的直播技术”,通过对目标音色的少量采样,经过脸谱和化妆,通过检索增强匹配不同文体和场景的韵律模式,使合成语音具备直播带货所需的情绪、节奏与感染力。又如“实时交互数字人技术”,采用三态Token联动架构,实现文本、语音、视频的流式控制,突破传统数字人三个模态串联的制作模式。在此基础上,系统自动完成动作衔接、动作编排与状态重组,并由声音Token实时驱动表情与口型,输出三态合一的视频流,具有低延迟、低成本和高表现力的特点。

全球AI行业经历过去几年快速发展,正进入一个新的快车道,虽然以对话或文字输入为主的聊天机器人仍是主流形式,但AI如何应用于真实世界与行业,从而进一步产生价值,已成为行业探索的重点方向。包括文心5.0在内的诸多创新模型技术,正助力AI应用走进真实行业与复杂场景,提供更高效的解决方案。

责任编辑:冷媚
网友评论
最热评论
没有更多评论了

抱歉,您使用的浏览器版本过低或开启了浏览器兼容模式,这会影响您正常浏览本网页

您可以进行以下操作:

1.将浏览器切换回极速模式

2.点击下面图标升级或更换您的浏览器

3.暂不升级,继续浏览

继续浏览