百度升级高说服力数字人 实现四大突破

2025-06-18 16:48:52 来源: 科技日报 点击数:

科技日报记者 都芃

6月17日,在百度AI Day开放日上,百度官宣发布业界首个超级头部主播罗永浩数字人,并发布了高说服力数字人在体验、内容、视觉、效果的四大突破。

百度副总裁、电商总经理平晓黎表示,今年4月百度发布的高说服力数字人让数字人进入3.0时代。新一代高说服力数字人已成为像真人一样,形神音容高度协调、会思考决策、能协作完成特定任务的超级智能体。百度此次发布的罗永浩数字人已达到媲美超级头部主播的体感效果。此前,罗永浩数字人直播首秀创下超1300万人次观看、GMV(商品交易总额)突破5500万元的行业新纪录,部分核心品类带货量反超真人直播。

百度集团副总裁吴甜系统性地介绍了多模协同数字人技术。该技术基于文心大模型4.5 Turbo实现了融合多模规划与深度思考的剧本生成,由剧本驱动数字人多模协同,实现动态决策的实时交互,使数字人的“神、形、音、容、话”达到高度统一。最终呈现出一个具备高表现力、内容吸引人、人-物-场可自由交互的超拟真数字人。

剧本生成技术包含台词生成、多模驱动和动态交互三部分。以罗永浩数字人剧本为例,基于文心大模型4.5 Turbo生成的剧本,充分展现了主播的个人特色,具备典型的“罗氏幽默”风格,并能够实现双人主播的内容协同,实现丰富的动态实时互动。通过文本自控的语音合成大模型,数字人可以实现高复原的语音合成能力,再结合直播台词及发音特征,合成风格恰当、自然流畅的声音。

为解决罗永浩数字人直播双人声音配合难点,百度采用对话上下文编码器,将对话历史和当前对话进行语音合成的统一推理计算,最终实现流畅自然的双人对话效果。在数字人形象生成以及驱动方面,通过结合多模态视频理解、跨模态信号生成、视频生成等技术,数字人克服了高可控交互,高精度、长时间一致性保持等难点,实现了高一致性超拟真长视频生成。

吴甜表示,百度在今年4月发布了最新的大模型文心4.5 Turbo和文心X1 Turbo,罗永浩数字人是基于文心大模型的最佳实践。百度在大模型技术的持续探索和创新,将为用户带来更优质的体验、为行业带来更具创新力的业务模式。

此外,百度电商还推出两大计划。梦蝶计划将通过流量扶持,超头主播数字人打造、预算扶持,实现百度优选超头主播的数量倍增;繁星计划则将再次追加10万个慧播星数字人,投入1亿元数字人消费补贴、千万级别的运营扶持,帮助更多的普通人、中小企业开启数字人直播。

(百度供图)

责任编辑:陈可轩

抱歉,您使用的浏览器版本过低或开启了浏览器兼容模式,这会影响您正常浏览本网页

您可以进行以下操作:

1.将浏览器切换回极速模式

2.点击下面图标升级或更换您的浏览器

3.暂不升级,继续浏览

继续浏览