科技日报记者 都芃
8月21日,百度蒸汽机(MuseSteamer)音视频一体化模型完成重大升级,Turbo版、Lite版、Pro版及有声版全面开放,首次在行业内实现多人有声音视频一体化生成。通过五大技术创新,百度蒸汽机可实现“需求即成片”,在生成电影级高清视频画面的同时,实现逼真环境音效、自然人物语音的同步输出。即日起,用户可通过百度搜索“百度蒸汽机”或登录“绘想”平台体验,企业用户可在千帆平台享受高性能视频生成服务。
百度蒸汽机是全球首个中文音视频一体化生成的I2V模型(图像到视频生成模型),不仅支持环境音效,更支持多角色语音的一体化生成。百度蒸汽机2.0有声版模型让AIGC视频创作彻底告别了配音环节,创作者对完美视听语言的需求只需要一张图片和提示词就能满足。
这背后依托的是百度蒸汽机视频模型的五大核心技术突破:即行业内首次实现多人有声音视频一体化生成,语音与唇形、表情、动作的毫秒级精准对齐;首创多模态潜在空间规划技术(Latent Multi-Modal Planner),自主协调多角色身份、情感与互动逻辑,保障电影级叙事连贯性;中文场景深度适配,以超98%的还原度精准呈现中文语音细节与情感表达;端到端电影级画质生成,通过精准主体动态刻画,打造真实细腻的人物表现力;大师级运镜控制,内置数十种专业镜头语言,精准响应文本指令,实现视觉细节与创意意图的完美对齐。
在生成质量大幅提升的同时,百度蒸汽机2.0还进一步优化成本结构。传统影视制作中昂贵的演员、场地、设备租赁费用,以及繁琐的后期配音、特效追加等环节,现在均可通过AI生成进行优化替代。国际知名视效指导姚骐曾参与《2012》《黑客帝国3》《变形金刚3》等多部好莱坞电影及国产科幻剧《三体》的视效工作。在他使用百度蒸汽机模型制作的科幻短片《归途》中,有40多个镜头,每个镜头生成3次,共用AI生成超120个片段素材,成本低至百元。“它让好莱坞级大片镜头不再需要百万预算。”姚骐说。
针对不同需求用户,平台也提供了梯度会员服务,价格低至行业同类产品的70%。同时,基于持续丰富的特效能力,平台月月有生动有趣的特效赛事发布。
不同于业界其他模型发展多由技术催生,百度蒸汽机的研发主要由应用驱动。来自百度各业务场景的旺盛应用需求,推动着百度蒸汽机模型快速发展。同时,模型技术的迭代,也在反哺着应用生态的创新,包括搜索生态、内容生态、商业生态以及云生态等。
例如,在百度搜索中,用户只需点击视频创作即可轻松完成从脚本到视频免费生成,普通用户也可获得简单而惊喜的AI创作体验;在内容创作领域,百度蒸汽机模型与创作工具结合,正在百家号平台上为创作者打破专业壁垒,释放创作想象。
目前,百度智能云千帆大模型平台已全面接入百度蒸汽机模型服务,为企业提供高性能、低成本、安全可控的视频生成解决方案。通过按量后付、预付费资源量包、批量计算等极致的资源利用和灵活的计费模式,助力企业及开发者低成本用好视频生成模型,支持企业在商业营销、影视创作、创意特效等五大场景快速落地,实现企业级AI视频即开即用。
(百度供图)