科技日报记者 杨雪
2月14日,字节跳动宣布推出豆包大模型2.0(Doubao-Seed-2.0)系列。豆包2.0围绕大规模生产环境下的使用需求做了系统性优化,依托高效推理、多模态理解与复杂指令执行能力,更好地完成真实世界复杂任务。
这是豆包大模型自2024年5月发布以来首次大版本的跨代升级。据介绍,豆包2.0全面升级了多模态能力,在各类视觉理解任务上均达到世界顶尖水平,视觉推理、感知能力、空间推理与长上下文理解能力表现尤为突出。
例如,面对动态场景,豆包2.0强化了对时间序列与运动感知的理解能力,对“变化、动作、节奏”这类信息的捕捉更为稳定,在工程侧可用性更高。长视频场景中,豆包2.0在大多评测上超越了其他顶尖模型,能作为AI助手完成实时视频流分析、环境感知、主动纠错与情感陪伴,实现从被动问答到主动指导的交互升级,可应用于健身、穿搭等陪伴场景。
此前,豆包视频生成模型Seedance 2.0、豆包图像创作模型Seedream 5.0 Lite已分别在2月12日、2月13日发布,凭借多模态参考、精准可控等亮点,在全球范围内引发关注。
Seedance 2.0让创作过程变得更自然、更高效,也更像真正的“导演”。它支持图像、视频、音频、文本四种模态输入,表达方式更丰富,生成也更可控,可以用一张图定下画面风格,用一个视频指定角色的动作和镜头的变化,再用几秒音频带起节奏氛围;物理规律遵循大幅提升,人物动作自然流畅,物体交互反馈真实;语义理解能力显著增强,动作、表情、运镜、文字内容均可精准执行。
Seedream 5.0 Lite则开始能像人类设计师一样“理解”指令背后的意图,“看懂”不同画面中的规律,并将世界知识应用于图像与文本创作中。它采用多模态理解生成统一架构,随着跨模态理解和推理能力提升,可通过简短、模糊的文本和图像输入主动推测用户意图,同时,模型在主体一致性、图文对齐等生成方面的表现也显著进步;内置覆盖科技与人文领域的多个垂类行业知识库,其生成结果更符合物理规律,信息可视化能力也大幅提升;首次引入实时检索增强能力,可通过联网检索,获取最新的知识和资讯,更精准地回应具有时效性的创作需求,尤其适合资讯海报生成等场景。
随着Agent时代到来,大模型将在现实世界发挥更大作用。值得一提的是,豆包2.0还进一步降低了推理成本。其模型效果与业界顶尖大模型相当,但token(词元)定价降低了约一个数量级。在现实世界的复杂任务中,由于大规模推理与长链路生成将消耗大量token,这一成本优势将显得更为关键。

网友评论