科技日报记者 杨雪
6月11日,字节跳动旗下火山引擎发布豆包大模型1.6、视频生成模型Seedance1.0 pro等新模型,并升级了Agent(智能体)开发平台等AI云原生服务。豆包1.6模型披露多项权威测评成绩,在复杂推理、竞赛级数学、多轮对话和指令遵循等测试集上,其表现已跻身全球前列。
火山引擎总裁谭待介绍,豆包1.6系列模型支持多模态理解和图形界面操作,能够理解和处理真实世界问题。此前,豆包1.5的多模态能力在60个公开评测基准中取得38项最佳成绩,已广泛应用在电商识图、自动驾驶数据标注、门店巡检等场景。图形界面操作能力让豆包1.6进一步具备“行动力”——可自动操作浏览器完成酒店预订,识别购物小票并整理成Excel表格等任务。
豆包视频生成模型Seedance1.0 pro支持文字与图片输入,可生成多镜头无缝切换的1080P高品质视频,主体运动稳定性与画面自然度较高。在国际知名评测榜单Artificial Analysis上,Seedance在文生视频、图生视频两项任务上均排名首位。
目前,豆包大模型已涵盖多模态、视频、图像、语音、音乐等模型品类,全方位推进智能提升和应用落地。数据显示,豆包大模型日均tokens(数据处理基本单元)使用量超过16.4万亿,较去年5月首次发布时增长137倍。另据全球权威调研机构IDC报告,豆包大模型在中国公有云大模型市场份额排名第一,占比高达46.4%。
谭待表示,深度思考、多模态和工具调用等模型能力提升,是构建Agent的关键要素。同时,由于Agent每次执行任务都会消耗大量tokens,模型使用成本也要降下来,才能推动Agent的规模化应用。
通过技术和商业的双重创新,豆包1.6首创按“输入长度”区间定价,深度思考、多模态能力与基础语言模型统一价格。目前,豆包1.6的综合成本只有豆包1.5深度思考模型的三分之一。
字节跳动技术副总裁洪定坤认为,随着模型能力的持续进步,AI有机会成为调度者,通过调用不同的Agent和工具,更大幅度地降低开发门槛,提升开发效率。洪定坤表示,豆包1.6模型在编程能力上进步很大,已经接入字节的AI编程产品TRAE内测,新模型将很快推送给用户。
谭待认为,技术主体经历了三个时代变化,AI时代会推动开发范式与技术架构全面升级。“PC时代主体是Web,移动时代是App,AI时代则是Agent。Agent能够自主感知、规划和反思,完成复杂任务。从被动工具转变为主动执行者。豆包大模型和AI云原生将持续迭代,助力企业构建和大规模应用Agent。”谭待说。