视觉理解模型定价进入“厘时代” 加速多模态应用落地

2024-12-20 23:03:30 来源: 科技日报 点击数:

科技日报记者 杨雪

近日,字节跳动在火山引擎原动力大会上发布豆包视觉理解模型,为企业提供多模态大模型能力。豆包视觉理解模型千tokens(词元)输入价格仅为3厘,一元钱就可处理284张720P的图片,比行业价格便宜85%,以更低成本推动AI技术普惠和应用发展。

研究显示,人类接收的信息超过80%来自视觉。视觉理解将极大地拓展大模型的能力边界,同时也会降低人们与大模型交互的门槛。

火山引擎总裁谭待介绍,豆包视觉理解模型通过算法、工程等技术创新,大幅优化了使用成本。模型不仅能精准识别视觉内容,还具备出色的理解和推理能力,可根据图像信息进行复杂的逻辑计算,完成分析图表、处理代码、解答学科问题等任务。

此前,豆包视觉理解模型已经接入豆包App和PC端产品。豆包战略研究负责人周昊表示,为了让用户的输入更快更方便,豆包非常注重多模态的输入和打磨,包括语音、视觉等能力,这些模型都已通过火山引擎开放给企业客户。

数据显示,截至12月中旬,豆包通用模型的日均tokens使用量已超过4万亿,较七个月前首次发布时增长了33倍。大模型应用正在向各行各业加速渗透。

据悉,豆包大模型已经与八成主流汽车品牌合作,并接入多家手机、PC等智能终端,覆盖终端设备约3亿台,来自智能终端的豆包大模型调用量在半年时间内增长100倍。

“豆包大模型调用量的高速增长,是市场快速发展的一个缩影。大模型在各种场景中都在全面开花,尤其是和企业生产力相关的场景。”谭待介绍,最近3个月,豆包大模型在信息处理场景的调用量增长了39倍,客服与销售场景增长16倍,硬件终端场景增长13倍,AI工具场景增长9倍,学习教育等场景也有大幅增长。

谭待认为,豆包大模型市场份额的暴发,得益于火山引擎“更强模型、更低成本、更易落地”的发展理念,让每家企业都能用得起、用得好。

企业要落地好AI,不仅需要大模型,还需要有平台能支持他们做好AI应用的开发。在这方面,火山引擎提供了火山方舟、扣子和Hiagent三款平台产品。其中,火山方舟平台提供了全栈MaaS(模型即服务)能力,支持模型精调、推理、评测等全方位功能,也提供了丰富的插件能力、扩展API(应用程序接口)和高代码解决方案。

据介绍,为帮助企业构建好自身的AI能力中心,高效开发AI应用,火山引擎升级了火山方舟、扣子和HiAgent。其中,火山方舟发布了大模型记忆方案,并推出prefix cache和session cache API,降低延迟和成本。火山方舟还带来全域AI搜索,具备场景化搜索推荐一体化、企业私域信息整合等服务。

责任编辑:李梦一

抱歉,您使用的浏览器版本过低或开启了浏览器兼容模式,这会影响您正常浏览本网页

您可以进行以下操作:

1.将浏览器切换回极速模式

2.点击下面图标升级或更换您的浏览器

3.暂不升级,继续浏览

继续浏览