豆包大模型再造爆款:抖音“AI绘本特效”播放超11亿

2024-10-11 11:11:38 来源: 科技日报 点击数:

科技日报记者 杨雪

国庆期间,抖音上一款名为“AI治愈绘本”的特效凭借温暖优美的画风和高还原度吸引了数百万用户投稿。采用动态绘本的拟物玩法,“AI治愈绘本”特效首次使用了3D立体翻书的形式,巧妙地将首张用户图作为书皮呈现,玩法新颖有趣。基于该特效投稿的“成为绘本里的温暖主角”话题播放量超过11亿。

据了解,“AI治愈绘本”特效底层使用了字节跳动豆包大模型的图像生成能力,技术团队通过多项自研算法,保证了模型有更好的风格响应度、画面美观度,让风格化效果更富有表现力,并且更大程度还原了人物面部特征、服装款式、颜色、配饰等主体特征,在“美且像”的维度上取得了良好的效果。

为呈现更好的交互方式,技术团队还使用了自研的主体抹除、扩图能力,对风格化结果图进行后处理,使得多张结果图可以在端上进行切换。上述过程中应用到的IP保持技术RealCustom以及 AI扩图和AI消除技术ByteEdit。

RealCustom是一种个性化定制技术即IP保持,对于任意开放域物体或人物IP均可实现无需微调的实时定制化生成,在AI绘本中主要起到保持输入图片特征的作用。不同于以往风格化特效中用的图片特征保持方法,RealCustom不仅能够还原图片的细节特征,还具有对图片的抽象语义理解,从而可以根据文本输入自适应地做出变化,并生成更加和谐的效果。为了更好地还原主体外观,RealCustom使用了多个层次的图片信息融合。为了让视觉信息跟文本信息能更好融合,RealCustom通过自适应模块学习了视觉条件与文本条件之间的对齐能力,并根据不同时刻的状态准确地推导出相应的视觉条件。从而能对用户多种多样的输入做出自适应的处理,在保证好看的风格化效果的同时,稳定地保持图片特征。

豆包大模型是字节跳动自研的大语言模型,通过字节跳动旗下云服务平台火山引擎面向企业开放服务。目前豆包模型家族已全面覆盖语言、语音、图像、视频等全模态,全方位满足不同行业和领域的业务场景需求。

(字节跳动供图)

责任编辑:何沛苁

抱歉,您使用的浏览器版本过低或开启了浏览器兼容模式,这会影响您正常浏览本网页

您可以进行以下操作:

1.将浏览器切换回极速模式

2.点击下面图标升级或更换您的浏览器

3.暂不升级,继续浏览

继续浏览