科技日报记者 崔爽
来自Google的Gemini 3模型掀起新一轮的多模态技术浪潮,“读图”与“长文本理解”成为衡量AI智商的重要标准。然而,作为连接图像与文本的“桥梁”,传统的CLIP(对比语言-图像预训练)模型在面对复杂、多细节的长文本描述时却常出现一个问题:描述越丰富,图文匹配反而越差。
近日,中国联通数据科学与人工智能研究院在这一领域取得重要进展,提出全新视觉语言对齐框架HiMo-CLIP,通过创新性建模语义层级与单调性,在不修改编码器架构的前提下,实现了长文本、短文本场景的全维度性能突破。相关论文已入选国际权威人工智能会议AAAI 2026 Oral。
据介绍,传统CLIP模型在处理文本时,往往把句子当作“一锅粥”,不能在复杂的上下文中捕捉到最具区分度的特征。这将导致两个典型问题:语义层级和语义单调性的缺失。
为了让AI“越来越懂”,HiMo-CLIP提出两个核心组件,即层次化解构(HiDe)、单调性感知对比损失(MoLo),让模型具备了“分层理解”和“越详细越匹配”的能力。
HiMo-CLIP的提出标志着多模态学习从“扁平化”向“结构化”的重要转变。正如论文中所说:“对齐跨模态表示的多个语义抽象层次,对符合认知的视觉-语言理解至关重要。”这一突破不仅提升了长文本检索性能,更为AI系统理解人类语言的丰富层次结构铺平了道路,让机器真正“看懂”我们描述的世界。
据了解,中国联通数据科学与人工智能研究院将持续深化多模态对齐技术的创新与应用,攻克多模态理解中复杂语义结构建模的关键环节,让具备认知一致性的AI模型在智能客服、医疗影像分析等更多场景中发挥核心价值,推动多模态智能技术向更智能、更可靠、更贴近人类认知的方向发展。

网友评论