看专利数据里的高质量数据集建设密码

2026-06-30 22:45:12 来源: 科技日报 点击数:

科技日报记者 刘垠

当下,人工智能的“燃料”够用吗?

国家数据局发布的《关于推进行业高质量数据集建设行动的实施方案》指出,行业高质量数据集是推动“人工智能+”赋能千行百业,实现产业落地的基础性、关键性资源。国务院《关于深入实施“人工智能+”行动的意见》将“人工智能+科学技术”列为六大重点行动之首。两份文件释放出一个信号:高质量数据是AI赋能科学研究的关键基础,而高质量行业数据供给不足,成为制约产业落地的瓶颈。

赛智产业研究院人工智能研究所所长安赟指出,人工智能正在从通用对话和内容生成向智能体、科学智能、具身智能和世界模型等方向演进,对行业数据的专业性、结构性、场景性和可验证性提出更高要求。

在众多数据资源中,专利数据的价值长期被低估。北京八月瓜科技有限公司董事长李长青介绍,专利兼具技术属性与法律属性,核心在于“公开换保护”,要求发明人充分披露技术细节,比如医药领域的化合物结构式与制备方法、新材料领域的组分与合成工艺、高端芯片制造领域的薄膜沉积与光刻技术方案等,以换取法定期限内的独占权。

世界知识产权组织2025年底发布的《世界知识产权指标》报告显示,2024年全球专利申请量为372.5万件,覆盖大多数技术创新信息。

“AI可信语料核心在于来源、质量、应用三重可信,知识产权数据正是天然优质语料,堪称科技创新‘浓缩铀’,是训练专业领域大模型最好的‘燃料’”。北京八月瓜科技有限公司联席CEO、合伙人孙鹏说。

然而调研发现,大量企业尚未充分挖掘专利在促进技术研发和支撑国际竞争中的巨大价值,对其在研发导航、风险规避及全球市场布局中的战略作用认识不足;专利文本法律术语多,研发人员阅读困难;公共检索平台虽免费开放,但难以满足批量分析和趋势研判的需求。

中国信息通信研究院副院长魏亮曾指出,不同单位数据集格式、标注规范相互割裂,难以共享复用。

如何把海量专利数据变成真正可用的AI“燃料”?八月瓜科技提供了观察样本。这家国家级专精特新“小巨人”企业依托国家知识产权局全量专利数据,构建起汇集专利、诉讼、商标、文献、工商等多类数据、总规模逾26亿的数据体系。

将原始专利转化为高质量数据集,是一个高门槛的系统工程。孙鹏介绍,公司采取垂直领域聚焦策略,重点布局新材料、生物医药、化学化工三大行业,每个细分领域均配备专业团队深度处理。数据来源覆盖全球178个国家和地区的超2亿专利数据,标注过程采用“机器+专家”两级模式,确保上下文理解准确,避免因误标导致模型训练失效。

据测算,单篇专利从原始文件到高质量标注数据集的全流程处理成本投入巨大,涵盖数据清洗、去重、无效与失效专利筛除、多维度标引、结构化处理及知识图谱构建等环节。正是这种高投入构筑了专业壁垒。

目前,八月瓜已形成“多语言专利文本平行语料库”和“外观专利图文库”两项数据集成果,入选北京市行业高质量数据集典型案例,已累计服务超10000家科技企业。

在资本决策场景中,专利数据正发挥“预警雷达”功能。李长青透露,曾有某制造企业因未做专利前置排查,产品投产后被判赔偿数亿元,凸显了数据审查在决策支撑中的关键价值。

从技术研发到资本决策,从风险规避到竞争态势研判,专利数据库与智能化分析平台正帮助企业将碎片化的专利信息转化为可执行的决策依据——这正是数据从“可用”走向“好用”的价值跃迁。

面对AI for Science浪潮,美国、英国、欧洲、日本等发达国家和地区迅速将其纳入国家战略,视为新一轮科技革命的核心竞争场域。全球围绕高质量专业数据的竞争与合作,已从算力层面延伸至数据基础设施的底层布局。值得一提的是,北京正加快推动科学高质量数据集建设,积极抢占这一战略制高点。

李长青表示,高质量专业数据的重要性正日益凸显,成为AI竞争中与算力同等关键的要素。他透露,八月瓜下一步将打造“专利数据+期刊论文数据”融合图谱,实现两种核心科技数据的智能融合,为AI for Science提供更深层次的“燃料”支撑,深度参与国家高质量数据集建设,推动科技数据从“可用”走向“好用”。

责任编辑:陈可轩
网友评论
最热评论
没有更多评论了

抱歉,您使用的浏览器版本过低或开启了浏览器兼容模式,这会影响您正常浏览本网页

您可以进行以下操作:

1.将浏览器切换回极速模式

2.点击下面图标升级或更换您的浏览器

3.暂不升级,继续浏览

继续浏览