科技日报记者 操秀英
5月17日,东壁科技数据公司(简称“东壁科技数据”)携手上海财经大学数字经济学院于温州举行的2025数据安全发展大会上,正式发布“全球医学顶尖科研成果高质量数据集索引(2019–2024)”。
该数据集基于东壁科技数据自主研发的Dongbi Index(东壁指数)顶级期刊评价体系,从海量医学文献中精准提取高价值科研数据,构建覆盖基础研究、医疗器械、生物医药与人工智能四大领域的多维数据框架,旨在为全球医学研究趋势研判、政策制定与产业创新提供权威数据支撑。
该数据集索引及报告系国家自然科学基金委专项资助项目。东壁科技数据创始人吴登生表示,为应对医学研究的多维复杂性,团队整合了15项国家战略规划与行业报告,以及国家自然科学基金委员会与国家卫健委发布的科研指引,创新设计了基础研究、医疗器械、生物医药、人工智能四个一级分类框架,并细化为19个子类,构建了兼具深度与广度的医学知识图谱。针对非结构化文本解析的挑战,团队开发了“数据融合—知识抽取—质量验证”三层智能引擎,通过融合期刊影响因子、学科分类等结构化信息与论文标题、摘要等文本内容,并结合大模型技术,实现了从文献到结构化医学数据的高效自动提取。
医学领域长期存在数据集质量参差不齐、结构不清、可扩展性差等问题,一定程度上制约了医学数据价值释放。今年1月11日,东壁科技数据发布了由我国机构自主构建的全球学术期刊评价指标体系——Dongbi Index(东壁指数),提出了“种子期刊引文追溯+引文网络层级结构分级”模型。
此次发布的“全球医学顶尖科研成果高质量数据集索引(2019—2024)”同样基于这一模型,以《自然》《科学》《美国科学院院刊》等三本期刊为种子,通过文献主题建模初筛医学论文,借助多轮引文迭代追踪,最终锁定34本医学领域顶尖期刊。这些期刊涵盖肿瘤学、心血管、免疫学等10大学科,80%以上影响因子超过10。数据显示,2019—2024年间,这34本期刊累计发表论文10.6万余篇,年均发文量超1.6万篇,为高质量数据挖掘奠定了坚实基础。
本次发布的报告还基于数据集来源文献,深入分析了热点研究主题与国际研究态势,为科研院所、政府部门及产业界持续把握医学前沿、制定决策与创新实践提供参考。
在中国医学数据库的建设上,该报告也基于热点主题、国家使用态势及中美细分领域和方法学差异等方面提供了多维度的启示。
报告提出,一方面,应构建以多组学、多中心临床试验及流行病学调查为基础的复合型数据库,保障数据的高质量与多样性。另一方面,也应在数据库设计中预置完善的临床干预、长期随访和综合指标体系,鼓励开放式数据共享与跨学科联合分析等,提升数据的挖掘价值与科研转化效率。此外,还要主动融入并推动多国、多机构间的数据互认与标准统一,建立符合国际惯例的元数据描述规范和数据交换标准,促进国内外资源共享与协同创新。
“安全合规与隐私保护是开展大规模数据分析的前提。”吴登生强调,可以通过差分隐私、同态加密等技术手段来确保研究者不泄露个人隐私,助力全球医学数据的知识转化。