科技日报记者 陆成宽
在成都飞往拉萨的航班上,透过飞机舷窗俯瞰,青藏高原雪峰如海,冰川如练。这片250万平方公里的土地,既是世人眼中的“世界屋脊”,更是孕育了长江、黄河、雅鲁藏布江等10多条大江大河的“亚洲水塔”。
然而,要算清这座水塔的水量账,过去几乎是不可能的事。“当地氧气稀薄、温度低、风雪大、辐射强,导致普通监测仪器故障率高、寿命短、维护也极为困难。”中国科学院青藏高原研究所研究员李新说,“就算仪器扛住了高寒低温的恶劣环境,数据也很难传回来。”
如今,这个局面正在被改变。在北京林萃路,一个由十几名研究员领衔的“数据工厂”——国家青藏高原科学数据中心(以下简称“中心”),正在为“亚洲水塔”打造可靠的数字底座。截至今年5月,中心发布的数据集总数达8585个,累计下载量达6PB。
攻克数据关卡
“青藏高原的每一组数据,都来之不易。”中心主任李新说。
高原上,冬天零下二三十度是家常便饭,普通监测设备撑不过一个冬天就“罢工”。“有时候辛辛苦苦把设备架好,第二年开春去看,已经被风吹雪掩,无法使用了。”李新说。
即便设备扛住了,青藏高原近80%的地区没有通讯网络覆盖,4G信号更是奢望,数据存在存储卡里,就是传不出来。过去,科考队只能一次次进山,靠人工下载取回数据。“雅鲁藏布江大峡谷就是典型的‘通信盲区’,高山深谷人力难以到达,很难采集到有效数据并传输到中心。”李新感慨道。
为解决这些难题,中心自主研发了适应高寒极端环境的卫星物联网观测终端,还研制出无人机高速中继系统、无人机载径流监测系统、“智能鹰眼”等新装备,硬是在高原上织起了一张“天—空—地”立体监测网。
天基层面,中心整合高分系列卫星、风云系列卫星等国产卫星及国际卫星资源,实现对青藏高原全域的周期性监测;空基层面,运用无人机搭载多种智能载荷,对冰川冻土、雅鲁藏布江大峡谷、拉鲁湿地等重点区域实施高分辨率、高频次观测;地基层面,通过在六大流域24个地面观测站部署中心研发的物联网监测信息系统,持续采集水文、气象、生态等62类关键指标的原位数据,累计接收数据超过20亿条。
此外,中心还建立了覆盖数据全生命周期的动态安全管理机制,为每个数据集赋予全球唯一的DOI“身份证”,实现数据精准溯源。
让数据“活”起来
在做好数据存档的同时,中心还致力于让数据真正“活”起来,释放其科学价值。一组数字足以说明其效果:中心注册用户超过14万,2025年平台数据下载量超过2100TB、页面访问量超过1.65亿次;三分之二的数据完全公开、免注册下载,国际下载占比高达27%……
“第三方测评机构按可查找、可访问、可互操作、可重用原则评估地学领域的数据中心,我们中心多次获得第一。虽然我们的数据量不算大,但下载量和流通速度常年排名靠前。”中国科学院青藏高原研究所研究员、国家青藏高原科学数据中心副主任冯敏告诉记者。
在国家数据中心体系里,中心率先引入同行评审机制。每个数据集不仅要先技术评审,检查完整性、元数据规范性,还要送专家库进行同行评议。
“专家要打开数据、检查方法、评估精度,并给出反馈,这相当于给数据做一次‘学术审稿’。像期刊审稿一样,专家不仅指出问题,更提出建议,帮助数据提交者改进。”冯敏说,依托在线数据库运作系统,观测数据中哪个数值异常、什么时候采集的、谁采集的,都能追溯到。
得益于严格的质量把控,中心的数据产品开始在高水平科学研究中发挥关键作用。以青藏高原湖泊研究为例,依托中心数据产品,科学家对湖泊数量、面积、水量变化有了更精准的把握,支撑了一系列高水平成果的产出;研制的首套中国区域75年长时序近地面气象驱动数据,已成为高原气候变化研究和工程安全评估的关键数据;全球地表太阳辐射数据,为新能源资源评估提供了重要依据。
截至今年4月,对中心表示致谢的论文已超过11000篇,且数量呈快速上升态势。2025年10月,中心申报的“地球大数据创新青藏高原高质量数据集”入选国家数据局发布的“高质量数据集典型案例”,总规模超过600TB。
数据不光支撑科研,还直接服务国家需求和产业发展。“中心发布的数据已应用于川藏铁路建设、雅鲁藏布江下游水电工程、冰湖溃决应对等国家重大工程;同时,还有多家企业依托中心发布的产品,优化了产业布局,比如比亚迪汽车股份有限公司利用中心共享的太阳辐射、植被、社会经济数据进行了大数据分析,助力公司决策。”李新说。
AI赋能地球“管理”
当前,人工智能(AI)赋能千行百业的热潮正席卷而来。在地球科学领域,遥感、地理信息虽已广泛引入AI,但在支撑地球系统预测和决策层面,AI的潜力仍未得到充分释放。“如何让AI真正理解地球系统的复杂过程,依然是一个难题。”李新说。
这正是中心团队选择深入研究的方向。在数据产品研发上,中心已建立起“多源观测+AI智能融合+物理模型同化”的复合生产模式。针对青藏高原复杂的地形、气候环境,中心通过融合多源观测和模型模拟结果,生成了高分辨率气候驱动、冰川湖泊分布与变化等一系列数据产品。其中,中国区域气象要素驱动数据集两套版本累计被浏览31万余次、下载4.4万余次。
“数据产品的价值,最终要看科学家能不能直接拿来用。AI帮我们解决了复杂环境下数据生产的效率问题,但每一个产品背后,都还需要实测数据的校准和专家的把关。”冯敏说。
在此基础上,中心正将目光投向更具挑战性的目标——地球系统的建模与数字孪生。中心团队提出了“AI驱动的青藏高原观测—数据—模型一体化”框架,探索引入多主体强化学习方法,让多个智能体在虚拟环境中模拟推演气温上升、冰川消融、湖泊扩张、人类适应等过程的演变规律,为地球系统预测和灾害预警提供决策支持。
“与通用大语言模型不同,我们更强调在地球系统预测和决策中发挥作用。不仅要预测,更要能评估决策干预的效果;不仅要技术上可行,更要对实际有用。”李新说。
面向未来,中心与中国科学院磐石模型团队、浦江实验室团队等团队交流,探索数据同化、强化学习、因果分析在数字孪生地球中的结合,逐步构建能够模拟和预测高原地球系统变化的数字孪生平台。“我们希望数据不只是记录高原发生了什么,更能为理解高原变化的机制、应对未来的不确定性提供科学依据。”李新说。
从破解“获取难、传输难”到拥抱“AI”,这群在高原上“追数据”的人,正以数据为笔,在雪域高原书写新的可能。

网友评论