科技日报记者 江耘
7月11日至13日,第三届全国统计与数据科学联合会议在浙江省杭州市召开。会议期间,中国科学院院士、清华大学统计与数据科学系讲席教授陈松蹊接受科技日报记者专访,就统计与数据科学领域的实际应用、人才培养、国际交流展开深入解读。
“说到统计,可能人们首先联想到的是统计部门。早在战国时期,商鞅就强调‘审数’的重要性,提出变法图强必须掌握的储粮、人口、牲畜等国力统计数据。”陈松蹊介绍,实际上,统计学不仅用于政府统计,还广泛应用于商业、医学、工程、社会科学等领域,是关于数据的科学,以数据为研究对象,研究数据的采集、分析、推理等,数据科学即统计学加应用场景。
记者了解到,本届联合会议邀请了21个国家和地区的专家学者,完成600多个学术报告。其中,将近四分之一的学术报告,主题与机器学习、人工智能相关。近年来,人工智能正在走进千行百业,语言大模型、多模态模型、智能体和具身智能等领域不断出现突破性创新,推动人工智能迈向通用智能初始阶段。
由中国信通院发布的《人工智能发展报告(2024年)》显示,人工智能同样面临算法模型可解释性不足、框架安全漏洞、数据标注不规范等挑战。比如在算法模型方面,深度神经网络存在非线性、大规模特点,导致在理论上难以证明其行为,同时因“模型幻觉”造成生成内容不可信。
陈松蹊认为,现阶段,有关人工智能的具体应用,还比较偏工程,即优先确保这一算法、模型可工作运行,对背后的机理不够深究。尤其在医学、建筑工程等领域,对精度、安全性要求很高,应当确保算法模型的稳定性、可靠性。
他介绍,数据是随机的,模型自身也在变化,考虑数据的不确定性,在超高维参数的设定下,从变化中找到不变的内容,进行归纳、解释,得到稳定的、可解释的算法,在这方面统计学可以作出贡献,他的团队正在做相关研究。
在数据智能时代,海量复杂的数据成为推动各行各业发展的关键要素,学界对统计学人才培养问题也越发重视。“统计与数据科学研究恰逢其时。”陈松蹊说,但这一专业存在供不应求的问题,需要提升高校的培养能力,为业界输送人才的同时,还要让相当一部分人才愿意留在高校,培养更多的统计学家、数据分析师。
他分析道,这一学科专业自身特性,决定其培养的人才重数理基础,相较于工程背景的人才,较少面临“35岁问题”。诚然,现如今的算法软件功能强大,但人类不能将思考过程“承包”给人工智能,仍然需要明确问题、掌握程序的运行,具备对人工智能的纠错能力,在这方面,统计学科将发挥重要作用。
自2023年以来,全国统计与数据科学联合会议已连续举办三届,逐步形成品牌效应。作为会议组委会指导委员会委员,陈松蹊感触颇多:“从2011年统计学成为一级学科以来,全国统计科学研究快速发展,很快缩短了同国际科学前沿的距离,与国际的交流也越来越密切。根据对国际顶级统计期刊发表数据的多维度测算,中国作者所占份额已位居世界第二。”
他表示,当前的“去全球化”现象,给国际学术交流形成一定阻力。但本次参会的1800多位学者,仍有15%来自国外。国内外学者充分展示成果,进行学术交流,为我国统计与数据科学发展,乃至在世界范围内引领这一学科发展,打下了很好的基础。未来,统计与数据科学组委会还将加强与工业界的联系,邀请更多企业参与,促进学科和应用的创新融合。