数据“可用不可见”?让数据安全共享流通的清华技术来了

2020-12-14 20:37:50 来源: 科技日报 作者: 操秀英

科技日报记者 操秀英

对于清华大学交叉信息研究院长聘副教授徐葳来说,成为华控清交信息科技(北京)有限公司(“华控清交”)首席科学家,是“误打误撞”。

从单纯想解决科研过程中的数据获取问题,发一篇不错的论文,到成立华控清交,基于图灵奖获得者姚期智教授40年前的理论成果,自主开发一系列基于多方安全计算的隐私计算技术,实现数据“可用不可见”,为我国人工智能和大数据产业发展提供保障,这是一个“从0到1”的原创成果转化为技术、产业的案例,这也是以清华控股为代表的高校企业探索科技成果转化新路径的故事。

即便是发论文也要发“有用”的论文

这个故事要从徐葳加入清华大学交叉信息研究院说起。

作为一个标准“学霸”,徐葳本科时从清华大学到宾夕法尼亚大学,从加州大学伯克利计算机科学博士毕业后加入谷歌公司。“做了几年的工程师,但我的理想还是做学术,所以接到姚老师的邀请,我毫不犹豫地回到了清华。”徐葳说,他开始做大数据方面的研究。

聚集不同学科、不同背景的人才,正是姚期智成立交叉信息研究院的初衷。

“做研究过程中我发现最大的难题是我拿不到数据。”徐葳回忆,“经常也有人打电话到我们实验室,说想委托我们去做个什么事情,但说到最后的结果基本都是让我去他们公司使用数据,而不愿意把数据拷给我们。”

徐葳说他完全理解这种做法。近年来随着大数据技术的发展和应用,有关数据泄露的风险和讨论也层出不穷。他印象比较深的是,几年前,一家名叫Cambridge Analytica剑桥分析的数据分析公司,通过脸书平台开发的性格小测试程序,获取了5000+万的用户数据,也给脸书造成了巨大的损失。

徐葳开始想尝试解决这一问题。“最开始的想法仅仅是能尽快发一篇论文。”徐葳坦言,“但我们学院和姚老师的要求是,需要发表有影响力的论文,所以我们开始朝着把姚老师四十年前的理论成果变成可用的方向努力。”

姚期智于1982年通过提出和解答著名的百万富翁问题,并随后用数学理论证明了凡是可以在数据明文上进行的计算,理论上都可以在密文上直接进行计算,并得出与明文计算完全一致的结果,从而创立了“多方安全计算”(Secure Multi-Party Computation,简称MPC)的理论框架。在密码学领域,这个问题可以描述成,“一组互不信任的参与方之间在保护隐私信息以及没有可信第三方的前提下的协同计算问题”。

“当然,天下没有‘免费的午餐’,对于相同的计算过程密文计算要比明文计算付出几个数量级的算力,这使得多方安全计算在三十多年前仅有理论上的可行性。”徐葳说,三十多年前对数据使用的需求并没有那么迫切,而且也很少有人会去琢磨这个理论怎么应用。“这就是在清华、在高校做研究的好处,只有一个方向,不知道能不能成功,你也可以放心大胆去探索。”徐葳感叹。

科学家意识到自己不适合做企业家,就是个进步

“这一探索,就一头扎进去了。”徐葳说。用两三年时间,徐葳带领他的学生们,通过工程实现,将多方安全计算的效率大大提升。

“这个时候已经能用了,更重要的是,我们知道这个技术方向走得通,并且知道怎么继续优化。” 徐葳说,他清楚意识到,接下来工程化的过程需要大量人力物力财力,且并非高校老师们举一己之力所能完成。“而且,我肯定不是个能成为企业家的人。”

此时,徐葳并没有成立企业,进行产业化的清晰想法。“我们当时想得最多的还只是这个研究能解决科研人员的数据使用问题。”

直到他与前高盛全球合伙人张旭东的一次谈话。“我和张总有一次聊天,我向他介绍了我们正在做的一些课题,其他的他都没说啥,但认为密文计算这个事情可以做大。”徐葳回忆,“都说数据是重要的资产,但它的价值如何体现?张总敏锐意识到,我们的技术可以解决这一问题。”

早在2017年,习近平总书记强调,“互联网经济时代,数据是新的生产要素,是基础性资源和战略性资源,也是重要生产力”“要构建以数据为关键要素的数字经济”。

2020年3月30日,中共中央和国务院发布的《关于构建更加完善的要素市场化配置体制机制的意见》,明确把数据列为生产要素,并提出了加快培育数据要素市场的三点要求:推进政府数据开放共享、提升社会数据资源价值、加强数据资源整合和安全保护。

2020年5月11日,《中共中央、国务院关于新时代加快完善社会主义市场经济体制的意见》中明确提出:“加快培育发展数据要素市场,建立数据资源清单管理机制,完善数据权属界定、开放共享、交易流通等标准和措施,发挥社会数据资源价值。推进数字政府建设,加强数据有序共享,依法保护个人信息。”

双方一拍即合。在清华控股有限公司的支持下,华控清交于2018年6月成立。张旭东任CEO,徐葳成为首席科学家。

徐葳最大的感触是,科技成果转化,一定要让合适的人去做专业的事情。“现在越来越多科学家意识到自己不适合做企业家,这就是个很大的进步。我在做这件事情中也逐步明白,很多工程上的细节也不应该是我要去管的,通过设立成果转化的公司,我们可以引进更加专业的团队来完善这些细节。这样我的精力就可以一直放在解决基础的、前沿的问题上。”

产品已在金融和政务领域有多个案例应用

“目前我们已经让密文计算的效率和规模接近于明文大数据系统,我们原本计划将速度进一步提升、系统更优化之后再推向市场,但很多用户得知我们的成果后主动找上门来,希望产品尽快上市,目前我们的产品已经有多家金融和政府部门用户,未来产品一定会随着技术的进一步优化和创新,持续迭代更新。”

简单来讲,华控清交的产品打消了数据拥有方有关数据泄露和“用一次就失去价值”的顾虑,真正实现数据“可用不可见”,让数据流通起来,变成资产。比如,A机构想要某些用户群体的数据画像,但仅凭该群体在本机构的记录,得出的画像比较粗略,如果加上B机构、C机构的数据,画像就更为精准。“以前别的机构不愿意分享这些数据,华控清交的产品可以实现,在不把数据泄露给任何人的情况下,让程序在B、C的密文数据上‘跑’一圈,让A、B、C的数据结合起来得到这个群体的画像。既得到精准画像,又保护了隐私。”徐葳形象地介绍。

华控清交研发的多方安全计算技术和产品是原创性的、具有自主知识产权的、计算机和数据科学的底层技术和基础性产品,将直接解决数据互联、融合、共享和流通中的数据归属和数据隐私保护问题,从而可以有效地形成社会化的数据大闭环,真正地实现把数据转化成社会化生产要素,为国家的数据要素治理、数据生态建设、数据流通市场的建设发展铺设道路,为国家大数据和人工智能战略插上翅膀;同时将强有力地赋能和推动全中国乃至国际数据共享生态的发展。

正因此,华控清交也得到资本方的青睐。“目前我们已完成两轮融资,其中,港交所为了投资我们,专门在内地成立了一家全资子公司。”徐葳说。

“但科技成果产业化的过程千头万绪,并不是一件容易的事。术业有专攻,清华控股多年来在科技成果转化领域有许多成功案例,也有一支专业的团队。他们主动对接学校院系,和老师们一起设计商业模式,寻找合适的职业经理人,帮助对接资本等各类资源,共同推进科技成果落地,彼此间很信任,沟通也顺畅。”在徐葳这样的清华老师看来,清华控股更像是科研人员成果转化的“专业经纪人”。

据悉,华控清交是清华控股探索推进清华科技成果转化新模式的一个典型案例。清华控股作为清华大学服务社会的重要平台,一直致力于推动清华大学科技成果转化和产业化,助力社会创新发展,已累计转化56项国家级重大科技成果,实现60多项重大技术突破,推动实施3项国家科技重大专项的项目转化,取得了一批具有国际影响力的标志性成就。

责任编辑: 冷媚