郑洪坤:用大数据探究基因奥秘

郑洪坤在查看数据分析结果

科学精神在基层

点击进入“百迈客云”官方网站,你可以看到中国大豆数据中心、芸薹属植物基因组数据库。此外,在其公共数据库里,你还可以访问8个主题的大数据库,包含了11PB公共数据、373万样本。

打造基因大数据云平台,是北京百迈客生物科技有限公司(以下简称百迈客)创始人郑洪坤手头正在做的一件大事。“我们的目标是将这一平台建成全球性基因大数据管理平台。”郑洪坤8月20日在接受科技日报记者采访时表示。

瞄准需求,简化基因组测序技术

2002年,大学毕业的郑洪坤进入深圳华大基因科技有限公司(以下简称华大基因),从事生物信息技术研发工作。在华大基因工作的数年间,他迅速从一名技术员成长为项目负责人、营销总监、副总裁。

尽管做出了令旁人艳羡的工作业绩,但郑洪坤并没有选择安于现状。2009年,他带领十几人的团队,在北京市顺义区成立了百迈客。

“一方面,我感觉在原公司往上发展的空间有限;另一方面,经过市场历练,我逐渐意识到用大数据对基因测序结果进行挖掘分析有着广阔的市场前景,而这也是当时我所在的公司不太重视的方向。”郑洪坤在回忆创业初衷时说。

过去,科研人员需要通过标记检测技术和全基因组测序技术来开展基因研究工作。由此导致的低效率和高成本,是客户经常向郑洪坤抱怨的内容。

有没有可能,通过大数据分析,选取一些有代表性的基因片段进行检测以达到全基因组测序的效果呢?带着这样的设想,郑洪坤带领团队开始研发简化基因组检测技术。

如何准确筛选出基因组中的“关键少数”,无疑是整个研发过程中最重要的一环。“利用一些公开物种的基因组序列信息,通过软件预测其中的‘关键少数’并在筛选后进行测序,我们研制出了SLAF简化基因检测技术。利用该技术我国科研人员获得了大量的原创性成果,其准确性得到广泛的认可。”郑洪坤介绍。

简化基因组检测技术“疗效”如何?郑洪坤以人类的基因组为例说道,人类的全基因组很大,包含了30亿个碱基,采用他们研发的技术,取其中1%的量就可以达到全基因组测序的效果,使成本大幅降低。

通过大幅减少测序工作量,提高研发效率、降低成本的SLAF简化基因检测技术很快就得到了市场认可。郑洪坤介绍,目前百迈客已与中国科学院、中国农科院、国家海洋研究所等500多家科研院所建立了长期的合作关系。

面向未来,搭建基因云平台

大数据、云计算……这些时下的热门技术,一旦和基因研究相碰撞,会擦出怎样的火花?对信息技术有着浓厚兴趣的的郑洪坤,一直有着将生物技术和信息技术深度结合的念头。

“高考时,我的第一志愿就是信息类专业,后来被调剂到了生物信息工程专业。但无论是大学期间,还是工作后,我都没有放下对计算机相关技术的钻研。”郑洪坤说。

正是基于对信息技术的敏感,郑洪坤意识到在庞大的基因数据库里,潜藏着亟待深入挖掘的“富矿”。而在基因检测领域,对海量数据的分析挖掘长期以来都是一个薄弱环节。

高通量基因测序得到的结果是一堆庞大数据,而这些数据到底意味着什么,大家其实并不明白。“因此,我们希望能搭建一个供科研人员分析、学习、分享的基因大数据云计算平台,把数据里的信息提炼成有用的‘知识’。”郑洪坤指出,所谓“知识”,是指基因片段的作用机制,比如某个基因会导致某种疾病等。

说干就干。郑洪坤带领团队,用3年的时间,完成了生物云平台的搭建,为医学健康、农业育种等领域的两万名用户,提供了基因数据存储、分析、共享等服务。

搭建生物云平台,涉及大数据存储、云计算、生物信息、软件开发等多个交叉学科,研发难度之大可想而知。郑洪坤介绍,在他们构建的生物云平台的生态圈里,不仅科研人员能够进行基因数据的分析存储,从事生物信息技术的研发人员也可以把自己开发的应用软件上传到云端,而用户数据的不断累计,也让云计算平台具有了自我迭代的能力。

“未来,我们期待通过云平台,发现更多基因数据背后的‘知识’,让基因技术更好地造福人类。”郑洪坤由衷地说道。

加载更多>>
责任编辑:符雪苑
专题 更多>>