科技日报记者 张梦然
深度思维(DeepMind)公司28日在《自然》杂志发表论文,展现了其大模型“阿尔法基因组”(AlphaGenome)解码基因的“超能力”。该模型不仅能预测长达100万碱基对的DNA序列功能,还能预测DNA序列变异如何影响不同生物过程。其将推动理解遗传疾病、改进基因检测,为开发新疗法提供信息。

基因变异会影响生物学过程并可能引发疾病,但理解DNA序列变化如何影响其功能是个难题。大多数变化(约98%)发生于非编码区域(不编码蛋白质但影响基因表达的DNA区域),使得预测其影响变得困难。解决这一问题需要计算模型。现有方法在序列长度和预测强度上必须作出取舍,但去年6月推出的深度学习模型“阿尔法基因组”,宣称能在长DNA序列中作出高分辨率预测。
此次,深度思维团队详细展示了“阿尔法基因组”的能力。这一模型用人类和小鼠基因组训练来学习DNA序列如何影响不同生物学过程。“阿尔法基因组”可即时预测5930种人类或1128种小鼠遗传信号,这些信号与特定功能有关,如基因表达、剪接(基因组的切割与重组)和蛋白质修饰。在26项变异效果预测评估中,其结果在25项中与现有顶尖模型表现相当或更优。研究团队指出,该模型优势在于能同时对多种遗传信号和生物学结果进行多重预测。
研究团队表示,进一步改进这一工具或能拓展其应用,例如增加涵盖的物种,或拓展模型能识别的非编码序列范围。他们总结说,“阿尔法基因组”有望深化对DNA序列变异引发的复杂生物学结果的理解。
先前的模型必须在序列长度和分辨率之间作出权衡,这制约了它们准确预测的范围。而深度思维的技术进步,在不必显著增加训练资源的前提下,解决了这一限制。据稍早时间报道称,训练单个“阿尔法基因组”模型约耗时4小时。
总编辑圈点
AlphaGenome的出现标志着基因组功能预测迈入“长序列高精度”阶段。在应用层面,该模型为复杂疾病的遗传机制研究提供了“计算显微镜”,使得解读百万碱基尺度的结构变异与非编码突变成为可能。未来,从罕见病基因检测的临床解读,到合成生物学中的调控元件设计,甚至表观药物研发,都可能变得与以前大不相同。而我们,有幸看到了基因组“暗物质”被真正照亮的曙光。