科技创新世界潮 | Evo 2模型从“读懂片段”进化到“设计生命”,规模最大生物学AI实现遗传密码建模和设计

2026-03-14 01:45:00 来源: 科技日报 点击数:

科技日报记者 张梦然

国际顶级学术期刊《自然》近期正式发表了一项汇聚人工智能(AI)与生命科学顶尖智慧的里程碑式成果。由美国Arc研究所、英伟达公司,联合斯坦福大学、加州大学伯克利分校及旧金山分校等机构的研究团队,共同发布了迄今为止规模最大、能力最强的生物学基础模型——Evo 2。

这个基于超过十万个物种、9.3万亿个核苷酸训练而成的AI模型,不仅能以前所未有的精度解读从猛犸象到细菌的遗传密码,更具备了主动“阅读”“书写”乃至“设计”基因序列的潜力,标志着AI驱动生物学时代的真正来临。

让AI模型通晓生命之树

理解基因组,如同破译一部由数十亿碱基对写就、没有标点且充满重复段落的天书。

长期以来,科学家们只能聚焦于特定的基因“段落”,凭借经验和假设进行探索,过程漫长且充满盲点。近年来,随着深度学习技术的爆发,特别是Transformer架构的成功,研究人员开始尝试将自然语言处理方法应用于基因组序列,催生了“基因组语言模型”这一新兴领域。

2024年,Arc研究所等团队在《科学》杂志上发布了Evo 1模型。它通过270万个原核生物和噬菌体基因组进行训练,能预测突变效应,甚至设计出功能完整的CRISPR-Cas系统。但Evo 1的视野仍局限于单细胞生物,对于拥有复杂调控网络的真核生物(包括人类、动植物)基因组则无能为力。

Evo 2的诞生,正是为了跨越这道鸿沟,其目标直指一个能够覆盖生命所有领域(细菌、古菌、真核生物、病毒)的通用型大模型。它不再满足于“读懂”某个物种或某类序列,而是要通晓整个生命之树在数十亿年进化中形成的“通用语言”与“语法规则”,其意义堪比自然语言处理中,从特定领域模型到ChatGPT类通用大模型的飞跃。

万亿数据与全新架构是核心

Evo 2的卓越能力,根植于其前所未有的训练规模与革命性的模型架构。团队为其构建了一个堪称数字生命的“宇宙图书馆”——训练数据集“OpenGenome2”。该数据集囊括了超过9.3万亿个核苷酸,来源于超过12.8万个精心整理的完整基因组及宏基因组数据,横跨所有生命领域,数据量是其前代Evo 1的30倍,确保了模型获得的是真正普遍、通用的“基因组语言学”知识。

处理如此浩瀚且复杂的遗传信息,传统架构在计算效率和长程建模上遇到了瓶颈。Evo 2创新性地结合了卷积过滤器与门控机制,实现了对超长序列的高效处理,能够一次性处理长达100万个核苷酸的基因序列。

而支撑这一宏伟训练的,是超过2000颗英伟达H100 GPU提供的澎湃算力。耗时数月的训练,不仅是为了获得更高的预测精度,更是为了让模型通过海量数据学习产生“进化”,从而将AI的“基因组常识”,演变为“进化直觉”。

开启全新应用图景

Evo 2不仅仅是一个理论奇迹,其核心能力“精准预测”和“生成设计”,正在迅速转化为解决现实世界重大挑战的利器。

在精准预测方面,Evo 2展现了强大的零样本和少样本学习能力。测试中,在区分乳腺癌相关基因BRCA1的有害突变与良性多态性时,其预测准确率超过90%。这对于临床上面临的大量“意义未明变异”的解读具有革命性意义,能极大加速基因诊断和个性化医疗的进程。

而在更具变革性的“生成设计”方面,Evo 2从“阅读”基因组进化到了“写作”基因组。团队已利用Evo 2成功设计了多个基因组尺度的序列,包括模拟生殖支原体的简化基因组、人类线粒体基因组以及酵母染色体片段。

更为激动人心的是,在论文正式发表前,团队已使用Evo系列模型设计并合成了功能性的噬菌体(一种攻击细菌的病毒),其中部分设计序列在导入大肠杆菌后,真的产生了能够杀灭细菌的活病毒。这证明AI设计的DNA序列可以在现实世界中执行预设的生物学功能,为应对抗生素耐药性危机提供了全新思路。

除了生物医学,未来在农业育种领域,Evo 2的跨物种泛化能力使其能同时服务于作物和牲畜的改良,将育种加速推进到“按需设计、精准合成”的新阶段。

但这一技术的应用,必须高度重视伦理与安全,团队已在训练数据中主动排除了对人类有害的病原体基因组,并设置了防护机制,以确保这项强大技术能负责任地发展。

解读Evo 2

Evo 2的诞生,是人工智能与生命科学深度交汇的一座里程碑。它通过吸收整个生命之树的进化印记,获得了理解基因组“通用语法”的能力。从精准解读疾病根源,到编程设计对抗超级细菌的合成噬菌体;从揭开基因调控的奥秘,到为未来农业和医疗提供精准的设计工具,Evo 2正在多个维度拓展人类认知和能力的边界。
尽管从实验室设计到大规模实际应用仍面临合成成本、验证周期等挑战,但方向已然清晰:我们正从一个“阅读生命”的时代,稳步迈入“理解并负责地编写生命”的新纪元。在这个纪元里,Evo 2这样的通用基础模型将成为科学家探索生命奥秘、应对全球健康与粮食安全挑战的强大新伙伴。

责任编辑:常丽君
网友评论
最热评论
没有更多评论了

抱歉,您使用的浏览器版本过低或开启了浏览器兼容模式,这会影响您正常浏览本网页

您可以进行以下操作:

1.将浏览器切换回极速模式

2.点击下面图标升级或更换您的浏览器

3.暂不升级,继续浏览

继续浏览