科技日报记者 张梦然
美国哈佛大学与西北大学研究团队合作,开发出一种新型机器学习方法,能够从无序蛋白质中排序,设计出具有特定性质的内在无序蛋白质(IDPs),从而突破了当前人工智能(AI)工具在解析约30%人类蛋白质结构上的局限。该成果发表于最新一期《自然·计算科学》。
这类蛋白质因其不折叠成固定三维结构而长期难以被建模,像“阿尔法折叠”等先进AI系统虽在结构预测方面表现卓越,却无法有效处理这类高度动态的分子。然而,IDPs在细胞信号传导、分子传感和交联等关键生物过程中发挥着核心作用,其功能异常也与癌症、神经退行性疾病等多种疾病密切相关,例如α-突触核蛋白就与帕金森病紧密关联。
为应对这一挑战,研究团队提出了一种结合物理模型与机器学习技术的新路径。该方法基于“自动微分”技术——一种常用于深度学习中计算导数的算法,用于追踪输入变量微小变化对输出的影响。他们利用这一机制,在分子动力学模拟框架下直接优化氨基酸序列,使其具备预定的物理或功能特性。与依赖大量数据训练的典型人工智能模型不同,该方法依托已有且足够精确的物理模拟体系,通过梯度优化高效搜索满足特定功能需求的蛋白质序列,如形成柔性连接结构或响应环境变化的能力。
团队强调,目标并非用数据驱动模型替代物理理解,而是将真实的分子行为规律嵌入设计过程,使生成的蛋白质序列不仅具备功能性,而且其设计过程本身就根植于自然界真实的动力学原理。由此设计出的蛋白质是“可微分的”,意味着每一步优化都建立在对系统物理状态连续、精确调控的基础上,而非依赖黑箱式的预测。
这项研究为从基本物理规律出发设计功能性生物分子开辟了新方向,不仅有助于深入理解内在无序蛋白质的生物学意义,也为探索疾病机制及开发新型治疗方法提供了潜在工具。