
格子是通过学习蛋白质折叠模型的固有空间,同时生成的1D蛋白序列和3D。
2024年诺贝尔Alphafold2奖是对人工智能在生物学中作用的重要时刻。在折叠蛋白质后发生了什么?
在 刻我们正在开发一种方法,该方法将蛋白质折叠模型固有区域的样本用于 产生 新蛋白质。你可以接受 形成功能和生物而且可以 训练序列数据库,2-4的请求大于结构数据库。与先前蛋白质结构的许多健身房模型不同,格子处理了联合多媒体生成问题的制备:同时生成单独的序列和完全连续的结构坐标。
从预测现实世界中的结构到药物设计
尽管现代作品阐明了能够传播到蛋白质创建的能力的希望,但对以前的模型有一些限制,使它们不适合实际应用,例如:
- 所有一代:许多当前的健身房模型仅生产脊柱原子。为了产生全大气结构并放置Sidechain原子,我们需要知道序列。这会产生一个多媒体生成问题,需要同时生成单独的连续方法。
- 有机体的隐私生物学蛋白用于人类使用。你需要 男人,避免人类免疫系统破坏。
- 控制规格发现药物并将其放在患者手中是一个复杂的过程。我们如何定义这些复杂的限制?例如,即使在处理生物学之后,也可以决定平板电脑更容易从瓶子中运输它们,从而为尝试增加了新的限制。
“有用”蛋白的诞生
简单生成蛋白质不像 控制 获得的一代 有用 蛋白质。怎么看起来像这样?

为了获得灵感,让我们考虑如何以符号文本主张来控制图像的产生(例如Liu等,2022)。
在雕刻中,我们反映了此接口 控制规格。最终目标是通过文本界面完全控制一代,但是在这里,我们将恋人的句法限制视为概念的证据: 工作 和 有机体:

学会连接工作结构。 格子学习四边形半胱氨酸-FE2+/fe3+ 矿物蛋白中发现的格式模式通常是在高序列水平上保持多样性的同时。
仅使用序列培训数据训练
雕刻模型的另一个重要方面是,我们只需要一个序列来训练产科模型! 妇科模型学会通过其训练数据分发指定的数据,并且序列数据规则比该结构大得多,因为序列比获得实验结构便宜得多。

从更大且更广泛的数据库中学习。 获得蛋白质序列的成本远低于实验结构描述,序列数据的规则为2-4个阶,大小大于结构。
你如何工作?
原因是我们能够训练产科模型以仅通过学习格式来使用序列数据来创建结构 蛋白质折叠模型的清晰空间。然后,在推论的同时,从良好蛋白质的潜在区域中采集样品后,我们可以接受 冷冻 从蛋白质折叠模型到棕色干燥。在这里,我们使用了AlphaFold2模型的继任者Esmfold,该模型将取代蛋白质语言模型的检索步骤。
我们的方式。 在培训期间,只需要连续序列。在推断期间,我们可以从采集样品的包含中解释序列和结构。 ❄表示冻结重量。
通过这种方式,我们可以在蛋白质折叠模型的权重中使用结构性理解信息来设计蛋白质。这类似于如何在机器人中使用语言模型(VLA),这些模型(VLA)在互联网数据培训的视觉语言模型中使用,以提供意识,理解和理解信息。
压缩蛋白质折叠模型的固有空间
直接应用这种方法的小皱纹是,Esmfold-In Fact的潜在空间,这是许多基于变形金刚的固有空间。这个空间太大了,因此学习此包含结束了绘制高分辨率图像的地图。
为了解决这个问题,我们也建议 廉价(包括蛋白质适应的沙漏压缩),在其中我们学习一个压力模型以包括蛋白质和结构序列的关节。
研究固有的空间。 (a)当我们想象每个通道的平均值时,一些频道会出现“巨大的激活”。 (b)如果我们开始检查较高的激活3与介质(灰色)值相比,那么我们发现这在许多层上都会发生。 (c)对于其他基于变压器的模型也观察到了巨大的激活。
我们发现这个固有的空间实际上是压力。通过做一些机械解释以了解我们更好地工作的基本模型,我们已经能够创建一个完整的蛋白质生成模型。
接下来是什么?
尽管我们正在研究这项工作中蛋白质序列的状态和结构的产生,但我们可以调整这种方法来执行任何方法的多媒体生成,因为有一种更丰富的方式以一种更丰富的方式进行了预测。由于对蛋白质结构的序列预测开始处理日益复杂的系统(例如,AlphaFold3也能够预测与核酸和分子键复合物中的蛋白质),因此可以很容易地想象使用相同方法在更复杂的系统上进行多媒体生成性能。如果您有兴趣合作扩展我们的方式,或者测试我们的湿法,请联系!
其他链接
如果您发现我们的论文在您的搜索中有用,请考虑使用以下Bibtex进行格子和便宜:
@article{lu2024generating,
title={Generating All-Atom Protein Structure from Sequence-Only Training Data},
author={Lu, Amy X and Yan, Wilson and Robinson, Sarah A and Yang, Kevin K and Gligorijevic, Vladimir and Cho, Kyunghyun and Bonneau, Richard and Abbeel, Pieter and Frey, Nathan},
journal={bioRxiv},
pages={2024--12},
year={2024},
publisher={Cold Spring Harbor Laboratory}
}
@article{lu2024tokenized,
title={Tokenized and Continuous Embedding Compressions of Protein Sequence and Structure},
author={Lu, Amy X and Yan, Wilson and Yang, Kevin K and Gligorijevic, Vladimir and Cho, Kyunghyun and Abbeel, Pieter and Bonneau, Richard and Frey, Nathan},
journal={bioRxiv},
pages={2024--08},
year={2024},
publisher={Cold Spring Harbor Laboratory}
}
您还可以摆脱预印(雕刻,便宜)和代码库(雕刻,便宜)。
一些蛋白质奖励有趣的一代!
带有功能的其他几代人都刻有雕刻。
雕刻的非法一代。
膜蛋白包含心脏的残留物,其中它们包含在脂肪酸层中。当通过膜用蛋白质关键字覆盖覆盖物时,这些都会不断注意。
基于作业功能的功能,重新对活动站点进行重新召集的其他示例。
基础线之间的样品的比较是雕刻的。雕刻的样品具有更好的多样性,并拾取了Beta -Strand样式,这对于蛋白质生成模型来说更加困难。
谢谢,感谢
感谢Nathan Frey对本文的详细反应,Bair,Genentech,Microsoft Research和New York University:Wilson Yan,Sarah A. Robinson,Simon Kilo,Kevin K. Yang,Vladimir Glegorigegevich,Kyungi Chu,Kyungi Chu,Kyungi Chu,Richard Bono,Richard Bono,Peter。