
在过去的几年中,可以预测大规模蛋白质结构或功能的模型已用于多种生物学应用,例如确定药物的目标和新的治疗抗体的设计。
这些基于大语言模型(LLM)的模型可以非常准确地预测蛋白质在特定应用中的适应性。但是,无法确定这些模型如何达到其期望,或者在这些决策中起着最重要作用的蛋白质特征是什么。
在一项新的研究中,马萨诸塞州研究所的研究人员使用了一项新技术来打开此“黑匣子”,并允许他们在做出预测时确定蛋白质语言模型的特征。了解黑匣子内部发生的事情可以帮助为特定任务选择更好的模型,并帮助简化定义新药或疫苗目标的过程。
研究负责人,研究负责人,研究作者西蒙斯(Simons)的数学教授邦妮·伯杰(Bonnie Berger)说:“我们对澄清的澄清效果广泛影响。” “此外,确定蛋白质语言模型之后的特征具有检测该表示形式的新生物学愿景的能力。”
Malexusstan技术研究所Union Gogroral是开放访问研究的主要作者,该研究本周出现在本周 国家科学院的事实。 马萨诸塞州电气工程与计算机科学技术学院的高级研究生Mihir Bafna,马萨诸塞州生物工程技术学院教授Ericul也是该论文的作者。
打开黑匣子
2018年,马萨诸塞州理工学院的伯杰(Berger)和前研究生特里斯坦·佩普勒(Tristan Pepler)提出了第一个蛋白质语言模型的博士学位20。它们的模型,例如随后加速αFOLD开发的蛋白质模型,例如ESM2和Omemafold,基于LLM。这些模型(包括chatgpt)可以分析大量文本,并知道可能会一起出现的单词。
蛋白质语言模型使用类似的方法,但是他们没有分析单词,而是分析了氨基酸的序列。研究人员使用这些模型来预测蛋白质的结构和功能,并用于鉴定可能与某些药物相关的蛋白质等层。
在2021年的研究中,Berger和他的同事使用蛋白质语言模型来预测病毒表面蛋白的部分以允许病毒逃生的方式转移的可能性较小。这使他们能够确定疫苗对流感,艾滋病毒和SARS-COV-2的潜在靶标。
但是,在所有这些研究中,不可能知道模型如何预测。
伯杰说:“我们最终会提出一些预测,但我们对这个黑匣子的各个组件中发生的事情一无所知。”
在新研究中,研究人员想搜索如何使蛋白质语言模型其预测。就像LLMS一样,蛋白质模型将信息加密为由神经网络中各种“节点”激活模式组成的表示。这些节点类似于在大脑中存储记忆和其他信息的神经元。
解释LLM的内部作品并不容易,但是在过去的两年中,研究人员开始使用一种称为自动化器稀疏的算法,以帮助您阐明这些模型如何预测其预测。 Berger实验室的新研究是第一个在蛋白质语言模型上使用该算法的研究。
零星自动编码设备通过控制如何表示神经网络中的蛋白质来起作用。特定蛋白通常由刺激受限数量的神经元的模式表示,例如480。散发性自动加密此表示将扩展到更大数量的节点。
当有关蛋白质的信息仅由480个神经细胞加密时,每个具有多个特征的结灯,这使得很难知道每个结象征的特征。但是,当神经网络扩展到20,000个节点时,此额外的空间以及对比度限制使信息室“传播”。现在,它可以使用单个节点合同占据预编码的蛋白质特征。
Goglar说:“在分散的代表性中,以更可行的方式照亮它的神经元。” “在创建零星的表示之前,网络非常紧密地填充信息,因此很难解释神经元。”
可解释的模型
一旦研究人员获得了许多蛋白质的一些代表,他们就会使用国际助理助理Claude(与同名著名的聊天机器人有关)来分析表演。在这种情况下,他们要求Claude将零星表示与每个蛋白质已知的特征,例如分子功能,蛋白质家族或细胞内部的位点进行比较。
通过分析数千种作用,Claude可以确定与指定蛋白质特征相对应的合同,然后将其描述为正常英语。例如,该算法可能会说:“这些神经元似乎发现了将膜传播到氨基或氨基酸的蛋白质,尤其是质膜中的蛋白质。”
此过程使合同更加“可解释”,这意味着研究人员可以知道每个结的象征。他们发现,这十年可能会加密的特征是蛋白质家族和一些功能,包括许多不同的生物代谢和阐述过程。
Google说:“当您训练零星的自动加密时,您不会训练成为解释,但事实证明,通过刺激行动真正分离,它最终以解释的解释。”
了解特定蛋白质模型的功能可以帮助研究人员为特定任务选择适当的模型,或调整模型提供的输入类型,以创建最佳结果。此外,对模型有一天的特征的分析可以帮助生物学家了解有关其研究蛋白质的更多信息。
Google说:“在某个时候,当模型变得更强大时,您可以比已经知道的生物学更多,而不是打开模型。”
该研究由美国国立卫生研究院资助。