
使用机器学习,麻省理工学院化学工程师创建了一个计算,可以预测有机溶剂中任何特定分子的融化程度 – 几乎所有药剂师创造的主要步骤。这种类型的预测可以使开发新方法生产其他有用的药物和分子变得更加容易。
研究人员说,预测溶解量的新模型将在特定的溶剂中融化,化学家应帮助选择适当的溶剂作为其创建中的任何特定反应。通常有机溶剂包括乙醇和牙槽,还有其他数百种可用于化学反应。
马萨诸塞州技术研究所高级研究的学生卢卡斯·亚提亚(Lucas Atia)说:“可溶性预测实际上是限制人工计划和化学药品(尤其是药物的制造)的步骤,因此对提供更好的可溶性预测的能力引起了人们的兴趣。”
研究人员可以自由地提供他们的模型,许多公司和实验室已经开始使用它。研究人员说,该模型可能对于从一些最常用的工业溶剂中定义较低的风险溶剂特别有用。
马萨诸塞州科技研究所的高中学生杰克逊·伯恩斯(Jackson Burns)说:“有一些溶剂可以解决大多数事情。它们确实很有用,但是它们会损害环境,并且会损害人们,因此许多公司要求您减少使用的溶剂数量。” “我们的模型在确定最佳溶剂的能力方面非常有用,我们希望这对环境有害。”
霍伊特酒店化学工程教授,马萨诸塞州理工学院的主任威廉·格林(William Green)是研究的作者,今天出现在 自然通讯。化学工程教授Robert T. Patrick Doyle。
溶解
Attia and Burns在马萨诸塞州技术研究所共同合作的项目的新模型将机器学习应用于化学工程问题。传统上,化学家期望溶解度使用称为亚伯拉罕模型的工具,该工具可用于通过在分子内添加化学结构来估计分子的总熔融。尽管这些预测很有用,但其准确性是有限的。
在过去的几年中,研究人员已开始使用机器学习来尝试对融化更准确的预测。在Burns和Attia开始使用新模型之前,熔化的现代模型是2022年在绿色实验室开发的模型。
该模型被称为Solprop,可以通过预测一组相关属性并使用热动力学结合它们来最终预测可溶性。但是,该模型以前难以溶解。
ATA说:“至于开发新分子的发现和化学管道,您希望能够尽早预测似乎正在熔化的东西。”
当前熔融模型无法良好的部分原因是没有培训的全面数据集。但是,在2023年,发布了一个名为BigsoldB的新数据集,该数据集收集了大约800张已发表的床单的数据,其中包括有关大约800个分子融化的信息,这些分子在合成化学中通常使用的100多个有机溶剂融化。
Attia和Burns决定在这些数据上尝试对两种不同类型的模型进行培训。这两种模型都使用称为含义的数值表示分子的化学结构,其中包括与其他原子相关的分子原子数量之类的信息。然后,模型可以使用这些优惠来预测各种化学性能。
这项研究中使用的一种模型,称为FastProp及其开发以及绿色实验室中的其他模型,包括“固定含义”。这意味着该模型在开始执行任何类型的分析之前已经知道每个分子的包含。
另一个模型Chemrop在训练过程中学习了,包括每个分子,同时学习将包含的特征与熔融等特征联系起来。该模型通过多个MIT实验室开发,已经用于诸如抗生素的发现,油性纳米颗粒的设计和化学反应率的预测等任务中。
研究人员在BigsoldB的40,000多个数据库上培训了两种模型,包括有关温度效应的信息,这些信息在熔化中起着重要作用。接下来,他们测试了大约1,000种从培训数据中阻止的解决方案的模型。他们发现,模型的预测比Solpro中的预测更准确三倍以上,并且是最好的先前模型,而新模型在预测由于温度而导致的团结变化方面特别准确。
伯恩斯说:“由于温度,即使全面的实验噪声非常大,能够在溶解度上准确地重现这些小差异,这是一个非常积极的迹象表明,网络已经正确地学习了基本的可溶性预测函数。”
预测
研究人员希望将基于Chemrop的模型是,可以将新的表示形式学习为能够提供更准确的预测。但是,令人惊讶的是,他们发现这两个模型主要是性能。这表明其性能的主要限制是数据的质量,并且模型在理论上基于使用的数据尽可能地执行。
伯恩斯说:“当您有足够的数据时,ChemProp应始终胜过任何固定的包含。” “我们已经引爆了,发现固定和隐藏的包容与所有不同子组中的性能不相容,这向我们表明,该空间中数据的限制占据了模型的性能。”
研究人员说,如果有最佳的培训和测试数据可用,模型可能会变得更加准确 – 完美地说,一个人或一群人获得的数据是以相同的方式获得的。
Attia说:“使用这些类型的翻译数据组的大限制之一是,当您执行熔化测试时,不同的实验室使用不同的方法和实验条件。这有助于不同的数据收集之间的这种对比。”
由于FastProp模型可以更快地进行预测,并具有促进用户适应的符号,因此研究人员决定将其称为Fastsolv,可向公众使用。多家制药公司已经开始使用它们。
伯恩斯说:“整个药物检测管道上都有应用。” “我们也很高兴看到,除了毒品的配方和发现之外,人们可能会使用这种模型。”
这项研究部分由美国能源部资助。