近年来,对有机反应工艺的自主优化以及反应结果的大数据集的生成或使用都受到了重大关注。然而,对于反应优化仍然没有明确的“最佳方法”。
2021年,Astex制药公司和剑桥大学的合作研究,将预先存在的数据和自我优化算法结合在一起,发表了多任务优化算法(多任务贝叶斯优化,MTBO)。MTBO被视为“小数据”反应优化的最佳算法模型,当时该模型仅使用计算机模拟示例进行了演示。
一、使用连续流反应器来演示MTBO算法:
流动化学反应器通常用于一些危险化学反应的高传质、传热和批量稳定生产的需求,但它也能为科学研究提供平台。与传统方法相比,流动反应器较少的反应物料、快速筛选反应条件有其优势。
流动反应平台,可以对每个单独的实验条件进行设置,并且可实现自动化。使用液体处理器制备反应混合物也能够在优化分类变量(例如,溶剂和配体)得到充分的研究。这是标准优化方法非常难以处理的考量因素。
二、用公开数据集进行计算机模拟与连续流实验优化演示
设想一下,在没有进行任何先行实验,只需按下一个按钮就能得到最佳的反应条件,还有什么工具比这更好的呢?
事实上,如果能使用现有的数据,例如开放Zenodo(由欧洲核子研究中心运作)反应数据库和存储库,计算机模拟就能实现这个目标。
本文作者首先利用公开的Suzuki偶合和Buchwald-Hartwig数据集,进行了计算机模拟演示,然后进行实验优化演示。
在计算机模拟的优化中,一个关键的发现是当存在多种不同的底物时就会生产更大的辅助数据集,MTBO算法似乎在更大的辅助数据集中运行得更好。这在Suzuki偶合案例中得到了很好的运用,当所有四个可用的数据集都用于辅助任务时,它提供了最佳的性能。
一般来说,人们会假设可用的数据越多,优化的效率就越高。因此,这自然而然地反映了一个科学家,尤其是工业界科学家多年来一直在努力解决的问题:我们如何有效地记录和利用过去实验的结果?阿斯利康、圣母大学和麻省理工学院的科学家最近发表的一篇论文也讨论了这个问题,特别是关于电子实验室笔记本(ELN),并确保包括负面数据也得到有效的使用。这将为未来的机器学习和人工智能提供有力的支持。
实验室演示的C-H活化反应在含有较高比例极性官能团的小片段上进行,这是常用的合成方法,意义重大。对于药物发现中的目标分子很适用。
尽管对不同反应性的底物来说,数据收集并不容易,但每个底物的辅助数据集的增长使优化速率提升。访问常用已公开的反应类型的实时数据集,可以减少对特定底物对实验的依赖,快速得到最佳工艺条件,为研究组带来巨大优势。
三、MTBO算法与连续流反应结合未来应用潜力
MTBO现已可供他人使用,但还在不断改进之中,不久我们将看到它巨大的潜力。改进包括,但不限于:
1、使用液滴流反应器等改进,以减少催化剂和原材料的消耗;
2、变量范畴的表示,目前是通过简单地分配“1”和“0”对应于每个分类变量(称为一个热变量编码、OHE)。其他选项,如主成分分析(PCA),可能有助于包括有关这些分类变量属性的信息;
3、反应物的描述符也可以用来优先考虑在辅助任务数据集中最相似反应伙伴的数据。
4、随着反应优化从经典方法演变,有机化学家将继续看到新的有效选项被添加到他们的优化工具箱中,使得该工具更加被广泛使用。
电话
关注公众号