浙江工业大学智能制药研究院院长段宏亮在“2022年金鸡湖科学家论坛”上做了《人工智能新药开发与智能药物合成》的报告,本文系根据报告内容整理。
整理|不器
编辑|于靖
应同写意邀请,浙江工业大学智能制药研究院院长段宏亮在“2022年金鸡湖科学家论坛”上做了《人工智能新药开发与智能药物合成》的报告,本文系根据报告内容整理。
药物合成中比较重要的就是逆合成分析。当我们给定一个药物分子,例如紫杉醇,如何一步步从商业可购买的原料把它合成出来,这个过程就是逆合成分析的工作。
在1960年左右,诺贝尔奖获得者Corey首次提出逆合成分析的概念,认为科学家能将计算机技术应用在这项工作上。随后的20世纪70年代到80年代,业界陆续出现了一些采用计算机的方式来设计药物的合成路线的软件,这个阶段主要采用基于化学反应规则的方式来设计合成路线。
自从Alpha Go战胜了人类棋手后,人工智能这个概念在全球火爆起来。在2016年开始,首先看到业界是把RNN模型开始用到药物合成领域。到2019年,Google 公司开发的Transformer模型,被创新性地用于药物合成。
人工智能技术应用到化学合成之前,计算机来学习某个化学反应,比如说羟基氧化成羧基,是采用基于化学反应模板的一种学习技术。总的来说,这还是比较死板,类似于把合成反应模板记忆下来,不够智能。而到人工智能系统时代,我们可以采用深度学习技术,比如说基于语言翻译的技术,无差别的应用到化学合成上面,这是一件非常神奇的事情。它的表现可以大大的碾压了人类计算化学家在积累了几十年的基于反应模板的技术,确实非常神奇。
下面的化学反应,可以看作把左边的反应物SMILES代码翻译成右边产物的SMILES代码。换言之,化学反应的预测或人力合成分析,都可以看作一种翻译的过程。
像Google 公司开发的产品方面模型,它本来用在不同语言的翻译的模型上面,现在可以直接拿过来用在反应物翻译到产物上面,或者是产物翻译到反应物上面。这种表现超过了我们以前任何基于反应规则的模型。所以说,人工智能时代到来的时候,这种技术的降维打击、碾压真的是势不可挡。
前面讲的是逆合成分析,接下来讲一下化学反应预测。
针对一个药物分子,我们设计出来的化学合成路线往往是比较粗糙的。因此,我们会对每一个单步反应进行精细的化学反应预测,包括反应产物、副产物、反应条件、反应收率,以及反应机理,都可以进行很好的预测,大概会给出相对而言比较精确的反应条件。在机器人的硬件来介入后,这个过程还会进行更加精细的优化。
这里以Heck反应为例,看一下AI技术在化学反应预测中的应用。Heck反应是一个获得过2010年诺贝尔化学奖的金属偶联反应。因为Heck反应有时烯烃上面会有不同的氢原子,到底跟哪个氢原子反应,或者该形成顺式烯烃还是反式烯烃等,蕴含着不少的反应规则,我们只会把这种大量的数据输入给人工智能模型。
我们是采用刚刚我们提到的Transformer翻译模型,我们把Heck反应的数据输入给我们的人工智能模型后,观察反应预测效果。其对Heck反应预测的准确率可达到66.4%,总的来说不是很令人满意,因此我们进一步采用迁移学习技术来优化这个学习过程。
什么叫迁移学习呢?比如家里有个三岁的小朋友还没去过动物园,不知道老虎是什么,但他在家里养一只小猫。家人给他介绍的时候就说老虎就是一只大猫,体格比猫咪要大,更加凶猛,其他方面差不多这样粗略的解释一下,小朋友可能似是而非的懂了。具体到我们的化学反应这样的场景上面,在学习Heck反应之前,我们先学习基础有机化学反应。我们自己构建大概38万左右的基础化反应数据集,先让我们的计算机模型学习,学完之后再来学习Heck反应,其准确率就从66.4%,陡然提升到95.2%。
这里具体看一下我们用到的数据集,通用的基础有机化学反应数据集,我们用的38万的常用化学反应数据集。还有包含1万个Heck反应的小数据集,做人工智能的这种场景,它的数据量还是有点小的。
总结下来,我们通过对计算机进行模型参数的调整,整个模型表现的越来越好。
Heck反应,包括分子内以及分子间的Heck反应。相对而言,分子内的反应预测起来会更加困难一些,它的准确的相对而言会低一点,达到87%,分子间达到95.6%。
我们以数据增强和迁移学习的策略来应用到反应预测上面,baseline的准确率只有49%。因为Heck反应,它有1万个数据集,BV的反应其实它只有2000多个。当数据量降下来后,准确率只有40%左右。尽管BV反应相对而言还也是非常简单的反应,但当它数据量降到只有千级时,人工智能技术也无能为力。
所以说,人工智能技术跟数据是强相关的。多数场景,只要数据量足够大,问题便可以迎刃而解。当我们把基础知识迁移进来之后,我们可以看到它从49%可以迅速的提升到86%。
以上很多是化学合成的东西,后面还要跟智能流动化学结合起来。
从流动化学的模型的示意图,我们可以看得到它非常适合模块化,包括在线检测器、在线LCMS等,根据不同的场景,就像拼积木一样把它们拼接在一起。而人工智能技术主要负责对硬件的控制,对算法的优化等等。
第一步我们采用合成路线设计,MCTS前端提供不同的合作式搜索。针对任何给定的药物分子,我们计算机模型可以把它设计出来二十步或者三十步的一条相关路线,最终把它从最简单的苯环作为技术原料开始。但这条路线非常粗糙,所以针对某具体的一步反应,比如说某个酯的水解反应,仍然要来对它进行精细的优化。
第二步就是只基于人工智能的化学的反应预测去合成中心优化,这里我们还没有牵涉任何的流动化学或者是硬件机器人的事情,就是简单预测一下酯的水解反应,需要用什么样的碱,什么样的溶剂,需要大概在什么样的反应条件之下,反应时长大概多少,收率大概多少。
智能化天生就是适合于流动化学,智能化对于传统的釜式化学来说,难度还是会大很多。我们最终是希望能够打造智能化的药物合成平台,它不仅仅对有机合成的智能化控制,还包括它的纯化分离,把整个流程全部集成在里面,通过中枢神经大脑来控制这个流程。从输入药物分子结构式,最终可以得到纯化好的药物产品出来。
不感兴趣
看过了
取消
人点赞
人收藏
打赏
不感兴趣
看过了
取消
您已认证成功,可享专属会员优惠,买1年送3个月!
开通会员,资料、课程、直播、报告等海量内容免费看!
打赏金额
认可我就打赏我~
1元 5元 10元 20元 50元 其它打赏作者
认可我就打赏我~
扫描二维码
立即打赏给Ta吧!
温馨提示:仅支持微信支付!
已收到您的咨询诉求 我们会尽快联系您