写意报告丨人工智能新药开发与智能药物合成

2022
08/31

+
分享
评论
同写意
A-
A+

浙江工业大学智能制药研究院院长段宏亮在“2022年金鸡湖科学家论坛”上做了《人工智能新药开发与智能药物合成》的报告,本文系根据报告内容整理。

整理|不器

编辑|于靖

应同写意邀请,浙江工业大学智能制药研究院院长段宏亮在“2022年金鸡湖科学家论坛”上做了《人工智能新药开发与智能药物合成》的报告,本文系根据报告内容整理。


01 逆合成分析

药物合成中比较重要的就是逆合成分析。当我们给定一个药物分子,例如紫杉醇,如何一步步从商业可购买的原料把它合成出来,这个过程就是逆合成分析的工作。

在1960年左右,诺贝尔奖获得者Corey首次提出逆合成分析的概念,认为科学家能将计算机技术应用在这项工作上。随后的20世纪70年代到80年代,业界陆续出现了一些采用计算机的方式来设计药物的合成路线的软件,这个阶段主要采用基于化学反应规则的方式来设计合成路线。

自从Alpha Go战胜了人类棋手后,人工智能这个概念在全球火爆起来。在2016年开始,首先看到业界是把RNN模型开始用到药物合成领域。到2019年,Google 公司开发的Transformer模型,被创新性地用于药物合成。

人工智能技术应用到化学合成之前,计算机来学习某个化学反应,比如说羟基氧化成羧基,是采用基于化学反应模板的一种学习技术。总的来说,这还是比较死板,类似于把合成反应模板记忆下来,不够智能。而到人工智能系统时代,我们可以采用深度学习技术,比如说基于语言翻译的技术,无差别的应用到化学合成上面,这是一件非常神奇的事情。它的表现可以大大的碾压了人类计算化学家在积累了几十年的基于反应模板的技术,确实非常神奇。

那么,为什么基于翻译的模型可以应用在药物合成?这里不能不提到SMILES代码。如图所示,以取代苯甲醇的化学结构为例,它的结构可以转化成这样一串SMILES 的代码。SMILES 代码是化学跟人工智能结合最为关键的桥梁,它的规则非常简单,就是将氢原子移除,把剩余的碳、氮、氧、氟这些原子按一定次序排列,这就是化合物的SMILES代码的表达方式。

下面的化学反应,可以看作把左边的反应物SMILES代码翻译成右边产物的SMILES代码。换言之,化学反应的预测或人力合成分析,都可以看作一种翻译的过程。

像Google 公司开发的产品方面模型,它本来用在不同语言的翻译的模型上面,现在可以直接拿过来用在反应物翻译到产物上面,或者是产物翻译到反应物上面。这种表现超过了我们以前任何基于反应规则的模型。所以说,人工智能时代到来的时候,这种技术的降维打击、碾压真的是势不可挡。

我们这里以美国专利局得到的5万个化学反应数据集为例,进行单步的逆合成分析预测任务。针对10类不同的化学反应类型,Transformer模型都有着非常不错的表现。采用RNN 模型作为baseline同Transformer模型进行比较,它的准确率可以从约30%提升到约50%。

我们前面做的主要是单步化学反应逆合成分析,如果想针对某个药物分子设计整条合成路线,就会用到MCTS技术。这个技术跟下围棋的Alpha Go所采用的技术是完全一致的。
下围棋时,我们预测的是落任何一个子后经过几十步几百步到底是赢还是输,从而判断这步棋是步好棋还是臭棋。同样在逆合成分析时,我们也是预测通过一步的单步逆合成分析,判断能否经过十几二十步最终推断得到起始原料。通过蒙特卡洛树搜索技术,这样多步逆合成分析、聚合在一起,形成了整个的合成路线设计。


02 化学反应预测

前面讲的是逆合成分析,接下来讲一下化学反应预测。

针对一个药物分子,我们设计出来的化学合成路线往往是比较粗糙的。因此,我们会对每一个单步反应进行精细的化学反应预测,包括反应产物、副产物、反应条件、反应收率,以及反应机理,都可以进行很好的预测,大概会给出相对而言比较精确的反应条件。在机器人的硬件来介入后,这个过程还会进行更加精细的优化。

这里以Heck反应为例,看一下AI技术在化学反应预测中的应用。Heck反应是一个获得过2010年诺贝尔化学奖的金属偶联反应。因为Heck反应有时烯烃上面会有不同的氢原子,到底跟哪个氢原子反应,或者该形成顺式烯烃还是反式烯烃等,蕴含着不少的反应规则,我们只会把这种大量的数据输入给人工智能模型。

我们是采用刚刚我们提到的Transformer翻译模型,我们把Heck反应的数据输入给我们的人工智能模型后,观察反应预测效果。其对Heck反应预测的准确率可达到66.4%,总的来说不是很令人满意,因此我们进一步采用迁移学习技术来优化这个学习过程。

什么叫迁移学习呢?比如家里有个三岁的小朋友还没去过动物园,不知道老虎是什么,但他在家里养一只小猫。家人给他介绍的时候就说老虎就是一只大猫,体格比猫咪要大,更加凶猛,其他方面差不多这样粗略的解释一下,小朋友可能似是而非的懂了。具体到我们的化学反应这样的场景上面,在学习Heck反应之前,我们先学习基础有机化学反应。我们自己构建大概38万左右的基础化反应数据集,先让我们的计算机模型学习,学完之后再来学习Heck反应,其准确率就从66.4%,陡然提升到95.2%。

这里具体看一下我们用到的数据集,通用的基础有机化学反应数据集,我们用的38万的常用化学反应数据集。还有包含1万个Heck反应的小数据集,做人工智能的这种场景,它的数据量还是有点小的。

总结下来,我们通过对计算机进行模型参数的调整,整个模型表现的越来越好。

Heck反应,包括分子内以及分子间的Heck反应。相对而言,分子内的反应预测起来会更加困难一些,它的准确的相对而言会低一点,达到87%,分子间达到95.6%。

除了预测反应产物外,我们还预测了整个反应的反应条件,选择两个从来没有在文献里边报道过的Heck反应,在化学实验室里面把它们实现出来。在一定的反应条件,包括催化剂、反应温度等,以较高的收益率拿到了预测的产物。

除了我们用的迁移学习技术之外,我们这里还用到数据增强技术。上面提到过,化合物可以表示成SMILES代码的形式,但每个化合物的SMILES代码表现形式并不是唯一的,我们把一种化合物的各种不同的表示形式都输入到AI模型中去,这样就是数据增强的概念。结果表明,数据增强技术能明显提升模型的表现。

我们以数据增强和迁移学习的策略来应用到反应预测上面,baseline的准确率只有49%。因为Heck反应,它有1万个数据集,BV的反应其实它只有2000多个。当数据量降下来后,准确率只有40%左右。尽管BV反应相对而言还也是非常简单的反应,但当它数据量降到只有千级时,人工智能技术也无能为力。

所以说,人工智能技术跟数据是强相关的。多数场景,只要数据量足够大,问题便可以迎刃而解。当我们把基础知识迁移进来之后,我们可以看到它从49%可以迅速的提升到86%。

除了前面提到的翻译的技术,我们还用到了图卷积神经网络。总的来说,就是把图像的边和节点表示为原子和键,图显示的使用网络是现在整个互联网行业或者是整个AI行业,非常主流前沿的技术,它整个表示性跟药物分子表现非常之像。
我们还对前面提到的翻译技术和图的技术进行简单比较,当面对40万的数据集,翻译技术比图技术稍微好一点。但在比较小的反应数据集上面,比如BV反应,它只有2000多个数据,我们发现GCN 的这种表现是远远的超过前面提到Transformer模型。

03 流动化学智能化

以上很多是化学合成的东西,后面还要跟智能流动化学结合起来。

合成制药装备的市场很大,包括精细化工、小分子药物的合成,是一个万亿级的市场。现在这一部分市场基本上还是以人力为主,不用说智能化,连设备的自动化也不太多见。
如果纯粹从人工智能技术角度来看,这一领域智能化的技术门槛并不是很高。但因为制药行业相对而言跟人工智能这种交叉的机会也小很多,流动化学又是一个更加细分的领域,行业智能化的探索也会做得更加少一些。

流动化学是在管式反应器里面进行的一类化学技术,它天生就是为智能药物合成而产生的一种技术。很多釜式反应还比较复杂,跟人工技术的结合要面临很多工程技术方面的难题。很多这类困难,在流动化学面前就迎刃而解。流动化学的模块化设计,以及和在线检测设备连接的特性,非常适合这种智能化改造。
流动化学本质还是为了解决危险化学工艺而产生的。2019年江苏响水爆炸事件,造成了大量的人员伤亡,政府非常重视,此后,对于很多危险化学反应项目,比如说硝化反应,要求必须是采用流动化学的形式才可以上马。
流动化学,就是伴随着这个进程,市场有了比较大的发展。人工智能技术也恰好是在这几年爆发起来的。两种技术的共振,引燃了智能化的药物合成这个方向。本身两个技术就是天然就有比较大的契合度。流动化学就这种智能化,也刚好是在这个时间点爆发出来。尤其是在疫情期间,医药智能化这一块真正提上了日程。

从流动化学的模型的示意图,我们可以看得到它非常适合模块化,包括在线检测器、在线LCMS等,根据不同的场景,就像拼积木一样把它们拼接在一起。而人工智能技术主要负责对硬件的控制,对算法的优化等等。

下面看一下我们采用的技术路线图,大概是分这样四步进行的。

第一步我们采用合成路线设计,MCTS前端提供不同的合作式搜索。针对任何给定的药物分子,我们计算机模型可以把它设计出来二十步或者三十步的一条相关路线,最终把它从最简单的苯环作为技术原料开始。但这条路线非常粗糙,所以针对某具体的一步反应,比如说某个酯的水解反应,仍然要来对它进行精细的优化。

第二步就是只基于人工智能的化学的反应预测去合成中心优化,这里我们还没有牵涉任何的流动化学或者是硬件机器人的事情,就是简单预测一下酯的水解反应,需要用什么样的碱,什么样的溶剂,需要大概在什么样的反应条件之下,反应时长大概多少,收率大概多少。

到第三步,机器人硬件设备的搭建,把泵、管式反应器、在线的红外或者在线的LCMS,以及我们的电脑,全部集成到机器人设备里面,这套设备可以对我们的工艺优化流程进行精确地调整。
这就像一个自动的炒菜机器人一样,机器人可以随时尝一尝菜,咸了,就要加水,淡了,就要加盐,自己完成的闭环的合成智能化。针对任何一个化学反应,采用贝叶斯优化或者强化学习等人工智能技术,将最优的工艺合成条件优化出来。

工艺优化的智能化是比较容易切入的,它场景比较简单,需要探索的化学空间比较小。具体针对某一个工艺反应,可通过这样一套智能化设备迅速产生几百上千的数据。我一直强调数据非常重要,这是AI的根源,通过采集它自己产生的这些数据,这套设备便可以自己优化条件,寻找到最优的合成工艺条件。
定制合成小分子,合成单个小分子的经济附加值相对是比较低,短期之内,人工智能技术对这一块市场的切入相对来说比较困难。

智能化天生就是适合于流动化学,智能化对于传统的釜式化学来说,难度还是会大很多。我们最终是希望能够打造智能化的药物合成平台,它不仅仅对有机合成的智能化控制,还包括它的纯化分离,把整个流程全部集成在里面,通过中枢神经大脑来控制这个流程。从输入药物分子结构式,最终可以得到纯化好的药物产品出来。

药物合成的智能化,有点像智能驾驶。在无人驾驶或者自动驾驶技术的开发普及,是伴随着电动汽车的普及开来而同步进行的。因为传统的燃油车,同电动汽车相比,天然就不适合跟AI结合,进行智能化的控制。所以,无人驾驶时代和电动汽车时代,它几乎是同步进行的。
在我们药物合成行业也可能会上演这样类似的事情,我们智能合成也会随着流动化学技术的普及而同步进行的。

不感兴趣

看过了

取消

本文由“健康号”用户上传、授权发布,以上内容(含文字、图片、视频)不代表健康界立场。“健康号”系信息发布平台,仅提供信息存储服务,如有转载、侵权等任何问题,请联系健康界(jkh@hmkx.cn)处理。
关键词:
药物合成,人工智能,逆合成分析,智能药物,段宏亮

人点赞

收藏

人收藏

打赏

打赏

不感兴趣

看过了

取消

我有话说

0条评论

0/500

评论字数超出限制

表情
评论

为你推荐

推荐课程


社群

  • 第九季擂台赛官方群 加入
  • 手术室精益管理联盟 加入
  • 健康界VIP专属优惠 加入
  • 健康界药学专业社群 加入
  • 医健企业伴飞计划 加入

精彩视频

您的申请提交成功

确定 取消
5秒后自动关闭

您已认证成功

您已认证成功,可享专属会员优惠,买1年送3个月!
开通会员,资料、课程、直播、报告等海量内容免费看!

忽略 去看看
×

打赏金额

认可我就打赏我~

1元 5元 10元 20元 50元 其它

打赏

打赏作者

认可我就打赏我~

×

扫描二维码

立即打赏给Ta吧!

温馨提示:仅支持微信支付!

已收到您的咨询诉求 我们会尽快联系您

添加微信客服 快速领取解决方案 您还可以去留言您想解决的问题
去留言
立即提交