陈永伟/文

从蛋白质的结构说起

蛋白质在生命过程中扮演着十分重要的角色。一方面,它是生物体的构造师,小到一个细胞,大到各种器官,都需要由蛋白质来构造。另一方面,它还是很多生命活动的重要参与者,无论是在生物体内进行物质传输、对各种生化过程进行催化,还是对来自体外的侵袭进行抵抗,都离不开蛋白质的参与。

目前,人类已知的蛋白质达到了两亿多种,每一种蛋白质的三维结构都不相同,而它们的功能差异就是由这些不同的结构决定的。例如,人们出于滋润补水、护肤嫩肤的需要,经常会设法补充胶原蛋白,其奥秘就在于这类蛋白的结构类似于一股拧起来的绳子,因而具有很强的韧性,从而可以在软骨、韧带、骨骼和皮肤之间传递张力。又如,我们免疫系统中的抗体蛋白大致上呈现了一种Y型的结构,并能够形成独特的钩状,这就使得它们可以附着在病毒和细菌上,对致病微生物进行检测、标记及消灭。正是因为蛋白质的结构和功能之间存在着以上这样的关系,因此从上世纪中期开始,对蛋白质结构的探索就成为了生物学家研究的一个重点。

在1961年,美国国立卫生学院的研究员克里斯蒂安·安芬森(Christian Anfinsen)发表了一篇论文,对一项实验进行了介绍。在这个实验中,克里斯蒂安·安芬森将牛胰核糖核酸酶蛋白分子用变性试剂打开,将二硫键还原成巯基,从而破坏了蛋白质原有的折叠结构,导致酶的活性消失。接着,他将装有实验样品的烧杯暴露在空气中过夜。令人惊讶的是,在经过一夜的放置之后,酶的大部分活性竟然恢复了,被破坏了结构的蛋白质又折叠成了原来的样子。这一发现让克里斯蒂安·安芬森感到非常惊奇,他将这个现象大致比作将一朵由铁丝编织成的花用老虎钳拉直,但在经过一段时间之后,却发现那段已经被拉直的铁丝竟又自己变成了一朵花。

这种情况的出现可能是由于蛋白质多肽链中氨基酸的排列顺序所导致的。这种排列顺序,也就是所谓的蛋白质一级结构,会决定最终的三维结构,进而影响蛋白质的性质和功能。当蛋白质的一级结构被确定后,多肽链会遵循热力学的定律,自动折叠成能量最小化的状态。这个规律在生物学研究中得到了广泛应用,并被称为“安芬森法则”。1972年,安芬森凭借着这个重要的法则获得了诺贝尔化学奖。

对于研究者而言,安芬森法则提供了一个关键的研究方向,即“蛋白质折叠问题”。既然蛋白质的三维结构取决于其一级结构,那么从理论上讲,人们可以通过优化分子间的能量来预测蛋白质的一级结构,从而对其三维结构进行预测。蛋白质的功能很大程度上取决于其结构,因此如果人们可以充分了解蛋白质的三维结构,就可以按图索骥地寻找或创造自己所需要的蛋白质,这一发现具有极大的想象空间。

然而,正所谓“理想很丰满,现实很骨感”。尽管乍看之下“蛋白质折叠问题”的潜在价值十分巨大,不过由于组成蛋白质多肽链的氨基酸数量都很庞大,因此要通过其结构来预测蛋白质的折叠是非常困难的。所以安芬森法则指出的道路看似光明,但在很长时间内,却成了一条少有人走的路。

相比之下,生物学家们似乎更倾向于使用直接观测的方法来探索蛋白质的结构。从早期的X光衍射法到新近的冷冻电镜法,随着实验器材的不断发展,人们通过实验探索蛋白质结构的能力也日渐提高。但尽管如此,相比于蛋白质庞大的种类量,人们用实验探索蛋白质结构的努力只能算是杯水车薪。

2018年,转折点出现。同年11月,第13届全球蛋白质结构预测竞赛(CASP)举办。在这个赛事中,DeepMind的AI程序AlphaFold对43种蛋白质中的25种结构进行了预测,并在98名参赛者中获得了第一名。而相比起第二名只预测准确了3种蛋白质的结构,AlphaFold的预测结果甚至比使用X光衍射法和冷冻电镜法观测到的结论更为准确。

AlphaFold之所以能够获得如此优异的成绩,其实用的方法很简单:学习大量蛋白质的序列和结构数据,从中寻找氨基酸分子之间的相互作用,以及蛋白质片段之间的演化关系,然后再按照找到的规律对蛋白质的结构进行预测。

初战告捷之后,AlphaFold不断从生物学、物理学和机器学习领域的最新进展中汲取灵感,以此来升级自己的算法,其预测能力也获得了很大的提升。2022年7月28日,DeepMind在其官网发布了一篇名为《AlphaFold揭示蛋白质宇宙的结构》(AlphaFoldrevealstructureoftheproteinuniverse)的新闻,宣布AlphaFold已经对几乎所有已知蛋白质的结构做出了预测。随后,又将所有预测的蛋白质结构放到了网上,供科研人员自行下载使用。据不少下载了数据的科研人员反映,这些数据的准确率非常高。

虽然在未来的一段时期内,人们还需要继续对AlphaFold给出的预测数据进行验证,但可以说,困扰了人们半个多世纪的“蛋白质折叠问题”基本上已经得到了解决。

AI在科学研究中有着广泛的应用,特别是在数据分析和复杂问题的求解方面。通过机器学习算法和深度学习技术的支持,AI能够帮助科学家们更准确地分析和处理大量数据,从而在研究过程中取得重要突破。

毫无疑问,AlphaFold的成功破解了“蛋白质折叠问题”,为生物学的发展做出了巨大的贡献。但这个事件还有一个更为重要的意义,即证明了AI可以在科学研究领域起到至关重要、甚至决定性的作用。因此,“人工智能驱动的科学研究”(AIforscience,有时也简称为AI4S)成为了AI研究中的显学。

科学的发展是一个不断猜想、不断检验的过程。在科学研究中,研究者需要先提出假设,然后根据这个假设去构造实验、搜集数据,并通过实验来对假设进行检验。这个过程中,研究者需要进行大量的计算、模拟和证明。而在几乎每一个步骤当中,AI都有很大的用武之地。

研究问题

提出一个好的问题是做出一个好研究的第一步,只有提出的研究问题是重要的,后续的研究才可能有意义。传统上,科学问题主要有两个来源:一种是对现象以及数据的观察来提出某些猜想,比如,天文学上著名的开普勒三定律,就是由开普勒在整理天文学家第谷留下的大量数据之后提出,然后再通过理论研究加以确立的。第二种则是对既有文献的梳理,即通过阅读既有的研究成果,看看前人的研究还有哪些地方留有不足,然后以此为突破点提出自己的问题。在使用了AI这个工具后,用以上述两种方式寻找问题的研究者都可以大幅改善自己的效率。

通过观察提问对研究者的直觉要求非常高。以开普勒三定律为例,其中的第一定律(椭圆定律),即“行星绕太阳运行的轨道是椭圆,并且太阳在这个椭圆的一个焦点上”是相对直观的,通过对记录数据的观察基本就可以提出这个假设。但第二定律(面积定律),即“行星和太阳的连线在相等的时间间隔内扫过相等的面积”就不那么直观了,即使是十分仔细的人也需要在灵感的启发之下才可能发现这个规律。至于第三定律(调和定律),即“行星绕太阳一周的恒星时间(T)的平方与它们轨道长半轴(a)的立方成正比”则更是一个非常不直观的现象,只有非常天才的研究者才有可能提出这样的假说。

应用AI之后,人们可以在充分获取观测数据的基础上,相对容易地提出相关的研究问题。例如,如果人们拥有了行星运行的大量数据,并且猜想行星绕太阳一周的时间可能与轨道椭圆的某条轴的长度存在某种关系,那么他们可以利用AI来尝试建立这些变量之间的函数关系。通过这样的方法,开普勒第三定律可能比较容易地被提出来。

通过阅读文献来提问。过去,从事科学研究的人相对较少,研究的数量也相对较少,因此一个研究者只要肯下功夫,就至少可以把自己所从事的领域的相关文献都予以掌握。然而,随着科学的发展,从事科研的人数不断增加,各种科研成果也不断地涌现,一个科研人员要想完整地了解自己所在研究领域的进展已变得越来越困难,更遑论去了解其他领域的动态来给自己的研究提供启发了。

在应用AI工具之后,以上问题得到了相当程度的缓解。例如,现在的研究者可以使用ChatGPT等AI大模型来整理已有的文献,并将其写成摘要。这样,他们就可以大大减少搜索和阅读文献所需的精力,以更小的成本了解现有研究的进展,从而提出新的研究问题。

(2)数据的搜集

在提出了相关的研究问题之后,研究人员就需要设计实验,并搜集相关的数据,为进一步的研究做准备。这个过程中,AI的应用潜力也是十分广阔的。

这种作用首先体现在数据的选择上。在实验当中,并不是所有的数据都是可用的。很多数据可能是受到干扰后产生的,如果不剔除这些数据,后续的研究结果就可能受到严重的干扰。现在在很多实验中,深度学习已经成为了这项工作的主要承担者。

在搜集了数据之后,对数据进行标注也是一项艰巨的工作。例如,在生物学当中,为新分子进行功能和结构标注对于后续的研究来说是非常重要的,但要进行这一工作则并不容易。虽然新一代测序技术不断涌现,但只有不到1%的已测序蛋白质得到了生物学功能的标注。目前,为了能够提高数据标注的效率,研究者们正在尝试让AI学习手动标注的结果,从而训练出代理模型(surrogatemodels)来帮助自己对新的数据进行标签。从现有的结果看,这种方式确实可以比较有效地改进标注效率。

此外,AI还能生成数据。这一点在AI研究领域表现得尤为重要。近十年来,人工智能的主要发展主要来自机器学习领域,众所周知,这个领域的发展对数据的依赖非常强。在实践中,数据的搜集和整理不仅成本高、质量难以保证,还可能引发侵犯个人隐私、威胁数据安全等问题。为了应对这些问题,一些学者建议可以利用合成数据作为真实数据的补充,以供机器学习使用。

与真实数据相比,合成数据具有不少优势。一方面,从训练效果上看,用合成数据进行训练的效果其实并不比真实数据差,在一些场合,它们的表现甚至更高。在真实数据的形成过程中,可能混入很多不必要的噪声信息,这就可能对其质量造成影响,而合成数据则没有这样的问题。麻省理工学院、波士顿大学和IBM曾联合做过一项研究,用真实数据和合成数据分别训练模型对人类的行为进行识别,结果采用合成数据进行训练的模型表现要比采用真实数据训练的模型更优。另一方面,从成本上看,合成数据的成本要远远低于真实数据。除此之外,由于合成数据都是生成而非搜集的,所以使用它们来进行研究还可以规避很多法律和道德风险。

越来越多 AI 研究者开始使用合成数据替代真实数据作为机器学习的材料,这一举措对 AI 技术的发展做出了越来越显著的贡献。正是因为这个原因,《麻省理工科技评论》(MIT Technology Review)将合成数据技术评选为2022年全球十大突破性技术之一。

(3)科学计算与模拟

在科学研究的过程中,通常需要进行大量的计算和模拟工作。比如,如果科学家发现了某个星体的运行规律,怎样才能证明他的发现是正确的呢?最直观的方法就是根据他发现的规律计算出这个星体在未来某个时间点的位置,然后进行比对。从这个意义上讲,精确的计算和模拟就是验证理论的关键。

计算并不是那么容易的事情。例如,从理论上讲,各大星体之间的相对运动关系都可以由万有引力定律推出。牛顿在发现三大定律之后,就曾经很自豪地宣称,他已经掌握了宇宙运行的终极奥秘。但是,真实情况却并非如此。 以由于刘慈欣的小说而被人们所熟知的“三体”问题为例。从表面上看,“三体”系统是非常简单的,总共只有三颗彼此纠缠的恒星,以及一颗夹在其中的行星,要模拟它的运动轨迹似乎并不难。但一旦我们试图用牛顿力学来对其位置进行推导,就会发现得到的联立微分方程其实构成了一个混沌系统,其运动的轨迹是很难确定的,一个微小的扰动都可能带来巨大的偏差。 正是因为这个原因,所以在《三体》小说中,即使科技水平远超地球的三体人也无法制成一张精确的万年历。

在现实生活中,远比“三体”系统复杂的问题比比皆是。在对这些问题进行研究时,人们都不得不直面“维度爆炸”问题的挑战。

台风轨迹预测是一项计算量需求非常高的工作。传统上,人们主要依靠动力系统模型进行预测。这种方法需要根据流体动力学和热力学等物理定律构造大量微分方程,用它们模拟大气的运动,进而预测台风的走向。然而,这个动力系统非常复杂,不仅预测所需的计算量很大,而且容易受到外生扰动因素的影响。这就是为什么世界各国即使动用了最先进的超级计算机,预测也经常出错的原因。 近年来,人们开始尝试使用AI模型预测台风,并由此出现了一系列相关模型。这些模型放弃了传统物理模型的预测思路,转而采用机器学习的方法进行预测,大幅降低了计算负担并有效提升了预测精度。例如,“风乌”模型可以在单个GPU计算机上运行,仅需30秒即可生成未来10天全球高精度预报结果。在最近预测台风“杜苏芮”的过程中,“风乌”模型预测的轨迹误差远远小于传统模型,为人们抗击台风做出了很大贡献。

(4)辅助证明

数学是一种学科,在研究过程中常常需要对命题进行理论上的证明。自古以来,人们就试图利用计算机来帮助他们完成这项困难的工作。他们的基本想法是:首先将一个数学命题形式化(formalisation),然后借助计算机来对形式化的命题给出证明。

在现实当中,很多数学命题是由自然语言表述的。比如,著名的“四色问题”就是要证明“任何一张地图只用四种颜色就能使具有共同边界的国家着上不同的颜色。”对于计算机来讲,这种自然语言是它们难以理解的,因此它们也不可能帮助人们以自然语言的形式来解决证明问题。幸运的是,数学家们经过长期的努力,已经对大部分的数学分支建立起了公理化的表述体系。借助于公理化体系,用自然语言表述的命题就可以表述为由一个系列逻辑判断构成的形式化命题。通过特定的方式编码,计算机可以对这些形式化命题进行识别,于是,计算机就可以帮助人们用来进行辅助证明。

在历史上,著名问题“四色问题”曾经有过多个版本的证明。尽管在每一个版本的证明中,数学家都利用了计算机作为辅助,但最初的证明仍然以人工推导为主,计算机的工作主要局限在提供计算支持。2005年,英国剑桥研究院的高级研究员贡蒂埃(Georges Gonthier)提出了“四色问题”的新一代证明。与前几代的证明不同,贡蒂埃首先将这个问题转化成了一系列形式化的命题,然后使用一个名为Coq的交互式辅助软件对它们进行了证明。在某种意义上,这个过程中可以算是一个机器证明。

需要指出的是,尽管包括Coq在内的辅助证明软件已经可以帮助人们完成很多证明工作,但它的自动化是非常低的。在多数时候,人类研究者还需要充当引导员的角色,帮它们把自然命题转化为形式化命题。

随着人工智能 (AI) 的发展,人们开始尝试利用 AI 来解决各种问题。例如,在 2022 年,由谷歌、斯坦福大学等单位的的研究人员组成的团队发表了一篇论文,介绍了使用 OpenAICodex 的神经网络进行自动形式化的工作,展示了使用大型语言模型将非形式化语句自动翻译成形式化语句的可行性。今年,这个团队又在此基础之上提出了一整套名为“草图、草稿、证明”(Draft,Sketch,and Prove,简称 DSP) 的 AI 辅助证明方法。这套方法建议利用大型语言模型先将自然语言命题转化为由一系列逻辑推理步骤组成的形式化命题,然后用交互式定理证明器来对这些命题进行证明。当然,在这些步骤之间,还存在着一系列的中间猜想。因此在证明的最后,还需要通过自动验证器来对这些中间猜想进行证明。这样,上述的工作就可以合起来构成一个完整的形式化证明。

(5)辅助写作

科研工作在完成研究并得到相关结论后,许多人认为将它们转化为论文是一件轻松的事情。然而,实际情况并非如此。在现实生活中,许多研究人员热衷于实验和数据收集,但对于撰写论文却相当抵触,甚至认为花费时间在措辞上是一种浪费。 然而,自ChatGPT等生成式AI兴起以来,这些研究人员就得到了救赎。现在,他们在完成研究后,可以直接将相关结论交给ChatGPT,从而轻松获得规范的论文。这无疑会极大地减轻他们的工作负担,提高他们的工作效率。

尽管原文中提到了一些重要的贡献,但还有一个容易被忽视的贡献。

需要指出的是,除了上述提到的这些直接贡献之外,AI还有一个非常容易被忽视的影响,即重构产学研关系、促进企业对基础研究的投资热情。对于面临一些领域被西方“卡脖子”的我国而言,这一点可能是尤其需要重视的。

根据《中国研发经费报告2022》,2022年我国基础研究经费支出为1951亿元,基础研究投入强度为6.3%。尽管与历史相比,我国对基础研究的投入强度不断上升,但与国外相比,我们可以看到目前我国的基础研究投入强度仍然较低。

如果我们对基础研究的执行机构进行数据分析,可以发现以高校作为执行机构的比例最高,占总投入的49.4%。其次是研究和开发机构,占39.1%,而企业作为执行机构的仅占6.5%。相比之下,美国基础研究经费由企业执行的比例为32.4%,日本基础研究经费由企业执行的比例为47.07%。众所周知,高校和科研机构的经费主要来源于国家拨款,而企业的研究经费则主要是由其自行投入的。因此,这些数据说明,我国企业在基础研究方面的投入意愿要远低于美、日等国。

造成这种情况的一个重要原因是基础研究的周期漫长、风险较高、转化率低,导致以利润最大化为目标的企业认为从事基础研究无利可图。在发达国家,由于建立了比较完善的产学研共生生态,类似风险可以比较好地在企业、政府、科研机构等众多主体之间分担,因此企业对基础研究的投资积极性就相对较高。而我国,产、学、研彼此之间的孤立性还较高,因而就很难有类似的风险分担机制。

要破解上述问题,根本的出路还是要培育健康的创新生态,推进产学研的一体化。但这是一个长期的过程,不是一朝一夕可以实现的。不过,即使在创新生态未能有效改善的条件下,AI的应用也可以在很大程度上提升企业投资基础研究的积极性。通过前面的分析可以看到,借助AI的辅助,基础研究的周期可以大幅缩短,效率可以大幅提升。从经济角度看,这其实就增加了基础科研的预期收益,同时降低了其失败风险。因此,原本无力可图的基础研究就可能成为一项合算的生意,企业对其投资的积极性也将提升。这样一来,基础研究投入不足的问题就可以得到有效的缓解。

陈永伟是一名经济观察报专栏作家,长期关注和研究中国经济的发展和变革。

《比较》研究部主管