【新民客户端】“这是人工智能对科学领域最大的一次贡献” | 2024诺贝尔化学奖解读

稿件来源:党委宣传部 作者:张炯强 摄影:诺贝尔奖官网编辑:浏览:134


来源:诺贝尔奖官网

你可以想象吗?有一个AI大模型,它能准确预测人体中上亿个蛋白质的结构,而且,其精准性达到了冷冻电子显微镜的观测水平。它就是Alphafold。中国科学院院士、西湖大学校长施一公曾评价:这是人工智能对科学领域最大的一次贡献。该模型的两位开发者昨天(9日)分享了2024年诺贝尔化学奖。

瑞典皇家科学院9日宣布,将2024年诺贝尔化学奖授予美国华盛顿大学西雅图分校的大卫·贝克““计算蛋白质设计”,另一半共同授予英国伦敦的德米斯·哈萨比斯和约翰·江珀“蛋白质结构预测”。其中,“蛋白质结构预测”正是这个AI模型。他们来自谷歌公司,解决了一个50年前的问题:预测蛋白质的复杂结构。

自2018年Alphafold首次发布,到2020年重大改进,再到后来不断完善,该技术已经获得科学界普遍认可,两位候选人短短几年已获得许多重大科学大奖。值得一提的,德米斯·哈萨比斯和约翰·江珀为70后和80后。这一回,站在诺奖奖台上的,不再是近年来常见的白发老者。

今年诺贝尔化学奖的主题是蛋白质——生命中巧妙的化学工具。蛋白质是生命的基础。被释放的蛋白质结构信息蕴含着生命信息的密码,将有力推动生命科学的发展,大大加速针对癌症、病毒的抗生素、靶向药物和新效率的蛋白酶的研发。但是,在过去50年中,“蛋白质折叠问题”一直是生物学界的重大挑战。此前,生物学家主要利用X射线晶体学或冷冻电镜等实验技术来破译蛋白质的三维结构,但这类方法耗时长、成本高。几年前,科学家用计算机预测复杂的蛋白质折叠结构,正确率还不到40%。直到德米斯·哈萨比斯和约翰·江珀所在的谷歌旗下DeepMind公司团队出现,奇迹出现了。当时,团队就有信心攻克这个世界难题。

2020年11月30日,Alphafold2在蛋白质结构预测大赛CASP 14中,对大部分蛋白质结构的预测与真实结构只差一个原子的宽度,达到了人类利用冷冻电子显微镜等复杂仪器观察预测的水平,这是蛋白质结构预测史无前例的巨大进步。

已知氨基酸顺序的蛋白质分子有1.8亿个,但三维结构信息被彻底看清的还不到0.1%。2021年8月,DeepMind公司在《自然》上宣布已将人类的98.5%的蛋白质预测了一遍,计划年底将预测数量增加到1.3亿个,达到人类已知蛋白质总数的一半,并且公开了AlphaFold 2的源代码,免费开源有关数据集,供全世界科研人员使用。目前,AlphaFold 2升级为AlphaFold 3。

中国工程院院士李国杰指出:机器学习可以正确预测蛋白质结构,说明机器已掌握了一些人类还不明白的“暗知识”。

值得一提的是,DeepMind团队还是当年大名鼎鼎阿尔法狗的开发者,打败了全部的国际象棋和围棋高手。后来,他们致力于蛋白质结构密码的破译。那么,AI模型为何拥有如此巨大的分析能力?其原始数据何来呢?

华东理工大学教授许建和曾担任生物反应器工程国家重点实验室主任,他说,Alphafold原始数据就来源于科学家用传统方式、花费数十年时间破解的20多万个蛋白质结构。“以20万的数据,推测出1亿多别的蛋白质结构,准确达90%,这就是AI的神奇之处。”许建和表示,自己的实验室也在以传统方式(包括冷冻电子显微镜、核磁共振或X射线晶体学等技术)破解蛋白质的结构,解析一个蛋白质,短至一个月,长的两三年,而且仅有1/3的成功率,由此可见Alphafold模型的意义所在。当然,AI模型目前不能解决所有蛋白质预测,一些复杂的蛋白质结构仍要通过实验室完成。

大卫·贝克“计算蛋白质设计”同样具有划时代的意义。想象一下,如果新合成一种蛋白质,能够识别流感病毒,是不是有望成为一种新的药物?这正是大卫·贝克十多年前做的一项实验。贝克实验室的梦想,是设计出多种不同的蛋白。这还不仅限于人体蛋白,包括动物、植物、病毒蛋白。它将助力于医疗、农业、生态保护各个领域。

可是,设计蛋白质并非易事,假设要设计一个由100个氨基酸组成的蛋白质,每一种氨基酸又有20种截然不同的可能,使得可能的氨基酸序列总数高达20的100次方。这几乎是人类不可完成的任务。于是,大卫·贝克也借助了AI技术,其团队开发的RoseTTAFold系统在解析蛋白质3D结构方面的表现与AlphaFold2的水平几乎相当。可以预见的是,蛋白质设计新技术让人类有能力去挑战任何类型的靶点,这是当下生物医药产业的幸运,也为人类攻克各类疾病带来希望。

发布时间:2024-10-11