牛合成氨基酸(这个困扰了科学家70年的难题,现在被AI解决了)

牛合成氨基酸

科学家对人工智能的担忧

这个困扰了科学家70年的难题,现在被AI解决了

图片来源:DeepMind官网

从首个蛋白的一级结构被公布,到如今DeepMind打造的AlphaFold系统开始破解人类蛋白组几乎所有蛋白的空间结构,已经过去了超过70年的时间。AI在结构生物学领域取得的重大突破,不仅提升了我们对蛋白质的理解,还将改变我们对几乎所有生理过程和人类疾病的认识。

去年年末,人工智能研究实验室DeepMind的AlphaFold在国际蛋白质结构预测竞赛(CASP)上一骑绝尘,首次将蛋白三维结构预测的分数提升至90分。不到8个月后,DeepMind又为生物学界带来了两个重磅消息。7月15日,他们在《自然》杂志上发布了关于AlphaFold算法的新论文,实现了原子层面上的蛋白质结构精确预测。仅仅一周之后,他们又和欧洲生物信息学研究所(EMBL-EBI)合作发表了一篇《自然》论文。这次,他们想要完成的是一个更大的目标——破解人类蛋白组中所有蛋白质的三维结构。

氨基酸,蛋白质

从人类首次解析出构成蛋白质的氨基酸序列,到如今可以模拟和解析人体蛋白组中绝大多数蛋白的三维结果,科学家已努力了超过70年。1949年,英国生物化学家弗雷德里克·桑格(Frederick Sanger)通过水解胰岛素,首次确定了组成牛胰岛素的氨基酸序列,这也是人类确定的首个蛋白质的氨基酸序列。这些氨基酸序列是牛胰岛素的一级结构,如果我们只按照这个序列合成胰岛素,得到的产物不会有活性。氨基酸序列需要通过数步折叠过程,形成复杂的3级结构后,才能成为具有功能的蛋白质。

1965年,中国科学家首次解析出胰岛素的精确结构,人工合成出了具有活性的胰岛素。在人类的蛋白组中,胰岛素是一种结构简单的小型蛋白质,它含有两条肽链,有51个氨基酸。对人类等真核生物来说,一个蛋白质中平均含有400多个氨基酸残基,其中绝大部分蛋白质的空间结构远比胰岛素复杂。

人类基因组草图公布后,科学界对蛋白质的研究进入了快车道。经过数十年的努力,研究人员通过解析蛋白质的氨基酸序列、提取纯净和高质量的蛋白质,再加上冷冻电子显微镜的应用,至今已经解析出了超过5万个人源蛋白质的三维结构。无疑,我们获得蛋白三维结构的速度正在不断变快。

不过,实验解析蛋白质也受到诸多限制。由于这一过程过于繁琐,且稍有不慎就无法获得较好的蛋白质空间结构,因此仍有大量人源蛋白质结构有待破解。与此同时,一些科学家开始尝试另一种工具——借助人工智能(AI)技术来预测蛋白的空间结构。

1994年,计算生物学家约翰·莫尔特(John Moult)等人创立了CASP比赛,让AI加入到蛋白质三维结构的研究中。不过在此之后的20多年中,各个AI实验室在这项比赛中的始终缺乏实质性突破。直到DeepMind的加入,彻底改变了这一局面。

2020年,DeepMind开发的一款蛋白质三维结构预测算法“AlphaFold”一举夺得了当年CASP比赛的最高分(GDT分数为90分),比第二名的分数高出了15%。GDT分数主要用来评估算法预测三维结构中氨基酸的位置与实际空间结构的差距,分数越高,预测越准。当时AlphaFold就像是一枚投在生物学界的炸弹,当时《自然》《科学》等相继发文,强调了这是人工智能的一次重大胜利。

从实验解析到AI预测

在细胞中,蛋白质的折叠过程需要分子蛋白或辅助蛋白的帮助。而我们能看到的是,一些氨基酸序列通过一系列变化,形成了一个具有三维结构和活性的蛋白质。在蛋白质中,具有相同特性的氨基酸通过特殊的共价键(例如二硫键)聚集到一起,形成一些特定的螺旋结构,比化学键更加微弱的分子间作用力维系着蛋白质的三维结构。

但是,依靠这些理论还远远不足以准确预测蛋白质的三维结构,这也是很多参与CASP比赛的算法分数不高的原因。在今年7月15日一项公布于《自然》的论文中,DeepMind的研究团队详细介绍了AlphaFold成功的原因。这一算法采取了多序列比对和一种新型的神经网络架构,将重点放在一些关键的氨基酸上。此外,这一算法还纳入了结构模块(Structure Module),用于评估预测的蛋白质结构的每个氨基酸残基与其真实位点的差异。DeepMind的研究团队还强调,AlphaFold是首个在不知道相似蛋白的结构时,也可以在原子层面上精确预测蛋白质结构的算法。

昨日,在发表于《自然》期刊的一项研究中,他们和EMBL-EBI合作利用AlphaFold做出了一项更有突破性和实用性的研究——直接对人类蛋白组中98.5%的蛋白质完整三维的结构进行了预测。根据他们的估计,虽然蛋白质资料库(PDB)中公布的人源蛋白质三维结构占到了目前人类蛋白组的35%,但是很多蛋白质的空间结构并不完整。实际上,完整的三维蛋白质结构只占17%。

类似于CASP比赛中的GDT分数,研究人员也为AlphaFold设置了一个可以评估预测可信度的数值——pLDDT(每个残基位点的可信度测评,per-residue confidence metric)。当pLDDT值大于90,表示对蛋白质中某个氨基酸残基位置的预测具有很高的可信度;当pLDDT值大于70,表明预测结果是基本准确的。

在对人体蛋白质组三维结构的预测中,AlphaFold精确预测了35.7%的氨基酸残基的位点,基本准确地预测了58.0%的氨基酸的位点。在蛋白质水平上,这一算法也能较为准确地预测人类蛋白组中43.8%的蛋白质至少3/4序列的空间结构。在1290个没有没有参考结构的蛋白质中,AlphaFold能较为准确预测每个蛋白中近200个氨基酸残基的空间结构(pLDDT≥70)。

这个困扰了科学家70年的难题,现在被AI解决了

一种由WFS1基因编码的蛋白,突变会导致WFS综合征。(图片来源于论文)

在这次实验中,AlphaFold还准确预测出由于许多和药物靶点相关的酶和膜蛋白的三维结构。由于膜蛋白的结构复杂,一直以来,通过实验方法来解析这类蛋白的结构都极具挑战性。除此之外,AlphaFold还能较为准确地预测出此前没有接受过训练或不熟悉的蛋白质的三维结构。

除了人源的蛋白质,他们还利用AlphaFold对其他20种模式生物(包括小鼠、玉米和疟原虫)蛋白组中的蛋白进行了预测。根据《自然》官网的消息,这些预测的蛋白质三维结构数据已通过EMBL-EBI托管的公用数据库免费向公众开放,目前有近36.5万个蛋白质结构已在该数据库中发布,而到今年年底,这一数值有望增长到1.3亿。DeepMind和EMBL-EBI的研究人员强调,目前这部分工作还只是一个开始。他们想要进一步验证这些预测的结果,更重要的是,将它们应用到迄今为止不可能实现的实验中。

这个困扰了科学家70年的难题,现在被AI解决了

蛋白Q8I3H7,可以保护疟原虫免受人体免疫系统的攻击。(图片来源:AlphaFold Protein Structure Database)

重大意义

近70年来,解析蛋白质的空间结构一直是一项极具科学意义的难题。如果基因组是一个“指令官”,那么蛋白质就是基因功能的“执行者”,可以说蛋白质几乎参与人体内所有的生理过程和疾病过程。如果我们能掌握蛋白质的精确结构,就像解析了一把精密的锁的内部结构。对于人类来说,也更容易开发出一把甚至多把能打开这些“锁”的钥匙,而这将会改变我们在分子水平上对自身的认知,治疗现今绝大多数的人类疾病。

DeepMind联合创始人兼首席执行官杰米斯·哈萨比斯(Demis Hassabis)认为,这是人工智能系统迄今为止对推进科学发展作出的最大贡献。此外,对于一些AlphaFold无法准确预测的蛋白结构,一些科学家也发表了自己的见解。一部分人认为,在人类等真核生物中,相当一部分蛋白质区域本身就是无序的,这或许是为了与其他的蛋白分子相互作用,也可能还有一些我们还不知道的作用。

值得一提的是,在《自然》于上周发表AlphaFold论文的次日,《科学》杂志也公布了另一项蛋白质预测算法——RoseTTAFold。这个算法由华盛顿大学医学院蛋白质设计研究所和哈佛大学、剑桥大学等机构联合开发。它采用和AlphaFold2不同的深度学习算法,但具有AlphaFold2可媲美的超高准确率,而且速度更快、对计算机处理能力的需求也较少,能在短短的10分钟内计算出一个蛋白的结构。目前,研究人员正在用这一算法研究一些和人类健康直接相关的蛋白质的结构。

这两项算法的出现无疑标志着在结构生物学领域,AI的时代已经到来。

撰文 | 石云雷

审校 | 吴非

参考链接:

https://www.nature.com/articles/s41586-021-03828-1

https://www.nature.com/articles/d41586-021-02025-4

https://www.nature.com/articles/s41586-021-03819-2

这个困扰了科学家70年的难题,现在被AI解决了,科学家对人工智能的担忧

主题测试文章,只做测试使用。发布者:氨基酸肥料,转转请注明出处:https://www.028aohe.com/27644.html

(0)
氨基酸肥料氨基酸肥料
上一篇 2022年9月2日 上午10:38
下一篇 2022年9月2日 上午10:46

相关推荐

  • 6圈2铁(一圈两铁什么意思)

    第七题求解 截下的长=18/3/3=2分米 原长方形的长=3+2=5分米 表面积=2*(3*3+3*5*2)=78平方分米 一根铁丝绕木桩六圈还差6米绕木桩四圈还剩2米这根铁丝长多少米?因为木桩每周的长度是一定的,所以根据题意可以得到6圈-铁丝=6,铁丝-4圈=2。相加就有2圈=8米,所以木桩一周有8÷2=4米。铁丝长度就是2+4×4=18米。 一圈二铁三麦…

    肥料资讯 2022年11月7日
    00
  • 马铃薯栽培技术与管理,用什么肥料比较好

         回答首先要选择疏松肥沃的土壤来种植,可以选择半砂壤土,同时,种植马铃薯的地块不能种植过茄科作物。同时要选择品种好的薯块,薯块必须完整,颜色鲜艳,无害虫,无畸形,无冻伤,无芽坏死。播种前10-15天,可以将种薯放在15-20℃有阳光的地方进行晾晒,促进发芽。   一、马铃薯栽培技术与管理   1、栽培技术   (1)首先要选择土壤,最好是选择半砂壤土…

    肥料资讯 2022年4月15日
    00
  • 林下养鸡需要什么设备,分别介绍蓄蛋窝、饮水设备、保温场所和饲喂器

      蓄蛋窝:可以让鸡定点下蛋,方便收取。   饮水设备:林下养鸡一般水源都不是很方便,准备饮水器十分重要,最好用大一点的饮水器。   保温场所:小鸡在晚上需要用到保温箱,在天气冷时所有鸡都需要进行保温工作。   饲喂器:通常选用自流形式的饲喂器,方便喂养。      一、蓄蛋窝   1、这个东西很容易被养殖户忽略,但其实很重要,林下养鸡的记得活动范围很广,所…

    肥料资讯 2023年4月17日
    00
  • 除草剂有几种

      按类型分类:包括触杀型除草剂,内吸传导型除草剂,触杀、内吸传导综合型除草剂。   按作用方式分类:包括选择性除草剂,灭生性除草剂。   按化学成分分类:包括无机类除草剂,有机类除草剂。   按使用方法分类:包括茎叶处理剂,土壤处理剂,双重处理剂。   按施药时间分类:包括播前处理剂,播后苗前处理剂,苗后处理剂……      一、按…

    肥料资讯 2023年4月16日
    00
  • 今年开春化肥价格怎么样(来年化肥价格走势)

    现在化肥价格还会降吗? 今年北方秋播市场已经接近尾声,化肥市场呈现氮肥销售平稳、复肥销量下降、磷肥触底反弹的特点。华北地区化肥的销售总量较去年有了明显地提升。冬储期即将到来,东北地区尿素拿货量将显著增加,东北市场后期将带动关内市场的好转,此举亦将刺激华北地区的储备需求。 进入10 月下旬,北方各地秋播市场已临近结束,北方地区的化肥销售将要划上一个句号,关于今…

    肥料资讯 2023年1月2日
    00

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信
自6.2开始主题新增页头通知功能,购买用户可免费升级到最新版体验