测蛋白质氨基酸序列
四种DNA字母要编码20种氨基酸。绝不可能是一对一编码,也不可能是二对一编码,因为两个字母最多只能组成16种组合(4×4)。因此,最低要求是三个字母,也就是DNA序列里面最少要有三个字母对应到一个氨基酸,被称为三联密码,后来被克里克和西德尼·布伦纳证实。
但是这样看起来似乎很浪费,因为用四种字母组成三联密码,总共可以有64种组合(4×4×4),这样应该可以编码64个不同的氨基酸,那为什么只有20种氨基酸呢?一定有一个神奇的答案来解释为什么4种字母,3个一组,拼成64个单词,然后编码20种氨基酸。
1952年,沃森就曾写信告诉克里克:“DNA合成信使RNA(mRNA), mRNA合成蛋白质。”克里克开始研究这一小段mRNA的字母序列,如何翻译成蛋白质里面的氨基酸序列。他认为mRNA可能需要一系列“适配器”来帮助完成翻译,每一个适配器都负责携带一个氨基酸。当然每一个适配器一定也是RNA,而且都带有一段“反密码子”序列,这样才能和mRNA序列上的密码子配对。
适配器分子也由RNA分子组成。它们现在叫作“转运RNA”或tRNA。现在整个工程变得有点像乐高积木,一块块积木接上来又掉下去,一切顺利的话,它们就会这样一个接一个地搭成精彩万分的聚合物。
随着实验技术进步而且越来越精密,在20世纪60年代中期许多实验室陆续解开了序列密码。然而经过一连串不懈的译码工作后,大自然却好像随兴地给了个潦草结尾,让人既困惑又扫兴。遗传密码子的安排一点也不具创意,只不过“简并”了(意思就是说,冗余)。有三种氨基酸可对应六组密码子,其他的则各对应一到两组密码子。每组密码子都有意义,还有三组的意思是“在此停止”,剩下的每一组都对应一个氨基酸。这看起来既没规则也不美,根本就是“美是科学真理的指南”这句话的最佳反证。甚至,我们也找不出任何结构上的原因来解释密码排列,不同的氨基酸与其对应的密码之间似乎并没有任何物理或化学的关联。
克里克称这套让人失望的密码系统为“冻结的偶然”,而大部分人也只能点头同意。他说这个结果是冻结的,因为任何解冻(试图去改变密码对应的氨基酸)都会造成严重的后果。一个点突变也许只会改变几个氨基酸,而改变密码系统本身却会从上到下造成天大灾难。就好似前者只是一本书里无心的笔误,并不会改变整本书的意义,然而后者却将全部的字母转换成毫无意义的乱码。克里克说,密码一旦被刻印在石板上,任何想改动它的企图都会被处以死刑。这个观点至今仍有许多生物学家认同。
曙光异构算力服务平台,加速蛋白质计算升级
困扰科学家近50年的蛋白质折叠难题
蛋白质是生命的物质基础,是组成人体一切细胞、组织的重要成分。无论是肌肉收缩、眼睛感光,还是消化食物等,人类的生命活动无时无刻都需要蛋白质的参与。
而蛋白质之所以功能丰富,很大程度得益于其独特的空间结构。可以说,想要更了解人本身,就需要破译每个蛋白质的复杂结构。然而,蛋白质中的长链氨基酸扭曲、折叠并交织成复杂的三维结构,为结构破译设下层层关卡,这才有困扰了科学家近50年的“蛋白质折叠难题”。
AI赋能蛋白质计算
随着科技革命和产业转型浪潮的推进,人工智能赋能科学研究的趋势势不可挡,蛋白质科学首当其冲。借助AI颠覆蛋白质结构预测,使分子生物学家从基于蛋白质氨基酸序列研究转变为用预测的结构分析蛋白质功能,影响了整个生物科学的研究范式。
最典型的就是人尽皆知的AlphaFold。DeepMind 宣布,人们首次发现了一种通过计算来预测蛋白质结构的方法。即使在不知道相似结构的情况下,AI 也可以在原子层面上精确预测蛋白质的结构,使得不可能变为可能。
DeepMind表示,AlphaFold 可以周期性地以原子精度预测蛋白质结构,利用多序列对齐和深度学习算法设计,结合关于蛋白质结构的物理和生物学知识提升预测效果。其突破性的研究成果广泛应用在生命学科各分支,是对结构生物学领域的一个颠覆性突破。
AI模型+曙光算力服务,蛋白质功能预测与设计未来可期
扩展来看,不只是对蛋白质结构预测的变革,AI 对整个科研领域还有大量的潜力等待挖掘,如 AI + 数学、AI + 化学、AI + 医药等,这些应用将帮助科研人员探索引发某些疾病的机制,并为设计药物、农作物增产研发铺平道路。
曙光智算作为智能计算时代的算力服务商,在“AI+Science”等领域持续深耕,已沉淀大量前沿实践经验,实现了对开发环境的快速部署。针对开发流程,对运算资源按照训练任务进行分割和分发,并额外支持容器镜像管理、权限管理、交互界面图形化等功能,以帮助用户更快速地介入人工智能领域,聚焦实际算法的优化和迭代,促进人工智能技术的快速落地。
曙光异构算力服务平台,加速蛋白质计算升级
【#ARK Invest#?科技洞察:DeepMind的AlphaFold开创了计算生物学的新时代】
蛋白质是地球上所有生命所必需的。它们由成百上千个相连的亚单位组成,称为氨基酸。每一种氨基酸的大小、形状和电荷都是独一无二的,当蛋白质链固定到一个舒适的位置时,它会使蛋白质在三维空间中扭曲和扭曲。由此产生的结构决定了蛋白质的功能。例如,在红血球中发现的一种蛋白质,血红蛋白有一个与氧气(O2)结合的凹槽,将氧气输送到全身。
传统上,科学家使用像x射线晶体学这样的成像技术来确定蛋白质结构。1972年,化学家克里斯蒂安·安芬森提出蛋白质的氨基酸序列决定了它的三维结构。从那时起,为了避免实验的高成本,研究人员试图用强力计算来“模拟”蛋白质结构,但这种计算并未削减蛋白质结构。
1994年,John Moult和Krzysztof Fidelis教授创立了蛋白质结构预测技术的关键评估(Critical Assessment of technologies for Protein Structure Prediction,CASP),这是一项两年一次的蛋白质折叠方法评估。直到2018年,Alphabet(GOOGL)的人工智能(AI)研究子公司DeepMind用一种称为AlphaFold的基于神经网络(NN)的算法让财团大吃一惊,直到2018年。
而DeepMind用AlphaFold震惊了世界,AlphaFold是一种能够预测蛋白质结构的算法,与当代实验方法相当。CASP财团认为准确度得分高于90 GDT1是可行的解决方案。AlphaFold的平均得分为92.4 GDT。
在ARK看来,AlphaFold是一个极大的突破,原因有二。
首先,神经网络训练集不包括专有数据,只有一个免费的公共数据库中已知的约170000个蛋白质结构。
其次,根据ARK的估计,DeepMind只花了20000美元就训练出了AlphaFold,展示了新的NN架构与计算生物学领域的深层专业知识相结合的强大功能。
虽然AlphaFold似乎有望在药物发现、蛋白质工程和基础生物学方面取得重大突破,但其预测蛋白质的准确性可能存在局限性,与模型训练集中的蛋白质不同。期待DeepMind在其即将发表的关于AlphaFold的论文中对这一潜在弱点进行讨论。
#科技快讯# #人工智能# #谷歌#
主题测试文章,只做测试使用。发布者:氨基酸肥料,转转请注明出处:https://www.028aohe.com/24095.html