AlphaFold迎来对手?Meta AI 预测超6亿个蛋白结构,仅用2周时间
原创 生物世界 生物世界
编译丨王聪
排版丨水成文
今年7月,开发 AlphaFold 的 DeepMind 公司宣布,将预测的蛋白质结构数据量从100万个提升到了2.2亿个,而且不再仅仅着眼于人类蛋白质,还包括了植物、细菌、动物和其他生物体在内的各种物种的蛋白质结构。这几乎还改了DNA数据库中所有已知的蛋白质。
蛋白质结构的数量(紫色小圆表示实验所得的蛋白质结构数据量,浅蓝色中圆表示早期AlphaFold数据库中的数据量,蓝色大圆表示现在AlphaFold数据库中的数据量) 图片来源:deepmind.com
而现在,另一个科技巨头 Meta(也就是之前的Facebook)正在填补蛋白质宇宙中的暗物质。
Meta 的研究人员使用人工智能(AI)预测了超过6亿种蛋白质的结构,这些蛋白质来自细菌、病毒和其他尚未被表征的微生物。
ESM宏基因组图谱数据库包含6.17亿个蛋白质的结构预测
Meta AI 蛋白质团队使用“大型语言模型”生成了这些结构预测,并于11月1日在预印本发表论文【1】,描述了这一成果。
Meta AI蛋白质团队的研究负责人 Alexander Rives 表示,这些来自土壤、海洋和人体的微生物中的蛋白是我们所知最少的结构,这些蛋白质非常神秘,能够为我们深入了解生物学提供潜力。
“大型语言模型”一种人工智能(AI)模型,可以从几个字母或单词预测文本,通常语言模型是在大量文本的基础上进行训练的。为了将其应用到蛋白质结构预测上,研究团队用已知的蛋白质序列进行序列,这些蛋白质由20个不同的氨基酸组成表示,每个氨基酸用一个字母表示。然后,该模型学会了在模糊氨基酸比例的情况下“自动补全”蛋白质序列。
蛋白质序列“自动补全”
Alexander Rives 表示,这种训练使模型对蛋白质序列有了直观的理解,而蛋白质序列包含了蛋白质结构形状的信息。受到 DeepMind 开创性的蛋白质结构工具 AlphaFold的启发,将这种洞察力与已知蛋白质结构和序列之间关系的信息结合起来,从蛋白质序列生成预测结构。然后,该模型学会了在模糊氨基酸比例的情况下“自动补全”蛋白质。
Meta 的研究团队在今年夏天发布的一项报告中表示,其开发的蛋白质结构预测工具 ESMFold 的准确性不如 AlphaFold,但在速度方面要快60倍左右,这意味着可以将结构预测扩展到更大的数据库中。
作为一个测试案例,他们决定将这一预测模型应用于一个大序列DNA数据库“宏基因组”,这些DNA数据来自环境之中,包括土壤、海水、人类肠道、皮肤和其他微生物栖息地。绝大多数编码潜在蛋白质的DNA序列来自从未被培养过的生物,也不为科学所知。
Meta 的团队总共预测了超过6.17亿个蛋白质的结构。这项工作只花了两周时间。
Alexander Rives 表示,这一预测模型是免费的,任何人都可以使用,就像模型的底层代码一样。
在这6.17亿个预测的蛋白质结构中,该模型认为超过三分之一的预测是高质量的,因此研究人员可以确信蛋白质的整体结构是正确的,在某些情况下,还可以识别更精细的原子级的细节。其中数大量结构都是全新的,与实验确定的蛋白质结构数据库或从已知生物中预测的 AlphaFold 数据库中的任何东西都不同。
首尔国立大学的计算生物学家 Martin Steinegger 表示,AlphaFold 数据库的很大一部分是由彼此几乎相同的结构组成的,而“宏基因组”数据库应该涵盖以前从未见过的蛋白质宇宙的很大一部分,这是一个很大的机会来揭开更多的黑暗中的蛋白质。
但哈佛大学进化生物学家 Sergey Ovchinnikov 对 ESMFold 的数亿个预测结果表示怀疑,其中有些预测可能缺乏确定的结构,而另一些可能是非编码DNA,却被误认为编码蛋白质,似乎还有一半以上的蛋白质空间是我们所不知道的。
德国慕尼黑工业大学的计算生物学家 Burkhard Rost 对 ESMFold 预测的速度和准确性印象深刻。但他也怀疑从宏基因组数据库中预测蛋白质时,它是否真的比 AlphaFold 的精确度更有优势。基于语言模型的预测方法,更适合快速确定突变如何改变蛋白质结构,这是 AlphaFold 无法做到的。他表示,我们将看到结构预测变得更精简、更简单、更便宜,这将为新事物打开大门。
DeepMind 的一位代表说,该公司目前没有计划在其数据库中包含宏基因组的结构预测,但不排除在未来这样做的可能性。
但首尔国立大学的计算生物学家 Martin Steinegger 表示,他和合作者已经使用 AlphaFold 来预测大约3000万个宏基因组蛋白质的结构。他们希望从中发现新的RNA病毒种类。他认为,这类预测工具的下一步显然是研究生物学中的暗物质。预计我们将很快会在这些宏基因组结构的分析方面出现爆炸式增长。
参考资料:
1.https://www.biorxiv.org/content/10.1101/2022.07.20.500902v2
2.https://www.nature.com/articles/d41586-022-03539-1