秒级别!百度联合百图生科开源单序列蛋白结构预测模型HelixFold-Single,速度提升数百倍

作者:三里河2022.08.08 11:53浏览量:745

简介:仅仅通过蛋白质的一级序列就可以准确预测其三级结构

通过人工智能的方法,从蛋白质的一级序列精准预测其三维结构,已被AlphaFold2证实可达到实验精度。但AlphaFold2的模型主要依赖多序列比对(MSA)和模版(Template)信息,而从蛋白质数据库中搜索MSA和模版又是一件非常耗时的工作,成为模型向产业界大规模推广的一个瓶颈。

近日,百度飞桨螺旋桨与百图生科,共同开发了新的蛋白结构预测大模型,不需要MSA信息作为输入,仅仅通过蛋白质的一级序列就可以准确预测其三级结构。

图片.jpg

其实早在今年5月份百度的WaveSummit大会上,螺旋桨团队联合百图生科就发布了基于单序列构建蛋白结构预测模型的计划。时隔2个多月,基于单序列的蛋白结构预测模型HelixFold-Single正式在螺旋桨PaddleHelix平台对外开源,并提供web服务在线测试体验。未来,该模型还将作为百图生科xTrimo多模态生物计算大模型体系的重要组成部分,与其他蛋白质、相互作用、细胞模型一起,助力百图生科的创新蛋白质药物研发。

HelixFold-Single从近3亿的无标注蛋白质数据中提取信息,建模蛋白质之间的关系,从而将MSA同源信息隐式的学习在预训练大模型中,进而有效地替代MSA信息检索模块,极大地提升了结构预测的速度,模型推理的速度平均提升数百倍。

图片.jpg
⬆️NVIDIA A100(40G) GPU 单卡测试结果

在计算效率极大提升的同时,HelixFold-Single模型在精度上也不输AlphaFold2,且在MSA更深的蛋白上表现比AlphaFold2更优,这也从侧面论证了,模型通过调大参数可以从海量蛋白质数据中学习到共进化信息,不用MSA也可以精准预测蛋白的三级结构信息。

图片.jpg

HelixFold-Single是全球首个开源、并提供在线服务的蛋白结构预测大模型,希望为产业界带来更低使用门槛的蛋白结构预测服务,让蛋白结构预测模型的使用门槛更低,范围更广。百图生科的大分子药物研发平台也将基于该模型和完整的xTrimo大模型,加速自身药物研发,并为百图生科开放平台的卓越开发者伙伴提供大分子结构预测和设计能力。

图片.jpg
⬆️HelixFold-Single预测的蛋白结构(紫色)、AlphaFold2预测的蛋白结构(绿色)和实验测量的蛋白结构(蓝色)对比

更多信息可以访问如下链接:

开源地址:
https://github.com/PaddlePaddle/PaddleHelix/tree/dev/apps/protein_folding/helixfold-single
论文地址:
https://arxiv.org/abs/2207.13921
在线体验:
https://paddlehelix.baidu.com/app/drug/protein-single/forecast