简介:HelixFold 3 :全球首个对标 DeepMind AlphaFold 3 的模型
2020 年 12 月,AlphaFold 2 发布。相较于之前实验成本高、耗时长、蛋白质结构解析困难的传统方法,AlphaFold 2 可以通过深度学习技术,仅需几小时就能准确地预测蛋白质的三维结构,极大地加速了生物医学研究的速度。
众所周知,在包括人体在内的生物体当中,蛋白质并不是孤立运作的,蛋白质与各种其他分子的相互作用会贯穿不同的生物功能,这影响着研究生物和疾病的机理和通路、药物的研发等。但是,AlphaFold 2 无法预测蛋白质与其他类型分子的相互作用。
2024 年 5 月,DeepMind 发布了更先进的 AlphaFold 3,支持不同类型的生物分子(包括蛋白、小分子配体、DNA、RNA 和离子)之间的相互作用,并大大加速了蛋白质结构的绘制。在过去,研究人员可能需要用数年时间才能建模出一个结构,但 AlphaFold 3 现在只需几分钟,即可获得与实验精度相当的预测结果。
AlphaFold 3 在用 AI 技术「理解和建模生物学」道路上迈出的重要一步。有专家预言「AlphaFold 3 也许会在未来获得诺贝尔奖」。
尽管 AlphaFold 3 取得了显著进展,但其尚未开源且约束了每个账户每天的调用次数,这严重制约了新技术在科研和产业界的发展。
尽管有团队尝试根据 AlphaFold 3 的论文进行复现,但完整复现 AlphaFold 3 的所有任务,其工作难度颇高,不仅需要研发团队在生物数据、模型训练层面有积累,更是对团队整体工程代码和产品架构能力的综合考验。
百度螺旋桨团队凭借多年在生命科学领域的研发积累,于 2024 年 8 月,正式对外发布 HelixFold 3 ,在常规的小分子配体、核酸分子(包括 DNA 和 RNA)以及蛋白质的相互作用和结构预测上,成功复现 AlphaFold 3 的效果。HelixFold 3 也是全球首个对标 DeepMind AlphaFold 3 的模型。
HelixFold 3 可以将 AI 技术更好的引入到如共价结合、化学修饰、PROTAC、分子胶、金属酶等之前 AI 技术较难触达的场景中,大大扩展了 AI 技术在生命科学领域的应用范围,使得复杂分子的设计成为可能。
此次 HelixFold 3 的成功研发,有赖于百度在该领域的持续积累,也有赖于合作伙伴们的大力支持,是百度螺旋桨团队、百度智能云、太初元碁、神威数智等强强联合的重要技术成果,更是我国科技生态建设的重要里程碑,提升了国产大模型研发技术在全球 AI 大模型领域的竞争力。
现在,百度螺旋桨 PaddleHelix 团队联合百度智能云的「云高性能计算平台 CHPC」,提供 HeliexFold 3 高性能计算线上服务。借助云高性能计算平台 CHPC,科研人员可以低成本进行大规模的结构预测,精准筛选出高潜力候选分子,降低试错成本,提升药物研发效率。
此外,百度智能云 CHPC 平台还集成了其他生命科学类应用,适用于小分子药物、多肽/蛋白药物以及 mRNA 药物研发等场景,支持灵活的 API 调用、无代码操作。同时,CHPC 对这些应用进行了性能优化,加速新药的创制和优化过程,为人类生命探索提供算力平台支撑。
使用 HelixFold 3 预测生物分子结构 – CHPC 实践指南:https://cloud.baidu.com/doc/CHPC/s/Fm0xmblpw
研究人员借助 HelixFold 3 高性能计算线上服务,仅需几步简单的点击操作,就可以通过 HelixFold 3 对蛋白质、DNA、RNA 、选定配体等组成的复杂生物分子结构进行建模,预测蛋白质与细胞内其他分子的相互作用,协助研究者制定新的研究假设与验证,加速研究与开发流程。即便是没有广泛计算资源或深厚机器学习背景的研究者,也能轻松上手。
为了更好地满足客户商业开发需求,我们即将提供 API 服务,支持客户大批量任务的提交,客户也可以将工具无缝集成到自己的工作研究流程中,用于进行小分子/蛋白质筛选、设计等下游工作,快速进行科学研究与商业开发。
目前, HelixFold 3 在多个生命科学客户的项目中完成测试应用。某制药行业的研发负责人表示:
AlphaFold 3 刚发布不到 3 个月,国产大模型就能复现其效果,并且 HelixFold 3 对蛋白质和细胞内其他分子的预测准确性表现出色,效果令人意外。
通过我们的测试,在常规的小分子配体、核酸分子(包括 DNA 和 RNA)以及蛋白质的相互作用和结构预测上,HelixFold 3 精度与 AlphaFold 3 线上服务相媲美。
为了评估其在蛋白质–配体结构预测中的效果,HelixFold 3 与其他主流方法在 PoseBusters 数据集上的表现进行了对比。PoseBusters 是一个用于评估配体对接算法的基准数据集,最初包含了428 个结构(PoseBusters V1),在排除了那些与多个生物分子单元内距离小于 5.0Å 的配体数据后,精简为 308 个结构(PoseBusters V2)。
我们对比的基线方法可以分为三类:不指定真实蛋白质结构的方法、指定已知蛋白质结构的方法,以及指定活性位点残基的方法。在这两个版本的数据集上,HelixFold 3 即便在没有指定蛋白质结构的情况下,仍然展示出卓越的表现,成功率甚至超过了依赖已知蛋白质结构的方法,其预测精度与目前顶尖的 AlphaFold 3 相当,这表明 HelixFold 3 在蛋白质-配体相互作用预测领域的出色潜力。
模型预测的配体结构在立体化学和物理合理性是大家所关注的,使用 PoseBusters 测试套件可以评估了分子内部和分子之间的各种合理性指标。无论是 HelixFold 3 还是 AlphaFold 3,在几乎所有指标上都达到了 90% 以上的通过率。
由于核酸分子的结晶结构数量很少,完全无人为干预地自动化地准确预测其结构一直是一个巨大的挑战。对于核酸分子效果的评估,HelixFold 3 在 CASP15 (蛋白质结构预测领域的重要国际竞赛)中有结晶结构的 RNA 样本及从 ProteinData Bank(PDB) 中最新收集的 41 个 RNA 分子和 41 个 DNA 分子进行评测。
HelixFold 3 在 CASP15 的 RNA 样本的精度虽然还不及有人工干预的方法AIchemy_RNA2,但在能够完全自动化推理的 RNA 模型当中已经达到了与 AlphaFold 3 相当的水平。在从 PDB 最新收集的 RNA 和 DNA 的结构预测上,HelixFold 3 的精度亦是极具竞争力,远超专门为核酸分子结构预测所设计模型 RoseTTAFold2NA 和另一个全原子生物分子结构预测模型 RoseTTAFold-AllAtom。
在蛋白质-蛋白质复合体结构预测领域,尽管 AlphaFold-Multimer 在先前模型的基础上实现了显著的进步,但其成功率和准确性仍有进一步提升的空间。AlphaFold 3 则在此基础上进一步优化了预测能力,展现出更为优异的性能。
当前,HelixFold 3 在蛋白质-蛋白质复合体结构预测方面已经略微超越了 AlphaFold-Multimer 的表现,展示出更强的预测能力。然而,与 AlphaFold 3 相比,HelixFold 3 仍存在一定的性能差距。因此,未来的研究工作将继续致力于优化和迭代 HelixFold 3,以缩小这一差距,力求在预测精度和成功率上进一步提升。
HelixFold 3 结构预测模型的置信度评分可用于评估模型预测的结构准确性。HelixFold 3 分别对小分子配体-蛋白质数据集 PoseBusters 和从 PDB 中收集的蛋白质-蛋白质复合体,RNA 分子和 DNA 分子输出的置信度评分。我们都可以观测到置信度评分与结构的准确性间具有很强的相关性。
欢迎大家在线体验 HelixFold 3:https://paddlehelix.baidu.com/app/all/helixfold3/forecast