关注百度智能云最新动态,了解产业智能化最新成果
在经典著作《从一到无穷大》的卷首篇章,记载着一则饶富趣味的数学轶事。一人向国王献上自己发明的象棋,国王大喜,问其想要何种奖励。这人提出看似极为 “简单” 的请求:在棋盘第一格放一粒小麦,第二格放两粒,第三格放四粒,依此类推,后面每个格子的麦粒数都是前一个格子的两倍。国王略加思索,觉得这要求实在 “克制”,便爽快答应。然而,若用指数公式仔细核算,会发现最后一格的麦粒数量将达到当时全世界两千年小麦总产量的惊人数字。这,就是 “指数增长” 的强大威力。
算力集群面临的“指数爆炸”困境
而在当下这个大模型时代,算力集群在大规模增长过程的故障问题也正面临着这种“指数爆炸”的挑战。假设单张GPU故障率只有非常低的十万分之一。在一张卡出现故障,整体都要停止的情况下,只需要运用简单的概率学知识就能算出,「一个万卡算力集群总体故障率就是:1-(1-0.00001)^10000=0.095不到1成。但到10万卡后,故障率一下就变成了:1-(1-0.00001)**100000=0.632超过6成。」
从1万到10万,GPU数量上的线性变化在“指数爆炸”的威力下让总体故障率发生了惊人的质变。然而大规模GPU的实际运行环境会让结果更加悲观,十万张GPU是个什么概念呢?
部署它们的占地面积相当于14个标准足球场的面积,因此很有可能需要将GPU放在不同的区域甚至跨城部署,而远距离通信则会增大故障的概率。而在能源方面,集群一天大约消耗北京市东城区一天的居民用电量,由此导致的散热问题和对电网的压力也会继续加剧故障。
十万卡规模算力集群:通往AGI的必经之路
或许有人会问,真有必要将算力集群规模扩大到 “十万级别” 吗?答案是肯定的。自大模型技术问世以来,【Scaling Law】作为第一性原理已被广泛认可。简而言之,就是用更大的算力去训练更大的模型和更多的数据,能让模型性能更优。直至今日,这一规律依然行之有效。关注xAI、Meta以及OpenAI等 国际AI企业近期的动向便不难发现,它们都在积极布局10万卡乃至更大规模的智算集群。可以说,在未来很长一段时间内,“十万规模” 的算力基建工作是大势所趋。
算力集群管理:十万卡规模下的复杂迷局
除了 “激增的故障率” 这一巨大阻碍外,10万卡规模的算力集群还面临着诸多棘手难题,其中集群管理的复杂性,便是另一座难以逾越的大山。
回顾2004年雅典奥运会,备受瞩目的美国男篮 “梦六队”,在赛场上遭遇了前所未有的滑铁卢,最终仅仅收获了一枚铜牌。这一结果瞬间引发了全世界的热烈讨论,甚至招来了不少嘲讽之声。事实上,“梦六队” 的大多数成员,个人实力都极为出众,可为何整体战斗力却如此疲软呢?深入探究后发现,罪魁祸首是临近赛期才匆忙重新组队,导致队员之间配合生疏,默契度几乎为零,教练对球员的战术安排和掌控力也大打折扣。
当算力集群踏入十万规模的领域,同样面临着类似的困境。如今,GPU厂商的产能存在严重限制,短期内根本无法为某一家AI企业提供十万级别的相同规格GPU。无奈之下,大家只能退而求其次,采用不同型号、甚至来自不同厂商的GPU,来组建算力集群,这便是所谓的 “多芯混训”。
与 “梦六队” 的困境如出一辙,面对不同厂商和型号的GPU,由于它们在技术标准、性能规格、通信协议等方面千差万别,如果只是毫无章法地胡乱组合在一起,那么整个集群所能发挥出的实际效果,必然会大打折扣,无法达到预期的强大算力。
百度百舸4.0:力挽狂澜的破局者
多芯混训和激增的故障率等难题,如同两座巍峨的大山,横亘在 “十万卡” 大基建时代的前行道路上,成为巨大的挑战。而百度百舸异构计算平台4.0,基本成功攻克了这些难题。
在应对集群故障问题方面:
百舸4.0展现出了强大的技术实力。通过自主研发的先进AI算法,百舸能够对集群状态进行全方位、实时的精准筛查,如同拥有一双敏锐的鹰眼,提前预测故障最有可能发生的位置。基于此,在任务分配时,便能巧妙地避开那些可能出现故障的芯片,从源头上有效降低任务故障发生的频次。
另一方面,百舸集群级的集合通信库BCCL,堪称故障处理的神兵利器。一旦故障不幸发生,它能够在瞬间实现秒级感知与精确定位,如同闪电般迅速锁定故障点。与此同时,百舸Flash Checkpoint在感知到故障的第一时间,便可快速启动回滚机制,在集群层面实现近乎无损的容错处理,将故障带来的损失降到最低。
在应对多芯混训问题方面:
百舸4.0同样给出了完美的解决方案。BCCL集合通信库再次发挥关键作用,它不仅大幅提升了故障定位的效率,还在不同算力芯片间的数据收发方面实现了零开销的惊人突破,将通信过程中的性能损耗成功压低至5%以内,极大地提升了芯片间的数据传输速度和稳定性。
此外,百舸凭借多年在芯片领域的深厚技术积累,对不同芯片的计算和I/O效率了如指掌,同时精准掌握各种任务所需的资源情况。在此基础上,精心推出AIAK加速套件。这个套件就像是一位经验丰富的指挥官,能够根据不同芯片的能力特点,高效且合理地为它们自动分配最为合适的计算任务,实现对异构芯片的智能化自适应调度。通过这一系列操作,进一步提升了算力的有效利用率,让每一颗芯片都能发挥出最大的效能。
百度百舸4.0:10万卡时代企业保持领先的第一选择
通过这一系列全方位、深层次的优化措施,百舸4.0成功实现了万卡集群有效训练时长高达99.5%,在10-100km的跨地域训练场景下,性能依然能够保持在96%的高位水平。更为重要的是,它具备了成熟且稳定的10万卡集群部署和管理能力,为大规模算力集群的运行提供了坚实可靠的保障。众多利用百舸平台进行模型训练的公司,用实际成果有力地证明了其卓越性能。
以汽车行业为例,作为国内少有的实现了中国市场销量Top15汽车品牌全覆盖的云厂商,长安汽车通过与百度智能云的深度合作,基于百度百舸4.0,达到了算力总体平均使用率提升到90%以上的显著效果。在泛互行业,成立不到一年的生数科技,更是借助百舸平台的强大算力和先进技术,成功训练出了备受瞩目的国产视频生成模型Vidu。
目前,百度智能云拥有中国最大的大模型产业落地规模,超过六成的央企正在联合百度智能云进行AI创新。在近期国际权威咨询机构弗若斯特沙利文发布的《2024年中国大模型行业应用优秀案例白皮书》,一半案例都来自百度智能云。
展望未来,可以清晰地预见,接下来的几年,将是各种AI原生应用如雨后春笋般井喷式发展的黄金时期。在最终通往AGI的道路上,千行百业的企业客户想要保持领先身位都离不开超强算力的支撑。从万卡集群到十万卡集群,再到未来的几十万卡甚至上百万卡的算力集群,百度百舸都将始终陪伴在所有企业身旁,凭借卓越的技术架构与强大的性能优化,为企业提供源源不断的稳定、高效的算力动能。