介绍分布式系统和一致性问题
介绍分布式系统和一致性问题
REFERENCES-command-denied-to-user错误详解 背景 MySQL的权限REFERENCES是控制是否允许给表建立外键关联关系的权限。
介绍百信银行的分布式架构及微服务架构。
分布式训练相关 查询训练任务列表 使用以下代码可以查询训练任务列表。
在大规模的分布式训练中,通过使用RDMA有效解决网络传输中服务器端数据处理的延迟问题,从而实现高吞吐、低延迟的网络通信,提升训练效率。 NCCL 是NVIDIA的集合通信库,能实现Collective通信和点对点通信,NCCL内部已经实现了RDMA通信,同时NCCL可以根据环境中网卡类型和拓扑关系,自行选择一个最优的通信路径,目前主流的分布式训练框架都已支持NCCL。
介绍Paxos算法原理
介绍Paxos算法
分布式训练任务优先级管理 使用背景 为保障高优用户以及高优任务的资源需求,百舸平台针对训练任务新增了优先级规则配置功能,队列管理员可在队列详情中启用该功能,为不同用户或角色设定可使用的最高任务优先级,确保高优任务优先获得资源。
分布式多机部署DeepSeek R1模型 随着模型参数量不断增加,单台GPU服务器已经无法满足大规模模型的推理需求。分布式多机推理可以将单实例分配到多台服务器部署,利用并行计算加速推理过程,提高大规模模型和高并发场景的推理效率。本文将介绍如何通过百舸平台在H20 2机分布式部署DeepSeek R1模型。