介绍百信银行的分布式架构及微服务架构。
分布式训练相关 查询训练任务列表 使用以下代码可以查询训练任务列表。
介绍Paxos算法原理
介绍Paxos算法
分布式训练任务优先级管理 使用背景 为保障高优用户以及高优任务的资源需求,百舸平台针对训练任务新增了优先级规则配置功能,队列管理员可在队列详情中启用该功能,为不同用户或角色设定可使用的最高任务优先级,确保高优任务优先获得资源。
介绍银联商务分布式的云基础架构及新方案下的自动化运维方案。
分布式多机部署DeepSeek R1模型 随着模型参数量不断增加,单台GPU服务器已经无法满足大规模模型的推理需求。分布式多机推理可以将单实例分配到多台服务器部署,利用并行计算加速推理过程,提高大规模模型和高并发场景的推理效率。本文将介绍如何通过百舸平台在H20 2机分布式部署DeepSeek R1模型。
Big DL运行示例
RDMA:使用高性能网络进行分布式训练 本文档用于介绍在百舸的环境下使用 RDMA 网络进行分布式训练。 概述 RDMA (Remote Direct Memory Access)是新一代的网络通信技术,它允许计算机之间直接进行内存对内存的数据传输,而不需要经过操作系统或中央处理器的处理。
Big DL简介