百度智能云
最新活动
产品
解决方案
企业服务
云市场
合作与生态
开发者
服务与支持
了解智能云
备案
文档
管理控制台
This app works best with JavaScript enabled.
文档中心
推荐文档
云服务器
千帆大模型平台
文字识别
人脸识别
实名认证介绍
备案介绍
财务功能概述
搜索本产品文档关键词
概述
百舸异构计算平台 AIHC
功能发布记录
产品描述
介绍
核心概念
产品优势
使用限制
应用场景
产品定价
快速入门
快速创建大模型训练任务
快速部署推理服务
使用工具市场快速部署AI工具
操作指南
权限
权限管理
AI计算资源
通用资源池
创建通用计算资源池
管理通用计算资源池
创建节点
管理节点
查看监控大盘
接入监控实例并启用采集任务
NVIDIA芯片资源观测
GPU资源池总览
GPU节点资源
GPU工作负载资源
AI Job Scheduler组件
GPUManager组件
大盘告警配置管理
自动故障隔离功能管理
镜像本地缓存管理
故障自愈
队列管理
托管资源池
创建托管资源池网络
创建托管资源池
管理托管资源池
创建和管理资源队列
配置托管资源池预置权限方案
轻量计算实例
工具市场
工具市场介绍
实践教程
如何使用SSH登录实例
使用LLaMA Factory快速微调开源大模型
快速部署JuypterLab
快速部署AI绘画SDWebUI
使用Ollama部署大语言模型
使用vLLM加速大模型推理
使用DataEnhance扩展数据集
快速部署AI绘画ComfyUI
一键部署Kohya_ss 微调SD模型
快速部署Swift微调大语言模型
一键部署CosyVoice进行语音生成
快速部署GPT-SoVITS语音合成
快速部署opencompass评测大语言模型
快速部署VSCode
开发机
创建开发机
管理开发机
使用开发机制作镜像
SSH远程连接开发机
使用WebIDE开发代码
制作自定义开发机镜像
已有镜像创建开发机
开发机中使用CLI工具
上传文件到开发机
分布式训练
训练任务生命周期
创建训练任务
管理训练任务
查看训练详情
配置训练任务的消息通知
训练任务可观测
训练任务日志
训练任务事件
训练任务资源监控
训练性能监控
训练集合通信带宽监控
训练效果监控Tensorboard
训练容错
RDMA:使用高性能网络进行分布式训练
BCCL:百度自研高性能集合通信库
FlashCkpt:大模型训练高性能ckpt保存
使用百舸智能助手进行排队任务的诊断排查
使用百舸智能助手进行失败任务的故障排查
通用环境变量列表
训练参数说明
模型demo验证
工作流
创建工作流
工作流管理
工作流运行记录管理
视频处理工作流模板
AI数据管理
数据集管理
数据集创建及管理
在线服务部署
自定义部署服务
自定义监控及扩缩容指标
自定义服务自动扩缩容
日志查询及采集
模型部署服务
服务弹性伸缩
API调用示例
推理参数说明
诊断工具
网络测试
可用性检查
训练推理加速
AIAK大模型训推加速简介
训练加速
AIAK-Training-LLM简介
训练说明
高级用法
训练参数说明
强化学习训练加速
更新日志
推理加速
AIAK-Inference-LLM简介
推理说明
参数说明
高级功能附录
更新日志
加速工具
Checkpoint异步加速工具
自适应并行策略搜索工具
Base模型与LoRA权重合并工具
API参考
概述
通用说明
服务域名
请求头和错误返回
资源池相关接口
查询资源池列表
查询资源池详情
查询资源池节点列表
创建队列
查询队列列表
查询队列详情
更新队列
删除队列
训练任务相关接口
查询训练任务列表
创建训练任务
查询训练任务详情
更新训练任务
停止训练任务
删除训练任务
查询训练任务事件
查询训练任务日志
查询训练任务Pod事件
查询训练任务监控
查询训练任务所在节点列表
获取训练任务WebTerminal地址
智能助手相关接口
发起训练任务调度诊断
获取训练任务调度诊断结果
发起训练任务失败诊断
附录
SDK参考
GO SDK
概述
安装SDK工具包
初始化
资源池相关
训练任务相关
常用工具
CLI命令行工具
最佳实践
容器实例开启访问公网
常见问题
模型部署
百舸集群预安装组件列表
所有文档
没有找到结果,请重新输入
百舸异构计算平台 AIHC
功能发布记录
产品描述
介绍
核心概念
产品优势
使用限制
应用场景
产品定价
快速入门
快速创建大模型训练任务
快速部署推理服务
使用工具市场快速部署AI工具
操作指南
权限
权限管理
AI计算资源
通用资源池
创建通用计算资源池
管理通用计算资源池
创建节点
管理节点
查看监控大盘
接入监控实例并启用采集任务
NVIDIA芯片资源观测
GPU资源池总览
GPU节点资源
GPU工作负载资源
AI Job Scheduler组件
GPUManager组件
大盘告警配置管理
自动故障隔离功能管理
镜像本地缓存管理
故障自愈
队列管理
托管资源池
创建托管资源池网络
创建托管资源池
管理托管资源池
创建和管理资源队列
配置托管资源池预置权限方案
轻量计算实例
工具市场
工具市场介绍
实践教程
如何使用SSH登录实例
使用LLaMA Factory快速微调开源大模型
快速部署JuypterLab
快速部署AI绘画SDWebUI
使用Ollama部署大语言模型
使用vLLM加速大模型推理
使用DataEnhance扩展数据集
快速部署AI绘画ComfyUI
一键部署Kohya_ss 微调SD模型
快速部署Swift微调大语言模型
一键部署CosyVoice进行语音生成
快速部署GPT-SoVITS语音合成
快速部署opencompass评测大语言模型
快速部署VSCode
开发机
创建开发机
管理开发机
使用开发机制作镜像
SSH远程连接开发机
使用WebIDE开发代码
制作自定义开发机镜像
已有镜像创建开发机
开发机中使用CLI工具
上传文件到开发机
分布式训练
训练任务生命周期
创建训练任务
管理训练任务
查看训练详情
配置训练任务的消息通知
训练任务可观测
训练任务日志
训练任务事件
训练任务资源监控
训练性能监控
训练集合通信带宽监控
训练效果监控Tensorboard
训练容错
RDMA:使用高性能网络进行分布式训练
BCCL:百度自研高性能集合通信库
FlashCkpt:大模型训练高性能ckpt保存
使用百舸智能助手进行排队任务的诊断排查
使用百舸智能助手进行失败任务的故障排查
通用环境变量列表
训练参数说明
模型demo验证
工作流
创建工作流
工作流管理
工作流运行记录管理
视频处理工作流模板
AI数据管理
数据集管理
数据集创建及管理
在线服务部署
自定义部署服务
自定义监控及扩缩容指标
自定义服务自动扩缩容
日志查询及采集
模型部署服务
服务弹性伸缩
API调用示例
推理参数说明
诊断工具
网络测试
可用性检查
训练推理加速
AIAK大模型训推加速简介
训练加速
AIAK-Training-LLM简介
训练说明
高级用法
训练参数说明
强化学习训练加速
更新日志
推理加速
AIAK-Inference-LLM简介
推理说明
参数说明
高级功能附录
更新日志
加速工具
Checkpoint异步加速工具
自适应并行策略搜索工具
Base模型与LoRA权重合并工具
API参考
概述
通用说明
服务域名
请求头和错误返回
资源池相关接口
查询资源池列表
查询资源池详情
查询资源池节点列表
创建队列
查询队列列表
查询队列详情
更新队列
删除队列
训练任务相关接口
查询训练任务列表
创建训练任务
查询训练任务详情
更新训练任务
停止训练任务
删除训练任务
查询训练任务事件
查询训练任务日志
查询训练任务Pod事件
查询训练任务监控
查询训练任务所在节点列表
获取训练任务WebTerminal地址
智能助手相关接口
发起训练任务调度诊断
获取训练任务调度诊断结果
发起训练任务失败诊断
附录
SDK参考
GO SDK
概述
安装SDK工具包
初始化
资源池相关
训练任务相关
常用工具
CLI命令行工具
最佳实践
容器实例开启访问公网
常见问题
模型部署
百舸集群预安装组件列表
文档中心
百舸异构计算平台AIHC
SDK参考
GO SDK
概述
概述
更新时间:2025-01-24
本文档主要介绍AIHC GO SDK的安装和使用。在使用本文档前,您需要先了解AIHC的一些基本知识,并已经开通了AIHC服务。若您还不了解AIHC,可以参考
产品描述
。
上一篇
API参考
下一篇
安装SDK工具包
文档
助手
文档
反馈