通用资源池可以创建多个资源池,一个资源池对应一个CCE集群,可以关联一个PFS实例和一个CPROM实例。在资源池中,用户可以创建多个队列,从而在不同的队列中处理不同业务的工作任务。通常情况下,企业内部一个独立的团队或者项目建议创建一个独立的资源池,实现团队间或项目间的资源隔离。
工作流运行记录查看 为方便工程师快速便捷使用,一个工作流可以反复运行多次,每「运行」一次工作流,就会产生一个工作流「运行任务」。平台提供工作流运行任务记录功能,对工作流的运行任务进行管理和存档。 登录 百舸异构计算平台AIHC控制台 。 点击页面左侧菜单栏「工作流」,进入工作流页面。 任意点击一个工作流,点击页面上方「运行记录」,即可查看运行记录。
创建流程 第一步 创建资源池 资源池是百舸内部管理异构资源的基础单元,一个资源池对应一个CCE集群(计算服务),一个PFS实例(存储服务)和一个CPROM实例(监控服务)。本文以创建通用资源池为例 登录百度百舸·AI异构计算平台控制台。 进入通用资源池列表页面,点击购买通用计算资源。 在资源配置页面,输入资源池名称。 创建CCE集群。
通用计算资源池 是百舸内部管理异构资源的基础单元,一个资源池对应一个CCE集群,一个PFS实例和一个CPROM实例。 在资源池中,用户可以创建多个队列,从而在不同的队列中处理不同业务的工作任务。通常情况下,企业内部一个独立的团队或者项目建议创建一个独立的资源池,实现团队间或项目间的资源隔离。
值为一个列表,列表的元素个数等于芯片种类个数,每个元素代表每类芯片类型的重计算粒度 recompute-method 值为一个列表,列表的元素个数等于芯片种类个数,每个元素代表每类芯片类型的重计算方法 recompute-num-layers 值为一个列表,列表的元素个数等于芯片种类个数,每个元素代表每类芯片类型的重计算层数 以如下一条输出策略为例子: {'sim_throughput': 238013
它可以是一个分支名,一个标签名,或者一个提交id。如果未指定,将使用默认版本 –tokenizer-revision 要使用的特定tokenizer版本。它可以是一个分支名,一个标签名,或者一个提交id。如果未指定,将使用默认版本。 –tokenizer-mode {auto,slow} tokenizer模式。 “auto”将在可用的情况下使用快速tokenizer。
当导入格式为文件夹时,存储路径需选择一个文件夹路径,可被挂载在容器中,常用于训练、推理或开发机的数据卷。
创建流程 第一步 创建资源池 资源池是百舸内部管理异构资源的基础单元,一个资源池对应一个CCE集群(计算服务),一个PFS实例(存储服务)和一个CPROM实例(监控服务)。本文以创建通用资源池为例 登录百度百舸·AI异构计算平台控制台。 进入通用资源池列表页面,点击购买通用计算资源。 在资源配置页面,输入资源池名称。 创建CCE集群。
RANK: 每个节点需要一个唯一的序号。一般来说,你可以在启动脚本中为每个节点分配一个序号,从0开始。例如,如果有两个节点,一个节点的rank为0,另一个为1。 $MASTER_ADDR: 这是主节点的IP地址。你需要选择一个节点作为主节点,并使用这个节点的IP地址。确保其他节点能够访问到这个IP地址。 $MASTER_PORT: 选择一个用于节点间通信的端口号。