运行任务 本文介绍如何在工作空间中,使用工作流创建运行任务。 1、选择工作流 在工作空间的工作流列表中,点击“运行” 2、输入input参数,点击提交 3、查看运行状态 4、运行执行完毕后,查看结果
灵活的任务管理:百舸平台提供灵活的任务管理能力,可对任务进行复制、停止、删除等操作,方便在模型微调过程中做参数调整; 强大的日志管理:百舸平台提供强大的日志管理能力、监控大盘展示并集成了Tensorboard功能,您可以通过日志、监控、Tensorboard实时查看任务运行情况,调整模型参数,提高训练效果。
工作空间 本文介绍基因分析平台中工作空间的使用方法。 基因分析平台中的所有操作,都必须在工作空间内进行。用户可以通过工作空间进行工作流创建和运行任务的管理,满足数据隔离、权限控制、费用统计等业务需求。 前提条件 1、请先提前创建集群,工作空间需要和已有集群关联。集群镜像请选择含cromwell部署镜像。请参考 创建集群 。
任务类型介绍 概述 在集群中进行的变更、重启等操作会在任务管理中产生一条任务记录。目前集群中的任务类型分为: 开启公网:当用户开启公网时,会产生一条开启公网的任务记录。 关闭公网:当用户关闭公网时,会产生一条关闭公网的任务记录。 变更公网带宽:当用户调整公网的带宽大小时,会产生一条变更公网带宽的记录。 增加节点数量:当用户通过变更操作新增集群的节点时,会产生一条增加节点数量的任务记录。
用户的函数运行环境中的隔离保护和百度云BCC是同一级别的,函数计算是在虚拟机级别隔离运行。 CFC还在网络、数据、代码、防DDos攻击等方面做了完备的保护,确保用户的信息安全。 函数代码安全 函数计算对代码进行校验并将其存储在CFC私有BOS仓库中。使用代码时,函数计算都执行完整性检查。代码执行与它自己的文件系统和网络命名空间相隔离。
训练容错 背景信息 在大模型的训练场景中,大多数是多机多卡、结合多种并行策略的分布式训练,训练规模大/时间长。 在训练过程中,可能会出现由于基础设施环境的偶发异常,导致训练业务的中断。为了保障大规模分布式训练任务稳定运行,百舸异构计算平台提供了任务自动容错的能力,支持对训练任务进行异常感知、容错判断以及自动恢复。
响应参数 参数名称 类型 描述 requestId String 请求ID clusterId String 集群ID status String 状态 错误码 错误码 错误描述 HTTP状态码 中文解释 NoSuchObject The specified object is not found or resource do not exist. 404 资源不存在 BadRequest cluster
报警记录页面包含如下信息:报警规则名称、状态、报警对象、报警规则、开始时间、结束时间、操作。
400 只有处于active状态的队列允许删除 BadRequest he queue which is not empty does not allow deletion 400 对列中存在节点,无法删除。
使用 CFC HTTP 触发器托管 API 概述 在我们进行Web API的相关开发过程中,偶尔需要对系统进行 API 的增加或者迁移,在系统逻辑较为复杂的情况下,进行 API 的扩充或者迁移往往工作量较大。此时,使用 CFC 以及百度云 TableStorage 则可以简单地实现 API 的托管,从而减少系统的负载,同时增加接口的可移植性。