提交训练作业时,可以通过高级配置来自定义环境变量。 手动配置:通过手动填写环境变量来配置,包括配置变量名称与对应取值。 YAML文件:通过上传YAML文件来配置环境变量,支持本地上传和BOS存储导入两种方式。注意:环境变量最多配置100组,平台将在解析时对超出部分做自动截断处理。 此外,BML平台亦提供预置环境变量,由BML平台预先定义,不建议您自行覆盖修改。
来自: 产品文档
训练容错 背景信息 在大模型的训练场景中,大多数是多机多卡、结合多种并行策略的分布式训练,训练规模大/时间长。 在训练过程中,可能会出现由于基础设施环境的偶发异常,导致训练业务的中断。为了保障大规模分布式训练任务稳定运行,百舸AI计算平台提供了任务自动容错的能力,支持对训练任务进行异常感知、容错判断以及自动恢复。
来自: 产品文档
训练时间与数据量大小、选择的算法、训练环境有关 模型训练过程中,可以设置训练完成的短信提醒并离开页面 平台提供付费算力,付费算力可用于模型训练,可根据实际需求购买算力使用时长。 各类算力价格如下: 优惠政策: 为回馈开发者长期以来对EasyDL平台的大力支持,训练算力将针对单账户 x 单操作台粒度提供5小时免费训练时长(例如,每账户享有声音分类操作台5小时免费训练时长)。
来自: 产品文档
训练时间与数据量大小、选择的算法、训练环境有关 模型训练过程中,可以设置训练完成的短信提醒并离开页面 平台提供付费算力,付费算力可用于模型训练,可根据实际需求购买算力使用时长。 各类算力价格如下: 优惠政策: 为回馈开发者长期以来对EasyDL平台的大力支持,训练算力将针对单账户 x 单操作台粒度提供5小时免费训练时长(例如,每账户享有声音分类操作台5小时免费训练时长)。
来自: 产品文档
其中GPU P40可以免费使用;GPU V100训练速度更快,需要付费使用,可参考 价格说明 模型训练过程中,可以设置训练完成的短信提醒并离开页面 平台提供付费算力,付费算力可用于模型训练,可根据实际需求购买算力使用时长。
来自: 产品文档
训练时间与数据量大小、选择的算法、训练环境有关 模型训练过程中,可以设置训练完成的短信提醒并离开页面 平台提供付费算力,付费算力可用于模型训练,可根据实际需求购买算力使用时长。 各类算力价格如下: 优惠政策: 为回馈开发者长期以来对EasyDL平台的大力支持,训练算力将针对单账户 x 单操作台粒度提供5小时免费训练时长(例如,每账户享有声音分类操作台5小时免费训练时长)。
来自: 产品文档
训练任务日志 你可以查询分布式训练任务日志 操作步骤 登录 百舸AI计算平台AIHC控制台 。 在左侧菜单栏选择 分布式训练 ,进入 任务列表 页面,找到您想要查看的任务,在单击日志图标,跳转节点日志页面。 日志查询 日志数据默认在 日志服务BLS 中免费存储60天。如需保留更长时间,可自行调整。请注意:超出60天的日志将产生额外费用,详情参考 价格详情 。
来自: 产品文档
添加数据集以及完成配置后,点击开始训练即可启动训练。 注意:文本创作任务,每次最高支持1万条样本的训练,训练时间最长约1个小时。在您提交任务后,需要与平台其他用户任务排队等待算力机器,此时间由排队任务数决定。
来自: 产品文档
训练性能监控 百舸平台提供了训练过程中的吞吐、训练分阶段耗时以及训练Loss指标,帮助客户实时掌控训练的性能状态,快速发现性能异常,为性能异常排查场景提效 训练性能监控说明 目前针对于性能可观测提供了以下指标: 训练吞吐 训练过程中单位时间内模型能够处理的数据量,它是衡量训练性能的关键指标之一。
来自: 产品文档
训练任务失败错误排查 表格预测一般是由于任务类型选择错误引起的。当训练任务失败时,请您检查选择的任务类型与目标列是否匹配,以下为各个任务类型对应的目标: 算法类型 目标列 二分类 目标列是离散值,且只有两种可能的取值。如在精准营销场景中预测一个用户是否为潜在购买用户,其目标列仅存在“True”和“False”两种取值,解决该问题的模型属于二分类模型。 多分类 目标列是离散值,并具有有限的可能取值。
来自: 产品文档