查看结果数据集。 数据拆分 数据拆分组件可以根据拆分条件,将数据集拆分为两个数据集。 输入 输入一个数据集,选择数据拆分方式、拆分比例等参数。 输出 输出拆分后的两个数据集。
平台已有数据集 导入方式 格式要求 数据集要求 选择数据集 仅支持选择未发布的数据集版本 已在平台导入的非空数据集。 以上所有步骤完成后,即可导入数据至数据集。
面向post-pretrain场景的数据清洗 登录到 本平台 ,在左侧功能列数据处理中选择 数据清洗 ,进入数据清洗的主任务界面,整体流程如下: 1.选择数据集 在数据处理-数据清洗页面中,选择“创建任务”。 处理前数据集:存放被清洗的泛文本源数据。 处理后数据集:存放清洗后的数据。
专线迁移MongoDB副本集迁移到云数据库MongoDB副本集-一键反向 创建任务 接口说明 创建任务。
创建并查看数据洞察任务 平台提供交互性与可视化兼备的数据洞察工作台,对SFT数据集进行多维透视“诊断”与处理,为大语言模型打造更高质量的精调数据。 创建数据洞察 登录到 本平台 ,在左侧功能列数据处理中选择 数据洞察与处理 ,进入数据洞察的主任务界面,整体流程如下: 选择对应数据集的数据集,选择“开始使用”,新发起的数据洞察任务需要1~3分钟的洞察时间。
处理前数据集:存放被清洗的泛文本源数据。 处理后数据集:存放清洗后的数据。 2.异常清洗 完成上一步的操作后,在功能列左侧选择异常清洗配置开关,效果展示区展示内置数据在指定清洗操作下的效果预览。 可选异常清洗配置 如下所示: 1) 移除不可见字符 :移除ASCII中的一些不可见字符, 如0-32 和127-160这两个范围。
创建数据集: 但是后期源表中添加了字段 gender 和 class ,此时只需对原有数据集同步表结构将新添加字段同步过来: 同步表结构后 -> 刷新数据,此时就可以将数据表中新增字段和数据同步过来: 同步表结构也支持删除字段,如果表中有字段被删除,点击同步表结构后会对删除字段进行标记,之后可以在页面中将标记的字段进行删除 如「test」表中有以下字段: 之后将「test」表中的「url」字段删除,
去学习 0 2 文本创作字数控制数据准备 根据精调数据集的要求进行数据准备 去学习 0 3 文本创作字数控制精调模型 精调开始并调整配置进行多次实验 去学习 0 4 文本创作字数控制的效果评估 对模型效果进行多方位评估 去学习 0 5 文本创作字数控制SFT与DPO 引入DPO并进行多次实验分析各种方案的精调效果 去学习 0 6 文本创作字数控制的最佳实践总结 从经验和收益两方面总结本次精调项目
ID, 注意: 该字段新增支持string类型,如果之前使用的是int类型,建议变更为string类型,后续将逐步废弃int类型 destDatasetId string 是 目标数据集版本ID, 注意: 该字段新增支持string类型,如果之前使用的是int类型,建议变更为string类型,后续将逐步废弃int类型 devApiId string 是 可选值如下: · 1191:表示 EB3.5-
导入已标注数据 目录 导入已标注数据方式说明 从已有数据集导入已标注数据 查看已标注数据 导入已标注数据方式说明 如果您已有标注好的数据,支持快速导入到BML,方便直接进入后续训练环节。 实例分割任务向选定的数据集导入已标注好的数据目前支持一种方式: 将其他数据集已经标注好的数据导入 从已有数据集导入已标注数据 从已有数据集导入已标注数据,支持选择数据集及导入的具体标签进行导入。