处理前数据集:存放被清洗的泛文本源数据。 处理后数据集:存放清洗后的数据。 2.异常清洗 完成上一步的操作后,在功能列左侧选择异常清洗配置开关,效果展示区展示内置数据在指定清洗操作下的效果预览。 可选异常清洗配置 如下所示: 1) 移除不可见字符 :移除ASCII中的一些不可见字符, 如0-32 和127-160这两个范围。
面向post-pretrain场景的数据清洗 登录到 本平台 ,在左侧功能列数据处理中选择 数据清洗 ,进入数据清洗的主任务界面,整体流程如下: 1.选择数据集 在数据处理-数据清洗页面中,选择“创建任务”。 处理前数据集:存放被清洗的泛文本源数据。 处理后数据集:存放清洗后的数据。
专线迁移MongoDB副本集迁移到云数据库MongoDB副本集-一键反向 创建任务 接口说明 创建任务。
目录 接口鉴权 创建数据集API接口文档 数据集上传API接口文档 删除数据集API接口文档 新增数据集版本API接口文档 获取数据集版本详情API接口文档 删除数据集版本API接口文档 发起数据导入任务API接口文档 发起数据导入任务详情API接口文档 发起数据导出任务API接口文档 获取数据集版本导出详情API接口文档 获取数据集列表API接口文档 获取数据集版本列表API接口文档 获取数据表schema
创建数据集: 但是后期源表中添加了字段 gender 和 class ,此时只需对原有数据集同步表结构将新添加字段同步过来: 同步表结构后 -> 刷新数据,此时就可以将数据表中新增字段和数据同步过来: 同步表结构也支持删除字段,如果表中有字段被删除,点击同步表结构后会对删除字段进行标记,之后可以在页面中将标记的字段进行删除 如「test」表中有以下字段: 之后将「test」表中的「url」字段删除,
去学习 0 2 文本创作字数控制数据准备 根据精调数据集的要求进行数据准备 去学习 0 3 文本创作字数控制精调模型 精调开始并调整配置进行多次实验 去学习 0 4 文本创作字数控制的效果评估 对模型效果进行多方位评估 去学习 0 5 文本创作字数控制SFT与DPO 引入DPO并进行多次实验分析各种方案的精调效果 去学习 0 6 文本创作字数控制的最佳实践总结 从经验和收益两方面总结本次精调项目
在页面上,通过点击「创建智能标注任务」来选择对应操作的数据集。选择「文本分类」任务,数据集选择您想智能标注的数据集。
查看结果数据集。 数据拆分 数据拆分组件可以根据拆分条件,将数据集拆分为两个数据集。 输入 输入一个数据集,选择数据拆分方式、拆分比例等参数。 输出 输出拆分后的两个数据集。
数据转储任务查看 在左侧菜单栏选择数据管理,进入数据管理页面,找到您想要查看的数据集数据集/模型,单击数据集数据集/模型名称,选择任务列表,可以看到数据转储任务相关信息。 可以查看任务状态,任务开始时间和结束时间,以及任务转储的目标路径。 在任务执行中时,点击操作栏中的取消,可以取消转储任务。 提示:该操作会将任务目标转储路径中的数据删除,请谨慎操作
平台已有数据集 仅支持选择未发布的数据集版本。 仅支持有标注信息的数据集。 以上所有步骤完成后,即可导入数据至数据集。