数据集的其他操作
更新时间:2024-09-19
登录到千帆ModelBuilder操作台,在左侧功能列选择通用数据集,进入数据集管理主任务界面。
查看数据
平台支持您查看数据信息的概览,了解数据集版本ID、数据量、导入日志等等基本信息
点击指定数据集版本操作列的“详情”按钮,查看全部数据、有标注信息的数据和无标注信息的数据。并且支持根据导入日期、标注日期等条件进行筛选。
prompt集和纯文本数据集无需标注,没有标注日期的筛选项。
Prompt+Chosen+Rejected数据当前不支持平台进行标注,同理没有标注日期的筛选项。
发布数据
数据集发布后,方可在模型开发阶段引用该数据集做训练。
前提条件
该数据集已完成始标注,prompt集和纯文本数据集无需标注,Prompt+Chosen+Rejected数据暂时无需标注,可直接发布。
步骤
- 在对应数据集的操作列中选择“发布”。
- 数据集发布成功后,该数据集的发布状态为变为“已发布 。
已发布的数据集不允许任何编辑操作。
处理数据
训练数据集的数据在未发布前可以进行数据的清洗和增强。
- 数据清洗:可以对数据集中的文本进行繁体转简体、大写转小写、删除异常字符等操作。详细可查看数据清洗操作。
- 数据增强:通过数据增强策略,对数据本身进行一定程度的扰动和扩充,从而产生"新"数据。在训练时会通过学习大量的"新"数据,提高模型的泛化能力。详细可查看数据增强操作。
Prompt+Chosen+Rejected数据暂不支持进行以上处理。
去训练
数据在按需处理完成后,可以选择发布数据。发布完完成后,点击“去训练”,直接跳转至训练界面。
当前支持拉通SFT、Post-pretrain、DPO和RLHF训练方式。
删除数据
- 如果您需要删除数据集,请执行下面步骤:
选定某个数据集,选择“删除”按钮。不仅可以删除全版本数据集,还可删除数据集的当前最新版本。
确认删除数据集后,数据集及全部版本数据都将会被删除且不可恢复。
-
如果您需要删除数据集的某个版本,请执行以下步骤:
进入某数据集详情,如下图所示,选择“删除”按钮。
删除后,数据集版本不可恢复。