数据增强
更新时间:2024-08-02
什么是数据增强
平台支持对模型输入的文本数据集进行数据增强。
当在实践中无法收集到数目庞大的高质量数据时,可以通过数据增强策略,对数据本身进行一定程度的扰动和扩充,从而产生"新"数据。在训练时会通过学习大量的"新"数据,提高模型的泛化能力。
注意文本数据增强功能仅支持增强已发布或未发布的非空数据集。
依赖模型的自监督式数据增强
登录到千帆大模型操作台,在左侧功能列数据处理中选择数据增强,选择数据增强,进入数据增强的主任务界面。
创建数据增强任务
在数据处理-数据增强页面中,选择“创建任务”。
1)基本信息填写:
- 处理前数据集:存放增强前的源数据,至少存在10条标注数据。
- 处理后数据集:存放增强后的数据。
注意:泛文本无标注数据不支持增强操作。
2)增强配置填写:
- 选择服务:当前支持选择预置的ERNIE-4.0-8K服务、ERNIE-3.5-8K服务、ERNIE-Speed-8K服务和ERNI-Lite-8K服务,并且将根据此服务进行计费;
- 选择应用:选择包含服务的应用,在应用的框架下进行增强操作;
- 参数配置:如上图,支持指令生成的依赖样本库数、生成样本数和过滤相似度阈值调整等操作。
- Prompt模板:默认关闭,用户可按需配置Prompt模板(非必填),支持用户自定义修改增强Prompt内容。模板内容需要包含{augmented_data},即要进行数据增强的样本。默认模板为平台数据增强的模板,如您有需求可自定义此模板,数据增强将按您的模板进行数据泛化。
以上配置完成后,点击“确定”即可开启自监督式的增强任务。相关费用计算逻辑可查看价格文档。
查看数据增强任务
您可以返回任务列表页,查看已经创建的数据增强任务,如果任务在“进行中”,可查看进度或手动“停止任务”;对于已中止的任务也可以“重新启动”。
当任务状态为“已完成”时,则表示数据增强任务已运行完毕,数据集发布后可用于SFT。
- 详情
选择操作列的“详情”按钮,即可查看创建任务的详细信息和增强配置。
- 质量过滤
选择操作列的“质量过滤”按钮,即可指定或批量进行文本过滤。
其中,增强质量指标如下:
一般(0~25)、良好(25~50)、优质(50~75)、最佳(75~100),你可按照此指标自定义查看或过滤增强后的数据,数据过滤之后将无法找回。
- 删除
进行中的增强任务不可删除,任务一旦删除将不可恢复。