创建数据增强任务
更新时间:2025-07-14
接口描述
本接口用于创建数据增强任务,当前支持Prompt生成。
权限说明
调用本文API,需符合以下权限要求,权限介绍及分配,请查看角色与权限控制列表、账号创建与权限分配。需具有以下任一权限:
- 完全控制千帆大模型平台的权限:QianfanFullControlAccessPolicy
- 完全控制千帆大模型平台数据管理(除数据标注外)的权限:QianfanDataFullControlAccessPolicy
鉴权说明
调用本文API,使用“基于安全认证AK/SK”进行签名计算鉴权,即使用安全认证中的Access Key ID 和 Secret Access Key进行鉴权,具体鉴权认证机制参考HTTP调用鉴权说明。
请求结构
Bash
1POST /v2/dataprocessing?Action=CreateTextAugmentTask HTTP/1.1
2Host: qianfan.baidubce.com
3Authorization: authorization string
4Content-Type: application/json
5
6{
7 "taskName": "增强任务示例xxx",
8 "srcDatasetVersionId": "ds-xxx",
9 "dstDatasetVersionId": "ds-xxx",
10 "promptModel": "deepseek-v3",
11 "promptContext": "描述xxx",
12 "promptIteration": {
13 "enable": true,
14 "maxIterations": 3
15 },
16 "similarityThreshold": 0.85,
17 "promptEvol": {
18 "genType": 200,
19 "genWord": 100
20 }
21}
请求头域
除公共头域外,无其它特殊头域。
请求参数
- Query参数
名称 | 类型 | 必填 | 描述 |
---|---|---|---|
Action | string | 是 | 方法名称,固定值CreateTextAugmentTask |
- Body参数
名称 | 类型 | 必填 | 描述 |
---|---|---|---|
taskName | string | 是 | 增强任务名称 |
srcDatasetVersionId | string | 是 | 增强前的源数据集版本ID |
dstDatasetVersionId | string | 是 | 增强后的目标数据集版本ID |
promptModel | string | 是 | 用于Prompt生成的模型ID,说明: (1)预置服务,可选值参考支持模型列表 (2)平台训练模型,可以通过查看服务地址获取该字段值,详情请查看新手指南-平台使用快速开始:model值为在创建服务时对应的API地址,如下图所示: ![]() |
promptContext | string | 否 | Prompt生成的业务场景描述参数,说明: (1)在增强过程中,此描述会作为业务场景信息拼接至增强指令,填写该参数有助于生成与业务需求精准适配的Prompt (2)建议采用【行业+业务+目标问题】的结构描述,示例如下: · “家电行业,业务为智能洗碗机制造,产品功能缺陷和使用体验问题引发的客户投诉” · “在线教育,业务为K12编程培训APP,家长对课程质量的质疑与退费诉求” |
promptEvol | Object | 是 | Prompt生成进化增强方向的字典,说明: (1)至少需要填写一个增强方向,且生成样本数大于0 (2)示例格式: {"genType": 100, "genWord": 200} |
promptIteration | Object | 否 | 迭代增强的选项,说明:默认不传关闭 |
similarityThreshold | Double | 否 | 过滤相似度阈值,说明: · 不传该参数,则不会进行去重过滤 · 只有生成样本的ROUGE-L小于阈值的样本才会添加到种子池,阈值越低,样本重复概率越低 · 取值范围:[0.5, 1] |
promptEvol说明
名称 | 类型 | 必填 | 描述 |
---|---|---|---|
genType | int | 否 | 同类泛化生成样本数,说明: (1)同类泛化:问题类型不变,变换发生的场景和情境 (2)取值范围[1,1000] |
genWord | int | 否 | 同义泛化生成样本数,说明: (1)同义泛化:语义不变,调整词汇、句式、语气等表达方式 (2)取值范围[1,1000] |
addConst | int | 否 | 增加约束生成样本数,说明: (1)增加约束:针对问题,增加时间、顺序、范围等若干约束条件 (2)取值范围[1,1000] |
transScene | int | 否 | 复杂场景变换生成样本数,说明: (1)复杂场景变换:基于相似的问题,引入更加具体、复杂的生活场景或行业背景 (2)取值范围[1,1000] |
transFocus | int | 否 | 考察方向变换生成样本数,说明: (1)考察方向变换:基于相同的背景信息,变换提问方式、考察方向、考察范围等 (2)取值范围[1,1000] |
transCtx | int | 否 | 前提条件变换生成样本数,说明: (1)前提条件变换:基于相似的问题,改变前提条件的取值范围、关键信息、逻辑关系等 (2)取值范围[1,1000] |
promptIteration说明
名称 | 类型 | 必填 | 描述 |
---|---|---|---|
enable | boolean | 否 | 是否开启迭代增强功能,默认false,说明: 如果关闭迭代增强,最小迭代次数和最大迭代次数都不会返回 |
maxIterations | Int | 否 | 最大迭代次数,说明: (1)enable为true时,该参数生效且必填 (2)取值范围:[1, 10] |
响应头域
除公共头域外,无其它特殊头域。
响应参数
名称 | 类型 | 描述 |
---|---|---|
requestId | string | 请求ID,可用于排查问题 |
result | object | 请求结果,请求成功时返回 |
code | string | 错误码,错误时返回 |
message | string | 错误信息,请求失败时返回 |
result说明
名称 | 类型 | 说明 |
---|---|---|
enhanceTaskId | string | 创建的数据增强任务ID |
请求示例
Bash
1# 替换下列示例中的Authorization值
2curl -i --location 'https://qianfan.baidubce.com/v2/dataprocessing?Action=CreateTextAugmentTask'\
3--header 'Authorization: bce-auth-v1/f0ee7axxxx/2023-09-19T13:42:13Z/180000/host;x-bce-date/9a8cfb8ee58a8f44axxxxx4525543'\
4--header 'Content-Type: application/json'\
5--data '{
6 "taskName": "增强任务示例xxx",
7 "srcDatasetVersionId": "ds-xxx",
8 "dstDatasetVersionId": "ds-xxx",
9 "promptModel": "deepseek-v3",
10 "promptContext": "描述xxx",
11 "promptIteration": {
12 "enable": true,
13 "maxIterations": 3
14 },
15 "similarityThreshold": 0.85,
16 "promptEvol": {
17 "genType": 200,
18 "genWord": 100
19 }
20}'
响应示例
JSON
1{
2 "requestId": "787f0901-9999-4c84-69e1-03c97779bf76",
3 "result": {
4 "enhanceTaskId": "task-xxx"
5 }
6}
错误码
若请求错误,服务器将返回的JSON文本包含以下参数:
名称 | 描述 |
---|---|
requestId | 请求ID |
code | 错误码 |
message | 错误描述信息,帮助理解和解决发生的错误 |
例如错误返回:
Plain Text
1{
2 "requestId":"6ba7b810-xxxc04fd430c8",
3 "code":"AccessDenied",
4 "message":"Access denied."
5}
更多其他错误码,也可以查看错误码说明。