创建数据增强任务
更新时间:2024-11-08
功能介绍
用于创建数据增强任务。
使用说明
本文API支持通过Python SDK、Go SDK、Java SDK 和 Node.js SDK调用,调用流程请参考SDK安装及使用流程。
SDK调用
调用示例
import os
from qianfan import resources
# 使用安全认证AK/SK鉴权,通过环境变量方式初始化;替换下列示例中参数,安全认证Access Key替换your_iam_ak,Secret Key替换your_iam_sk
os.environ["QIANFAN_ACCESS_KEY"] = "your_iam_ak"
os.environ["QIANFAN_SECRET_KEY"] = "your_iam_sk"
resp = resources.Data.create_dataset_augmenting_task(
name='aug_task_01',
source_dataset_id="ds-in20jpw3if43xcpb",
destination_dataset_id="ds-8r6y2are3bb54tkr",
dev_api_id=1431,
app_id=26217111,
num_seed_fewshot=1,
num_instances_to_generate=1,
similarity_threshold=0.5,
)
print(resp)
package main
import (
"context"
"fmt"
"os"
"github.com/baidubce/bce-qianfan-sdk/go/qianfan"
)
func main() {
// 使用安全认证AK/SK鉴权,通过环境变量初始化;替换下列示例中参数,安全认证Access Key替换your_iam_ak,Secret Key替换your_iam_sk
os.Setenv("QIANFAN_ACCESS_KEY", "your_iam_ak")
os.Setenv("QIANFAN_SECRET_KEY", "your_iam_sk")
ca := qianfan.NewConsoleAction()
res, err := ca.Call(context.TODO(),
// 调用本文API,该参数值为固定值,无需修改;对应本文HTTP调用-请求说明-请求地址的后缀
"/wenxinworkshop/enhance/create", "",
// 对应本文HTTP调用-请求说明-请求参数-Body参数,具体使用请查看Body参数说明,根据实际使用选择参数
map[string]interface{}{
"name": "3334",
"isSelfInstruct": true,
"sourceDatasetId": "ds-9tff1q3h7ngdmgh4",
"destDatasetId": "ds-3tfe1q3g7ncdmsh2",
"devApiId": 1431,
"appId": 14xxx,
"numSeedFewshot": 6,
"numInstancesToGenerate": 200,
"similarityThreshold": 0.6,
})
if err != nil {
panic(err)
}
fmt.Println(string(res.Body))
}
import com.baidubce.qianfan.Qianfan;
import com.baidubce.qianfan.model.console.ConsoleResponse;
import com.baidubce.qianfan.util.CollUtils;
import com.baidubce.qianfan.util.Json;
import java.util.Map;
public class Dome {
public static void main(String args[]){
// 使用安全认证AK/SK鉴权,替换下列示例中参数,安全认证Access Key替换your_iam_ak,Secret Key替换your_iam_sk
Qianfan qianfan = new Qianfan("your_iam_ak", "your_iam_sk");
ConsoleResponse<Map<String, Object>> response = qianfan.console()
// 调用本文API,该参数值为固定值,无需修改;对应本文HTTP调用-请求说明-请求地址的后缀
.route("/wenxinworkshop/enhance/create")
// 需要传入参数的场景,可以自行封装请求类,或者使用Map.of()来构建请求Body
// Java 8可以使用SDK提供的CollUtils.mapOf()来替代Map.of()
// 对应本文HTTP调用-请求说明-请求参数-Body参数,具体使用请查看Body参数说明,根据实际使用选择参数
.body(CollUtils.mapOf(
"name", "3334",
"isSelfInstruct", true,
"sourceDatasetId", "ds-9tff1q3h7ngdmgh4",
"destDatasetId", "ds-3tfe1q3g7ncdmsh2",
"devApiId", 1431,
"appId", 999999,
"numSeedFewshot", 6,
"numInstancesToGenerate", 200,
"similarityThreshold", 0.6
))
.execute();
System.out.println(Json.serialize(response));
}
}
import {consoleAction, setEnvVariable} from "@baiducloud/qianfan";
// 使用安全认证AK/SK鉴权,通过环境变量初始化;替换下列示例中参数,安全认证Access Key替换your_iam_ak,Secret Key替换your_iam_sk
setEnvVariable('QIANFAN_ACCESS_KEY','your_iam_ak');
setEnvVariable('QIANFAN_SECRET_KEY','your_iam_sk');
async function main() {
//base_api_route:调用本文API,该参数值为固定值,无需修改;对应本文HTTP调用-请求说明-请求地址的后缀
//data:对应本文HTTP调用-请求说明-请求参数-Body参数,具体使用请查看Body参数说明,根据实际使用选择参数
const res = await consoleAction({base_api_route: '/wenxinworkshop/enhance/create', data: {
"name": "3334",
"isSelfInstruct": true,
"sourceDatasetId": "ds-9tff1q3h7ngdmgh4",
"destDatasetId": "ds-3tfe1q3g7ncdmsh2",
"devApiId": 1431,
"appId": 14xxx,
"numSeedFewshot": 6,
"numInstancesToGenerate": 200,
"similarityThreshold": 0.6
}
});
console.log(res);
}
main();
返回示例
QfResponse(
code = 200,
headers = {...
},
body = {
"log_id": "hfnfguqdesni42mk",
"result":
{
"enhanceTaskId": "task-p2fqh6j75ytje7js"
},
"status": 200,
"success": True
}
)
{
"log_id": "hfnfguqdesni42mk",
"result": {
"enhanceTaskId": "task-p2fqh6j75ytje7js"
},
"status": 200,
"success": true
}
{
"log_id": "hfnfguqdesni42mk",
"result": {
"enhanceTaskId": "task-p2fqh6j75ytje7js"
},
"status": 200,
"success": true
}
{
log_id: 'hfnfguqdesni42mk',
result: {
enhanceTaskId: 'task-p2fqh6j75ytje7js'
},
status: 200,
success: true
}
请求参数
注意:不同语言SDK的请求参数不同,请根据实际调用选择对应参数。
- Python SDK请求参数说明
名称 | 类型 | 必填 | 描述 |
---|---|---|---|
name | string | 是 | 增强任务名称 |
source_dataset_id | string | 是 | 源数据集版本ID,注意:该字段新增支持string类型,如果之前使用的是int类型,建议变更为string类型,后续将逐步废弃int类型 |
destination_dataset_id | string | 是 | 目标数据集版本ID,注意:该字段新增支持string类型,如果之前使用的是int类型,建议变更为string类型,后续将逐步废弃int类型 |
dev_api_id | int | 是 | 可选值如下: · 1191:表示 EB3.5-8k · 1431:表示 ERNIE-Lite-8K · 1306:表示 ERNIE-4.0-8K · 1378:表示 ERNIE-Speed-8K |
app_id | int | 是 | 应用ID,应用由用户创建 |
num_seed_fewshot | int | 是 | 指令生成依赖样本数,说明: · 生成指令时需要从处理前数据集(种子池)选出的样本数量,实际数量可能根据模型允许输入的长度有所调整 · 取值范围:[1,10] |
num_instances_to_generate | int | 是 | 生成样本数,说明: · 建议生成后数据集总样本数大于200,每个任务最多生成不超过2000条样本 · 取值范围:[1,5000] |
similarity_threshold | float | 是 | 过滤相似度阈值,说明: · 只有生成样本的ROUGE-L小于阈值的样本才会添加到种子池,阈值越低,样本重复概率越低 · 取值范围:[0,1] |
- 其它SDK请求参数说明
名称 | 类型 | 必填 | 描述 |
---|---|---|---|
name | string | 是 | 增强任务名称 |
isSelfInstruct | bool | 是 | 是否self-instruct自监督,固定值为ture |
sourceDatasetId | string | 是 | 源数据集版本ID,注意: 该字段新增支持string类型,如果之前使用的是int类型,建议变更为string类型,后续将逐步废弃int类型 |
destDatasetId | string | 是 | 目标数据集版本ID,注意: 该字段新增支持string类型,如果之前使用的是int类型,建议变更为string类型,后续将逐步废弃int类型 |
devApiId | string | 是 | 可选值如下: · 1191:表示 EB3.5-8k · 1431:表示 ERNIE-Lite-8K · 1306:表示 ERNIE-4.0-8K · 1378:表示 ERNIE-Speed-8K |
appId | int | 是 | 应用ID,应用由用户创建 |
numSeedFewshot | int | 是 | 指令生成依赖样本数,说明: · 生成指令时需要从处理前数据集(种子池)选出的样本数量,实际数量可能根据模型允许输入的长度有所调整 · 取值范围:[1,10] |
numInstancesToGenerate | int | 是 | 生成样本数,说明: · 建议生成后数据集总样本数大于200,每个任务最多生成不超过2000条样本 · 取值范围:[1,5000] |
similarityThreshold | float | 是 | 过滤相似度阈值,说明: · 只有生成样本的ROUGE-L小于阈值的样本才会添加到种子池,阈值越低,样本重复概率越低 · 取值范围:[0,1] |
返回参数
名称 | 类型 | 描述 |
---|---|---|
log_id | string | 操作记录id |
result | object | 返回结果 |
status | int | 状态码 |
success | bool | 是否操作成功,说明: · true:成功 · false:失败 |
result说明
名称 | 类型 | 描述 |
---|---|---|
enhanceTaskId | string | 创建的数据增强任务ID |