创建数据集
更新时间:2025-07-03
接口描述
本接口用于创建新的数据集,数据集创建完成后自带版本V1。
调用本接口和控制台创建数据集页面功能类似,如下图所示。说明:如下图页面与控制台页面不同,请以控制台页面为准。
权限说明
调用本文API,需符合以下权限要求,权限介绍及分配,请查看角色与权限控制列表、账号创建与权限分配。需具有以下任一权限:
- 完全控制千帆大模型平台的权限:QianfanFullControlAccessPolicy
- 完全控制千帆大模型平台数据管理(除数据标注外)的权限:QianfanDataFullControlAccessPolicy
鉴权说明
调用本文API,使用“基于安全认证AK/SK”进行签名计算鉴权,即使用安全认证中的Access Key ID 和 Secret Access Key进行鉴权,具体鉴权认证机制参考HTTP调用鉴权说明。
请求结构
Bash
1POST /v2/dataset?Action=CreateDataset HTTP/1.1
2Host: qianfan.baidubce.com
3Authorization: authorization string
4Content-Type: application/json
5
6{
7 "datasetName": "hello_dataset",
8 "dataFormat": "PromptResponse",
9 "storageType": "BOS",
10 "storagePath":"bos:/yourBucket/yourDir/"
11}
请求头域
除公共头域外,无其它特殊头域。
请求参数
- Query参数
名称 | 类型 | 必填 | 描述 |
---|---|---|---|
Action | string | 是 | 方法名称,固定值CreateDataset |
- Body参数
名称 | 类型 | 必填 | 描述 |
---|---|---|---|
datasetName | string | 是 | 数据集名称,示例:"helloDataset" |
dataFormat | string | 是 | 数据格式,可选值如下: · PromptResponse:表示Prompt+Response · Role:表示Role(user+assistant) · SFT_FIM:表示Prefix+Suffix+Middle数据格式 · Text:表示纯文本 · DPO_PromptChosenRejected:表示DPO数据格式 · KTO_PromptChosenRejected:表示KTO数据格式 · PromptSortedresponses:表示Prompt+多Response排序 · Prompt:表示Prompt集 · PromptImage:表示Prompt+图片 · PromptImageResponse:表示Prompt+Image+Response |
storageType | string | 是 | 存储类型,可选值: · BOS:表示对象存储BOS · sysStorage:表示平台共享存储 |
storagePath | string | 否 | 存储类型为对象存储BOS时,说明: (1)对应的完整存储路径即: bos:/bucket/dir (2)示例:将数据集存储到 bucket:yourBucket,dir:yourDir/text需填写的bosPath为 bos:/yourBucket/yourDir/text/ ,注意:以左斜杠结尾 |
响应头域
除公共头域外,无其它特殊头域。
响应参数
名称 | 类型 | 描述 |
---|---|---|
requestId | string | 请求ID |
result | object | 请求结果,请求成功时返回 |
code | string | 错误码,错误时返回 |
message | string | 错误信息,请求失败时返回 |
result说明
名称 | 类型 | 说明 |
---|---|---|
datasetId | string | 数据集ID |
versionId | string | 数据集版本ID |
versionNumber | int | 数据集版本序号 |
datasetName | string | 数据集名称 |
dataFormat | string | 数据格式,说明: · PromptResponse:表示Prompt+Response · Role:表示Role(user+assistant) · SFT_FIM:表示Prefix+Suffix+Middle数据格式 · Text:表示纯文本 · DPO_PromptChosenRejected:表示DPO数据格式 · KTO_PromptChosenRejected:表示KTO数据格式 · PromptSortedresponses:表示Prompt+多Response排序 · Prompt:表示Prompt集 · PromptImage:表示Prompt+图片 · PromptImageResponse:表示Prompt+Image+Response |
storageType | string | 存储类型,说明: · BOS:表示对象存储BOS · sysStorage:表示平台共享存储 |
storagePath | string | 存储类型为对象存储BOS时,对应的完整存储路径 |
creator | string | 创建人 |
createTime | string | 创建时间,格式:YYYY-MM-DD hh:mm:ss |
示例(创建"Prompt+Response"类型数据集)
- 请求示例
创建"Prompt+Response"数据集,保存位置为平台共享存储。
JSON
1# 替换下列示例中的Authorization值、x-bce-date值
2curl -i --location 'https://qianfan.baidubce.com/v2/dataset?Action=CreateDataset'\
3--header 'Authorization: bce-auth-v1/f0ee7axxxx/2023-09-19T13:42:13Z/180000/host;x-bce-date/9a8cfb8ee58a8f44axxxxxx016e374525543'\
4--header 'x-bce-date: 2023-09-19T13:37:10Z'\
5--header 'Content-Type: application/json'\
6--data '{
7 "datasetName": "hello_dataset",
8 "dataFormat": "PromptResponse",
9 "storageType": "BOS",
10 "storagePath":"bos:/yourBucket/yourDir/"
11}'
- 响应示例
JSON
1{
2 "requestId": "1bef3f87-c5b2-4419-936b-50f9884f10d4",
3 "result": {
4 "versionId": "ds-xxx",
5 "datasetId": "dg-xxx",
6 "datasetName":"hello_dataset",
7 "versionNumber": 1,
8 "dataFormat": "PromptResponse",
9 "storageType": "BOS",
10 "storagePath": "bos:/yourBucket/yourDir/_system_/ds-4saih7rhmcqrp2gu/texts",
11 "creator":"accountName",
12 "createTime": "2023-10-25 16:16:38"
13 }
14}
示例(创建"Prompt+Image"类型数据集)
- 请求示例
创建Prompt+Image类型数据集,保存位置为对象存储BOS(需开通),需填写存储所在的bosUri。
JSON
1# 替换下列示例中的Authorization值、x-bce-date值
2curl -i --location 'https://qianfan.baidubce.com/v2/dataset?Action=CreateDataset'\
3--header 'Authorization: bce-auth-v1/f0ee7axxxx/2023-09-19T13:42:13Z/180000/host;x-bce-date/9a8cfb8ee58a8f44axxxxxx016e374525543'\
4--header 'x-bce-date: 2023-09-19T13:37:10Z'\
5--header 'Content-Type: application/json'\
6--data '{
7 "datasetName": "goodBye_dataset",
8 "dataFormat": "PromptImage",
9 "storagePath": "bos:/yourBucket/yourDir/",
10 "storageType": "BOS"
11}'
- 响应示例
错误码
若请求错误,服务器将返回的JSON文本包含以下参数:
名称 | 描述 |
---|---|
requestId | 请求ID |
code | 错误码 |
message | 错误描述信息,帮助理解和解决发生的错误 |
例如错误返回:
Plain Text
1{
2 "requestId":"6ba7b810-xxxc04fd430c8",
3 "code":"AccessDenied",
4 "message":"Access denied."
5}
更多其他错误码,也可以查看错误码说明。