获取数据集版本详情
更新时间:2024-11-08
功能介绍
本接口用于获取特定数据集版本的详情信息,如数据集名称、数据类型、版本信息等。
HTTP调用
鉴权说明
调用本文API,使用“基于安全认证AK/SK”进行签名计算鉴权,即使用安全认证中的Access Key ID 和 Secret Access Key进行鉴权,具体鉴权认证机制参考HTTP调用鉴权说明。
请求说明
- 基本信息
请求地址: https://qianfan.baidubce.com/v2/dataset
请求方式: POST
- Header参数
名称 | 类型 | 必填 | 描述 |
---|---|---|---|
Content-Type | string | 是 | 固定值application/json |
x-bce-date | string | 是 | 当前时间,遵循ISO8601规范,格式如2016-04-06T08:23:49Z |
Authorization | string | 是 | 用于验证请求合法性的认证信息。更多参见鉴权认证,签名工具可参考IAM签名工具 |
- Query参数
名称 | 类型 | 必填 | 描述 |
---|---|---|---|
Action | string | 是 | 方法名称,固定值DescribeDatasetVersion |
- Body参数
名称 | 类型 | 必填 | 描述 |
---|---|---|---|
versionId | string | 是 | 数据集版本ID,示例:ds-xxx,可以通过以下任一方式获取该字段值: · 方式一,通过调用创建数据集接口,返回的versionId字段获取 · 方式二,在千帆控制台-数据集管理列表页面查看,如下图所示: |
响应说明
名称 | 类型 | 描述 |
---|---|---|
requestId | string | 请求ID |
result | object | 请求结果,请求成功时返回 |
code | string | 错误码,错误时返回 |
message | string | 错误信息,请求失败时返回 |
result说明
名称 | 类型 | 描述 |
---|---|---|
datasetId | string | 数据集ID |
versionId | string | 数据集版本ID |
versionNumber | int | 数据集版本序号 |
datasetName | string | 数据集名称 |
dataFormat | string | 数据格式,可选值如下: · PromptResponse:表示Prompt+Response · Role:表示Role(user+assistant) · Text:表示纯文本 · DPO_PromptChosenRejected:表示DPO或SimPO数据格式 · KTO_PromptChosenRejected:表示KTO数据格式 · PromptSortedresponses:表示Prompt+多Response排序 · Prompt:表示Prompt集 · PromptImage:表示Prompt+图片 · PromptImageResponse:表示Prompt+Image+Response |
description | string | 版本描述 |
storageType | string | 存储类型,说明: · BOS:表示对象存储BOS · sysStorage:表示平台共享存储 |
storagePath | string | 存储类型为对象存储BOS时,对应的完整存储路径 |
sizeMB | float | 数据集大小,单位为MB,例:0.01 |
sampleCount | int | 数据量 |
characterCount | int | 字符数 |
annotationProgress | string | 数据集标注进度,示例:1/10 |
importStatus | string | 导入状态,说明: · 新建:Created · 导入中:Importing · 导入完成:ImportFinished · 导入失败:ImportFailed |
publishStatus | string | 发布状态,说明: · 未发布:Unpublished · 发布中:Publishing · 已发布:Published · 发布失败:PublishFailed |
publishProgress | String | 发布进度,说明: · 未发布:该字段值为0 · 发布中:该字段值为当前进度,如XX % · 已发布:该字段值为100% · 发布失败:该字段值为0 |
creator | string | 创建人 |
createTime | string | 创建时间,格式:YYYY-MM-DD hh:mm:ss |
modifyTime | string | 更新时间,格式:YYYY-MM-DD hh:mm:ss |
请求示例
# 替换下列示例中的Authorization值、x-bce-date值
curl -i --location 'https://qianfan.baidubce.com/v2/dataset?Action=DescribeDatasetVersion'\
--header 'Authorization: bce-auth-v1/f0ee7axxxx/2023-09-19T13:42:13Z/180000/host;x-bce-date/9a8cfb8ee58a8f44a21axxxxxxxx525543'\
--header 'x-bce-date: 2023-09-19T13:37:10Z'\
--header 'Content-Type: application/json'\
--data '{
"versionId": "ds-xxx"
}'
响应示例
{
"requestId": "1bef3f87-c5b2-4419-936b-50f9884f10d4",
"result": {
"datasetId": "dg-xxx",
"datasetName": "ChineseMedicalDialogueData中文医疗问答数据集",
"dataFormat": "PromptResponse",
"versionId": "ds-xxx",
"versionNumber": 1,
"createTime": "2023-09-08 17:10:11",
"modifyTime": "2023-10-25 20:45:23",
"storageType": "sysStorage",
"sizeMB": 513.42,
"description": "中文医疗问答数据集第一版",
"characterCount":111,
"sampleCount": 10,
"annotationProgress": "1/10",
"importStatus": "Created",
"publishStatus": "Unpublished",
"publishProgress": "0",
"creator":"accountName",
"createTime": "2024-07-24 23:12:43",
"modifyTime": "2024-07-24 23:13:35"
}
}
SDK调用
平台支持通过Python SDK、Go SDK、Java SDK 和 Node.js SDK调用本文API,SDK调用说明文档请参考获取数据集版本详情。
错误码
若请求错误,服务器将返回的JSON文本包含以下参数:
名称 | 描述 |
---|---|
requestId | 请求ID |
code | 错误码 |
message | 错误描述信息,帮助理解和解决发生的错误 |
例如错误返回:
{
"requestId":"6ba7b810-xxxc04fd430c8",
"code":"AccessDenied",
"message":"Access denied."
}
更多其他错误码,也可以查看错误码说明。