获取数据集详情
更新时间:2024-11-08
注意:为提升开发者使用体验,平台升级了数据集管理接口。推荐使用数据集管理V2版本接口,功能更全面、且接口更规范,详见数据集管理API列表;V1版本相关接口不再升级,本文档于2024年8月30日迁移至历史文档;由于V1版本接口后续可能下线停止服务,为避免影响使用,建议接入V2版本接口。
功能介绍
本接口用于查看某数据集详情,如数据集名称、数据类型、版本信息等。
注意事项
通过API获取数据集详情,和控制台页面展示字段不同:
- 本文API参数有的字段,可能在控制台页面无
- 控制台页面的部分字段,可能在本文API参数中无
HTTP调用
鉴权说明
调用本文API,使用“基于安全认证AK/SK”进行签名计算鉴权,即使用安全认证中的Access Key ID 和 Secret Access Key进行鉴权,具体鉴权认证机制参考HTTP调用鉴权说明。
请求说明
- 基本信息
请求地址: https://qianfan.baidubce.com/wenxinworkshop/dataset/info
请求方式: POST
- Header参数
名称 | 类型 | 必填 | 描述 |
---|---|---|---|
Content-Type | string | 是 | 固定值:application/json |
x-bce-date | string | 否 | 当前时间,遵循ISO8601规范,格式如2016-04-06T08:23:49Z |
Authorization | string | 是 | 用于验证请求合法性的认证信息,更多内容请参考鉴权认证机制,签名工具可参考IAM签名工具 |
- Body参数
名称 | 类型 | 必填 | 描述 |
---|---|---|---|
datasetId | string | 是 | 查询的数据集版本的ID,示例:ds-7pkzh1exthpuy10n,说明: (1)可以通过以下任一方式获取该字段值: · 方式一,通过调用创建数据集接口,返回的datasetId字段获取 · 方式二,在控制台-数据集管理列表页面,点击详情,在版本信息页查看,如下图所示: (2)该字段新增支持string类型,如果之前使用的是int类型,建议变更为string类型,后续可能将逐步废弃int类型;例如之前是通过调用创建数据集接口,返回的id字段获取,请替换为接口返回的datasetId字段获取 |
响应说明
说明:返回的部分字段如下,未说明的字段暂无需关注。
名称 | 类型 | 说明 |
---|---|---|
log_id | string | 操作记录id |
result | object | 返回结果 |
status | int | 状态码 |
success | bool | 是否操作成功 |
result说明
名称 | 类型 | 说明 |
---|---|---|
groupId | int | 数据集ID,注意:该字段后续将废弃,如需使用数据集ID,请使用groupPK |
groupPK | string | 数据集字符串ID |
name | string | 数据集名称 |
dataType | int | 数据类型 |
versionInfo | object | 版本信息 |
versionInfo说明
名称 | 类型 | 说明 |
---|---|---|
groupId | int | 数据集ID,注意:该字段后续将废弃,如需使用数据集ID,请使用groupPK |
datasetid | int | 数据集版本ID,注意:该字段后续将废弃,如需使用数据集ID,请使用datasetPK |
datasetPK | string | 数据集版本字符串ID |
importRecordCount | int | 导入次数 |
exportRecordCount | int | 导出次数 |
userId | int | 用户id |
versionId | int | 版本号 |
displayName | string | 展示名称 |
importStatus | int | 导入状态,说明: · -1:未发起导入 · 0:新建 · 1:导入中 · 2:导入完成 · 3:导入失败 · 4:导入终止 |
importProgress | int | 导入进度,说明:值范围0-100,例如返回90表示进度为90% |
exportStatus | int | 导出状态,说明: · -1:未发起导出 · 0:待导出 · 1:导出中 · 2:导出完成 · 3:导出失败 |
exportProgress | int | 导出进度,说明:值范围0-100,例如返回90表示进度为90% |
dataType | int | 数据类型 |
projectType | int | 标注类型 |
templateType | int | 数据格式,即控制台页面的数据类型 |
errCode | array | 导入错误码,一次导入可能有多个错误,说明: · 1:上传的文件大小超过限制 · 2:上传的数据集缺少JSON文件 · 3:上传的文件存在格式错误 · 4:您的账户数据集额度已超限 · 5:上传的样本中存在不合法标签 · 6:上传的样本中存在不合法字符 · 7:上传的样本中存在标签数与文本token数不匹配 · 8:上传的样本标签未在label_map中找到 · 9:文本内容格式与要求不匹配,请重新上传 · 10:上传的压缩包解压失败 · 11:上传的数据集缺少xml文件 · 12:上传的已标注文本缺少标注内容 · 13:上传的文本内容为空或存在空行 · 14:上传的文本编码格式仅支持UTF-8,请重新上传 · 15:上传内容中没有可标注的源文件,请重新上传 · 16 :上传的文件内容不符合要求 · 17:当前数据集标签额度已超限 · 18:上传的视频或音频时长超过限制 · 19:分享的压缩包链接无效 · 20:视频转码失败 · 21:文本区间坐标不合法 · 22:order不合法 · 23:传入文件大小为0 · 24:上传的数据集缺少ocr txt标注 · 25:上传的数据集缺少标注文件 · 26:当前数据集的样本数量超过上限 · 27:上传的分辨率不符合要求 · 50:导入数据失败,数据文件列数不能超过1000列 · 51:导入数据失败,数据集总行数不能超过1000万行 · 52:导入数据失败,数据文件大小超过限制 · 53:导入数据失败,请确保文件编码格式为UTF-8或GBK · 54:导入数据失败,新导入文件与数据集schema不一致 · 55:文档解析失败 · 100:网络异常或服务异常 · 300:BOS没有找到文件 |
uniqueType | int | 是否去重 |
importErrorInfo | object[] | 导入错误详情 |
storageType | string | 保存位置,示例:sysBos |
storage | object | 存储信息 |
releaseStatus | int | 发布状态:说明: · 0:未发布 · 1:发布中 · 2:已发布 · 3:发布失败 |
releaseErrCode | int | 发布错误状态码 |
releaseStoragePath | string | 发布存储目录 |
releaseProgress | int | 发布进度,说明:值范围0-100,例如返回90表示进度为90% |
remark | string | 版本备注 |
annotatedEntityCount | int | 已标注样本数量 |
entityCount | int | 样本数量 |
labelCount | int | 标签数量 |
memorySize | float | 数据集大小,单位MB |
characterCount | int | 字符数 |
isEnhancing | bool | 是否正在增强 |
enhanceStatus | int | 增强状态,说明: · -1:无状态,表示没有任务 · 0:准备中 · 1:进行中 · 2:已完成 · 3:已终止 · 4:任务异常 |
hasEnhance | bool | 是否增强过 |
isSelfInstructEnhance | bool | 是否自监督式增强 |
interAnnoRunning | bool | 是否正在智能标注 |
hardSampleCount | int | 智能标注的难例 |
etlStatus | int | 清洗状态,说明: · 0:无状态,表示没有任务 · 1:进行中 · 2:已完成 · 3:已终止 · 4:清洗失败 · 5:任务暂停 |
hasEtl | bool | 是否清洗过 |
isPipelineEtl | bool | 是否pipeline清洗 |
teamAnnoStatus | int | 多人标注状态,说明: · 0:已创建、任务分配中 · 1:待标注 · 2:标注中 · 3:标注完成(所有子任务提交) · 4:已终止(保留标注)、验收中 · 5:已终止 · 6:验收完成 · 8:已创建、分配完成 · 9:智能标注中 · 16:任务处理失败 |
hasTeamAnno | bool | 是否在多人标注 |
promptOptimizeStatus | int | 是否在prompt优化,说明: · 1:进行中 · 2:已完成 · 3:失败 |
demandStatus | string | 众测标注 |
view | int | 浏览量 |
usage | int | 使用量 |
description | string | 描述 |
tag | object[] | 数据集相关标签数组 |
license | string | 证书 |
copyright | string | 版权 |
copyrightLink | string | 版权链接 |
createTime | string | 创建时间 |
modifyTime | string | 更新时间 |
storage说明
名称 | 类型 | 说明 |
---|---|---|
storageId | string | bucket名称 |
storagePath | string | 完整存储路径 |
storageName | string | bucket名称 |
rawStoragePath | string | bucket中的目录 |
region | string | 存储区域,示例:bj |
tag说明
名称 | 类型 | 说明 |
---|---|---|
name | string | 标签名称 |
importErrorInfo说明
名称 | 类型 | 说明 |
---|---|---|
errCode | int | 导入错误码,说明: · 1:上传的文件大小超过限制 · 2:上传的数据集缺少JSON文件 · 3:上传的文件存在格式错误 · 4:您的账户数据集额度已超限 · 5:上传的样本中存在不合法标签 · 6:上传的样本中存在不合法字符 · 7:上传的样本中存在标签数与文本token数不匹配 · 8:上传的样本标签未在label_map中找到 · 9:文本内容格式与要求不匹配,请重新上传 · 10:上传的压缩包解压失败 · 11:上传的数据集缺少xml文件 · 12:上传的已标注文本缺少标注内容 · 13:上传的文本内容为空或存在空行 · 14:上传的文本编码格式仅支持UTF-8,请重新上传 · 15:上传内容中没有可标注的源文件,请重新上传 · 16 :上传的文件内容不符合要求 · 17:当前数据集标签额度已超限 · 18:上传的视频或音频时长超过限制 · 19:分享的压缩包链接无效 · 20:视频转码失败 · 21:文本区间坐标不合法 · 22:order不合法 · 23:传入文件大小为0 · 24:上传的数据集缺少ocr txt标注 · 25:上传的数据集缺少标注文件 · 26:当前数据集的样本数量超过上限 · 27:上传的分辨率不符合要求 · 50:导入数据失败,数据文件列数不能超过1000列 · 51:导入数据失败,数据集总行数不能超过1000万行 · 52:导入数据失败,数据文件大小超过限制 · 53:导入数据失败,请确保文件编码格式为UTF-8或GBK · 54:导入数据失败,新导入文件与数据集schema不一致 · 55:文档解析失败 · 100:网络异常或服务异常 · 300:BOS没有找到文件 |
errCount | int | 错误行数 |
请求示例
# 替换下列示例中的Authorization值、x-bce-date值
curl -i --location 'https://qianfan.baidubce.com/wenxinworkshop/dataset/info' \
--header 'Authorization: bce-auth-v1/f0ee7axxxx/2023-09-19T13:42:13Z/180000/host;x-bce-date/9a8cfb8ee58a8f44a21a52640015de61bc55ca2e6d8cc23d080016e374525543' \
--header 'x-bce-date: 2023-09-19T13:37:10Z' \
--header 'Content-Type: application/json' \
--data '{
"datasetId": "ds-7pkzh1exthpuy10n"
}'
响应示例
{
"log_id": "3w5113jbbdsb4iis",
"result": {
"groupId": 14510,
"groupPK": "dg-xxxxxxx",
"name": "ChineseMedicalDialogueData中文医疗问答数据集",
"dataType": 4,
"versionInfo": {
"groupId": 14510,
"datasetId": 17786,
"datasetPK": "ds-7pkzh1exthpuy10n",
"importRecordCount": 1,
"exportRecordCount": 0,
"userId": 0,
"versionId": 1,
"displayName": "",
"importStatus": 2,
"importProgress": 100,
"exportStatus": -1,
"exportProgress": 0,
"dataType": 4,
"projectType": 20,
"templateType": 2000,
"errCode": null,
"uniqueType": 0,
"importErrorInfo": null,
"createTime": "2023-09-08 17:10:11",
"modifyTime": "2023-10-25 20:45:23",
"storageType": "sysBos",
"storage": {
"storageId": "easydata",
"storageName": "easydata",
"storagePath": "/easydata/_system_/dataset/ds-7pkzh1exthpuy10n/texts",
"rawStoragePath": "",
"region": "bj"
},
"releaseStatus": 2,
"releaseErrCode": 0,
"releaseStoragePath": "/easydata/_system_/dataset/ds-7pkzh1exthpuy10n/texts/jsonl",
"releaseProgress": 0,
"remark": "",
"annotatedEntityCount": 792099,
"entityCount": 792099,
"labelCount": 1,
"memorySize": 513.42,
"characterCount": 173338860,
"isEnhancing": false,
"enhanceStatus": -1,
"hasEnhance": false,
"isSelfInstructEnhance": false,
"interAnnoRunning": false,
"hardSampleCount": 0,
"etlStatus": 0,
"hasEtl": false,
"isPipelineEtl": false,
"teamAnnoStatus": -1,
"hasTeamAnno": false,
"promptOptimizeStatus": 0,
"demandStatus": "",
"view": 2446,
"usage": 262,
"description": "中文医疗对话数据集由792099个问答对组成,包括男科、内科、妇产科、肿瘤科、儿科和外科",
"tag": [
{
"name": "文本对话非排序"
},
{
"name": "限定式问答"
},
{
"name": "调优"
}
],
"license": "MIT",
"copyright": "toyhom",
"copyrightLink": "https://github.com/Toyhom/Chinese-medical-dialogue-data"
}
},
"status": 200,
"success": true
}
SDK调用
平台支持通过Python SDK、Go SDK、Java SDK 和 Node.js SDK调用本文API,SDK调用说明文档请参考获取数据集详情。
错误码
若请求错误,服务器将返回的JSON文本包含以下参数:
名称 | 描述 |
---|---|
code | 错误码 |
message | 错误描述信息,帮助理解和解决发生的错误 |
例如参数错误返回:
{
"code": 500001,
"message": "param invalid"
}
更多错误码,请查看错误码说明。