获取数据集导入错误详情
更新时间:2024-09-23
注意:为提升开发者使用体验,平台升级了数据集管理接口。推荐使用数据集管理V2版本接口,功能更全面、且接口更规范,详见数据集管理API列表;V1版本相关接口不再升级,本文档于2024年8月30日迁移至历史文档;由于V1版本接口后续可能下线停止服务,为避免影响使用,建议接入V2版本接口。
功能介绍
获取数据集导入时错误的详情。
注意事项
通过API获取获取数据集导入时错误,和控制台页面展示字段不同:
- 本文API参数有的字段,可能在控制台页面无
- 控制台页面的部分字段,可能在本文API参数中无
- 后续会持续完善API功能,请关注API文档更新
SDK调用
使用说明
调用本文API,需使用安全认证AK/SK鉴权,调用流程及鉴权介绍详见SDK安装及使用流程。
调用示例
import os
from qianfan import resources
# 使用安全认证AK/SK鉴权,通过环境变量方式初始化;替换下列示例中参数,安全认证Access Key替换your_iam_ak,Secret Key替换your_iam_sk
os.environ["QIANFAN_ACCESS_KEY"] = "your_iam_ak"
os.environ["QIANFAN_SECRET_KEY"] = "your_iam_sk"
# 获取数据集导入错误详情:
dataset_id = "ds-7pkzh1exthpuy10n",
import_err_code = xx,
resp = resources.Data.get_dataset_import_error_detail(dataset_id, import_err_code)
print(resp)
返回示例
QfResponse(code = 200, headers = {...
},
body = {
'log_id': 'z7w7g6wbac3rfk29',
'result': {
'dataType': 'file',
'downloadUrl': 'https://bj.bcebos.com/buck/xx/xxx/_system_/dataset/ds-xxx',
'isZip': 0,
'projectType': 20,
'content': [{
'sequence': 1,
'sampleFileName': '1.txt',
'sampleName': '1.txt',
'textLocation': 0,
'textContent': ''
}]
},
'status': 200,
'success': True
}
)
请求参数
名称 | 类型 | 必填 | 描述 |
---|---|---|---|
dataset_id | string | 是 | 数据集版本ID,示例:ds-7pkzh1exthpuy10n,说明: (1)可以通过以下任一方式获取该字段值: · 方式一,通过调用创建数据集接口,返回的datasetId字段获取 · 方式二,在控制台-数据集管理列表页面,点击详情,在版本信息页查看,如下图所示: (2) 该字段新增支持string类型,如果之前使用的是int类型,建议变更为string类型,后续可能将逐步废弃int类型;例如之前是通过调用创建数据集接口,返回的id字段获取,请替换为接口返回的datasetId字段获取 |
error_code | int | 是 | 错误码,调用获取数据集状态详情接口时,如果有错误会返回导入错误信息importErrorInfo字段;一般有以下值: · 1:上传的文件大小超过限制 · 2:上传的数据集缺少JSON文件 · 3:上传的文件存在格式错误 · 4:您的账户数据集额度已超限 · 5:上传的样本中存在不合法标签 · 6:上传的样本中存在不合法字符 · 7:上传的样本中存在标签数与文本token数不匹配 · 8:上传的样本标签未在label_map中找到 · 9:文本内容格式与要求不匹配,请重新上传 · 10:上传的压缩包解压失败 · 11:上传的数据集缺少xml文件 · 12:上传的已标注文本缺少标注内容 · 13:上传的文本内容为空或存在空行 · 14:上传的文本编码格式仅支持UTF-8,请重新上传 · 15:上传内容中没有可标注的源文件,请重新上传 · 16 :上传的文件内容不符合要求 · 17:当前数据集标签额度已超限 · 18:上传的视频或音频时长超过限制 · 19:分享的压缩包链接无效 · 20:视频转码失败 · 21:文本区间坐标不合法 · 22:order不合法 · 23:传入文件大小为0 · 24:上传的数据集缺少ocr txt标注 · 25:上传的数据集缺少标注文件 · 26:当前数据集的实体数量超过上限 · 27:上传的分辨率不符合要求 · 50:导入数据失败,数据文件列数不能超过1000列 · 51:导入数据失败,数据集总行数不能超过1000万行 · 52:导入数据失败,数据文件大小超过限制 · 53:导入数据失败,请确保文件编码格式为UTF-8或GBK · 54:导入数据失败,新导入文件与数据集schema不一致 · 55:文档解析失败 · 100:网络异常或服务异常 · 300:BOS没有找到文件 |
返回参数
说明:返回的部分字段如下,未说明的字段暂无需关注。
名称 | 类型 | 描述 |
---|---|---|
success | bool | 是否操作成功 |
result | dict | 返回结果 |
status | int | 状态码 |
log_id | string | 操作记录id |
result说明
名称 | 类型 | 描述 |
---|---|---|
dataType | string | 导入类型,说明: · file:从文件导入 · copy:从其他数据集复制 |
downloadUrl | string | 下载地址 |
isZip | int | 是否为压缩文件,说明: · 0:否 · 1:是 |
projectType | int | 标注类型说明: · 20:文本对话 · 401:泛文本无标注 · 402:query问题集 · 705:文生图 |
content | list[dict] | 错误的具体信息 |
content说明
名称 | 类型 | 描述 |
---|---|---|
sequence | int | 序号,从1开始累加,计数用 |
sampleFileName | string | 如果是压缩包导入,返回压缩包名;其他返回空 |
sampleName | string | 文件名 |
textLocation | int | 如果是文本,返回行号;其他返回空 |
textContent | string | 如果是文本,返回文本内容;其他返回空 |
HTTP调用
鉴权说明
调用本文API,使用“基于安全认证AK/SK”进行签名计算鉴权,即使用安全认证中的Access Key ID 和 Secret Access Key进行鉴权,具体鉴权认证机制参考HTTP调用鉴权说明。
请求说明
- 基本信息
请求地址: https://qianfan.baidubce.com/wenxinworkshop/dataset/importErrorDetail
请求方式:POST
- Header参数
名称 | 类型 | 必填 | 描述 |
---|---|---|---|
Content-Type | String | 是 | HTTP请求内容的类型,固定值:application/json |
x-bce-date | String | 否 | 当前时间,遵循ISO8601规范,格式如2016-04-06T08:23:49Z |
Authorization | String | 是 | 用于验证请求合法性的认证信息。更多参见鉴权认证,签名工具可参考IAM签名工具 |
- Body参数
名称 | 类型 | 必填 | 描述 |
---|---|---|---|
datasetId | string | 是 | 数据集版本ID,示例:ds-7pkzh1exthpuy10n,说明: (1)可以通过以下任一方式获取该字段值: · 方式一,通过调用创建数据集接口,返回的datasetId字段获取 · 方式二,在控制台-数据集管理列表页面,点击详情,在版本信息页查看,如下图所示: (2) 该字段新增支持string类型,如果之前使用的是int类型,建议变更为string类型,后续可能将逐步废弃int类型;例如之前是通过调用创建数据集接口,返回的id字段获取,请替换为接口返回的datasetId字段获取 |
errCode | int | 是 | 错误码,调用获取数据集状态详情接口时,如果有错误会返回导入错误信息importErrorInfo字段;一般有以下值: · 1:上传的文件大小超过限制 · 2:上传的数据集缺少JSON文件 · 3:上传的文件存在格式错误 · 4:您的账户数据集额度已超限 · 5:上传的样本中存在不合法标签 · 6:上传的样本中存在不合法字符 · 7:上传的样本中存在标签数与文本token数不匹配 · 8:上传的样本标签未在label_map中找到 · 9:文本内容格式与要求不匹配,请重新上传 · 10:上传的压缩包解压失败 · 11:上传的数据集缺少xml文件 · 12:上传的已标注文本缺少标注内容 · 13:上传的文本内容为空或存在空行 · 14:上传的文本编码格式仅支持UTF-8,请重新上传 · 15:上传内容中没有可标注的源文件,请重新上传 · 16 :上传的文件内容不符合要求 · 17:当前数据集标签额度已超限 · 18:上传的视频或音频时长超过限制 · 19:分享的压缩包链接无效 · 20:视频转码失败 · 21:文本区间坐标不合法 · 22:order不合法 · 23:传入文件大小为0 · 24:上传的数据集缺少ocr txt标注 · 25:上传的数据集缺少标注文件 · 26:当前数据集的实体数量超过上限 · 27:上传的分辨率不符合要求 · 50:导入数据失败,数据文件列数不能超过1000列 · 51:导入数据失败,数据集总行数不能超过1000万行 · 52:导入数据失败,数据文件大小超过限制 · 53:导入数据失败,请确保文件编码格式为UTF-8或GBK · 54:导入数据失败,新导入文件与数据集schema不一致 · 55:文档解析失败 · 100:网络异常或服务异常 · 300:BOS没有找到文件 |
响应说明
说明:返回的部分字段如下,未说明的字段暂无需关注。
名称 | 类型 | 描述 |
---|---|---|
success | bool | 是否操作成功 |
result | object | 返回结果 |
status | int | 状态码 |
log_id | string | 操作记录id |
result说明
名称 | 类型 | 描述 |
---|---|---|
dataType | string | 导入类型,说明: · file:从文件导入 · copy:从其他数据集复制 |
downloadUrl | string | 下载地址 |
isZip | int | 是否为压缩文件,说明: · 0:否 · 1:是 |
projectType | int | 标注类型说明: · 20:文本对话 · 401:泛文本无标注 · 402:query问题集 · 705:文生图 |
content | object[] | 错误的具体信息 |
content说明
名称 | 类型 | 描述 |
---|---|---|
sequence | int | 序号,从1开始累加,计数用 |
sampleFileName | string | 如果是压缩包导入,返回压缩包名;其他返回空 |
sampleName | string | 文件名 |
textLocation | int | 如果是文本,返回行号;其他返回空 |
textContent | string | 如果是文本,返回文本内容;其他返回空 |
请求示例
# 替换下列示例中的Authorization、x-bce-date、serviceId值
curl --location 'https://qianfan.baidubce.com/wenxinworkshop/dataset/importErrorDetail' \
--header 'Authorization: bce-auth-v1/047ab241bad24166xxxxx/2023-10-10T07:48:39Z/1800/host;x-bce-date/c26e0a21944cc53773f3e7ec4xxxxxxxx' \
--header 'x-bce-date: 2023-10-10T07:48:17Z' \
--header 'Content-Type: application/json' \
--data '{
"datasetId": "ds-7pkzh1exthpuy10n",
"errCode": 55
}'
响应示例
{
"log_id": "ve8kch3yydh7x9b4",
"result": {
"dataType": "file",
"downloadUrl": "https://bj.bcebos.com/sdc-default/_system_/dataset/ds-tgs00yra246ssn7t/texts/err_file/5287/%E6%95%B0%xxxx%A5%E5%8E%9F%E5%9B%A0.xlsx?authorization=bce-auth-v1%2F50c8bb753dcb4e1d8646bb1fxxxx",
"isZip": 0,
"projectType": 401,
"content": [
{
"sequence": 1,
"sampleFileName": "",
"sampleName": "WENXINWORKSHOP (1).docx",
"textLocation": 0,
"textContent": ""
}
]
},
"status": 200,
"success": true
}
错误码
若请求错误,服务器将返回的JSON文本包含以下参数:
名称 | 描述 |
---|---|
code | 错误码 |
message | 错误描述信息,帮助理解和解决发生的错误 |
例如参数错误返回:
{
"code": 500001,
"message": "param invalid"
}
更多错误码,请查看错误码说明。