上传文档到知识库
上传文档到指定知识库,支持多种文件类型和解析方式,返回上传成功的文档ID列表
权限说明
调用本文API,需使用API Key鉴权方式。使用API Key鉴权调用API流程,具体调用流程,请查看认证鉴权。
请求参数
操作类型,固定值为 ImportDocuments,用于标识此次API调用的操作。
知识库的唯一标识,用于指定要上传文档的目标知识库。
文件类型,支持的文档类型。
可选值:
• webpage:网页类型
• doc:文档类型
• table:表格类型
• image:图片类型
• audio:音频类型
文档来源配置,包含文档的来源类型和相关参数。
显示子属性
隐藏子属性
文档来源类型。
可选值:
• bos:百度对象存储
• upload:直接上传
• webpage:网页抓取
BOS文件路径列表,当 type 为 bos 时使用。
格式为:bucket名称/文件路径。
显示子属性
隐藏子属性
上传文件的ID列表,当 type 为 upload 时使用。
显示子属性
隐藏子属性
网页URI列表,当 type 为 webpage 时使用。
显示子属性
隐藏子属性
更新频率,用于网页类型文档的自动更新。
可选值:
• daily:每日更新
• P3D:每3天更新
• weekly:每周更新
• monthly:每月更新
• none:不自动更新
是否启用子页面抓取,用于网页类型文档,决定是否抓取链接的子页面。
文档模板类型,用于指定文档的解析模板。
可选值:
• ppt:PPT演示文稿
• paper:论文
• qa_pair:问答对
• resume:简历
• contract:合同
• legal:法律文书
解析器列表,指定文档解析时使用的解析能力。
可选值:
• layout:版面分析
• ocr:光学字符识别
• table:表格识别
• formular:公式识别
• vlm:视觉语言模型
• chart:图表识别
• asr:语音识别
显示子属性
隐藏子属性
索引列名列表,用于表格类型文档,指定需要建立索引的列。
显示子属性
隐藏子属性
分块配置,定义文档的切分方式和参数。
显示子属性
隐藏子属性
分块模式。
可选值:
• custom:自定义分块
• onePage:按页分块
• none:不分块
前置内容列表,在每个分块前添加的固定内容。
显示子属性
隐藏子属性
分割模式列表,用于自定义分块时的分割规则。
显示子属性
隐藏子属性
最大Token数,每个分块的最大长度限制。
重叠率,相邻分块之间的重叠比例,用于保持上下文连贯性。
增强处理类型列表,对文档进行额外的处理。
可选值:
• faq:FAQ问答对生成
• summarize:摘要生成
• spo:主谓宾三元组提取
显示子属性
隐藏子属性
是否启用知识图谱,决定是否为文档构建知识图谱结构。
文档标签列表,用于文档的分类和检索。
显示子属性
隐藏子属性
显示子属性
隐藏子属性
标签键,标签的名称。
标签值列表,标签对应的值集合。
显示子属性
隐藏子属性
POST /v2/knowledgeBase?Action=ImportDocuments HTTP/1.1
HOST: qianfan.baidubce.com
Authorization: Bearer <API Key>
Content-Type: application/json
{
"knowledgeBaseId": "ae1a394c-8eac-4e01-835b-e7693734c9c3",
"fileType": "table",
"source": {
"type": "bos",
"bosUri": ["329056111/ab_test.xlsx"]
},
"parser": []
}
示例代码
curl -X POST "https://qianfan.baidubce.com/v2/knowledgeBase?Action=ImportDocuments" \
-H "Authorization: Bearer bce-v3/ALTAK-******ZftZDTn7/125eeb1c5e9ddc8cf3edf18ef6d03f1517ec9408" \
-H "Content-Type: application/json" \
-d '{
"knowledgeBaseId": "ae1a394c-8eac-4e01-835b-e7693734c9c3",
"fileType": "table",
"source": {
"type": "bos",
"bosFileList": [
"329056111/ab_test.xlsx"
]
},
"parser": ""
}'
返回响应
请求ID,请求的唯一标识,用于追踪请求状态和问题排查。
成功上传的文档ID列表,每个ID对应一个成功上传的文档。
显示子属性
隐藏子属性
返回错误码,当请求失败时返回具体的错误代码。
错误信息,当请求失败时返回详细的错误描述。
{
"requestId": "8a340d72-ef30-442d-9026-65497cae8888",
"documentIds": []
}
