上传文件到知识库
上传文件到知识库,支持导入文本文档、网页数据源、音频和图片。
权限说明
调用本文API,需使用API Key鉴权方式。使用API Key鉴权调用API流程,具体调用流程,请查看 认证鉴权。
请求参数
待解析的内容来源,可选:
- filesId:本地文件,先通过files接口上传,支持传入多个。
- bos地址。
- url链接,支持传入多个。
显示子属性
隐藏子属性
待解析内容的类型。可选bos/upload/webpage,分别对应bos导入/本地上传/网页拉取。
当source.type=bos时填写,填入需导入的文件bos地址。
显示子属性
隐藏子属性
当source.type=upload时填写,填入需导入的文件 id 的集合。先通过文件上传上传文件 id,支持传入多个。filesId 是这个 API 上传之后的文件 id 集合。
显示子属性
隐藏子属性
当source.type=webpage时填写,填入需抓取的网页地址。
显示子属性
隐藏子属性
当source.type=webpage时填写,表示抓取网页的频率。支持daily/P3D/weekly/monthly/none,默认为 none,不更新。
- daily:每日更新。
- P3D:每3天更新。
- weekly:每周更新。
- monthly:每月更新。
- none:不更新。
当source.type=webpage时填写,是否开启子网页解析,默认开启。
待解析内容的数据类型。待解析内容的数据类型:可从webpage/doc/image/audio中选择,默认值为 doc。
对于fileType=doc时有条件支持,可以不传。传参时,请求参数中的chunking和augmentation参数无效。
- ppt:ppt幻灯片,仅支持.ppt/.pptx/.pdf文件格式
- paper:论文文档,仅支持.doc/.docx/.pdf文件格式
- resume:简历文档,仅支持.doc/.docx/.pdf文件格式
- qaPair:结构化问答对,仅支持.doc/.docx/.pdf文件格式
- contract:合同解析,
- statute:法条解析,
对于fileType 不是doc的时候,不需要传参。
解析算子。可多选:layout,ocr,table,formular,vlm,chart,asr。
显示子属性
隐藏子属性
对于fileType=table时必填,指定参与检索的表头;一次导入多张表时,对导入的所有表生效,索引列不超过5个。
显示子属性
隐藏子属性
显示子属性
隐藏子属性
暂无参数
切片策略。默认策略为:切片最大长度为600、相邻切片重叠0%,仅开启文字提取。
显示子属性
隐藏子属性
切片的模式。可选值:
custom:自定义切片,onePage:整页切片。
chunking 关联元数据,可选值为: title:增加标题, filename:增加文件名
显示子属性
隐藏子属性
切片正则表达式,当mode是自定义切片时,需要填写这个参数。
切片最大长度,当mode是自定义切片时,需要填写这个参数,取值范围300-150000。
切片重叠最大字数占比,当mode是自定义切片时,需要填写这个参数,取值范围0-0.3。
知识增强配置,不传该参数表示不开启知识增强。
开启知识增强,会调用大模型抽取更加丰富的知识点,增加切片的召回率。开启知识增强会增加文档的处理时长和资源消耗,请按需开启。
可多选:faq,summarize,spo。
显示子属性
隐藏子属性
知识图谱配置,不传该参数表示不开启知识图谱。默认为false。
为文件添加的标签。每个标签是一个键值对,由标签名和标签值组成,帮助更精准地组织和检索内容。当source为bos、upload时,tag不生效。
显示子属性
隐藏子属性
显示子属性
隐藏子属性
标签key。可包含大小写字母、数字、中文以及-_ /.特殊字符,长度1-50。
标签value列表。可包含大小写字母、数字、中文以及-_ /.特殊字符,长度1-50。
显示子属性
隐藏子属性
POST /v2/knowledgeBase?Action=ImportDocuments HTTP/1.1
Host: qianfan.baidubce.com
Authorization: Bearer <API Key>
Content-Type: application/json
{
"knowledgeBaseId":"882181a4-****-30f2614e57ea",
"source":{
"type":"webpage",
"uri": ["https://www.****.com"],
"updateFreq": "daily"
}
}
示例代码
curl -X POST "https://qianfan.baidubce.com/v2/knowledgeBase?Action=ImportDocuments" \
-H "Host: qianfan.baidubce.com" \
-H "Authorization: Bearer <API Key>" \
-H "Content-Type: application/json" \
-d '{
"knowledgeBaseId":"882181a4-****-30f2614e57ea",
"source":{
"type":"webpage",
"uri": ["https://www.****.com"],
"updateFreq": "daily"
}
}‘
返回响应
请求 ID。
成功的 documentIds。
显示子属性
隐藏子属性
{
"requestId": "6f237591-****-29e3571d75f6",
"documentIds": [
"9472c971-****-356825d138a5"
]
}
{
"code": "InvalidRequestArgumentError",
"message": "Invalid format for knowledgeBaseId: expected uuid",
"requestId": "a606fec0-****-c793d7a464aa"
}
