导入url到知识库(旧)
导入url到知识库,当前仅支持单个web的url导入。
权限说明
调用本文API,需使用API Key鉴权方式。使用API Key鉴权调用API流程,具体调用流程,请查看认证鉴权。
请求参数
知识库ID
数据来源
显示子属性
隐藏子属性
数据来源类型 (web)
url列表
显示子属性
隐藏子属性
url导入配置
显示子属性
隐藏子属性
显示子属性
隐藏子属性
url值
url下钻深度。
可选值:
1:只解析当前页面。
2:解析当前网页及子网页
更新频率,单位(天)
可选值:
-1:不自动更新
1:每天更新
3:每3天更新
7:每7天更新
30:每30天更新
上传的数据类型,可选值为:
rawText:文本文档数据。(暂不支持表格型知识数据)
文档处理策略。
备注:contentFormat为rawText时需填写
显示子属性
隐藏子属性
文档解析配置
显示子属性
隐藏子属性
解析方法,可选值为:
(文字提取默认启动,参数不体现)
layoutAnalysis:版面分析
ocr:光学字符识别
pageImageAnalysis:文档图片解析
chartAnalysis:图表解析
tableAnalysis:表格深度解析
显示子属性
隐藏子属性
切片策略配置。
备注:自定义配置(template为custom)时需填写
显示子属性
隐藏子属性
使用哪些切片策略方法,可选值为:
separator:分割符切片,配置切分标识符、切片最⼤⻓度等选项
pattern:正则切片方法,使用正则表达式切片
onePage: 整文件切片,将整篇文档内容存入单一切片
显示子属性
隐藏子属性
正则配置;chunker.choices[]中包含pattern时必填
显示子属性
隐藏子属性
正则表达式。备注:chunker.choices[]中包含pattern时需填写
重叠比例。备注:chunker.choices[]中包含pattern时需填写
匹配命中时,命中内容放置策略(head | tail | drop)。备注:chunker.choices[]中包含pattern时需填写
分段最大长度。备注:chunker.choices[]中包含pattern时需填写
分隔符配置;chunker.choices[]中包含separator时必填;可选分割符: "by_page": 分页符 "。":中文句号 ",":中文逗号 "?":中文问号 "!":中文叹号 ".":英文句号 "!":英文叹号 "?":英文问号 "……":英文省略号
显示子属性
隐藏子属性
分隔符列表,可以使用分页符。chunker.choices[]中包含separator时需填写
显示子属性
隐藏子属性
重叠比例。
备注:chunker.choices[]中包含separator时需填写
分段最大长度。
备注:chunker.choices[]中包含separator时需填写
chunker关联元数据,可选值为:
title :增加标题,
filename:增加文件名
显示子属性
隐藏子属性
配置方法,可选值为:
ppt:ppt幻灯片
paper:论文文档
resume:简历文档
custom:自定义配置,且切片策略可配置
default:自定义配置(切片策略不生效)
qaPair:结构化问答对
数据增强策略
显示子属性
隐藏子属性
faq:问题生成。通过该字段生成的问题在段落中一定存在明确答案。
spokenQuery:问题生成。通过该字段生成的问题是和段落相关的。
spo:三元知识抽取
shortSummary:段落总结。
以上字段按需增加。
其中如果想要具备问题生成能力,则faq和spokenQuery必须都要传。
显示子属性
隐藏子属性
POST /v2/knowledgeBase?Action=CreateDocuments HTTP/1.1
HOST: qianfan.baidubce.com
Authorization: Bearer <API Key>
Content-Type: application/json
{
"id": "58d5ad28-9ff9-4ce9-8d26-149680c1932e",
"source": {
"type": "web",
"urls": [],
"urlConfigs": [
{
"url": "http://****.nhgjly.com/w0es24puqo9z/5512.html?source=baidu&plan=%E6%94%BB%E7%95%A5&unit=%E6%9C%88%E6%94%BB%E7%95%A5&keyword=%E6%96%B0%E7%96%86%E5%8C%97%E7%96%86%E6%97%85%E6%B8%B8%E6%94%BB%E7%95%A5%E8%B7%AF%E7%BA%BF&e_matchtype=2&e_creative=79534349181&e_a",
"updateFrequency": 1,
"urlDepth": 1
}
]
},
"contentFormat": "rawText",
"processOption": {
"template": "default",
"parser": {
"choices": [
"layoutAnalysis"
]
},
"chunker": {
"choices": [
"separator"
],
"separator": {
"separators": [
"!",
"?"
],
"targetLength": 333,
"overlapRate": 0.09
}
},
"knowledgeAugmentation": {
"choices": [
"faq"
]
}
}
}
示例代码
curl --location 'https://qianfan.baidubce.com/v2/knowledgeBase?Action=CreateDocuments' \
--header 'Authorization: Bearer bce-v3/ALTAK-*****uDwEyx1/cf9f5ccb6717264fc93bd3c713300542be00bc85' \
--header 'Content-Type: application/json' \
--data '{
"id":"4bcfc08f-0f30-4acd-95ec-2bedecc8f795",
"source": {
"type": "web",
"urlConfigs": [{
"url": "https://****.cn:8443/kpfw/fpjfzz/v1/exportDzfpwjEwsj=1738819093326",
"updateFrequency": 1,
"urlDepth": 1
},
{
"url": "https://*******spage/data/landingsuper?context=%7B%22nid%22%3A%22news_8214091452491261937%22%7D&n_type=1&p_from=3",
"updateFrequency": 3,
"urlDepth": 2
}
]
},
"contentFormat": "rawText",
"processOption": {
"template": "custom",
"parser": {
"choices": ["layoutAnalysis"]
},
"chunker": {
"choices": ["separator"],
"separator": {
"separators":["!","?"],
"targetLength": 300,
"overlapRate": 0.25
},
"prependInfo": ["title", "filename"]
}
}
}'
返回响应
请求 ID
文档 ID 列表
显示子属性
隐藏子属性
HTTP/1.1 200 OK
{
"requestId": "c0650988-f263-4bb1-be4b-e5c4dc50513a",
"documentIds": [
"3447f80c-e321-4101-bb5b-9e3f82a37c6b",
"33f8a63f-fa95-4c93-abd7-3c40a881ba5b",
"8d5ebac3-90ec-4c64-a06f-539fb8753a0a"
]
}
HTTP/1.1 400
{
"code": "InvalidRequestArgumentError",
"message": "Dataset Not Found",
"requestId": "9873898f-4af9-42da-b670-7cd71de8c4d2"
}
评价此篇文章
