WebSplitter - 设置web页面预处理和分段策略
更新时间:2026-06-26
API访问域名
| 请求方式 | POST |
|---|---|
| base url | https://keyue.cloud.baidu.com |
| 后缀接口 | /open/v1/api/v2/llm/web/update |
| Authentication | token为API Key |
说明
无
请求参数
Header参数
| 名称 | 类型 | 必选 | 中文名 | 说明 |
|---|---|---|---|---|
| Content-Type | string | 是 | 内容类型 | 固定值:application/json |
| token | string | 是 | API KEY | 机器人API KEY。 详细获取方式参考:准备工作 |
| uid | string | 是 | 用户ID | 详细获取方式参考:准备工作 |
| username | string | 是 | 用户名 | 详细获取方式参考:准备工作 |
Body参数
| 名称 | 类型 | 必选 | 中文名 | 说明 |
|---|---|---|---|---|
| idList | array | 是 | id列表 | 知识id列表 |
| webUrl | array | 否 | 网页url | 网页url列表 |
| target | string | 是 | 分段任务类型 | 固定值:submit |
| refresh | int | 是 | 刷新频率/天 | 0-100 |
| taskExtend | string | 是 | 文档训练参数 | 为空代表"{}":自动分段与数据清洗。有值代表: 1、分段标识符split_by:换行切分punc、标点切分wrap 2、分段最大长度chunk_size(200-800) 3、分段重叠比overlap_proportion(0-20) 4、文本预处理(删除连续空格、换行、制表符):pre_handle_text 5、文本预处理(删除目录、页眉、页脚):pre_handle_directory 6、图片OCR识别:image_ocr 7、图片增强:multi_query 8、图片过滤解析:image_filter(1-20) |
响应参数
| 名称 | 类型 | 必选 | 中文名 | 说明 |
|---|---|---|---|---|
| time | integer | 是 | 时间 | 1716985128196 |
| data | null | 是 | 数据 | null |
| code | integer | 是 | 状态码 | 200 |
| msg | string | 是 | 状态信息 | OK |
请求示例
Bash
1curl --location --request POST 'https://keyue.cloud.baidu.com/open/v1/api/v2/llm/web/update' \
2--header 'token: XXXXXXXXXXXXXXXXXX' \
3--header 'Content-Type: application/json' \
4--header 'uid: xxxxxxxxx' \
5--header 'username: XXXXXXXXXXXX' \
6--header 'adminId: xxxxxxxxx' \
7--data '{
8 "idList": [
9 "fcbdec2b-b101-4fa1-9d7b-5d41f5e19294",
10 "965a7b55-4aaa-48f5-9228-c06e4d80f683"
11 ],
12 "webUrl":[],
13 "target": "submit",
14 "refresh": 7,
15 "taskExtend": "{\"split_by\":\"punc\",\"chunk_size\":700,\"overlap_proportion\":10,\"pre_handle_text\":true,\"pre_handle_directory\":true,\"image_ocr\":true,\"multi_query\":true,\"image_filter\":10}"
16}'
响应示例
1{
2 "time": 1717487792072,
3 "data": null,
4 "code": 200,
5 "msg": "OK"
6}
1{
2 "msg":"请求参数错误",
3 "tip":"","code":4001002,
4 "requestId":"a8fea1362c7246949f3044de6f0f5bb8"
5}
评价此篇文章
