WebSplitter - 设置web页面预处理和分段策略
更新时间:2024-11-05
API访问域名
请求方式 | POST |
---|---|
base url | https://keyue.cloud.baidu.com |
后缀接口 | /open/v1/api/v2/llm/web/update |
Authentication | token为API Key |
说明
无
请求参数
Header参数
名称 | 类型 | 必选 | 中文名 | 说明 |
---|---|---|---|---|
Content-Type | string | 是 | 内容类型 | 固定值:application/json |
token | string | 是 | API KEY | 集成-API-API Key处获取。 详细获取方式参考:准备工作 |
uid | string | 是 | 用户ID | 鼠标移动至页面右上角账户头像即可获取。 详细获取方式参考:准备工作 |
username | string | 是 | 用户名 | 鼠标移动至页面右上角账户头像即可获取。 详细获取方式参考:准备工作 |
Body参数
名称 | 类型 | 必选 | 中文名 | 说明 |
---|---|---|---|---|
idList | array | 是 | id列表 | 知识id列表 |
refresh | int | 是 | 刷新频率/天 | 0-100 |
taskExtend | string | 是 | 文档训练参数 | 为空代表"{}":自动分段与数据清洗。有值代表:1、分段标识符split_by:换行切分punc、标点切分wrap2、分段最大长度chunk_size(200-800)3、分段重叠比overlap_proportion(0-20)4、文本预处理(删除连续空格、换行、制表符):pre_handle_text5、文本预处理(删除目录、页眉、页脚):pre_handle_directory |
adminId | string | 是 | 租户管理者id |
响应参数
名称 | 类型 | 必选 | 中文名 | 说明 |
---|---|---|---|---|
time | integer | 是 | 时间 | 1716985128196 |
data | null | 是 | 数据 | null |
code | integer | 是 | 状态码 | 200 |
msg | string | 是 | 状态信息 | OK |
请求示例
curl --location 'https://keyue.cloud.baidu.com/open/v1/api/v2/llm/web/update' \
--header 'token: cdeaa589-2934-478b-9fdd-9a2b00a74124' \
--header 'Content-Type: application/json' \
--header 'uid: cf7d9692703d45d1b5517a30ab3efa53' \
--header 'username: pnstest5' \
--data '{
"idList": [
"95570780-7ef4-4c8f-8926-3cf6d900894c"
],
"refresh": 6,
"taskExtend": "{\"split_by\":\"punc\",\"chunk_size\":700,\"overlap_proportion\":10,\"pre_handle_text\":true,\"pre_handle_directory\":true}",
"adminId": "48c93c8a53fd47c1bb7a130417531fd9"
}'
响应示例
{
"time": 1717487792072,
"data": null,
"code": 200,
"msg": "OK"
}