DocumentSplitter - 设置文档预处理和分段策略
更新时间:2024-11-05
API访问域名
请求方式 | POST |
---|---|
base url | https://keyue.cloud.baidu.com |
后缀接口 | /open/v1/api/v2/llm/document/splitter |
Authentication | token为API Key |
说明
无
请求参数
Header参数
名称 | 类型 | 必选 | 中文名 | 说明 |
---|---|---|---|---|
Content-Type | string | 是 | 内容类型 | 固定值:application/json |
token | string | 是 | API KEY | 集成-API-API Key处获取。 详细获取方式参考:准备工作 |
uid | string | 是 | 用户ID | 鼠标移动至页面右上角账户头像即可获取。 详细获取方式参考:准备工作 |
username | string | 是 | 用户名 | 鼠标移动至页面右上角账户头像即可获取。 详细获取方式参考:准备工作 |
Body参数
名称 | 类型 | 必选 | 中文名 | 说明 |
---|---|---|---|---|
documentIds | array | 是 | 文档ID列表 | ["58420e51-0d1f-4e73-9346-f05c3c401604"] |
taskExtend | string | 否 | 文档训练参数 | 为空代表"{}":自动分段与数据清洗。有值代表:1、分段标识符split_by:换行切分punc、标点切分wrap2、分段最大长度chunk_size(200-800)3、分段重叠比overlap_proportion(0-20)4、文本预处理(删除连续空格、换行、制表符):pre_handle_text5、文本预处理(删除目录、页眉、页脚):pre_handle_directory |
adminId | string | 是 | 租户管理者id |
响应参数
名称 | 类型 | 必选 | 中文名 | 说明 |
---|---|---|---|---|
time | integer | 是 | 时间 | 1716985128196 |
data | null | 是 | 数据 | null |
code | integer | 是 | 状态码 | 200 |
msg | string | 是 | 状态信息 | ok |
请求示例
curl --location 'https://keyue.cloud.baidu.com/open/v1/api/v2/llm/document/splitter' \
--header 'token: cdeaa589-2934-478b-9fdd-9a2b00a74124' \
--header 'Content-Type: application/json' \
--header 'uid: cf7d9692703d45d1b5517a30ab3efa53' \
--header 'username: pnstest5' \
--data '{
"documentIds": [
"58420e51-0d1f-4e73-9346-f05c3c401604"
],
"taskExtend": "{\"split_by\":\"punc\",\"chunk_size\":700,\"overlap_proportion\":10,\"pre_handle_text\":true,\"pre_handle_directory\":true}",
"adminId": "48c93c8a53fd47c1bb7a130417531fd9"
}'
响应示例
{
"time": 1717487285118,
"data": null,
"code": 200,
"msg": "OK"
}