DocumentSplitter - 设置文档预处理和分段策略
所有文档
menu

客悦智能客服专业版

DocumentSplitter - 设置文档预处理和分段策略

立即使用

API访问域名

请求方式 POST
base url https://keyue.cloud.baidu.com
后缀接口 /open/v1/api/v2/llm/document/splitter
Authentication token为API Key

说明

请求参数

Header参数

名称 类型 必选 中文名 说明
Content-Type string 内容类型 固定值:application/json
token string API KEY 集成-API-API Key处获取。
详细获取方式参考:准备工作
uid string 用户ID 鼠标移动至页面右上角账户头像即可获取。
详细获取方式参考:准备工作
username string 用户名 鼠标移动至页面右上角账户头像即可获取。
详细获取方式参考:准备工作
adminId string 租户管理者ID 详细获取方式参考:准备工作

Body参数

名称 类型 必选 中文名 说明
documentIds array 文档ID列表 ["58420e51-0d1f-4e73-9346-f05c3c401604"]
target string 分段任务类型 固定值:submit
taskExtend string 文档训练参数 为空代表"{}":自动分段与数据清洗。有值代表:
1、分段标识符split_by:换行切分punc、标点切分wrap
2、分段最大长度chunk_size(200-800)
3、分段重叠比overlap_proportion(0-20)
4、文本预处理(删除连续空格、换行、制表符):pre_handle_text
5、文本预处理(删除目录、页眉、页脚):pre_handle_directory

响应参数

名称 类型 必选 中文名 说明
time integer 时间 1716985128196
data null 数据 null
code integer 状态码 200
msg string 状态信息 ok

请求示例

curl --location --request POST 'https://keyue.cloud.baidu.com/open/v1/api/v2/llm/document/splitter' \
--header 'token: cdeaa589-2934-478b-9fdd-9a2b00a74124' \
--header 'Content-Type: application/json' \
--header 'uid: cf7d9692703d45d1b5517a30ab3efa53' \
--header 'username: pnstest5' \
--header 'adminId: 48c93c8a53fd47c1bb7a130417531fd9' \
--data '{
    "documentIds": [
        "58420e51-0d1f-4e73-9346-f05c3c401604"
    ],
    "target": "submit",
    "taskExtend": "{\"split_by\":\"punc\",\"chunk_size\":700,\"overlap_proportion\":10,\"pre_handle_text\":true,\"pre_handle_directory\":true}"
}'

响应示例

{
    "time": 1717487285118,
    "data": null,
    "code": 200,
    "msg": "OK"
}
{    
    "msg":"请求参数错误",
    "tip":"","code":4001002,
    "requestId":"a8fea1362c7246949f3044de6f0f5bb8"
}
上一篇
DoucumentEnhancement - 知识增强
下一篇
DocumentList - 查看文档列表