WORK_DIR} /data/wudao/ ├── README.md ├── test.json ├── validation.json ├── validation_content_document.bin # 新增 ${output-prefix}_${json-keys}_document.bin └── validation_content_document.idx # 新增 ${output-prefix
DocumentRetrain - 重新学习文档(支持批量) API访问域名 请求方式 POST base url https://keyue.cloud.baidu.com 后缀接口 /open/v1/api/v2/llm/document/batchRetrain Authentication token为API Key 说明 无 请求参数 Header参数 名称 类型 必选 中文名 说明 Content-Type
DocumentSplitter - 设置文档预处理和分段策略 API访问域名 请求方式 POST base url https://keyue.cloud.baidu.com 后缀接口 /open/v1/api/v2/llm/document/splitter Authentication token为API Key 说明 无 请求参数 Header参数 名称 类型 必选 中文名 说明 Content-Type
PostObject 接口描述 此接口使用HTML表单上传文件到指定bucket,用于实现通过浏览器上传文件到bucket。在PutObject操作中通过HTTP请求头传递参数,在PostObject操作中使用消息实体中的表单域传递参数,其中消息实体使用多重表单格式(multipart/form-data)编码。
PostEvent 接口描述 将事件消息推送到配置的url上。 如果规则中配置了encryption字段,那么请求中会包含 Authorization 的签名,保证消息不会被伪造或篡改。
DocumentTaskStatus DocumentTaskStatus 值 描述 ELECTRONIC 电子文件 CLAIMABLE 可索取 CLAIM_AUDITING 索取审核中 CLAIM_REJECTED 拒绝索取 CLAIM_COMPLETED 索取完成 SUPPLEMENTARY 补正文件
释放后付费实例(POST请求的释放) 该接口用于释放单个按量付费(后付费)云服务器实例,释放后实例所使用的物理资源都被收回,相关数据全部丢失且不可恢复。
进阶篇二:通过PostObject接口处理IE低版本 进阶篇二:通过 PostObject 接口处理 IE 低版本 因为 IE 低版本(IE8,IE9)对 html5 支持的不完善,为了在这些浏览器里面实现文件直传的功能, BOS 开发了 PostObject 接口,通过一个 multipart/form-data 的格式,就可以把文件上传到 BOS 服务器。
post中的参数则不会 对数据类型的限制:get只接收ASCII字符;post没有限制 书签:get请求可收藏为书签;post请求不可收藏为书签 请求数据包:get产生一个tcp数据包,浏览器将header和data一起发送出去,服务器响应200并返回数据;post产生两个tcp数据包,浏览器先发送header,服务器响应100 continue,浏览器再发送data,浏览器响应200 成功 具体解析可查阅
数据清洗 什么是数据清洗 数据清洗是面向post-pretrain场景下预训练泛文本数据的一站式数据处理方案,通过对数据进行异常清洗、文本过滤、文本去重和去除隐私信息,大幅提升数据质量,优化模型训练效果。