像这里我们把PDF文件分成了98块,显示了第一块的内容,并为此建立了源。
文件相关接口 委托书下载 接口描述 本接口用于下载委托书 请求结构 > POST https://tms-api.baidu.com/v1/tms/openapi/materials/loa/download > Authorization: authorization string > Host: tms-api.baidu.com > x-bce-console-rpc-id
8192px 优先级 :image > url > pdf_file > ofd_file,当image、url字段存在时,pdf_file字段失效 pdf_file_num 否 string - 需要识别的PDF文件的对应页码,当 pdf_file 参数有效时,识别传入页码的对应页面内容,若不传入,则默认识别第 1 页 ofd_file 和 image/url/pdf_file 四选一 string
如需使用在线工具,请访问 智能文档分析平台-文档比对 ;如需使用API服务,请参见 API文档 2023-08-16 文档格式转换正式商用 :可开通按量后付费或购买预付费资源包,按页计费,详情参见 价格文档 2023-05-26 文档格式转换开放公测 :可识别图片/PDF文档版面布局,提取文字内容,并转换为保留原文档版式的Word、Excel文档,方便二次编辑和复制,支持在线工具和API服务两种使用方式
URL防盗链 pdf_file 和 image/url 三选一 string - PDF文件,base64编码后进行urlencode,要求base64编码,大小不超过4M,最短边至少15px,最长边最大4096px 优先级 :image > url > pdf_file,当image、url字段存在时,pdf_file字段失效 pdf_file_num 否 string - 需要识别的PDF文件的对应页码
使用效果 此插件支持上传文件进行测试,如下所示: 支持上传pdf、doc、docx、txt格式的文件,文档不得超过10M,仅支持单文件上传,以下为测试效果:
height 是 uint32 表示定位位置的长方形的高度 + words 否 string 识别结果字符串 身份证识别 返回示例 { log_id : 2648325511 , direction : 0 , image_status : normal , idcard_type : normal , edit_tool : Adobe Photoshop CS3 Windows
4.2 数据层 数据层主要包括:个人知识库的源数据(包括 pdf、txt、md 等)和 Embedding 对象。源数据需要经过 Embedding 处理才能进入向量数据库,我们在数据层自定义了智谱提供的 Embedding API 的封装,支持上层以统一方式调用智谱 Embedding 或 OpenAI Embedding。 4.3 数据库层 数据库层主要:存放了向量数据库文件。
请求参数 参数名称 类型 是否必选 参数位置 描述 version String 是 URL参数 API版本号,当前取值为1 clientToken String 否 Query参数 幂等性Token,是一个长度不超过64位的ASCII字符串,详见 ClientToken幂等性 。
4096px 优先级 :image > url > pdf_file > ofd_file,当image、url字段存在时,pdf_file字段失效 pdf_file_num 否 string - 需要识别的PDF文件的对应页码,当 pdf_file 参数有效时,识别传入页码的对应页面内容,若不传入,则默认识别第 1 页 ofd_file 和 image/url/pdf_file 四选一 string