如需了解更多,可访问 iOCR 通用版产品介绍页 名词解释 固定版式: 指不同图片中的对应字段文字虽内容不同、长短不同,但可能出现的位置及范围固定不变的一类图片,如身份证、学生证、结婚证、火车票等;若图片中存在前文内容长度影响后文位置、表格行列不固定等情况的需针对不同情况制作多个模板 参照字段: 相同版式的不同图片中 位置和内容固定不变的字段 ,可框选做为图片的锚点,用做对后续传入的图片进行模板匹配和矫正
接口能力 接口分类 接口名称 接口能力简要描述 通用场景文字识别 通用文字识别(标准版) 识别图片中的文字信息 通用文字识别(标准含位置版) 识别图片中的文字信息(包含文字区域的坐标信息) 通用文字识别(高精度版) 更高精度地识别图片中的文字信息 通用文字识别(高精度含位置版) 更高精度地识别图片中的文字信息(包含文字区域的坐标信息) 网络图片文字识别 针对网络图片进行专项优化,对艺术字体或背景复杂的文字内容具有更优的识别效果
名词解释 票据: 报销场景常用的各类票据凭证,如各类发票、交通票据等,通常打印在专用纸张,且各字段有固定打印位置 单据: 财税场景常用的各类单据,如银行对账单、银行回单、银行汇票、银行支票等,通常由银行开具,用于内部财税核对 固定版式: 指不同图片中的对应字段文字虽内容不同、长短不同,但可能出现的位置及范围固定不变的一类图片,如身份证、学生证、结婚证、火车票等;若图片中存在前文内容长度影响后文位置、
标准含位置版) 识别图片中的文字信息(包含文字区域的坐标信息) 通用文字识别(高精度版) 更高精度地识别图片中的文字信息 通用文字识别(高精度含位置版) 更高精度地识别图片中的文字信息(包含文字区域的坐标信息) 网络图片文字识别 针对网络图片进行专项优化,对艺术字体或背景复杂的文字内容具有更优的识别效果 网络图片文字识别(含位置版) 支持识别艺术字体或背景复杂的文字内容,除文字信息外,还可返回每行文字的位置信息
办公文档识别 接口描述 支持对各类办公文档进行版面分析和文字识别,输出图、表、印章、标题等元素及位置信息,并分版块输出文字识别结果。可支持中、英、日、韩、法等 20+ 语言类型,印刷、手写、混排等多种场景。 在线调试 您可以在 示例代码中心 中调试该接口 ,可进行签名验证、查看在线调用的请求内容和返回结果、示例代码的自动生成。
A:主要是训练数据的问题,包括: 1.某个模板的训练集中混杂了其他类型的图片; 2.训练集数据较少或过于单一没有很好覆盖全实际场景; 3.需要分类的不同模板区别不明显,如北京增值税专票和天津增值税专票 针对上述情况的解决方案如下: 1.检查每个模板的训练集,确保训练集中的图片属于同一个模板; 2.增加训练集中的图片数量,尽量覆盖实际使用时可能会遇到的场景; 3.只是文字内容级别的不同模板建议使用通用文字识别的结果作为参考进行分类
接入 MCP Server 后,您的应用将直接具备以下文字识别能力: 功能类型 MCP Server 地址 工具能力 通用文字识别 https://aip.baidubce.com/mcp/ocr_general/sse 通用文字识别、网络图片文字识别、办公文档识别、表格文字识别、手写文字识别、智能结构化、文件检测分类、二维码识别、数字识别、印章识别、仪器仪表盘读数识别 文档解析 https://aip.baidubce.com
支持对身份证图片及识别结果进行加密后传输,示意图如下: 在百度云控制台「文字识别-应用列表-管理」中获取您的AES Key 使用AES Key对将要识别的图片进行加密 将加密后的图片传入接口,请求参数AESEncry设置为true 接口返回加密后的识别结果,使用AES Key进行解密,得到明文识别结果 使用AES加密不影响身份证识别接口支持的质量检测、风险检测等其他能力,也不影响识别效果。
二维码识别 接口描述 对图片中的二维码、条形码进行检测和识别,返回存储的文字信息及其位置信息 在线调试 您可以在 示例代码中心 中调试该接口 ,可进行签名验证、查看在线调用的请求内容和返回结果、示例代码的自动生成。
通用票据识别 该接口已停止更新且即将下线,如需更好的识别效果,请使用 智能财务票据识别 ,此服务支持财务场景中13种常见票据的分类及结构化识别,支持多张不同种类票据在同一张图片上的混贴场景,可返回每张票据的位置、种类及票面信息的结构化识别结果。您也可以选择使用 通用文字识别(高精度版) ,提供更高精度的识别服务,同时支持多语种识别。