文字识别

    简介

    Hi,欢迎您使用百度 iOCR 财会版。

    iOCR 财会版是 iOCR 自定义模板文字识别针对财会报销场景提出的专项解决方案,预置多种财务场景常用识别模板及财务票据分类器,无需制作或训练即可直接使用;并提供混贴票据识别功能,可对粘贴在一张报销单上的多张不同种类发票进行切分识别;同时支持对未预置的固定版式票据可定制结构化识别模板和分类器。详情如下:

    • 预置模板及分类器: 预置财会场景常用的 8 类报销发票及银行回单、汇票、支票等 3 类银行单据识别模板,同时预置财会票据分类器,无需制作或训练,即可直接调用实现常用票据/单据的识别及财务票据分类能力
    • 混贴票据识别: 针对粘贴在一张图上的多张不同种类发票可进行自动检测分类及结构化识别,返回票据种类、位置及结构化识别结果
    • 自定义模板/分类器: 针对未预置且版式固定的票据、单据,仅需上传一张模板图片,即可通过框选参照字段和识别区自助制作一个识别模板,并建立图片中文字的 Key-Value 对应关系,实现对相同版式图片的结构化识别;同时,支持对已发布的多个识别模板自定义分类器,一步实现对不同版式图片的自动分类和结构化识别

    iOCR 财会版针对财会场景进行深度定制,对常用的各类发票及银行单据进行专项优化及整合,同时提供对长尾票据的模板自定义功能,一站式解决财会报销的自动化识别问题,大幅度提高票据、单据的处理效率。如需了解更多,可访问 iOCR 财会版产品介绍页

    名词解释

    • 票据: 报销场景常用的各类票据凭证,如各类发票、交通票据等,通常打印在专用纸张,且各字段有固定打印位置
    • 单据: 财税场景常用的各类单据,如银行对账单、银行回单、银行汇票、银行支票等,通常由银行开具,用于内部财税核对
    • 固定版式: 指不同图片中的对应字段文字虽内容不同、长短不同,但可能出现的位置及范围固定不变的一类图片,如身份证、学生证、结婚证、火车票等;若图片中存在前文内容长度影响后文位置、表格行列不固定等情况的需针对不同情况制作多个模板
    • 参照字段: 相同版式的不同图片中 位置和内容固定不变的字段,可框选做为图片的锚点,用做对后续传入的图片进行模板匹配和矫正;建议选取 8 个以上、分散在图片四周、且不重复无换行的参照字段,效果最佳
    • 识别区: 图片中需要进行识别的字段,可通过框选及命名构建 「字段名称 : 识别区内容」 的 Key : Value 对应关系,用于对后续传入的相同版式图片的相同位置内容进行结构化识别;识别区的框选直接影响最终识别效果,框选区域需完全覆盖文字可能出现的范围
    • 字段类型: 针对不同识别区内容类型进行专项优化的切片识别模型,如小写金额、日期、纯数字等,可根据需求选择合适的字段类型以提升识别准确率;也可通过穷举可能的输出值范围,自定义字段类型,对识别结果进行智能纠正和规范
    • 训练集图片: 针对已发布的识别模板上传的相同版式的图片集合,用于提取该版式图片的视觉特征,对后续上传的图片进行自动分类。为了最佳的分类效果,训练集至少包含 30 张以上不重复的、版式相同的图片
    • 分类关键词:图片中存在的独有的文字内容,用作模板分类的文字依据,需保证填写的关键词在该版式图片中均有出现,可根据填写的关键词唯一确定图片所属模板类别
    • templateSign: 模板ID,用于指定后期上传的图片用哪个模板来进行识别
    • classifierId: 分类器ID,用于指定使用具体某个分类器,传入本参数后不用再传templateSign参数
    • detectorId: 检测器ID,用于指定对发票粘贴单中各发票进行分类识别时使用的检测器,目前仅有一个可选检测器,默认为 0

    预置能力介绍

    混贴票据识别功能

    可针对粘贴在同一张图上的多张不同种类发票进行自动检测分类并结构化识别,返回每张发票的种类、位置及结构化识别结果,目前支持对增值税发票、定额发票、卷票、火车票、出租车票、行程单、机动车销售发票等 7 类发票进行检测识别,可点击 iOCR 财会版 - 功能演示 进行体验。

    混贴票据识别

    预置模板

    • 增值税发票: 支持对增值税普票或专票所有30个字段进行结构化识别,包括发票基本信息、销售方及购买方信息、商品信息、价税信息等,其中四要素识别准确率超过99.9%
    • 增值税卷票:支持对增值税卷票的 16 个关键字段进行识别,包括发票类型、发票代码、发票号码、机打号码、机器编号、销售方纳税人识别号、开票日期、购买方纳税人识别号、项目、单价、数量、金额、税额、合计金额(小写)、合计金额(大写)、校验码
    • 定额发票: 支持对各类定额发票的发票代码、发票号码、金额3个关键字段进行结构化识别
    • 通用机打发票: 支持对国家/地方税务局发行的横/竖版通用机打发票的6个关键字段进行结构化识别,包括发票类型、发票号码、发票代码、开票日期、商品名称、合计金额
    • 火车票: 支持对红、蓝火车票的8个关键字段进行结构化识别,包括车票号码、始发站、目的站、车次、日期、票价、席别、姓名
    • 出租车票: 支持识别全国各大城市出租车票的6个关键字段,包括发票号码、代码、车号、日期、时间、金额
    • 行程单: 支持对飞机行程单的6个关键字段进行结构化识别,包括姓名、始发站、目的站、航班号、日期、票价
    • 机动车销售发票: 支持对机动车销售发票的14个关键字段进行结构化识别,包括发票代码、发票号码、开票日期、机器编号、厂牌型号、发动机号码、车架号码、价税合计(大/小写)、销货单位名称、纳税人识别号、税率、税额、不含税价
    • 银行回单: 支持对各大银行回单的记账日期、出/入账户信息、交易金额等信息进行结构化识别,仅支持对单张图片上的单张回单进行识别
    • 银行汇票:支持对普通商业承兑汇票、普通银行承兑汇票、电子商业承兑汇票等多类汇票的 21 个关键字段进行结构化识别,包括收/付款人账号、出票金额、出票日期、承兑人信息等
    • 银行支票:支持对转账支票、现金支票、普通支票等多类银行支票的 7 个关键字段进行结构化识别,包括银行名称、出票日期、出票人账号、收款人、 付款行名称、金额、用途
    • 银行回单(多张)(可选):支持对单张图片上的多张回单进行识别,可结构化输出每张银行回单的记账日期、出/入账户信息、交易金额等信息
    • 大陆身份证正面(可选):支持对中国大陆二代居民身份证人像面所有 6 个字段进行结构化识别,包括姓名、性别、民族、出生日期、住址、身份证号
    • 大陆身份证背面(可选):支持对中国大陆二代居民身份证国徽面的签发日期、失效日期、签发机关 3 个字段进行结构化识别
    • 行驶证正页(可选):支持对机动车行驶证正页所有 10 个字段进行结构化识别,包括号牌号码、车辆类型、所有人、住址、使用性质、品牌型号、车辆识别代号、发动机号码、注册日期、发证日期
    • 行驶证副页(可选):支持对机动车行驶证副页所有 11 个字段进行结构化识别,包括号牌号码、档案编号、核定载人数、总质量、整备质量、核定载质量、外廓尺寸、准牵引总质量、备注、检验记录、燃油类型
    • 驾驶证(可选):支持对机动车驾驶证正本所有 9 个字段进行结构化识别,包括证号、姓名、性别、国籍、住址、出生日期、初次领证日期、准驾车型、有效起始日期、失效日期
    • 银行卡(可选):支持对国内主流银行卡的卡号、有效期、发卡行、卡片类型 4 个关键字段进行结构化识别
    • 营业执照(可选):支持对不同版式营业执照所有 11 个字段进行结构化识别,包括证件编号、社会信用代码、单位名称、地址、法人、类型、组成形式、注册资本、成立日期、有效日期、经营范围

    注意:

    • 预置模板默认已发布,可直接复制对应的 templateSign 使用API进行调用
    • 备注「可选」字样的预置模板未默认展示在「模板管理 - 预置模板」标签页,如需使用需点击页面右上角的「添加更多」按钮按需进行勾选添加

    预置分类器

    • 财会票据分类器: 可对增值税发票、机打发票、定额发票、火车票、出租车票、行程单、机动车销售发票等 7 类财务票据进行自动分类并结构化识别

    注意: 预置分类器默认已发布,可直接复制对应的 classifierId(财会票据分类器:10001) 使用API进行调用

    联系我们

    本文档主要说明如何使用 iOCR财会版完成文字识别模型及分类器的制作,以及发布后如何通过 API 进行调用,如文档内容无法解决您的问题,可以通过以下方式寻求帮助:

    • 在百度云控制台内 提交工单 联系专业的技术支持人员进行解答
    • 进入 OCR 论坛 发布您的问题参与互动
    • 加入百度 iOCR 交流群(群号:570832882)与更多开发者进行交流
    上一篇
    iOCR通用版
    下一篇
    使用流程