概览
功能介绍
iOCR自定义模板文字识别是一款针对固定版式卡证票据提供的 OCR 定制化产品,可由用户自助创建识别模板和分类器,实现对任意版式卡证票据进行自动分类并结构化输出识别结果。
该产品提供三大自定义功能,分别为:
自定义模板
针对需要识别的图片版式,上传一张模板图片,通过框选参照字段和识别区即可自助制作一个识别模板,并建立图片中文字的 Key-Value 对应关系,实现对相同版式图片的结构化识别。
说明:
参照字段: 相同版式的不同图片中位置和内容固定不变的字段,可框选做为图片的锚点,用做对后续传入的图片进行模板匹配和矫正
识别区:图片中需要进行识别的字段,可通过框选及命名构建 「字段名称 : 识别区内容」 的 Key : Value 对应关系,用于对后续传入的相同版式图片的相同位置内容进行结构化识别
自定义分类器
针对已发布的多个识别模板,只需每类上传 30 张训练集图片或填写分类关键词即可创建分类器,实现对不同版式图片的自动分类,省去人工分类成本,一步实现图片的自动分类和结构化识别
同时,还可选择系统预置模板,无需上传训练集或填写分类关键词即可对预置模板同版式图片进行分类识别
训练完成后的分类器有以下三种分类形式:
- 纯图片特征分类器:通过图片训练集训练的分类模型,对上传的图片进行图像特征值匹配,将相同版式图片分类到对应的识别模板。如需使用此种分类器,需保证所有模板均上传了 30 张以上相同版式训练集图片,但均未填写分类关键词
- 纯文字特征分类器:针对分类器中的各模板填写分类关键词,对上传的图片进行全版面文字识别,如识别出的文字信息包含所填的关键词则分类到对应的识别模板。如需使用此种分类器,无需上传训练集图片,但需保证所有模板均填写了分类关键词
- 图文协同分类器:结合关键词文字信息及图片特征进行协同分类,对上传的图片先进行全版面文字识别匹配关键词,如一张图片匹配到不同模板的分类关键词,则再依据图片特征进行区分。如需使用此种分类器,需保证所有模板均填写了分类关键词,且存在部分模板上传了 30 张以上相同版式训练集图片
说明:
图片训练集: 针对已发布的识别模板上传的相同版式的图片集合,用于训练分类器对后续上传的图片进行自动分类;为了最佳的分类效果,训练集至少包含 30 张以上不重复的、版式相同的图片
分类关键词:图片中存在的独有的文字内容,用作模板分类的文字依据,需保证填写的关键词在该版式图片中均有出现,可根据填写的关键词唯一确定图片所属模板类别。如身份证人像面的“姓名”、“性别”、“民族”、“出生”、“公民身份号码”五个字段在每一张身份证人像面均会出现,且 5 个字段全部出现时基本可确定该图片为身份证人像面,则此 5 个字段即可作为身份证人像面的分类关键词
自定义字段类型
针对输出值为有限集的字段,用户可将可能的输出值汇总为字段词典进行上传,在框选识别区后选择该字段类型,系统则会对识别结果进行智能匹配或纠正,用于规范识别结果,并提高识别准确率。
产品分类及对比
目前 iOCR 共分为 通用版 和 财会版 两个版本,分别适用于不同的使用场景。
产品分类
-
针对任意固定版式的卡证票据,可自助创建识别模板和分类器,实现图片的自动分类及结构化识别
-
针对财会场景常用的各类发票及银行单据进行专项优化及整合,预置多种票据、单据模板及分类器,无需制作或训练即可直接使用;并提供混贴票据识别功能,可对粘贴在一张报销单上的多张不同种类发票进行切分识别;同时支持对未预置的固定版式票据、单据定制结构化识别模板和分类器
5分钟制作自定义模板
以 iOCR通用版 为例
创建自定义模板的基本流程如下图所示,仅需上传一张规范的模板图片,通过简单框选,5 分钟即可完成结构化识别模板的制作。视频教程请参见 iOCR通用版使用教程(视频版)。
Step 1: 上传模板图片
在iOCR - 模板管理页面点击下方 「创建模板」按钮,在弹出框中上传一张字迹清晰且摆放端正的模板图片(大小不超过4M,最长边不超过4096像素),并对模板进行命名。
Step 2: 框选参照字段
进入模板编辑页面,右侧操作步骤中选择 「第1步:框选参照字段」 标签,左侧工具栏选择 「框选参照字段」 按钮,使用鼠标在模板图片中框选位置和内容都固定不变的文字,如下图所示橘色矩形框选区域。
注意: 「参照字段」为相同版式的不同图片中位置和内容固定不变的字段,可做为图片的锚点,用做对后续传入的图片进行模板匹配和矫正
框选Tips:
- 参照字段个数需保证在4个以上(推荐8个以上),并尽量分散在四角
- 单个参照字段不可跨行,推荐字数在4个以内
- 参照字段文字内容在上下文中不会重复出现
- 仅支持框选中英文、数字,不可包含符号、图案
Step 3: 框选识别区
右侧操作步骤中点击 「第2步:框选识别区」 标签,左侧工具栏选择 「框选识别区」 按钮,使用鼠标在模板图片上框选业务场景需要进行识别的字段,如下图所示蓝色矩形框选区域;同时,填写「字段名称」,并选择合适的「字段类型」以提高识别准确率。
注意:「识别区」为图片中需要进行识别的字段,可通过框选及命名构建 「字段名称 : 识别区内容」 的 Key : Value 对应关系,用于对后续传入的相同版式图片的相同位置内容进行结构化识别
框选Tips:
- 尽量扩大识别区框选范围,保证后续传入图片的对应字段内容可被完全覆盖,但同时也需保证不框选到其他字段内容
- 选择合适的字段类型有助于提升字段识别效果,也可自定义字段类型进行使用
- 如需识别图片内列宽固定的表格,可点击工具栏中「插入表格」按钮框选表格识别区
Step 4: 试一试
参照字段和识别区全部框选完毕后,可点击页面右上角的「试一试」按钮进行识别效果测试,在弹出框中上传任意一张相同版式的图片即可,如下图所示。可点击图片下方「更换图片」按钮更换测试图片,如多次测试效果满意即可进行发布;如效果不满意可返回继续编辑。
注意:
- 如试一试结果出现图片无法匹配模板的情况,需确认上传的测试图片与模板图片是否为同一版式,如确认无误可调节参照字段框选范围或更换参照字段,以提升模板匹配准确率
- 如试一试结果中出现识别结果错误的情况,可调整识别区框选范围或更换识别区字段类型,以提升识别准确率
Step 5: 发布模板,调用API进行使用
如测试效果满意,可点击试一试弹出框右下角的「立即发布」按钮或模板编辑页面右上角的「发布」按钮进行发布,发布成功后即可通过模板ID调用该模板,调用方式可查看API文档。
注意:只有发布后的模板才能通过线上接口进行调用,如果编辑未发布,那么仅仅是生成了一个新的版本,此时对模板的任何修改都不会影响线上调用。
如您在操作过程中出现上述内容未说明的问题,可参考 iOCR 常见问题,或在论坛发布您的问题。您也可加入百度 iOCR 交流群(群号:570832882)与更多开发者进行交流。