简介

更新时间：2026-03-31

本文档主要介绍OCR Android SDK的安装和使用。在使用本文档前，您需要先了解Optical Character Recognition(OCR)的基础知识，并已经开通了OCR服务。视频教程请参见 OCR 在线 Android SDK 使用教程。

在百度智能云控制台内提交工单，咨询问题类型请选择人工智能服务；

接口能力

远程API能力

接口分类	接口名称	接口能力简要描述
通用场景文字识别	通用文字识别（标准版）	识别图片中的文字信息
	通用文字识别（标准含位置版）	识别图片中的文字信息（包含文字区域的坐标信息）
	通用文字识别（高精度版）	更高精度地识别图片中的文字信息
	通用文字识别（高精度含位置版）	更高精度地识别图片中的文字信息（包含文字区域的坐标信息）
	网络图片文字识别	针对网络图片进行专项优化，对艺术字体或背景复杂的文字内容具有更优的识别效果
	网络图片文字识别（含位置版）	支持识别艺术字体或背景复杂的文字内容，除文字信息外，还可返回每行文字的位置信息、行置信度，以及单字符内容和位置等
	办公文档识别	可对办公类文档的版面进行分析，输出图、表、标题、文本、目录、栏、页眉、页脚、页码和脚注的位置，并输出分版块内容的OCR识别结果
	数字识别	识别图片中的数字，适用于手机号提取、快递单号提取、充值号码提取等场景
	手写文字识别	对手写汉字或手写数字进行识别
	表格文字识别V2	支持识别图片/PDF格式文档中的表格内容，返回各表格的表头表尾内容、单元格文字内容及其行列位置信息，全面覆盖各类表格样式，包括常规有线表格、无线表格、含合并单元格表格。同时，支持多表格内容识别。
	二维码识别	对二维码、条形码中对应的文字内容进行识别
	印章识别	检测并识别合同文件或常用票据中的印章，输出文字内容、印章位置信息以及相关置信度，已支持圆形章、椭圆形章、方形章等常见印章检测与识别
	智能结构化	支持智能提取图片中的字段结构化信息，无需训练灵活提取。适用于各类证照、票据、表单等版式中的结构化信息录入场景。
	文档解析	文档解析支持对doc、pdf、图片、xlsx等16种格式文档进行解析，输出文档的版面、表格、阅读顺序、标题层级、旋转角度等信息，可返回Markdown格式内容，将非结构化数据转化为易于处理的结构化数据
	文档解析（PaddleOCR-VL）	基于PaddleOCR-VL，通过标准化API服务，提供开箱即用、免部署的快捷接入方式，可直接返回 Markdown/JSON 结构化输出，助您快速实现复杂文档智能解析
卡证文字识别	身份证识别	对二代居民身份证正反面所有8个字段进行结构化识别
	身份证混贴识别	支持自动检测与识别二代居民身份证正反面在同一张图片上的场景，对身份证正反面所有8个字段进行结构化识别
	身份证识别（金融加密版）	支持对身份证图片及识别结果进行信息传输加密，对二代居民身份证正反面所有8个字段进行结构化识别
	银行卡识别	对银行卡的卡号、有效期、发卡行、卡片类型、持卡人进行结构化识别
	营业执照识别	可结构化识别各类版式的营业执照，返回证件编号、社会信用代码、单位名称、地址、法人、类型、成立日期、有效日期、经营范围等关键字段信息
	护照识别	支持对中国大陆居民护照的资料页进行结构化识别，包含国家码、姓名、性别、护照号、出生日期、签发日期、有效期至、签发地点
	护照识别（港澳台地区及境外）	支持对港澳台地区及境外护照进行结构化识别，包括MRZCode1、MRZCode2、出生日期、国家码、国籍、姓名拼音、性别、护照号、护照类型、有效期
	社保卡识别	支持识别全国各地社保卡，支持识别社会保障卡号、姓名、性别、出生日期、银行卡号、有效期限等8个字段
	港澳台证件识别	支持识别4类港澳台出入境证件，包含港澳通行证正/反面、台湾通行证正/反面、台胞证正/反面、返乡证正/反面，支持识别以上4类证件的全部字段信息
	户口本识别	对出生地、出生日期、姓名、民族、与户主关系、性别、身份证号码字段进行识别
	出生证明识别	对出生时间、姓名、性别、出生证编号、父亲姓名、母亲姓名字段进行识别
	结婚证识别	支持对结婚证进行结构化识别，包括姓名、身份证件号、出生日期、国籍、性别（男女双方）、结婚证字号、持证人、备注、登记日期，全部14个字段
	离婚证识别	支持对离婚证进行结构化识别，包括姓名、身份证件号、出生日期、国籍、性别（男女双方）、离婚证字号、持证人、备注、登记日期，全部14个字段
	房产证识别	支持对房产证进行结构化识别，包括权利人、坐落、权利类型、面积、字第号、不动产单元号、共有情况、用途、使用期限、登记日期、共有人，全部11个字段
	开户许可证识别	支持对开户许可证进行结构化识别，包括公司名称、开户银行、核准号、法人、编号、账号，全部6个字段
	外国人永久居住证识别	支持对外国人永久居住证进行结构化识别，识别字段包括Name、Nationality、Sex、出生日期、国籍、失效日期、姓名、性别、签发日期、证件号码、证件版本，全部11个字段
	企业工商信息查询（标准版）	传入企业名称、注册号、统一社会信用代码中的任意一种，即可查询企业的基本信息，包括法人、注册资本、信用代码、经营状态等20+字段
	企业工商信息查询（高级版）	传入企业名称、注册号、统一社会信用代码中的任意一种，返回企业全维度信息，包括工商基本信息、分支机构、变更信息、纳税信息、高管信息、经营异常、动产抵押、股东信息、行政处罚、失信信息、被执行信息等
	企业二要素核验	通过核验企业名称、统一社会信用代码一致性，快速核验企业资质
	企业三要素核验	通过核验企业名称、统一社会信用代码、法人姓名一致性，快速核验企业资质
	企业四要素核验	比对校验企业名称、统一社会信用代码、法人姓名、注册证件号的一致性，验证企业工商信息
交通场景文字识别	车牌识别	对机动车蓝牌、绿牌、单/双行黄牌的车牌号码进行识别，并能同时识别图像中的多张车牌
	VIN码识别	对车辆车架、挡风玻璃上的VIN码进行识别
	驾驶证识别	对机动车驾驶证正本所有10个字段进行结构化识别
	行驶证识别	对机动车行驶证主页及副页所有22个字段进行结构化识别
	车辆证照混贴识别	对机动车行驶证主页及副页、驾驶证主页及副页在同一张图片上的场景进行结构化识别
	机动车销售发票识别	对机动车销售发票的号码、代码、日期、价税合计等26个关键字段进行结构化识别
	车辆合格证识别	对车辆合格证的编号、车架号、排放标准、发动机编号等23个关键字段进行结构化识别
	二手车销售发票识别	对二手车销售发票的号码、代码、日期、买方、卖方、车牌号、车辆类型、二手车市场等25个关键字段进行结构化识别
	机动车登记证书识别	对机动车登记证书的编号、机动车所有人、登记机关、车辆类型、发证机关章等15个关键字段进行结构化识别
	磅单识别	结构化识别磅单的车牌号、打印时间、毛重、皮重、净重、发货单位、收货单位、单号8个关键字段，现阶段仅支持识别印刷体磅单
	快递面单识别	支持市面上常见版式的快递面单识别，包括申通/圆通/中通/百世汇通/韵达/顺丰/京东/邮政/极兔/天天等面单版式，结构化识别运单号、收/寄件人姓名、收/寄件人电话、收/寄件人地址等字段
	道路运输证识别	结构化识别道路运输证的业户名称、地址、车辆号牌、经营许可证、经济类型、车辆类型、吨座位、车辆规格、经营范围、初领日期、备注、发证日期等14个关键字段，支持识别横版及竖版两种道路运输证
财务票据文字识别	智能财务票据识别	对增值税发票、卷票、火车票、出租车票、机票行程单等13类财务票据混贴的图片进行切分识别
	增值税发票识别	对增值税发票进行文字识别，并结构化返回字段信息，支持增值税专票、普票、电子发票、卷票、区块链发票
	增值税发票验真	支持12种增值税发票的真伪及字段信息准确性校验，包括增值税专票、电子专票、普票、电子普票、卷票、通行费增值税电子普票、货运专票、机动车销售发票、二手车销售发票，支持返回票面的全部信息
	定额发票识别	对各类定额发票进行结构化识别，可识别发票代码、发票号码、金额、发票所在地、发票金额小写、省、市7个关键字段
	通用机打发票识别	对国家/地方税务局发行的横/竖版通用机打发票的号码、代码、日期、合计金额、类型、商品名称字段进行结构化识别
	火车票识别	支持对大陆火车票的车票号、始发站、目的站、车次、日期、票价、席别、姓名进行结构化识别
	出租车票识别	针对全国各大城市出租车票的发票号码、发票代码、车号、日期、时间、金额进行结构化识别
	飞机行程单识别	对飞机行程单中的姓名、始发站、目的站、航班号、日期、票价字段进行结构化识别
	汽车票识别	支持对全国范围不同版式汽车票的发票代码、发票号码、到达站、出发站、日期、时间、金额、身份证号、姓名、开票日期10个字段进行结构化识别
	过路过桥费发票识别	支持对全国范围不同版式过路、过桥费发票的发票代码、发票号码、入口、出口、日期、时间、金额、省、市9个字段进行结构化识别
	船票识别	对全国范围内不同版式的客运船票、货运船票进行结构化识别，包括发票代码、发票号码、发票日期、发票类型、总金额、出发地点、到达地点等7个字段
	网约车行程单识别	对各大主要服务商的网约车行程单进行结构化识别，包括滴滴打车、花小猪打车、高德地图、曹操出行、阳光出行，支持识别服务商、行程开始时间、行程结束时间、车型、总金额等16个关键字段
	购物小票识别	支持识别各类商场、超市及药店的购物小票，包括店名、小票号码、机器编号、工号、消费日期、消费时间、总金额、找零、币种、实收金额、优惠金额、打印日期、打印时间、明细商品名称、单价、数量、小计金额等信息
	银行回单识别	对各大银行的收/付款人户名、账号、开户银行、金额、日期等关键字段进行结构化识别
医疗票据文字识别	医疗发票识别	支持识别全国各地门诊/住院发票的业务流水号、发票号、住院号、门诊号、病例号、姓名、性别、社保卡号、金额大/小写、收款单位、省市、医保统筹支付、个人账户支付等关键字段。支持识别收费项目明细，并可根据不同省市地区返回对应的识别参数
	医疗费用明细识别	支持识别全国医疗费用明细的姓名、日期、病人ID、总金额等关键字段，支持识别费用明细项目清单，包含项目类型、项目名称、单价、数量、规格、金额
	医疗费用结算单识别	支持识别全国医疗费用结算单的姓名、出/入院时间、发票总金额、自费金额、医保支付金额等6个关键字段
	医疗检验报告单识别	支持识别全国各地医疗检验报告单的姓名、性别、医院名称、报告单名称等关键字段，支持识别检查具体项目的项目名称、结果、单位、参考区间、结果提示等明细字段
	医疗诊断报告单识别	支持识别全国各地各医院医疗诊断报告单，包括医院名称、报告名称、姓名、性别、年龄、科室、临床诊断、报告日期、检查部位、检查方法、检查所见、检查提示、建议、肉眼可见14个字段
	病案首页识别	支持识别全国各地病案首页的病案号、姓名、性别、出生日期、身份证号、出/入院科别、住院次数、药物过敏情况等15个关键字段
	出院小结识别	支持识别全国出院小结的科室、姓名、性别、年龄、入院日期、出院日期、住院天数、入院诊断、出院诊断、出院医嘱等关键字段
教育场景文字识别	试卷分析与识别	可对作业、试卷的版面进行分析，输出图、表、标题、文本的位置，并输出分版块内容的OCR识别结果
	试卷切题识别	支持对图片/PDF格式文档内的题目自动切分与结构化识别，可按题输出题干、选项、答案等信息，适用于整页试卷、习题册、课本等，可广泛应用于拍照搜题、题库录入、智能判卷等场景
	手写作文识别（多模态）	针对手写场景专项优化，支持拼音识别，过滤涂改痕迹与无关杂项，兼容单页/多页/分栏版式，自动过滤阴影、倾斜、涂抹等干扰，输出字、行、段落、标题的文本与精准坐标信息
	英语答题卡识别（多模态）	基于多模态大模型，实现英语答题卡中手写内容的精准识别。最大程度还原原始手写内容，严格区分单词的大小写与单词之间的空格，并按照结构化进行输出
	智能作业批改	基于多模态大模型能力，实现K12阶段的全学科作业、试卷批改。支持用户拍照或上传图片，可输出对应每道题的批改结果
其它场景文字识别	仪器仪表盘读数识别	广泛适用于各类血糖仪、血压仪、燃气表、电表等，可识别表盘上的数字、英文、符号
其它场景文字识别	门脸文字识别	识别图片中的门脸文字信息，自动过滤非门脸文字内容，接口返回门脸名称、描述文字和置信度
文档图像处理	文档矫正增强	对图片中的文件、卡证、票据等内容进行四角点检测定位，提取主体内容并对其进行矫正，同时可选图片增强效果进一步提升图片清晰度，达到主体检测矫正并增强的目的，提升图片整体质量
	文档去手写	去除图片中的手写内容，保留印刷体内容，可用于试卷去手写还原等场景
	图片去摩尔纹	去除翻拍电脑、手机等显示屏照片中的摩尔纹，使图片更加清晰
	文档图片去底纹	自动识别并去除文档图片中的底纹，使图片更加清晰，便于阅读
	文件分类检测	支持对图片中的文档、卡证、票据等含文字的主体内容进行检测、分类，返回类别及位置信息
	图片篡改检测	基于深度神经网络与跨模态分析技术，精准检测伪造图像，支持返回图像篡改检测结果及伪造区域坐标；支持对图像中的伪造区域以热力图形式进行可视化返回

本地质量控制能力

除了包含远程API调用能力外，安卓SDK中还集成了身份证识别的本地质量控制能力，提供给开发者本地检测身份证的功能。SDK可以先行在本地完成身份证的预判断，然后上传至服务端识别，以达成“自动扫描识别”的功能，使用时可实时检测取景框中是否包含身份证，是否存在模糊、欠/过曝等情况，并提示用户矫正，提高图片采集质量，提升识别准确率。安卓SDK下载 |

评价此篇文章

有帮助没帮助

C++语言

快速入门

文字识别

简介

接口能力

远程API能力

本地质量控制能力