简介

Hi,您好,欢迎使用百度OCR文字识别API服务。

本文档主要针对API开发者,描述百度OCR文字识别接口服务的相关技术内容。如果您对文档内容有任何疑问,可以通过以下几种方式联系我们:

  • 在百度云控制台内提交工单,咨询问题类型请选择人工智能-文字识别
  • 百度AI社区--文字识别官方版块:http://ai.baidu.com/forum/topic/list/164
  • 具有免费调用额度的接口,超过每天的免费额度后会返回错误码:17,错误信息:Open api daily request limit reached(每天流量超限额);
  • 所有图片均需要base64编码后再进行urlencode。
  • 请注意:上传的图片使用JPG格式可以一定程度上提高识别准确率!

接口能力

接口名称 接口能力简要描述
通用文字识别 识别图片中的文字信息
通用文字识别(高精度版) 更高精度地识别图片中的文字信息
通用文字识别(含位置信息版) 识别图片中的文字信息(包含文字区域的坐标信息)
通用文字识别(高精度含位置版) 更高精度地识别图片中的文字信息(包含文字区域的坐标信息)
通用文字识别(含生僻字版) 识别图片中的文字信息(包含对常见字和生僻字的识别)
网络图片文字识别 识别一些网络上背景复杂,特殊字体的文字
手写识别 识别手写中文汉字
身份证识别 识别身份证正反面的文字信息
银行卡识别 识别银行卡的卡号并返回发卡行和卡片性质信息
驾驶证识别 识别机动车驾驶证所有关键字段
行驶证识别 识别机动车行驶证所有关键字段
车牌识别 对小客车的车牌进行识别
营业执照识别 对营业执照进行识别
护照识别 支持对中国大陆居民护照的资料页进行结构化识别,包含国家码、姓名、性别、护照号、出生日期、签发日期、有效期至、签发地点
名片识别 提供对各类名片的结构化识别功能,提取姓名、邮编、邮箱、电话、网址、地址、手机号字段
表格文字识别 (异步接口) 自动识别表格线及表格内容,结构化输出表头、表尾及每个单元格的文字内容,提交图像和获取结果通过两个接口实现,稳定性更高
表格文字识别 (同步接口) 自动识别表格线及表格内容,结构化输出表头、表尾及每个单元格的文字内容,提交图像后实时获得返回结果,实效性更好
通用票据识别 对各类票据图片(医疗票据,保险保单等)进行文字识别,并返回文字在图片中的位置信息
增值税发票识别 对增值税发票进行文字识别,并结构化返回字段信息
二维码识别 识别条形码、二维码中包含的URL或其他信息内容
数字识别 对图像中的阿拉伯数字进行识别提取,适用于快递单号、手机号、充值码提取等场景
彩票识别 对大乐透、双色球彩票进行识别,并返回识别结果
自定义模版文字识别 自定义模版文字识别可以通过自助的模版制作,建立起键值的对应关系,一步完成非结构化到结构化的转换,实现自动化的数据录入

请求格式

POST方式调用

注意:Content-Type为application/x-www-form-urlencoded,然后通过urlencode格式化请求体。

返回格式

JSON格式

请求限制

请求图片需经过base64编码:图片的base64编码指将一副图片数据编码成一串字符串,使用该字符串代替图像地址。您可以首先得到图片的二进制,然后再进行urlencode。

注意:图片的base64编码是不包含图片头的,如(data:image/jpg;base64,)

请求格式支持:PNG、JPG、JPEG、BMP

接口名称 图片编码后大小限额
百度文字识别所有接口的图像大小限制 base64编码urlencode后大小不超过4M,最短边至少15px,最长边最大4096px