解决方案 唐古信息研发团队在得知百度大脑iOCR技术可助其解决抓药难的问题后,果断在已有的配方煎药系统中接入了百度iOCR自定义模板文字识别技术。随后在系统中预先上传一张模板图片并框选参照字段和识别区,并建立处方中文字的 Key-Value 对应关系,仅用5分钟即完成了处方识别模型的快速制作。
具体实现流程如下: 第一步:用户按软件要求将拍摄的身份证和台湾通行证等资料照片进行上传; 第二步:通过百度大脑身份证识别、台湾通行证识别功能,系统可自动将用户上传的资料图片准确转化为可编辑的文字,并填入相关表单; 第三步:用户确定信息并上传表单,完成办签申请。
通过编写代码调用语音技术服务 API 如果您是开发工程师,熟悉代码编写,您可以通过编写代码的方式调用文字识别服务。具体请参见 如何用代码调用 。 通过软件开发工具包(HTTP-SDK)调用语音技术服务 如果您是开发工程师,熟悉代码编写,您可以通过已编写好的软件开发工具包(HTTP-SDK)来调用文字识别服务 API 。
部署形式 纯软件版 交付语音私有化部署包软件,可远程协助部署在本地服务器内,支持单机部署、多机部署、集群部署,适配最新主流GPU、CPU显卡。 一体机版 交付搭建了语音私有化部署包的软硬一体机服务器,支持多种配置选择,开箱即用,方便快捷。 特色优势 识别效果领先 采用百度领先的语音识别技术,特定场景下近场中文普通话识别准确率达98%,可以极大程度确保识别结果的业务可用性。
iOCR 自定义模板文字识别能力可以根据业务需求自由创建不同版式文件的识别模板。 iOCR模板管理界面: iOCR 自定义模板文字识别支持自定义识别字段选择;并可根据识别需求框选出所需识别的字段。 iOCR 创建模板界面: 用创建好的模板识别出对应文件的文字内容如图:
接口能力 接口名称 接口能力简要描述 语音识别 将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列 支持的语音格式 原始 PCM 的录音参数必须符合 16k 、8k采样率、16bit 位深、单声道,支持的格式有:pcm(不压缩)、wav(不压缩,pcm编码)、amr(压缩格式)。
音频文件转写极速版API-邀测 接口描述 支持提取视频、音频文件中的语音内容,极速返回识别结果及时间戳,适用于对实时性有一要求的内容分析、字幕生产、录音转写场景。
自行转换比较复杂。 由于底层识别使用的是pcm,因此推荐直接上传pcm文件。如果上传其它格式,会在服务器端转码成pcm,调用接口的耗时会增加。 音频参数概念 采样率: 百度语音识别一般仅支持16000的采样率。即1秒采样16000次。 位深: 无损音频格式pcm和wav可以设置,百度语音识别使用16bits 小端序 ,即2个字节记录1/16000 s的音频数据。
使用产品 iOCR自定义模板文字识别 磅单识别 支持与交流 AI社区 教学视频 文档中心 SDK下载 OCR助力大宗货运物流交易提效 价值成果 货大大打造煤炭运力交易平台“运销宝”,为煤炭货主和司机提供运力匹配、运输监控、在线结算等服务。在结算环节,应用iOCR通用版,个性化定制磅单识别模板,解决大宗商品交易磅单数据录入问题。司机仅需拍摄、上传磅单图片,即可识别录入车牌号、时间、净重等关键信息。
智能处理使用规则 智能图片处理概述 图片处理服务依托对象存储 BOS 系统对外提供灵活、多样、实时的图片处理服务。用户将原始图片上传到 BOS 上,通过调用简单的 RESTful 接口,实现对图片的实时处理,如缩略、裁剪、格式转换、旋转、加文字/图片水印等,处理结果图会通过CDN实时的返回给用户。智能图片处理则通过 BOS 图片处理平台对外开放百度领先的 AI 图片处理能力。