图像内容理解 多维度识别与理解图片内容,包括人、物、行为、场景、文字等,输出对图片内容的描述。 货币识别 识别图像中的货币类型,返回货币名称、代码、面值、年份信息,可识别百余种国内外常见货币。 菜品识别 检测用户上传的菜品图片,返回具体的菜名、卡路里、置信度信息。 地标识别 检测用户上传的地标图片,返回地标名称。
新建AipSpeech AipSpeech是语音识别的Python SDK客户端,为使用语音识别的开发人员提供了一系列的交互方法。
短语音识别REST-API-C++SDK 安装语音识别 C++ SDK 语音识别 C++ SDK目录结构 ├── base │ ├── base.h // 请求客户端基类 │ ├── base64.h // base64加密相关类 │ ├── http.h // http请求封装类 │ └── utils.h // 工具类 └── speech.h // 语音识别 交互类 最低支持 C++ 11+
新建交互类 Baidu.Aip.Speech.Asr是语音识别的交互类,为使用语音识别的开发人员提供了一系列的交互方法。
语音识别价目表 短语音识别标准版 短语音识别标准版按调用次数计费,支持“按次数包预付费”和“按调用量阶梯后付费”两种付费方式,并基于中文普通话、粤语、英语、四川话等模型购买。
能够对图片进行高精度的内容识别,该接口支持多种图像识别任务,包括通用物体识别、场景识别、文字识别、动物识别等,这里我们通过Python直接调用免费的通用物体识别图像识别接口,极大的提高了开发工作的效率。
仪表盘识别 仪表盘识别算子 请求Url POST /v1/industry/instrument/detect HTTP/1.1 Request参数 参数 可选 类型 说明 image_base64 必选 String 图片base64编码,iamge_base64和image_url二选一即可,优先使用image_base64 image_url 必选 String 图片url,只有当image_base64
解决方案 该物流平台通过使用百度通用文字识别技术,轻松实现了上述诉求,具体实现过程如下: 步骤一:用户在该物流网内将钢材标签进行拍照上传,网站会先通过图像质量检测对图片质量进行分类,筛选出符合条件的图片; 步骤二:系统再将这些图片进行分类,先对有固定版式的图片直接使用通用文字识别; 步骤三:对于不是固定版式的图片将通过iOCR自定义模板文字识别+NLP文本矫正,对非标准文档进行结构化输出; 步骤四:
手势识别 识别图片中的手势类型,返回手势名称、手势矩形框、概率分数,可识别24种手势,支持动态手势识别,适用于手势特效、智能家居手势交互等场景;支持的24类手势列表:拳头、OK、祈祷、作揖、作别、单手比心、点赞、Diss、我爱你、掌心向上、双手比心(3种)、数字(9种)、Rock、竖中指。
手势识别 识别图片中的手势类型,返回手势名称、手势矩形框、概率分数,可识别24种手势,支持动态手势识别,适用于手势特效、智能家居手势交互等场景; 支持的24类手势列表:拳头、OK、祈祷、作揖、作别、单手比心、点赞、Diss、我爱你、掌心向上、双手比心(3种)、数字(9种)、Rock、竖中指。