图像技术

集识别、搜索、特效、增强于一体，广泛适用于拍照识物、拍照搜书、海量图片优化等应用场景，提供稳定易用的在线API、离线SDK、软件部署包等多种服务形式

领取免费资源进入控制台技术文档价格计算器合作咨询

迪士尼运用增强现实技术内容精选

实时语音识别-websocket API - 语音技术
实时语音识别-websocket API 接口描述实时语音识别接口采用websocket协议的连接方式，边上传音频边获取识别结果。可以将音频流实时识别为文字，也可以上传音频文件进行识别；返回结果包含每句话的开始和结束时间，适用于长句语音输入、音视频字幕、直播质检、会议记录等场景。 WebSocket简介 WebSocket 是基于TCP的全双工协议，即建立连接后通讯双方都可以不断发送数据。 We
查看更多>>
短语音识别标准版API - 语音技术
调用流程创建账号及应用：在 ai.baidu.com 控制台中，创建应用，勾选开通 “语音技术”—“短语音识别”、“短语音识别极速版” 能力。获取AppID、API Key、Secret Key，并通过请求鉴权接口换取 token ，详细见 “ 接入指南 ”。创建识别请求： POST 方式，音频可通过 JSON 和 RAW 两种方式提交。
查看更多>>

迪士尼运用增强现实技术更多内容

常见问题汇总 - 语音技术
常见问题汇总语音识别常见问题 1.语音识别结果与音频内容不匹配语音识别返回结果与音频内容不匹配，例如：“嗨嗨嗨”、“嗯嗯嗯嗯嗯”、“什么”等错误返回。解决方法：排查音频采样率、声道、格式等参数是否符合接口规范。如与要求不符，需要用工具对音频进行转码，转码工具跳转。 2.3300错误码怎么办？语音识别api使用的是HTTP POST方法， BODY里直接放置json， Content
查看更多>>
产品更新动态 - 语音技术
产品更新动态 2024-04-02 【远场语音识别模型下线公告】尊敬的百度语音客户您好！百度远场语音识别产品历史接口及模型资源整合升级，为您提供更优质的产品效果及使用体验。以下模型资源将于4月30日下线，为避免影响您的服务，请您尽快将服务切换升级： dev_pid=1936（1936、19361、19362、19363）升级方式：远场语音识别相关合作需求，您可提交合作咨询，我们将尽快
查看更多>>
语音质检API-邀测 - 语音技术
语音质检API-邀测接口描述：本接口共有两个部分，第一部分为语音质检，第二部分为质检规则管理。 (本接口处于邀测阶段，请提交合作咨询申请测试）准备工作 1、账户创建及appid鉴权信息获取可参考快速开发指南-准备工作。 2、access_token鉴权信息获取，可参考鉴权认证机制。可点击下载 python demo 示例代码进行测试。语音质检语音质检任务创建请求接口： ht
查看更多>>
用量及历史调用查询 - 语音技术
调用失败详情内容为调用失败原因解释，可以根据描述、处理意见进行修改，也可以根据错误码配合技术文档进行排查。
查看更多>>
呼叫中心语音-语音识别（8K） - 语音技术
呼叫中心语音-语音识别（8K）接口描述及运行环境本文档是百度呼叫中心语音MRCP的用户指南。本程序做为MRCP Server端，集成了呼叫中心8K采样率语音识别(ASR)和呼叫中心专属发音人语音合成(TTS)两种能力，用户可分别单独使用某一种或同时使用。接入步骤参考接入指南，创建应用，获取AppID、API Key、Secret Key，用于后续配置使用点击呼叫中心语音解决方
查看更多>>
音频文件转码 - 语音技术
音频文件转码简介本文描述如何从其它格式的音频转成符合语音识别输入要求格式的音频文件。即4种格式的音频文件： pcm（不压缩），也称为raw格式。音频输入最原始的格式，不用再解码。 wav（不压缩，pcm编码）：在pcm文件的开头出上加上一个描述采样率，编码等信息的字节。 amr（有损压缩格式），对音频数据进行有损压缩，类似mp3文件。 m4a（有损压缩格式，AAC编码），对音频数据进行有损压缩
查看更多>>
错误码汇总 - 语音技术
错误码汇总语音识别API 短语音识别错误码若请求错误，服务器将返回的JSON文本包含以下参数： error_code ：错误码。 error_msg ：错误描述信息，帮助理解和解决发生的错误。错误码错误信息描述 4 Open api request limit reached 集群超限额 6 No permission to access data 对控制台内app进行编辑，添加语音权限
查看更多>>
[AI行业案例]-百度语音AI技术，做盲人的“眼睛”
通过对接百度AI 技术，使用解说读屏只需要长按编辑框即可快速启用语音输入，盲人不易找到需要操作的按钮，解说读屏可以让用户使用百度语音快速找到并点击按钮。解说APP的体验升级，通过百度AI赋能，运用了百度的语音识别，语音合成，图像识别的功能，建立了盲人与外界世界的联系，并且只需要一个按键即可实现人机交互功能。
查看更多>>

图像技术

实时语音识别-websocket API - 语音技术

短语音识别标准版API - 语音技术

常见问题汇总 - 语音技术

产品更新动态 - 语音技术

语音质检API-邀测 - 语音技术

用量及历史调用查询 - 语音技术

呼叫中心语音-语音识别（8K） - 语音技术

音频文件转码 - 语音技术

错误码汇总 - 语音技术

[AI行业案例]-百度语音AI技术，做盲人的“眼睛”

热门活动

新闻动态

最新活动

相关主题

热门产品