调语音识别  内容精选
  • 资源领取&应用创建 - 语音技术

    更多参考 语音识别API文档 语音合成API文档 如何获取 API Key 和 Secret Key

    查看更多>>

  • [AI行业案例]-记账还能玩语音?跨界组合更便利!

    在满足记账业务需求和用户体验方面,百度语音识别技术的高效和易用特性为产品的使用发挥了极大作用: 第1步:用户在有鱼记账App内触发语音识别功能,录入想让系统识别语音内容; 第2步:有鱼记账App内使用的百度语音识别技术开始自动解析用户的自然语言; 第3步:百度语音识别系统在快速、精准的解析语音内容后,将为用户清晰展现想要的匹配结果。

    查看更多>>

调语音识别  更多内容
  • 核心概念 - 度家-AIOT语音语义平台 | 百度智能云文档

    语音语义相关概念 语音识别 (Automatic Speech Recognition, 简称ASR) 将60秒以内的语音精准识别为文字,可适用于手机语音输入、智能语音交互、语音指令、语音搜索等短语音交互场景。

    查看更多>>

  • 常见问题汇总 - 语音技术

    常见问题汇总 语音识别 常见问题 1.语音识别结果与音频内容不匹配 语音识别返回结果与音频内容不匹配,例如:“嗨嗨嗨”、“嗯嗯嗯嗯嗯”、“什么”等错误返回。 解决方法 :排查音频采样率、声道、格式等参数是否符合接口规范。如与要求不符,需要用工具对音频进行转码, 转码工具跳转 。 2.3300错误码怎么办?

    查看更多>>

  • 定制技能配置 - 度家-AIOT语音语义平台 | 百度智能云文档

    在此示例中,亮度模式调整不需要语音查询和定时功能。 这里对语音查询属性功能和定时功能做一些解释。语音查询属性功能:以亮度为例,用于诸如“亮度现在是多少”相关的查询,有这类查询需求的可在属性权限下的该功能后勾选开启。定时功能:以亮度为例,用于诸如“预约X时间后亮度调到100”相关的预约,有这类预约需求的可在属性权限下的该功能后勾选开启。

    查看更多>>

  • [AI行业案例]-百度语音技术助力“变声神器”让社交更有趣

    利用百度语音识别通过访问用户麦克风,收集用户语音数据、上传至服务器,识别服务分析并转译成文字等技术能力,完成字符串输出。再通过结合百度语音合成技术,将语音识别出的文字上传至服务器,按照个性化参数进行合成,并将合成音频并发送给用户端,再配合已有的特效,最终生成“萝莉音”、“大叔音“、”御姐音“等。

    查看更多>>

  • 语音合成 Android SDK - 语音技术

    502)110: Access token invalid or no longer valid], // 110 是子错误 错误码值 错误码描述 原因 -8 在线授权token错误 appkey 或者secretkey填错 -7 token正常,但是应用没有权限 见子错误对应的报错 -7的子错误值 错误码描述 原因 4 pv超限 配额使用完毕,请购买或者申请 6 没勾权限 应用不存在或者应用没有语音识别的权限

    查看更多>>

  • 功能发布记录 - 度家-AIOT语音语义平台 | 百度智能云文档

    2020年8月 V1.2 - [新增]线上创建定制机器人、配置机器人内技能、模板技能体验窗口、依据模板技能自主配置设备控制技能(目前仅提供照明设备模板) - [新增]线上测试机器人对话、技能对话窗口 - [新增]机器人与产品绑定功能 2020年5月 V1.1 - [新增]上线按调用量预付费、后付费购买语音识别、语义解析、语音合成服务的功能 2020年3月 V1.0 - [新增]上线设备管理功能,创建编辑厂商

    查看更多>>

  • 音频文件转码 - 语音技术

    由于底层识别使用的是pcm,因此推荐直接上传pcm文件。如果上传其它格式,会在服务器端转码成pcm,调用接口的耗时会增加。 音频参数概念 采样率: 百度语音识别一般仅支持16000的采样率。即1秒采样16000次。 位深: 无损音频格式pcm和wav可以设置,百度语音识别使用16bits 小端序 ,即2个字节记录1/16000 s的音频数据。 声道: 百度语音识别仅支持单声道。

    查看更多>>

  • 产品优势 - 度家-AIOT语音语义平台 | 百度智能云文档

    产品优势 产品优势 全链路语音语义一站式调用 基于WebSocket协议的链式产品,全链路整合百度语音识别、语义解析和语音合成能力,用户通过一次性调用,即可返回对话交互结果。度家链式语音服务比传统分离式调用节省约40%的时间。 通用方案一软件授权方案 成本可控、无需定制开发,即可简单接入客户自身平台,百度提供ASR识别能力、nlp解析能力、丰富的媒体资源服务、大模型能力、tts生成能力。

    查看更多>>