进入数字人直播

语音技术

依托百度强大的语音技术积累,可为您快速提供语音识别,语音合成服务。支持公有云、私有化部署,可广泛应用于语音播报,语音会议、智能语音交互等多个业务场景

  • 特惠专区
  • 产品列表
  • 产品试用
  • 产品优势
  • 产品功能
  • 免费体验
  • 应用场景
  • 文档与交流
  • 联系我们

特惠专区

多场景应用语音语义产品, 大规格低至1折抢购

语音识别
语音合成
呼叫中心语音
background

音频文件转写-中文普通话

将批量上传的音频文件识别为文字,12小时内返回识别结果,适合录音质检、会议内容总结等场景

产品首购专享

规格

购买方式

有效期

10小时

按小时购买

1年

限时1折起

限购1单

1.5¥15
立即购买
background

短语音识别标准版-中文普通话

将60秒内的中文普通话音频识别为文字,适用于语音对话、控制和输入

产品首购专享

规格

购买方式

有效期

1万次

按次数包

1年

限时1折起

限购1单

3¥30
立即购买
background

短语音识别极速版

实时返回识别结果,适用于手机语音搜索、聊天输入等场景

产品首购专享

规格

购买方式

有效期

1万次

按次数包

1年

限时1折起

限购1单

3.5¥35
立即购买
background

实时语音识别-中文普通话

将音频流实时识别为文字,并返回每句话的开始和结束时间

产品首购专享

规格

购买方式

有效期

10小时

按小时购买

1年

限时6.5折

限购1单

13¥20
立即购买
background

音频文件转写-中文普通话

将批量上传的音频文件识别为文字,12小时内返回识别结果,适合录音质检、会议内容总结等场景

企业首购专享

规格

购买方式

有效期

10万小时

按小时购买

1年

限时5.5折

限购5单

38500¥70000
立即购买
background

实时语音识别-中文普通话

将音频流实时识别为文字,并返回每句话的开始和结束时间

企业首购专享

规格

购买方式

有效期

10万小时

按小时购买

1年

限时5.5折

限购5单

66000¥120000
立即购买
background

短语音识别标准版-中文普通话

将60秒内的中文普通话音频识别为文字,适用于语音对话、控制和输入

企业首购专享

规格

购买方式

有效期

1亿次

按次数包

1年

限时5.5折

限购5单

79200.¥144000
立即购买
background

短语音识别极速版

实时返回识别结果,适用于手机语音搜索、聊天输入等场景

企业首购专享

规格

购买方式

有效期

1亿次

按次数包

1年

限时5.5折

限购5单

99000¥180000
立即购买

产品列表

产品试用

产品优势

领先的算法与深厚的AI技术积累,为用户带来卓越的语音交互效果

语音识别准确率高

语音识别采用领先国际的流式端到端语音语言一体化建模方法,近场中文普通话识别准确率达98%,支持中文英语及多种方言识别

语音合成拟人度高

语音合成基于业界领先的深度神经网络技术,提供高度拟人、流畅自然的语音合成服务,支持多语言多音色,语速音调可调节

高效稳定

专有服务集群、提供企业级的稳定服务,弹性灵活的高并发承载及高可靠性保障,服务可用性高达99.9%

简单易用

支持API及多种SDK接入,可基于Demo快速简单接入,大大降低开发人力成本

产品功能

高效准确的语音识别与合成,提供全方位的语音交互体验

  • 语音识别

    技术领先识别准确
    采用领先国际的流式端到端语音语言一体化建模方法,融合百度自然语言处理技术,近场中文普通话识别准确率达98%
    多语种和多方言识别
    支持普通话和略带口音的中文识别;支持粤语、四川话方言识别;支持英文识别
    支持自助训练专属模型
    支持在语音自训练平台上自助训练模型,上传词汇文本即可零代码完成训练,精准提升业务领域词汇识别率5-25%,并可专属使用
  • 语音合成

    提供多场景音库
    提供风格多样的19种音库供您选择,适用于有声阅读、新闻播报、订单播报、智能硬件等应用场景,即将推出更多特色音库
    语速、音调可调节
    支持多种参数配置,可根据场景需求对音库的语速、音调、音量进行灵活设置
    多种调用方式,满足多场景需求
    提供REST API接口、在线SDK,满足手机APP、网页端、小程序、硬件等多场景需求,提供流畅自然的合成体验

即刻免费体验语音技术能力

注册即可领取产品免费体验套餐

应用场景

手机应用语音输入
音视频内容运营
有声阅读
出行导航

场景概述

将语音实时识别为文字,适用于语音聊天、语音输入、语音搜索、语音下单、语音指令、语音问答等多种场景

我们的优势

  • 技术领先识别准确

    采用领先国际的流式端到端语音语言一体化建模方法,融合百度自然语言处理技术,近场中文普通话识别准确率达98%。

  • 多语种和多方言识别

    支持普通话和略带口音的中文识别;支持粤语、四川话方言识别;支持英文识别。

手机应用语音输入

文档与交流

立即联系您的专属顾问

免费咨询百度智能云专属顾问,为您量身定制产品推荐方案

立即咨询