进入数字人直播

语音技术

依托百度强大的语音技术积累，可为您快速提供语音识别，语音合成服务。支持公有云、私有化部署，可广泛应用于语音播报，语音会议、智能语音交互等多个业务场景

【11.11超省季】多场景应用语音语义产品低至6.7折领万元上云优惠券立即抢购

领取免费资源管理控制台

技术文档产品价格合作咨询

特惠专区
产品列表
产品试用
产品优势
产品功能
免费体验
应用场景
文档与交流
联系我们

特惠专区

多场景应用语音语义产品，大规格低至1折抢购

语音识别

语音合成

呼叫中心语音

音频文件转写-中文普通话

将批量上传的音频文件识别为文字，12小时内返回识别结果，适合录音质检、会议内容总结等场景

产品首购专享

规格

购买方式

有效期

10小时

按小时购买

1年

限时1折起

限购1单

￥1.5￥15

立即购买

短语音识别标准版-中文普通话

将60秒内的中文普通话音频识别为文字，适用于语音对话、控制和输入

产品首购专享

规格

购买方式

有效期

1万次

按次数包

1年

限时1折起

限购1单

￥3￥30

立即购买

短语音识别极速版

实时返回识别结果，适用于手机语音搜索、聊天输入等场景

产品首购专享

规格

购买方式

有效期

1万次

按次数包

1年

限时1折起

限购1单

￥3.5￥35

立即购买

实时语音识别-中文普通话

将音频流实时识别为文字，并返回每句话的开始和结束时间

产品首购专享

规格

购买方式

有效期

10小时

按小时购买

1年

限时6.5折

限购1单

￥13￥20

立即购买

音频文件转写-中文普通话

将批量上传的音频文件识别为文字，12小时内返回识别结果，适合录音质检、会议内容总结等场景

企业首购专享

规格

购买方式

有效期

10万小时

按小时购买

1年

限时5.5折

限购5单

￥38500￥70000

立即购买

实时语音识别-中文普通话

将音频流实时识别为文字，并返回每句话的开始和结束时间

企业首购专享

规格

购买方式

有效期

10万小时

按小时购买

1年

限时5.5折

限购5单

￥66000￥120000

立即购买

短语音识别标准版-中文普通话

将60秒内的中文普通话音频识别为文字，适用于语音对话、控制和输入

企业首购专享

规格

购买方式

有效期

1亿次

按次数包

1年

限时5.5折

限购5单

￥79200.￥144000

立即购买

短语音识别极速版

实时返回识别结果，适用于手机语音搜索、聊天输入等场景

企业首购专享

规格

购买方式

有效期

1亿次

按次数包

1年

限时5.5折

限购5单

￥99000￥180000

立即购买

产品列表

语音识别
采用国际领先的流式端到端语音语言一体化建模算法，将语音快速准确识别为文字，支持手机应用语音交互、语音内容分析、机器人对话等多个场景
- 技术领先
- 自助训练专属模型
- 简单快速
短语音识别标准版
将60秒以内的语音精准识别为文字，可适用于手机语音输入、语音搜索等短语音交互场景
短语音识别极速版
将60秒内的语音快速识别为文字，适用于手机语音输入、等语音交互场景
实时语音识别
基于Deep Peak2的端到端建模，将音频流实时识别为文字，并返回每句话的开始和结束时间
音频文件转写
将批量上传的音频文件识别为文字，12小时内返回识别结果
语音合成
基于业内领先的深度学习技术，提供高度拟人、流畅自然的语音合成服务，支持在线、离线多种调用方式，满足泛阅读、订单播报、智能硬件等场景的语音播报需求
- 支持多语言多音色
- 语速音调可调节
- 支持多音字标注
短文本在线合成
基于业界领先的深度神经网络技术，提供高度拟人、流畅自然的语音合成服务，让您的应用、设备开口说话，更具个性
长文本在线合成
将超长文本快速转换成稳定流畅、饱满真实的音频。最高支持10万字文本一次性合成，提供多种优质音库选择，广泛应用于阅读听书、新闻播报等场景
语音合成定制音库
专为企业及个人量身打造高还原、高清晰、高稳定的音库定制服务，让您拥有独一无二的专属音库，助力打造个性化品牌营销与智能产品
语音合成离线SDK
在无网或弱网环境下，可在手机APP或故事机、机器人等智能硬件设备终端进行语音播报，将文字合成为声音，提供稳定一致、流畅自然的合成体验
呼叫中心语音解决方案
针对呼叫中心、智能客服等业务，提供自动化智能外呼、音频质检与分析等全链路AI语音解决方案；有效降低人工成本，同时提升获客转化与业务管理效率。广泛适用于语音通知、营销触达、客服质检等场景
- 语音识别准确高效
- 语音合成逼真自然
- 功能全面对接便捷
呼叫中心音频文件转写
基于呼叫中心专属模型，可大批量低成本的将8k采样率电话录音文件识别为文本。适用于电话内容分析、质检场景
呼叫中心实时语音通话
为企业提供呼叫中心场景专属的语音识别、语音合成模型和客户端，可快速接入AI外呼能力
呼叫中心智能语音质检
基于语音识别、话者分离、语义分析等技术，可将坐席人员的通话内容转写为文字，并进行AI自动化质检
语音翻译
语音翻译API集成语音识别、文本翻译、语音合成三大技术能力，可以将60秒以内的语音识别成文字并翻译成目标语言，支持译文语音播报
- 短语音识别
- 文本翻译
- 语音播报
AI 同传
提供高质量、低延迟的机器同传服务解决方案
实时语音翻译
实时语音翻译API支持中英日韩法西泰俄等45个语种
文本翻译
提供200+语种互译的在线文本翻译服务

产品试用

产品优势

领先的算法与深厚的AI技术积累，为用户带来卓越的语音交互效果

语音识别准确率高

语音识别采用领先国际的流式端到端语音语言一体化建模方法，近场中文普通话识别准确率达98%，支持中文英语及多种方言识别

语音合成拟人度高

语音合成基于业界领先的深度神经网络技术，提供高度拟人、流畅自然的语音合成服务，支持多语言多音色，语速音调可调节

高效稳定

专有服务集群、提供企业级的稳定服务，弹性灵活的高并发承载及高可靠性保障，服务可用性高达99.9%

简单易用

支持API及多种SDK接入，可基于Demo快速简单接入，大大降低开发人力成本

产品功能

高效准确的语音识别与合成，提供全方位的语音交互体验

语音识别
技术领先识别准确
采用领先国际的流式端到端语音语言一体化建模方法，融合百度自然语言处理技术，近场中文普通话识别准确率达98%
多语种和多方言识别
支持普通话和略带口音的中文识别；支持粤语、四川话方言识别；支持英文识别
支持自助训练专属模型
支持在语音自训练平台上自助训练模型，上传词汇文本即可零代码完成训练，精准提升业务领域词汇识别率5-25%，并可专属使用
语音合成
提供多场景音库
提供风格多样的19种音库供您选择，适用于有声阅读、新闻播报、订单播报、智能硬件等应用场景，即将推出更多特色音库
语速、音调可调节
支持多种参数配置，可根据场景需求对音库的语速、音调、音量进行灵活设置
多种调用方式，满足多场景需求
提供REST API接口、在线SDK，满足手机APP、网页端、小程序、硬件等多场景需求，提供流畅自然的合成体验

即刻免费体验语音技术能力

注册即可领取产品免费体验套餐

应用场景

手机应用语音输入

音视频内容运营

有声阅读

出行导航

场景概述

将语音实时识别为文字，适用于语音聊天、语音输入、语音搜索、语音下单、语音指令、语音问答等多种场景

我们的优势

技术领先识别准确
采用领先国际的流式端到端语音语言一体化建模方法，融合百度自然语言处理技术，近场中文普通话识别准确率达98%。
多语种和多方言识别
支持普通话和略带口音的中文识别；支持粤语、四川话方言识别；支持英文识别。

语音技术

优惠活动

语音合成离线SDK

私有化部署

特惠专区

音频文件转写-中文普通话

短语音识别标准版-中文普通话

短语音识别极速版

实时语音识别-中文普通话

音频文件转写-中文普通话

实时语音识别-中文普通话

短语音识别标准版-中文普通话

短语音识别极速版

产品列表

语音识别

短语音识别标准版

短语音识别极速版

实时语音识别

音频文件转写

语音合成

短文本在线合成

长文本在线合成

语音合成定制音库

语音合成离线SDK

呼叫中心语音解决方案

呼叫中心音频文件转写

呼叫中心实时语音通话

呼叫中心智能语音质检

语音翻译

AI 同传

实时语音翻译

文本翻译

产品试用

短语音识别0元试用

短文本在线合成0元试用

产品优势

语音识别准确率高

语音合成拟人度高

高效稳定

简单易用

产品功能

语音识别

语音合成

即刻免费体验语音技术能力

应用场景

场景概述

我们的优势

技术领先识别准确

多语种和多方言识别

相关产品

文档与交流

新手入门

语音公有API云文档

语音公有云SDK文档显示产品

立即联系您的专属顾问