进入数字人直播

语音技术

依托百度强大的语音技术积累,可为您快速提供语音识别,语音合成服务。支持公有云、私有化部署,可广泛应用于语音播报,语音会议、智能语音交互等多个业务场景

  • 限时特惠
  • 产品列表
  • 应用场景
  • 产品功能
  • 产品试用
  • 文档与交流
  • 联系我们

新客专享

background

实时语音识别-中文普通话

将中文普通话音频流实时识别为文字,并返回每句话的开始和结束时间,适用于长句语音输入、音视频字幕、会议等场景。

产品首购专享

规格

购买方式

有效期

10小时

按次数包

1年

限时7折

限购1单

14¥20
立即购买
background

短语音识别标准版

将60秒内的中文普通话音频识别为文字,适用于语音对话、控制和输入

产品首购专享

规格

购买方式

有效期

1万次

按次数包

1年

限时7折

限购1单

21¥30
立即购买
background

短语音识别极速版

实时返回识别结果,适用于手机语音搜索、聊天输入等场景

产品首购专享

规格

购买方式

有效期

1万次

按次数包

1年

限时7折

限购1单

24.5¥35
立即购买
background

音频文件转写-中文普通话

将批量上传的音频文件识别为文字,12小时内返回识别结果,适合录音质检、会议内容总结等场景。

新用户专享

规格

购买方式

有效期

10小时

按次数包

1年

限时7折

限购1单

10.5¥15
立即购买
background

短文本在线合成-基础音库

提供高度拟人、流畅自然的语音合成服务,让您的应用设备开口说话

产品首购专享

规格

购买方式

有效期

1万次

按次数包

1年

限时7折

限购1单

14¥20
立即购买
background

短文本在线合成-精品音库

提供风格多样的精品语音合成服务,更具个性

产品首购专享

规格

购买方式

有效期

1万次

按次数包

1年

限时7折

限购1单

35¥50
立即购买
background

长文本在线合成-基础音库

将超长文本快速转换成稳定流畅、饱满真实的音频

产品首购专享

规格

购买方式

有效期

10万字符

按次数包

1年

限时7折

限购1单

21¥30
立即购买
background

语音合成离线SDK-基础版

提供「基础音库」,共4种高流畅度离线音库,支持中英文混读,支持语速、音调、音量调节

产品首购专享

规格

有效期

10万台装机

1年

限时7折

限购5个

42000¥60000
立即购买

产品体验

  • 短语音识别标准版

    对60秒以内的语音精准识别为文字,融合百度领先的自然语言处理技术,支持手机语音输入、语音搜索、智能语音对话等场景
    识别准确率达98%多语种识别
    查看详情>
  • 短文本在线合成

    基于百度深度神经网络技术,提供高度拟人、流畅自然的语音合成服务,让您的应用、设备开口说话,更具个性
    多语言多音色场景应用丰富
    查看详情>
  • 长文本在线合成

    将超长文本快速转换成稳定流畅、饱满真实的音频。最高支持10万字文本一次性合成,提供多种优质音库选择
    最高支持10万字文本合成速度快
    查看详情>
  • 离线语音合成

    在无网或弱网环境下,可在手机APP或故事机、机器人等智能硬件设备终端进行语音播报,将文字合成为声音
    灵活集成方式支持中英文混读
    查看详情
  • 实时语音识别

    基于Deep Peak2的端到端建模,将音频流实时识别为文字,适用于长句语音输入、音视频字幕、会议等场景
    优异的识别效果支持多设备终端
    查看详情
  • 音频文件转写

    将批量上传的音频文件识别为文字,12小时内返回识别结果。适合录音质检、会议内容总结、音频内容分析等场景。
    高效稳定智能语言处理
    查看详情

应用场景

手机应用语音输入
音视频内容运营
有声阅读
出行导航

场景概述

将语音实时识别为文字,适用于语音聊天、语音输入、语音搜索、语音下单、语音指令、语音问答等多种场景

我们的优势

  • 技术领先识别准确

    采用领先国际的流式端到端语音语言一体化建模方法,融合百度自然语言处理技术,近场中文普通话识别准确率达98%。

  • 多语种和多方言识别

    支持普通话和略带口音的中文识别;支持粤语、四川话方言识别;支持英文识别。

手机应用语音输入

产品优势

  • 语音识别准确率高

    语音识别采用领先国际的流式端到端语音语言一体化建模方法,近场中文普通话识别准确率达98%,支持中文英语及多种方言识别

  • 语音合成拟人度高

    语音合成基于业界领先的深度神经网络技术,提供高度拟人、流畅自然的语音合成服务,支持多语言多音色,语速音调可调节

  • 高效稳定

    专有服务集群、提供企业级的稳定服务,弹性灵活的高并发承载及高可靠性保障,服务可用性高达99.9%

  • 简单易用

    支持API及多种SDK接入,可基于Demo快速简单接入,大大降低开发人力成本

产品试用

文档与交流

查看更多文档内容

开始使用语音识别服务

注册即可领取产品免费体验套餐

立即使用