百度智能云

语音技术专场特惠

语音语义多场景应用,超值优惠一站购齐。 立即抢购

background

实时语音识别-中文普通话

将音频流实时识别为文字,并返回每句话的开始和结束时间,适用于长句语音输入、音视频字幕、会议场景

0.5折起

规格

有效期

10小时

  • 10小时

10小时

12个月

  • 12个月

12个月

background

长文本合成-基础音库

将超长文本快速转换成稳定流畅、饱满真实的音频。最高支持10万字文本一次性合成,提供4种基础音库

0.4折起

规格

有效期

10万字符

  • 10万字符

10万字符

12个月

  • 12个月

12个月

background

短语音识别极速版

将60秒内的中文普通话音频快速识别为文字,实时返回识别结果,适用于手机语音搜索、聊天输入等场景。

0.3折起

规格

有效期

1万次

  • 1万次

1万次

12个月

  • 12个月

12个月

background

短文本合成-基础音库

可将文本转换为音频,支持4种音库,为您提供高性价比的语音合成服务

0.5折起

规格

有效期

1万次

  • 1万次

1万次

12个月

  • 12个月

12个月

产品规格

background

短语音识别标准版

将60秒以内的语音精准识别为文字,适用于手机语音输入、智能语音交互、语音指令、语音搜索等短语音交互场景

接口名称

规格

有效期

短语音识别-中文普通话

  • 短语音识别-中文普通话
  • 短语音识别-英语
  • 短语音识别-粤语
  • 短语音识别-四川话

短语音识别-中文普通话

100 万次

  • 100 万次
  • 1000 万次
  • 1 亿次
  • 10 亿次

100 万次

12个月

  • 12个月

12个月

background

短语音识别极速版

将60秒内的语音快速识别为文字,适用于手机语音输入、语音搜索、人机对话等语音交互场景

接口名称

规格

有效期

短语音识别极速版

  • 短语音识别极速版

短语音识别极速版

100 万次

  • 100 万次
  • 1000 万次
  • 1 亿次
  • 10 亿次

100 万次

12个月

  • 12个月

12个月

background

实时音视频识别

将音频流实时识别为文字,适用于长句语音输入、音视频字幕、会议等场景

接口名称

规格

有效期

实时语音识别-中文普通话

  • 实时语音识别-中文普通话
  • 实时语音识别-英文

实时语音识别-中文普通话

1000 小时

  • 1000 小时
  • 1 万小时
  • 10 万小时
  • 50 万小时

1000 小时

12个月

  • 12个月

12个月

background

音频文件转写

将批量上传的音频文件识别为文字,适合录音质检、会议内容总结、音频内容分析等场景

接口名称

规格

有效期

音频文件转写-中文普通话

  • 音频文件转写-中文普通话
  • 音频文件转写-英文

音频文件转写-中文普通话

1000 小时

  • 1000 小时
  • 1 万小时
  • 10 万小时
  • 50 万小时

1000 小时

12个月

  • 12个月

12个月

background

短文本在线合成

提供高度拟人、流畅自然的语音合成服务,让您的应用、设备开口说话,更具个性

接口名称

规格

有效期

短文本在线合成-基础音库

  • 短文本在线合成-基础音库
  • 短文本在线合成-精品音库

短文本在线合成-基础音库

100 万次

  • 100 万次
  • 500 万次
  • 1000 万次
  • 5000 万次
  • 1 亿次

100 万次

12个月

  • 12个月

12个月

background

长文本在线合成

将超长文本快速转换成稳定流畅、饱满真实的音频。最高支持10万字文本一次性合成,提供多种优质音库选择

接口名称

规格

有效期

长文本在线合成-基础音库

  • 长文本在线合成-基础音库
  • 长文本在线合成-精品音库

长文本在线合成-基础音库

100 万字符

  • 100 万字符
  • 500 万字符
  • 1000 万字符
  • 5000 万字符
  • 1 亿字符

100 万字符

12个月

  • 12个月

12个月

background

离线语音合成-按设备数授权

在无网或弱网环境下,可在手机APP或故事机、机器人等智能硬件设备终端进行语音播报,将文字合成为声音

购买授权数

第100~1000个

  • 第100~1000个
  • 第1001~5000个
  • 第5001~20000个
  • 第20001~50000个

第100~1000个

background

离线语音合成-按产品线授权

在无网或弱网环境下,可在手机APP或故事机、机器人等智能硬件设备终端进行语音播报,将文字合成为声音

版本

装机量

基础版

  • 基础版
  • 精品版

基础版

10W

  • 10W
  • 50W

10W

产品体验

  • 短语音识别标准版

    对60秒以内的语音精准识别为文字,融合百度领先的自然语言处理技术,支持手机语音输入、语音搜索、智能语音对话等场景
    识别准确率达98% 多语种识别
    查看详情>
  • 短文本在线合成

    基于百度深度神经网络技术,提供高度拟人、流畅自然的语音合成服务,让您的应用、设备开口说话,更具个性
    多语言多音色 场景应用丰富
    查看详情>
  • 长文本在线合成

    将超长文本快速转换成稳定流畅、饱满真实的音频。最高支持10万字文本一次性合成,提供多种优质音库选择
    最高支持10万字文本 合成速度快
    查看详情>
  • 离线语音合成

    在无网或弱网环境下,可在手机APP或故事机、机器人等智能硬件设备终端进行语音播报,将文字合成为声音
    灵活集成方式 支持中英文混读
    查看详情
  • 实时语音识别

    基于Deep Peak2的端到端建模,将音频流实时识别为文字,适用于长句语音输入、音视频字幕、会议等场景
    优异的识别效果 支持多设备终端
    查看详情
  • 音频文件转写

    将批量上传的音频文件识别为文字,12小时内返回识别结果。适合录音质检、会议内容总结、音频内容分析等场景。
    高效稳定 智能语言处理
    查看详情

应用场景

手机应用语音输入
音视频内容运营
有声阅读
出行导航
请选择

场景概述

将语音实时识别为文字,适用于语音聊天、语音输入、语音搜索、语音下单、语音指令、语音问答等多种场景

我们的优势

技术领先识别准确

采用领先国际的流式端到端语音语言一体化建模方法,融合百度自然语言处理技术,近场中文普通话识别准确率达98%。

多语种和多方言识别

支持普通话和略带口音的中文识别;支持粤语、四川话方言识别;支持英文识别。

场景概述

百度智能云助力音视频字幕智能生产,基于海量数据和先进算法,打造音视频场景专属语音识别模型,识别准确率高达98%,并支持智能分析标点、断句,准确匹配时间轴,助力字幕生产降本增效。同时结合NLP等技术对转写内容进行安全审核和标签管理,提升合规管理人员及内容运营效率

我们的优势

音视频快速准确识别

将音视频语音内容实时或异步精准识别为文字,助力字幕生产降本增效,识别准确率高达98%

自动匹配时间戳

音视频场景专属模型,识别结果智能分句,返回句子开始和结束时间,准确匹配时间戳,便于字幕文本对齐音视频进度

精准提取文本中的关键词

提取的关键词代表性强,能够准确反映文本主体内容,描述文本表达的含义

场景概述

使用语音合成技术的小说资讯类APP,能够为用户提供多种音库的朗读功能,提供离在线融合的模式,在任何网络环境下,都可以释放用户的双手和双眼,给用户带来更流畅、更稳定,更极致的阅读体验

我们能提供

在线合成提供多种音库选择

提供韵律流畅、情感饱满的合成效果,合成准确率高达99% ,根据网络条件智能选择在/离线

多角色多情感合成

基于先进深度学习技术,角色区分度高、情感表现力好,风格情感badcase率低于1%;批量合成,大幅节约制作成本

场景概述

使用语音合成技术的小说资讯类APP,能够为用户提供多种音库的朗读功能,提供离在线融合的模式,在任何网络环境下,都可以释放用户的双手和双眼,给用户带来更流畅、更稳定,更极致的阅读体验

我们的优势

导航播报合成效果更优

准确率高,合成地址场景中存在大量专有名词,有效保障导航顺畅无误;音库丰富度高,提供风格多样、合成流畅的合成声音,让用户久听不厌,提升用户体验

无网弱网也能合成

基于先进深度学习技术,角色区分度高、情感表现力好,风格情感badcase率低于1%;批量合成,大幅节约制作成本

产品组合方案丰富

使用语音识别即时输入地址,有效识别率高,让输入更快捷,解放双手开启导航,保障司机行车安全

产品优势

语音识别准确率高
语音识别采用领先国际的流式端到端语音语言一体化建模方法,近场中文普通话识别准确率达98%,支持中文英语及多种方言识别
语音合成拟人度高
语音合成基于业界领先的深度神经网络技术,提供高度拟人、流畅自然的语音合成服务,支持多语言多音色,语速音调可调节
高效稳定
专有服务集群、提供企业级的稳定服务,弹性灵活的高并发承载及高可靠性保障,服务可用性高达99.9%
简单易用
支持API及多种SDK接入,可基于Demo快速简单接入,大大降低开发人力成本

产品试用

文档与交流

查看更多文档内容

开始使用语音识别服务 注册即可领取产品免费体验套餐 立即使用
开始使用语音识别服务 注册即可领取产品免费体验套餐 立即使用
未登录
需要实名认证