端到端语音语言大模型_在线语音合成-百度智能云

端到端语音语言大模型

基于Cross-Attention技术打造跨模态语音大模型，通过极速响应、超拟人音色，实现真人式交互，支持深度需求理解与复杂任务执行。

立即购买控制台产品文档

超低时延
基于业内创新的Cross-Attention技术，在对话过程中将用户等待时长从行业常见的3-5秒大幅缩短至1秒左右，实现了比拟真人对话的即时响应速度，树立行业标杆
极致共情
基于真正的端到端跨模态语音大模型，能够感知原始语音携带的情绪与语气信息，充分理解用户意图与情境要求，更好地服务情感陪伴、社交娱乐等场景
超拟人音色
通过融入大语言模型，成就高自然度、高表现力的语音合成效果，助力合成音频听感更加自然流畅，语气更加符合情景，情感更加接近真人，语调更加具有韵律

功能介绍

多场景知识应答能力

多业务助手

高效问答

指令检索

集成多类助手功能，精准应答天气、换算、股价等问题，具备强大检索与任务指令执行能力。

全方位多方言交互

多方言识别

区域适配

自然交流

支持普通话及重庆、广东、河南等多地方言识别，轻松实现跨地区自然交互。

超拟人语音合成能力

情绪理解

拟人语音

亲和交互

深度识别人类情绪语境，快速生成富有情感的拟人语音，增强交互亲和力和表达力。

支持智能打断、智能降噪

智能打断

语音增强

抗噪识别

识别发言人身份，在噪声环境下保持高识别率，并支持实时语音打断与语音增强处理。

应用场景

语音助手

支持实时联网查询与复杂指令遵循，通过超高双商加持，实现用户需求深度理解，打造智能全知助手。

情感陪伴

支持多样化音色选择与角色演绎，通过深度共情反馈与超低时延语音交互，满足个性化情感陪伴和角色扮演需求。

智能硬件

支持多终端无缝适配，在复杂声学环境下仍能保障语音交互流畅度，为万物互联时代构建高鲁棒性的智能语音交互基础设施。

在线教育

超高双商与超拟人语音交互赋能数字孪生老师，实现全场景伴随式学习，助力教学服务突破时空限制。

产品价格

产品价格文档

端到端语音语言大模型（Pro）预付费
使用额度
200万tokens
有效期
1年
并发量
10并发（支持扩容）
技术支持
7*24小时
¥350
立即购买
端到端语音语言大模型（Pro）后付费
调用方式
输入-音频
并发量
10并发（支持扩容）
技术支持
7*24小时
￥0.064/千tokens
开通付费
端到端语音语言大模型（Lite）预付费
使用额度
200万tokens
有效期
1年
并发量
10并发（支持扩容）
技术支持
7*24小时
￥70
立即购买
端到端语音语言大模型（Lite）后付费
调用方式
输入-音频
并发量
10并发（支持扩容）
技术支持
7*24小时
¥0.016/千tokens
开通付费
搜索增强预付费
适用于调用量可预估的企业
调用量
10000次
有效期
1年
技术支持
7*24小时
¥352
立即购买
搜索增强后付费
适用于不便预估调用时长的企业
计费方式
按使用量后付
技术支持
7*24小时
¥0.036/次
开通付费

功能介绍

多场景知识应答能力

全方位多方言交互

超拟人语音合成能力

支持智能打断、智能降噪

应用场景

产品价格

端到端语音语言大模型（Pro）预付费

端到端语音语言大模型（Pro）后付费

端到端语音语言大模型（Lite）预付费

端到端语音语言大模型（Lite）后付费

搜索增强预付费

搜索增强后付费

相关推荐