将60秒内的中文普通话音频识别为文字,适用于语音对话、控制和输入
规格
1万次
购买方式
按次数包
有效期
1年
实时返回识别结果,适用于手机语音搜索、聊天输入等场景
规格
1万次
购买方式
按次数包
有效期
1年
将音频流实时识别为文字,并返回每句话的开始和结束时间
规格
10小时
购买方式
按小时购买
有效期
1年
将英文音频流实时识别为文字,并返回每句话的开始和结束时间
规格
10小时
购买方式
按小时购买
有效期
1年







采用国际前沿的端到端大模型技术,支持语音合成与交互
积累强大的声学能力,支持弱网无网及远场的语音交互



语音识别支持上传词汇文本,零代码完成模型训练,操作便捷
专属模型可将业务领域词汇识别率提升 5-20%,适配场景需求



支持API及多SDK接入,可基于Demo快速集成,降低开发成本
支持流式语音合成、实时语音识别与端到端语音交互,响应更迅捷



基于专有服务集群,提供可靠的企业级核心服务支撑
弹性灵活承载高并发需求,筑牢系统高可靠性防线