文字识别

多场景、多语种、高精度的文字检测与识别服务，多项ICDAR指标居世界第一；广泛适用于远程身份认证、财税报销、文档电子化等场景，为企业降本增效；提供稳定易用的在线API、离线SDK、软件部署包多种服务形式

查看详情立即使用技术文档

免费语音转文字内容精选

语音识别 - 语音技术
按次数包预付费”的付费方式更适合业务中对语音识别服务需求量较明确的用户选择，用户可同时购买多个次数包叠加使用； “按调用量阶梯后付费”的付费方式更适合对语音识别需求量尚处于探索期的用户选择，也可作为“按次数包预付费”付费方式的兜底方案。用户产生调用时会优先消耗免费调用额度，待免费调用额度耗尽时开始消耗次数包内额度。
查看更多>>
产品简介 - 语音技术
接口能力接口名称接口能力简要描述语音识别采用国际领先的流式端到端语音语言一体化建模算法，将语音快速准确识别为文字，支持手机应用语音交互、语音内容分析、机器人对话等多个场景。短语音识别将60秒以内的语音精准识别为文字，可适用于手机语音输入、智能语音交互、语音指令、语音搜索等短语音交互场景。
查看更多>>

免费语音转文字更多内容

语音识别Android SDK - 语音技术
4.输入参数识别输入参数场景：在线识别：百度语音服务器将录音识别出文字，包括长语音离线命令词：离线识别出预定义的固定短语本地语义：在识别出文字的基础上（包括离线命令词识别），对文字做语义分析。任意网络状况。使用网络状况：离线：涵盖离线命令词，及离线命令词识别后的本地语义解析。
查看更多>>
产品更新动态 - 语音技术
适用场景：语音助手、情感陪伴、呼叫中心、在线教育、智能硬件接入文档：端到端语音语言大模型Android SDK 、端到端语音语言大模型iOS SDK 2025-06-06 语音合成、识别支持HarmonyOS SDK 产品分类：语音合成、语音识别功能描述：支持将语音合成与语音识别能力集成至HarmonyOS系统应用，支持无网或弱网环境下的文字合成语音与语音快速准确识别为文字。
查看更多>>
呼叫中心语音-语音识别（8K） - 语音技术
呼叫中心语音-语音识别（8K）接口描述及运行环境本文档是百度呼叫中心语音MRCP的用户指南。本程序做为MRCP Server端，集成了呼叫中心8K采样率语音识别(ASR)和呼叫中心专属发音人语音合成(TTS)两种能力，用户可分别单独使用某一种或同时使用。
查看更多>>
端到端语音语言大模型Android SDK - 语音技术
获取安装包端到端语音语言大模型Android SDK 本接口处于公测阶段，免费调用额度在进入控制台时自动获取。
查看更多>>
计费概述 - 语音技术
计费概述计费简介语音服务提供一定额度的免费测试资源供测试使用，免费测试资源使用完毕可选择按照预付费和后付费方式进行计费，两种计费方式均可在控制台直接开通或购买。当发生接口调用时，系统会按照如下顺序依次抵扣：免费测试资源 > 预付费资源包 >按量后付费。免费测试资源免费测试资源是指免费调用次数，供测试使用。免费测试资源使用完毕后可开通付费按次计费。
查看更多>>
简介 - 语音技术
新创建语音合成应用可以在控制台领取免费额度。必填字段中，严格按照文档描述中内容填写。
查看更多>>
语音合成 - 语音技术
用户产生调用时会优先消耗免费调用额度，待免费调用额度耗尽时开始消耗次数包额度。当次数包内剩余额度为零时，系统会自动切换为“调用量后付费”的计费策略；直至账户内余额不足以支付因调用产生的费用，此时语音合成服务暂停，查询语音转写执行结果将返回错误码。用户则无法正常使用语音合成服务。用户重新购次数包或给账户充值后，语音合成服务将恢复正常。
查看更多>>
实时语音识别-websocket API - 语音技术
实时语音识别-websocket API 接口描述实时语音识别接口采用websocket协议的连接方式，边上传音频边获取识别结果。可以将音频流实时识别为文字，也可以上传音频文件进行识别；返回结果包含每句话的开始和结束时间，适用于长句语音输入、音视频字幕、直播质检、会议记录等场景。 WebSocket简介 WebSocket 是基于TCP的全双工协议，即建立连接后通讯双方都可以不断发送数据。
查看更多>>

文字识别

语音识别 - 语音技术

产品简介 - 语音技术

语音识别Android SDK - 语音技术

产品更新动态 - 语音技术

呼叫中心语音-语音识别（8K） - 语音技术

端到端语音语言大模型Android SDK - 语音技术

计费概述 - 语音技术

简介 - 语音技术

语音合成 - 语音技术

实时语音识别-websocket API - 语音技术

热门活动

新闻动态

最新活动

相关主题

热门产品