常见问题

更新时间：2026-03-31

为了帮助您加速解决问题，我们训练了百度大脑小助手，可以支持常见问题答疑。

账号登录

Q：需要使用什么账号登录?
A：您需要拥有一个百度账号，用来登录百度云，可以点击此处注册百度账户。如您以前拥有百度推广账户，同样可以登录百度云。

Q：注册百度账户时收不到验证码怎么办？
A：由于欠费停机、存储信息已满、信号网络延迟等原因没有及时收到验证码，这时请检查您的手机及话费余额，保证手机可正常接收短信后，请尝试重新获取验证码。

Q：AI服务支持推广账号使用么？
A：支持推广账户使用。

接口调用

Q：百度大脑目前开放了哪些能力？
A：百度大脑是百度 AI 核心技术引擎，包括视觉、语音、自然语言处理、知识图谱、深度学习等AI核心技术和AI开放平台。百度大脑对内支持百度所有业务，对外全方位开放，助力合作伙伴和开发者，加速AI技术落地应用，赋能各行各业转型升级，并赋能行业客户。

Q：每个服务的请求配额都是免费的么？
A：目前我们为每个账户下的每项API服务，都设置了固定的免费请求配额，便于您体验服务及应用调试。在免费试用阶段，成功调用或失败调用都算做一次有效调用，会消耗免费测试资源。

Q：每个服务的请求配额有限制么？
A：目前在同一账号下，您可以在对应服务的控制台中查看。付费服务不限请求数量，即用即扣。

Q：QPS超限怎么办？
A：QPS超限可以根据您的需求，进行购买。百度AI技术服务的详细价目表： https://ai.baidu.com/ai-doc/REFERENCE/hk3dwjfzo
价目表包含：免费测试资源、计费简介、计费价目表、费用列举等。

Q：支持哪些语言的服务端SDK？
A：目前支持各项服务的Java、PHP、Python、C#、Node.js版本服务端SDK，部分技术推出了C++、IOS、Android等版本服务端SDK，详情请参见各技术服务SDK文档。

Q：邀测、公测和商用接口有什么区别吗？

A：邀测的全称是邀请测试。AI能力引擎刚推出之际，邀请用户小范围测试。只有经过邀测后，才能进行公测，您需要提交工单申请或者直接通过产品页面进行商务咨询；公测的全称是公开测试。AI能力引擎向平台所有用户开放，提供一定的免费调用额度。同时，支持用户提交工单进行免费测试资源提额申请；商用是指AI能力引擎向平台所有用户开放，并收取一定费用。平台为用户提供一定的免费测试量。

技术问答

人脸识别

Q：识别的图片支持怎样输入?
A：目前人脸识别接口支持base64编码和图片URL输入。

Q：什么是base64编码，如何提供？
A：图片的base64编码指将一副图片数据编码成一串字符串，使用该字符串代替图像地址。您可以首先得到图片的二进制，然后用Base64格式编码即可。注：图片的base64编码是不包含图片头的，（data:image/jpg;base64,）。

Q：识别的图片格式有什么要求?
A：支持PNG、JPG、JPEG、BMP等格式图片，暂不支持 GIF 类型的动图识别。

Q：人脸服务的请求图片大小限制是?
A：图片数据总数据大小需限制在10M内。

Q：人脸识别、认证我应该取多少分算是同一人?
A：推荐可判断为同一人的相似度分值为80，大概对应的误识率为万分之一，您也可以根据业务需求选择更合适的阈值。

Q：人脸识别和人脸认证，有什么区别?
A：人脸认证与人脸识别的差别在于：人脸识别需要指定一个待查找的人脸库中的组；而人脸认证需要指定具体的用户id即可，不需要指定具体的人脸库中的组；实际应用中，人脸认证需要用户或系统先输入id，这增加了验证安全度，但也增加了复杂度，具体使用哪个接口需要视您的业务场景判断。

Q：人脸识别的人脸库、用户组、用户、用户下的人脸都是些什么?
A：您可以参考如下层级关系：

JSON

1|- 人脸库
2   |- 用户组一
3      |- 用户01
4         |- 人脸
5      |- 用户02
6         |- 人脸
7         |- 人脸
8         ....
9       ....
10   |- 用户组二
11   |- 用户组三
12   |- 用户组四
13   ....

Q：人脸库的设置限制?
A：各项限制如下所示：

每个appid对应一个人脸库，且不同appid之间，人脸库互不相通；
每个人脸库下，可以创建多个用户组，用户组（group）数量没有限制；
每个用户组（group）下，可添加无限个user_id，无限张人脸（注：为了保证查询速度，单个group中的人脸容量上限建议为80万）。；
每个用户（uid）所能注册的最大人脸数量20个；

说明： 人脸注册完毕后，生效时间一般为5s以内，之后便可以进行识别或认证操作。

说明： 为保证后续识别的效果较佳，建议注册的人脸，为用户正面人脸。

文字识别

Q: 文字识别的并发量上限是多少？
A: 大部分文字识别接口在未开通付费时提供2QPS额度，开通付费后提升至10QPS，如果您有更高并发需求，可购买QPS叠加包进行扩充。对于已上线但没有价格的产品，暂属于测试状态，当测试额度不足时，您可以提交工单进行申请，您需要在工单提供您的appid、业务场景描述、需要的接口名称和申请的并发量。

Q：如何购买/提升调用次数？
A：已上线计费的接口，您可以直接在控制台购买次数包或开通按量后付费，计费价格参见产品价格；未上线计费的接口，您可以提交工单进行申请，您需要在工单提供您的appid、业务场景描述、需要的接口名称和申请的调用次数。

Q：文字识别对上传的图片格式、图片大小有哪些要求？
A：支持 JPG、JPEG、PNG、BMP、TIF、WebP 等格式图片，暂不支持 GIF 类型的动图识别。
一般情况下，图像base64编码后大小必须小于4M，建议不要超过1M；最小边长不小于15，最大边长不超过4096，建议不要超过1024（编码后大于1M或最大边长超过1024的图像会被等比压缩，建议控制输入图像大小，有助于减少网络传输及接口处理耗时）。但是不同的功能接口，对于图片大小的要求可能不同，具体以相应的API文档中的 Image 和 url 参数说明为准。

Q：什么是base64编码，如何提供？
A：图片的base64编码指将一副图片数据编码成一串字符串，各种编程语言均包含Base64编码函数，可直接调用使用。

注：图片base64编码后需去除图片头，如（data:image/jpg;base64,），并进行urlencode后方可上传。

Q：怎么提高识别的准确率和识别速度？
A：文字识别的准确率跟拍摄光照、背景、清晰度等因素有关。推荐上传JPG图片格式，图片大小建议1M以内。可在图片采集端尽量扩大要识别文字的区域，并保证图片内文字清晰人眼可辨认、倾斜度不得小于30%。同时，适当压缩图片大小，可大幅缩短图片识别时间。

Q：文字识别支持的语言？
A：不同的功能接口，所支持的语言都不同。常见多语言识别接口如下：

通用文字识别（标准版）、通用文字识别（标准含位置版）：支持中文简体、中文繁体、英文、日语、韩语、法语、西班牙语、葡萄牙语、德语、意大利语、俄语。
通用文字识别（高精度版）、通用文字识别（高精度含位置版）：支持中文简体、中文繁体、英文、日语、韩语、法语、西班牙语、葡萄牙语、德语、意大利语、俄语、丹麦语、荷兰语、马来语、瑞典语、印尼语、波兰语、罗马尼亚语、土耳其语、希腊语、匈牙利语。
其他接口（除国内专用卡证票据外）基本均可支持中、英文内容识别。详细参见API文档。

如果您对于产品支持识别的语言有特殊需求，您可以提交工单联系我们。

Q：文字识别是否支持方向旋转/不同朝向的图片文字识别？
A：文字识别大部分能力均已支持图像方向自动校正功能，可对旋转的图片进行正确的识别，也可通过控制参数『detect_direction』为true/false控制该功能是否开启。如果您在使用中存在部分旋转图片无法正确识别的问题，您可以提交工单告知我们进行优化。

Q：文字识别有无区分卡证、票据原件和复印件的功能？
A：身份证识别含风险检测功能，可区分身份证原件及复印件，详情参考API文档。如果您对其他文字识别服务有区分原件、复印件功能的需求，您可以提交工单联系我们。

Q：文字识别有无区分卡证、票据真伪的功能？
A：身份证识别具备翻拍、PS、复印件告警功能，您也可以使用人脸核身的公安验证接口，用于校验姓名和身份证号的真实性和一致性。如果您对其他文字识别服务有区分卡证、票据真伪功能的需求，您可以提交工单联系我们。

Q：文字识别是否可以批量识别吗？
A：暂不支持，单次调用仅可识别单张图片，但您可在QPS允许范围进行多线程调用。

Q：识别结果可以转化为Word或者TXT吗？
A：OCR提取之后返回的结果是JSON格式，需要您通过进行业务处理将结果保存为Word或者TXT格式。

Q：可否在文字识别的应用界面添加扫描框？
A：百度仅提供文字识别API接口，应用界面可根据您的需求进行自行开发。

Q：是否支持识别验证码？
A：对验证码进行识别涉及网络安全问题，百度不提供验证码识别专项服务。

Q: 文字识别的响应速度是多少？
A: 一般在1s内，识别时间会受图片大小、字数多少影响，但最长不超过7s，一旦超过将自动返回『超时』错误，相应调用不计费。

注：但由于数据传输的网络情况不同，且为百度不可控范围，实际您感受到的响应时间为百度模型识别时间+数据来往传输时间，如出现大量耗时过长情况，请您排查服务器网络状况，适当扩充带宽或对图片进行压缩后上传，如有需要也可提交工单联系我们。

Q：在国外，也可以在线调用文字识别的接口吗？
A：可以的，但延时会大些。

Q：为什么文字识别结果不准确？
A：有以下几个原因：

（1）图片尺寸过小，图片尺寸小于15px，无法进行识别。

（2）图片画质太差，例如图片过暗，文字内容不可辨识。

（3）文字内容存在水印、印章、褶皱等遮挡。

（4）图片样式与接口支持类型不符。例如，身份证识别只支持识别二代居民身份证，不支持识别护照、银行卡等。

（5）如果有返回错误码，请参考错误码排查问题。

Q：调用文字识别API服务失败时，应该怎么处理？

A：排查原因：

（1）根据API调用返回结果或错误码查找原因。

（2）检查API调用方法是否正确（您可以参考AI接入指南进行操作）。

图像审核

Q：图片格式和分辨率有限制吗?
A：目前图片格式支持PNG、JPG、JPEG、BMP、GIF（仅对首帧进行审核）、Webp、TIFF；图像要求base64后大于等于5KB，小于等于4MB，最短边大于等于128像素，小于等于4096像素。

Q：图片大小有限制吗?
A：图像URL地址，以URL形式请求，图像Url需要做UrlEncode，图像要求base64后大于等于5kb，小于等于4M，最短边大于等于128像素，小于等于4096像素。

Q：识别的图片支持怎样输入?
A：支持传输Base64编码后的图片或者图片的URL。

Q：什么是base64编码，如何提供？
A：图片的base64编码指将一副图片数据编码成一串字符串，使用该字符串代替图像地址。您可以首先得到图片的二进制，然后用Base64格式编码即可。注：图片的base64编码是不包含图片头的，如（data:image/jpg;base64,）。

Q：是否支持通过URL方式传入图片？

A：支持。您可以通过图像审核组合服务接口，使用该服务。

Q：是否支持一次API调用，获取多个模型的返回结果？

A：支持。您可以通过图像审核组合服务接口，灵活选定您需要的模型能力。

Q：如何在线购买图像审核产品

A：您可以通过在线充值付费方式，购买无限量的图像审核产品，具体流程请点击：https://ai.baidu.com/ai-doc/ANTIPORN/Fkp5jux3p

图像识别

Q：图像识别接口可以识别哪些图像？

A：图像识别接口可支持通用物体和场景识别、品牌logo识别、动物识别、植物识别、菜品识别、地标识别、果蔬识别、红酒识别、货币识别、图像主体识别、翻拍识别、快消商品检测等。详情链接：https://ai.baidu.com/tech/imagerecognition

Q：图像识别有离线的吗？

A：图像识别目前不支持离线，不过可以推荐使用EasyDL图像来满足这个需求，EasyDL支持离线。

Q：车辆图像能识别哪些？

A：目前支持识别车辆类型、车辆检测、车流统计、车辆属性识别、车辆外观损伤识别、车辆分割。详情链接：https://ai.baidu.com/tech/vehicle

Q：定制化图像识别的图片有哪些要求？

A：为保证训练效果，请您尽可能提交实际业务中需要识别的图片作为训练集，同时尽可能覆盖不同光线、不同角度、不同背景的样本图片。需要工作人员协助采集样本，可在官网右下角浮窗“合作咨询”中进行申请。

Q：定制化图像识别怎样组织样本？

A：①梳理最细粒度识别目标list；
②采集或整理训练样本。需要工作人员协助采集样本，可在官网右下角浮窗“合作咨询”中进行申请。

Q：定制化图像识别的图片训练样本怎样上传？有哪些上传要求？

A： ①您可将原图上传至平台，使用平台内置的标注工具完成标注，也可直接上传图片与标注信息。支持的上传方式灵活多样，包括本地导入（图片导入、压缩包导入、API导入）、支持网络文件导入（包括百度云bos导入、共享文件链接导入）等。
② 上传数据需要以实际业务场景使用的相应分类结果来命名，至少需要上传2个分类投入训练（如果实际业务场景中需要识别出“其他”类结果，请以其他作为一个分类补充训练集上传）。
③目前支持图片类型为png、jpg、bmp、jpeg，图片大小限制在14M以内。图片长宽比在3:1以内，其中最长边小于4096px，最短边大于30px。
④ 训练图片和实际场景要识别的图片拍摄环境一致，举例：如果实际要识别的图片是摄像头俯拍的，训练图片就不能用网上下载的目标正面图片。每个标签的图片需要覆盖实际场景里面的可能性，如拍照角度、光线明暗的变化，训练集覆盖的场景越多，模型的泛化能力越强。

Q：定制化图像识别显示模型训练失败是什么原因？

A：可能有以下原因：
①提交训练文件有损坏
②提交训练集无文件夹（比如提交一批散乱的图片）
③提交压缩包无法解压（比如上传一半异常关闭浏览器导致压缩包不完整、压缩包格式有误）
④提交图片格式有误
⑤提交训练集只有1个分类文件夹

Q：定制化图像识别训练失败怎么办？

A：训练失败通常是训练样本问题，建议参照训练失败原因检查上传压缩包中，是否有文件损坏、没有文件夹、图片格式错误等问题，然后重新新建一个模型再上传训练。

Q：训练模型如何调优？

A：①补充训练集图片
②优化图片质量
③优化训练集分类规则

Q：定制化识别平面图形，基本不受角度、光线影响，也需要200+的图片吗？

A：物体与物体之间差别较大的，几十张一组也是可以的。如果差距不明显，根据我们的经验，每组200+的照片，识别效果会好一些。

图像搜索

Q：图像搜索怎么收费？

A：图像搜索服务有一定额度的免费调用量，免费资源用尽后进行收费，如需付费使用，可购买次数包或开通按调用量后付费。详细价格方案请参考产品价格文档：https://ai.baidu.com/ai-doc/IMAGESEARCH/Zk3bczq54

Q：图像搜索中相似图像搜索都是根据什么信息判别是相似的？

A：我们会分析检索图片和入库图片特征上的相似度。特征更多是这个图片通用的语义，比如照片的颜色、主体、构图等。

Q：图像搜索中相似图像搜索目前在哪些场景的效果比较理想？

A：各种实拍图、网络图片或者美术作品的场景都是识别比较好的，比如设计素材、UGC内容等。注意检索图和入库的原图要尽量保持场景一致性，比如入库的原图为标准的广告图（无背景干扰），则检索图要尽量避免背景、其他干扰特征，否则模型计算图片的相似度时会有噪声，造成检索结果不准确。

Q：相似图像搜索可以在百度图片库里帮我找到我想要的图片吗？

A：图像搜索范围是您在百度AI建立的图片库中查找目标图片，百度图片的检索结果只是网络的信息，不能作为检索图库。

Q：图像搜索中自建库是存在哪里？

A：数据库存储在百度服务器上，专有云服务，别人访问不到。

Q：公司用了其他的云服务，调用百度的接口时，必须要在百度建库吗？可以直接调其他云服务器上的数据吗？

A：必须在百度的服务器入库，目前不支持直接调取其他云服务上的数据。因为算法是搭在百度服务器上的，图像库入库时需要进行特征提取。

Q：商品搜索是否支持局部和完整图像的搜索？

A：支持局部和完整图片之间的搜索。

Q：如何自建库用于图像搜索

A：您可以将现有图片归类整理，按照实际需求创建图库，建库流程请点击：http://ai.baidu.com/forum/topic/show/496543

视频技术

Q：如何接入视频内容审核、视频封面选图的服务？

A：请您首先通过页面的“商务合作”提交您的业务需求，我们收到后会与您联系，并提供测试文档与接口。

Q：如何使用视频对比检索的服务？

A：请您首先通过页面的“合作咨询”提交您的业务需求，我们收到后会与您联系。

语言处理基础技术

Q：输入编码是什么?
A：目前支持输入GBK编码和UTF-8编码。

Q：词法分析结果中的词性标注都是什么含义?
A：详见下表，具体请参考API文档。

词性	含义	词性	含义	词性	含义	词性	含义
n	普通名词	f	方位名词	s	处所名词	t	时间名词
nr	人名	ns	地名	nt	机构团体名	nw	作品名
nz	其他专名	v	普通动词	vd	动副词	vn	名动词
a	形容词	ad	副动词	an	名形词	d	副词
m	数量词	q	量词	r	代词	p	介词
c	连词	u	助词	xc	其他虚词	w	标点符号

Q：词向量表示具备多少维度?

A：我们提供1024维的词向量表示，后续版本会考虑提供降维版本以适用于不同场景。

Q：中文DNN语言模型对文本个数有什么限制？输入编码是什么?

A：最大长度10240字节，大约为5120个汉字，支持GBK编码输入，不需要切词。

Q：中文DNN语言模型中英文混杂怎么办？

A：模型词表中包含常用高频英文单词，也可以进行匹配。

Q：为什么很多词的词义相似度都是1?

A：尽管词向量的词表在百万量级，但仍有可能出现不在词表中的词，不在词表中的词统一映射到OOV（out-of-vocabulary）中，所以当词对中的两个词都是OOV的时候，相似度为1。

Q：短文本相似度对文字字数有什么限制?

A：最大长度512字节，大约为266个汉字，但字数过多或过少会对效果略有影响。

Q：短文本相似度计算，中英文混杂怎么办?

A：模型词表中包含常用高频英文单词，对中文语境中的“中英混排”文本可以很好的进行匹配。

Q：为什么有时短文本相似度计算没有返回结果?

A：有结果返回的前提条件是文本中的单词被词表收录，尽管模型词表很大（百万级），但仍然偶尔会出现不在词表的问题，当文本所有单词都不在词表中的时候，会得不到结果。

Q：评论观点抽取对输入的评论长度有限制么？

A：建议输入字符长度不超过150字，即保持在常用评论字符长度范围内。理论上评论长度不做限制，但是平台限制字符串长度为10240字符，超过即截断。

Q：评论观点抽取可以标记挖掘出观点的文本位置吗？

A：可以的，输出结果中包含观点标签在原始文本中的位置。例如可以标记出：这家旅店服务还是不错的。

Q：评论观点抽取支持自定义词典上传吗？

A：定制版可以上传13个行业垂类的自定义评论词表，有效提高评论抽取的精度和召回率，同时支持用户自定义评论的“归一化标签”。

Q：评论观点抽取可以批量上传并总结好标签及个数吗？

A：可以利用接口实现该功能。接口可以实现对每个评论的评论观点标签抽取和极性分析，多次调用即可实现多评论的标签挖掘和分析。

Q：情感倾向分析可以分析哪些情感类型?

A：目前分析的情感极性分为积极、消极、中性。

Q：情感倾向分析与对话情绪识别有何差异?

A：对话情绪识别是对用户对话场景下的语言是正向/中性/负向（如：你好厉害啊/烦死啦）的一种直观检测，而情感分析更倾向于分析对某个客体（如：电影、书籍）所表达出来的喜好/讨厌程度，两者在对应场景下的效果最优，否则将会一定程度影响识别准确率。

语音识别与合成

Q：语音识别、合成接口每天调用限额是多少，如何申请提高限额？
A：语音识别、合成接口有一定测试额度，完成个人实名认证及企业认证可提高QPS限额，详细QPS限额可在控制台中查看。若需更大QPS可在控制台中开通付费接口，或进一步合作咨询。

Q：控制台--语音应用详情页高级设置，语音识别词库设置、语义解析设置有什么注意事项？
A：离线命令词识别服务可以在断网环境下识别出预定义的固定短语（该功能只能在设备断网时使用）。离线命令词适用于断网时识别语音说出的通讯录好友、断网时识别特定的语音操作指令等场景。本地语义解析可以对识别出的文本进行解析，并自动将识别后文本转为结构化数据，方便您获得该文本的意图（该功能与设备的网络状态无关）。本地语义解析适用于联系通讯录好友、语音打开手机应用等场景。

Q：语音识别REST API支持的音频格式、采样率有哪些？
A：原始 PCM 的音频格式必须符合16k、8k 采样率、16bit 位深、单声道。支持的格式有：pcm（不压缩）、wav（不压缩，pcm编码）、amr（压缩格式）、m4a(压缩格式，仅支持极速版模型)。

Q：语音识别 REST API 最长支持多长的录音？
A：最长支持60s的录音文件

Q：语音识别REST API是什么？有什么注意事项？
A：语音识别全平台REST API，采用http方式请求，可适用于任何平台任意可以发起http请求的编程语言。使用REST API，录音、压缩及上传模块需要自行开发。且REST API语音识别暂时不支持语义解析。

Q：语音服务是免费的？还是需要付费
A：语音识别、合成接口有一定测试额度，完成个人实名认证及企业认证可提高QPS限额，详细QPS限额可在控制台中查看。若需更大QPS可在控制台中开通付费接口。若需购买语音服务，具体报价请看文档:
语音识别报价：https://ai.baidu.com/ai-doc/SPEECH/ck38lxnx8
语音合成报价：https://ai.baidu.com/ai-doc/SPEECH/Nk38y8pjq

Q：语音识别和合成支持什么语言？
A：语音识别支持：普通话、四川话、粤语、英语
语音合成支持：支持中文、英文，其他语言暂不支持，后续请您持续关注官网。

Q：SDK，代码出错，不能正常运行怎么办？
A：您好，请您先测试官方demo，测试通demo，再添加您自己的代码，基本都是可以使用的了。如果还是有问题，可以发起工单，我们进一步查看原因。

Q：出现问题如何反馈？

先确认是不是代码问题，可以测试我们的demo。
您可以通过官网搜索，输入关键字进行文档和常见问题的搜索
如果依然没有您要的答案，您可以选择一个渠道反馈：

官网页面底部有语音交流QQ群号。
在您网页的应用里发起工单。

Q：我想提高一些词的识别准确率，有什么办法？
A：您好，您可以通过EasyDL语音自训练平台训练专属语言模型持续提升识别准确率，详情可见https://ai.baidu.com/easydl/audio/同时，针对少量业务名词场景，也可通过自定义词库快速提升对应名词准确率。入口是：控制台--语音应用详情页高级设置，语音识别词库设置。

Q：语音识别REST API和SDK的区别是什么？
A： REST API：hhtp接口，开发者上传录音——百度语音进行识别——识别结果返回开发者；SDK：需要集成代码，百度语音提供从录音到识别结果返回的整体解决方案。

Q：语音识别通过哪个接口获取音频信息？
A： Android SDK：CALLBACK_EVENT_ASR_AUDIO回调或者OUT_FILE 参数，设置需要保存的路径。此外需要将 ACCEPT_AUDIO_DATA设置为true

iOS SDK：MVoiceRecognitionClientDelegate的(void)VoiceRecognitionClientWorkStatus:(int) aStatus obj:(id)aObj;的aStatus是EVoiceRecognitionClientWorkStatusNewRecordData时，aObj为NSData音频数据。数据格式均为pcm，采样率可通过VoiceRecognitionConfig.getSampleRate()/[[BDVoiceRecognitionClient sharedInstance] getCurrentSampleRate]获取，获取的音频格式是位深16bit，单声道。

Q：如何才能提高语音识别的准确率？
A：建议通过EasyDL语音自训练平台，上传业务文本训练语言模型提升语音识别准确率。具体请点击：https://ai.baidu.com/easydl/audio/ 您也可以进行自定义语音识别设置：打开百度开放云平台，在目前创建的应用下进行自定义语音识别设置。上传识别关键词文本，保存并生效。

Q：百度语音SDK与其他百度SDK，或其他第三方SDK冲突时，如何解决？
A：与其他百度SDK冲突一般是由于使用了相同的基础库galaxy.jar，请检查是否重复导入了该jar包；与其他第三方SDK冲突一般是由于so库的架构不统一，请保证工程libs目录下armeabi/armeabi-v7a/x86/mips目录的so库均一致，如果不能保证一致，则一般只能所有SDK仅使用armeabi架构的so库。

Q：首次开启语音识别功能的延迟时间较长，需要如何调控？
A：首次延迟时间较长一般是由于权限验证造成，可以通过预先调用接口： (int)verifyApiKey:(NSString )apiKey withSecretKey:(NSString )secretKey; 来进行验证。首次开启语音时就不需要再发送验证请求，从而降低语音识别启动的延迟。

Q：需要降低ASR Android的安装包体积，应该怎么操作？
A:如果为了节省安装包体积，可以只使用armeabi目录，性能损失微小。
如果只需要在线识别功能，仅需要2个so文件。

Q：语音合成如果想指定某个字的发音，怎么实现？
A：语音合成接口，支持用户自主标音，通过在所需合成的文字后，增加音标的方式，比如，想把“重音”中的重字，指定合成"chong"的读音时，需将合成文字改为“重（chong2）音”，其中2表示2声，可以根据数字变化调节音调，1对应1声，2对应2声，3对应3声，4对应4声。

Q：语音合成支持那些语言和音色的播报？
A：语音合成目前支持中文普通话播报、英文播报，音色支持男声、女声、童声，有度丫丫、度逍遥、度博文、度米朵、度小童、度小萌、度小娇等音库。

Q：语音合成SDK正式授权如何实现
A：您可以先测试demo。授权--请您先设置APPID，绑定包名，设置AK SK。第一次保证在线调用成功即可。具体步骤：

语音官网中应用请确定绑定包名，android sdk的demo的包名是com.baidu.tts.sample
启动后检查离线资源文件是否存在并且可读。然后联网调用成功，后续持续使用。

Q：SDK在语音合成播放的时候，接听电话，会自动暂停播放吗？还是需要自行处理？
A：android sdk不处理音频焦点。您需要使用pause和resume方法自行处理逻辑操作。

Q：语音合成怎么保存识别的音频
A：您好，如果想要保存合成的音频，以PythonSDK为例生成文件的路径是可以自定义的，只要您本地的路径正确即可，脚本运行完毕就自动生成的，不需要保存，如果重名，会做覆盖处理，需要您本地安装Python环境，然后按照文档进行调用：http://ai.baidu.com/docs#/TTS-Online-Python-SDK/top

Q：提示“Unable to execute dex: Multiple dex files define Lcom/baidu/android/common/logging/Log”错误？
A：您在应用同时集成了百度其它 SDK，造成公共库冲突，请删除语音SDK中的galaxy_lite.jar。

Q:在小说阅读、新闻播报等需要连续合成大段文字的场景下，如何调用语音合成比较好？
A:可以根据标点切分文字，按句调用，这样会有较快的合成速度. 同时，您可以在播放第一句合成的同时就开始缓存第二句的合成，第一句播放完成后，直接播放缓存的音频，这样可以有较强的连贯性。百度语音合成SDK还提供了批量合成文本的方法，具体可以查看技术文档。

Q:在网约车、快递、智能硬件等领域，如果网络信号的稳定性不能保证(频繁断网），应该如何调用？
这种情况下建议使用百度语音提供的纯离线语音合成SDK。
若您使用Android SDK，推荐使用TTSMODE_OFFLINE 模式。如果使用MIX_MODE_HIGH_SPEED_SYNTHESIZE模式（WIFI 4G 3G 2G下在线优先，其它网络状况离线合成。如果在线连接百度服务器失败或者超时1.2s，那么切换成离线合成）。
若您需要在移动网络下不想消耗流量，或是对响应速度有更强的需求，请自行根据业务需求选择其他模式。若您使用iOS SDK，建议使用默认设置。如需要调节在线请求超时时间，可通过BDS_SYNTHESIZER_PARAM_ONLINE_REQUEST_TIMEOUT参数进行设置。具体方法可以参考技术文档。

Q:百度 Android tts 合成SDK 与地图导航SDK 有冲突，该如何解决
A：对于 Android导航SDK 来说, 内置tts在导航SDK里是一个完整独立的aar文件，所有相关依赖jar全部在aar里，只要不把aar引入工程，就不会与外置的tts SDK发生任何冲突。具体可参见 http://lbsyun.baidu.com/index.php?title=android-navsdk/guide/projectConfiguration

Q:语音合成过程中，有的文字朗读不正确该怎么办
A：您可以通过多音字标注的方法来进行自主标音，在所需合成的文字后增加音标，比如，想把“重音”中的重字，指定合成”chong”的读音时，需将合成文字改为“重（chong2）音”，其中2表示2声，可以根据数字变化调节音调，1对应1声，2对应2声，3对应3声，4对应4声。
同时，您可以将错误发音的case反馈到QQ群或工单中，反馈格式如下：
【restapi】【发音人】【在线】【错误类型】
错误类型分类：多音字、韵律、儿化音、TN（数字及特殊符号转换错误）、英文badcase、其他
反馈示例：
【restapi】【标准女声】【在线】【多音字“行”】
文本：一行白鹭上青天
描述：行念成（xing）
期望：一行（hang）白鹭上青天

评价此篇文章

有帮助没帮助

财务参考

错误码

百度智能云

AI开放能力通用参考