输入参数
更新时间:2023-11-03
输入参数列表
PRODUCT_ID
根据您需要的识别语言和模型选择PRODUCT_ID参数
- 输入法模型:效果同百度输入法的语音输入。适合于长句识别。
语义解析: 自然语言文本是用户意图的表述,语义解析的目的就是将文本分词并解析成意图表示。语义解析仅支持普通话输入法模型。 在线语义详细说明请查看“语义理解协议”文档
PID | 语言 | 模型 | 是否有标点 | 在线语义 |
---|---|---|---|---|
1537 | 普通话 | 语音近场识别模型 | 有标点(逗号) | 不支持 |
15372 | 普通话 | 语音近场识别模型 | 加强标点(逗号、句号、问号、感叹号) | 不支持 |
15373 | 普通话 | 语音近场识别模型 | 加强标点(逗号、句号、问号、感叹号) | 支持 |
1737 | 英语 | 有标点(逗号) | 不支持 | |
1637 | 粤语 | 有标点(逗号) | 不支持 | |
16372 | 粤语 | 加强标点(逗号、句号、问号、感叹号) | 不支持 | |
1837 | 四川话 | 有标点(逗号) | 不支持 |
自训练平台模型的pid
PID | 语言 | 模型 | 是否有标点 | 在线语义 |
---|---|---|---|---|
8001 | 普通话 | 输入法模型 | 逗号 | 不支持 |
BDSSDKMessage
BDSSDKMessage 包可以认为是用户向SDK发送命令。由一个标明意向的name,及该name相关的参数组成,然后通过post函数传递命令。
name | 说明 | 参数 |
---|---|---|
ASR_CMD_CONFIG | 设置配置参数 | 见本节的“ASR_CMD_CONFIG 输入参数” |
ASR_CMD_START | 设置启动参数 | 见本节的“ASR_CMD_START” 输入参数” |
ASR_CMD_PUSH_AUDIO | 传递音频数据 | 见本节的“ASR_CMD_PUSH_AUDIO” 输入参数” |
ASR_CMD_STOP | 停止当前音频流输入 | 无 |
ASR_CMD_CANCEL | 取消当前的整个识别过程 | 无 |
BDSSDKMessage params;
params.name=ASR_CMD_CONFIG; // 这里设置name
params.set_parameter(xxxx, yyyyy);// 根据文档或者demo,设置参数
bool is_success =sdk->post(params, err_msg)); // 发送这个命令
ASR_CMD_CONFIG 参数
bool 表示 int =0 (关闭)和 =1 (开启) 的值
参数名 | 参数类型 / 值 | 必填选填 | 常用程度 | 说明 |
---|---|---|---|---|
ASR_PARAM_KEY_APP_ID | string | 必填 | 常用 | 您在网站上申请的应用appId |
ASR_PARAM_KEY_API_KEY | string | 必填 | 常用 | 您在网站上申请的应用appKey |
ASR_PARAM_KEY_PRODUCT_ID | int | 必填 | 常用 | 根据需要识别的语言,及模型选择一个PID值,中文输入法模型是1537。具体值见上一个表格,PRODUCT_ID。 |
ASR_PARAM_KEY_LMID | int | 选填 | 常用 | 自训练平台上线后的模型Id,必须和自训练平台的PID连用。 |
ASR_PARAM_KEY _MAX_SPEECH_PAUSE |
float | 选填 | 常用 | 默认值70帧(=700ms)。VAD检测xxx帧 静音后认为一句话结束。 一帧 = 10ms |
ASR_PARAM_KEY_SAVE_AUDIO_ENABLE | bool | 选填 | 常用 | 默认关闭,用于保存识别过程中的音频数据 |
ASR_PARAM_KEY_SAVE_AUDIO_PATH | string | 选填 | 常用 | 保存音频文件路径,ASR_PARAM_KEY_SAVE_AUDIO_ENABLE开启后生效,默认路径为程序启动目录下的sdk_save_audio.d里。音频文件以单次识别为分割,文件以日期命名,精确到微秒,后缀为.pcm |
COMMON_PARAM _KEY_DEBUG_LOG_LEVEL |
TBDVoiceRecognition DebugLogLevel |
选填 | 常用 | 设置日志级别,日志可以使用open_log_file保存到文件中 |
EVRDebugLogLevelOff | 默认 | 不常用 | 关闭日志,仅测试是使用 | |
EVRDebugLogLevelTrace | 常用 | 开启所有日志, 反馈请开启这个级别日志 | ||
ASR_PARAM_KEY _COMPRESSION_TYPE |
TBDVoiceRecognition AudioCompressionType |
选填 | 不常用 | SDK内部传输到百度服务端的音频流压缩格式,仅仅在与百度服务端通讯带宽不够的情况下设置。注意此处不是输入格式。输入格式见ASR_PARAM_KEY_SAMPLE_RATE。 |
EVR_AUDIO _COMPRESSION_PCM |
推荐 | 常用 | 不压缩,以原始音频pcm格式上传。 | |
EVR_AUDIO _COMPRESSION_BV32 |
默认 | 不常用 | BV有损压缩格式传输,8倍压缩 | |
EVR_AUDIO _COMPRESSION_AMR |
不常用 | AMR有损压缩格式传输,16倍压缩 | ||
ASR_PARAM_KEY_SAMPLE_RATE | BDVoiceRecognition RecordSampleRateFlags |
选填 | 固定值 | 原始音频的采样率。输入音频流的音频格式为raw,或者是pcm文件输入流。单声道,16bits, 小端序 |
EVoiceRecognition RecordSampleRate16K |
默认 | 常用 | 16000的采样率,推荐 | |
ASR_PARAM_KEY _DISABLE_PUNCTUATION |
bool | 选填 | 固定值 | 固定值1,仅当不需要标点时将其设置为0 |
ASR_PARAM_KEY _ENABLE_LONG_SPEECH |
bool | 选填 | 固定值 | 固定值1,长语音参数,识别可以超过60s |
ASR_PARAM_KEY _CHUNK_ENABLE |
bool | 必填 | 固定值 | 固定值1 |
ASR_PARAM_KEY _MFE_DNN_DAT_FILE |
string | 必填 | 固定值 | 固定值为bds_easr_mfe_dnn.dat文件的路径 |
ASR_PARAM_KEY _MFE_CMVN_DAT_FILE |
string | 必填 | 固定值 | 固定值为bds_easr_mfe_cmvn.dat文件的路径 |
ASR_CMD_START 参数
参数名 | 参数类型 / 值 | 必填 | 说明 |
---|---|---|---|
ASR_PARAM_KEY_APP | string | 必填 | 您自己应用的名称, 英文字母数字及下划线 |
ASR_PARAM_KEY_PLATFORM | string | 必填 | 固定值 "Linux" |
ASR_PARAM_KEY_SDK_VERSION | string | 必填 | 固定值 "sdk3.0", 该值随版本而定,具体参见demo |
ASR_CMD_PUSH_AUDIO参数
传输方式见:”接口使用及调用流程:传递音频数据“一节
参数名 | 参数类型 / 值 | 必填 | 说明 |
---|---|---|---|
DATA_CHUNK | 二进制 及其长度 | 是 | 传入音频流二进制数组及长度,长度为0表示音频流结束 |