短语音识别REST-API-NodeSDK

更新时间：2024-05-29

安装语音识别 Node SDK

语音识别 Node SDK目录结构

Plain Text

1├── src
2│  ├── auth                                //授权相关类
3│  ├── http                                //Http通信相关类
4│  ├── client                              //公用类
5│  ├── util                                //工具类
6│  └── const                               //常量类
7├── AipSpeech.js                      //语音识别交互类
8├── index.js                               //入口文件
9└── package.json                           //npm包描述文件

支持 node 版本 4.0+

查看源码

Nodejs SDK代码已开源，您可以查看代码、或者在License范围内修改和编译SDK以适配您的环境。

github链接：https://github.com/Baidu-AIP/nodejs-sdk

直接使用node开发包步骤如下：

1.在官方网站下载node SDK压缩包。

2.将下载的aip-node-sdk-version.zip解压后，复制到工程文件夹中。

3.进入目录，运行npm install安装sdk依赖库

4.把目录当做模块依赖

其中，version为版本号，添加完成后，用户就可以在工程中使用语音识别 Node SDK。

直接使用npm安装依赖：

npm install baidu-aip-sdk

6.调用示例可以参考 https://github.com/Baidu-AIP/sdk-demo

新建AipSpeechClient

AipSpeechClient是语音识别的node客户端，为使用语音识别的开发人员提供了一系列的交互方法。

用户可以参考如下代码新建一个AipSpeechClient：

Plain Text

1var AipSpeechClient = require("baidu-aip-sdk").speech;
2
3// 设置APPID/AK/SK
4var APP_ID = "你的 App ID";
5var API_KEY = "你的 Api Key";
6var SECRET_KEY = "你的 Secret Key";
7
8// 新建一个对象，建议只保存一个对象调用服务接口
9var client = new AipSpeechClient(APP_ID, API_KEY, SECRET_KEY);

为了使开发者更灵活的控制请求，模块提供了设置全局参数和全局请求拦截器的方法；本库发送网络请求依赖的是request模块，因此参数格式与request模块的参数相同

更多参数细节您可以参考request官方参数文档。

Plain Text

1var HttpClient = require("baidu-aip-sdk").HttpClient;
2
3// 设置request库的一些参数，例如代理服务地址，超时时间等
4// request参数请参考 https://github.com/request/request#requestoptions-callback
5HttpClient.setRequestOptions({timeout: 5000});
6
7// 也可以设置拦截每次请求（设置拦截后，调用的setRequestOptions设置的参数将不生效）,
8// 可以按需修改request参数（无论是否修改，必须返回函数调用参数）
9// request参数请参考 https://github.com/request/request#requestoptions-callback
10HttpClient.setRequestInterceptor(function(requestOptions) {
11    // 查看参数
12    console.log(requestOptions)
13    // 修改参数
14    requestOptions.timeout = 5000;
15    // 返回参数
16    return requestOptions;
17});

在上面代码中，常量APP_ID在百度云控制台中创建，常量API_KEY与SECRET_KEY是在创建完毕应用后，系统分配给用户的，均为字符串，用于标识用户，为访问做签名验证，可在AI服务控制台中的应用列表中查看。

语音识别

接口描述

向远程服务上传整段语音进行识别

请求说明

举例，要对段保存有一段语音的语音文件进行识别：

Plain Text

1let fs = require('fs');
2let voice = fs.readFileSync('assets/voice/16k_test.pcm');
3
4let voiceBuffer = new Buffer(voice);
5
6// 识别本地文件
7client.recognize(voiceBuffer, 'pcm', 16000).then(function (result) {
8    console.log('<recognize>: ' + JSON.stringify(result));
9}, function(err) {
10    console.log(err);
11});
12
13// 识别本地文件，附带参数
14client.recognize(voiceBuffer, 'pcm', 16000， {dev_pid: 1537, cuid: Math.random()}).then(function (result) {
15    console.log('<recognize>: ' + JSON.stringify(result));
16}, function(err) {
17    console.log(err);
18});

接口函数说明：

Plain Text

1// 识别本地语音文件
2client.recognize(speech, format, rate， {lan: 'ct', cuid: Math.random(), ptc: 1}});

参数	类型	描述	是否必须
speech	Buffer	建立包含语音内容的Buffer对象, 语音文件的格式，pcm 或者 wav 或者 amr。不区分大小写	是
format	String	语音文件的格式，pcm 或者 wav 或者 amr。不区分大小写。推荐pcm文件	是
rate	int	采样率，16000、8000，固定值	是
cuid	String	用户唯一标识，用来区分用户，填写机器 MAC 地址或 IMEI 码，长度为60以内	否
dev_pid	Int	不填写lan参数生效，都不填写，默认1537（普通话输入法模型），dev_pid参数见下面的表格	否
lan(已废弃)	String	历史兼容参数，请使用dev_pid。如果dev_pid填写，该参数会被覆盖。语种选择,输入法模型，默认中文（zh）。中文=zh、粤语=ct、英文=en，不区分大小写。	否

dev_pid 参数列表

dev_pid	语言	模型	是否有标点	备注
1537	普通话(纯中文识别)	语音近场识别模型	有标点	支持自定义词库
1737	英语	英语模型	无标点	不支持自定义词库
1637	粤语	粤语模型	有标点	不支持自定义词库
1837	四川话	四川话模型	有标点	不支持自定义词库

返回数据参数详情

参数	类型	是否一定输出	描述
err_no	int	是	错误码
err_msg	int	是	错误码描述
sn	int	是	语音数据唯一标识，系统内部产生，用于 debug
result	int	是	识别结果数组，提供1-5 个候选结果，string 类型为识别的字符串， utf-8 编码

返回样例：

Plain Text

1// 成功返回
2{
3  "err_no": 0,
4  "err_msg": "success.",
5  "corpus_no": "15984125203285346378",
6  "sn": "481D633F-73BA-726F-49EF-8659ACCC2F3D",
7  "result": ["北京天气"]
8}
9
10// 失败返回
11{
12  "err_no": 2000,
13  "err_msg": "data empty.",
14  "sn": null
15}

短语音识别REST-API-C#SDK

短语音识别REST-API-C++SDK

百度智能云

语音技术

语音技术

短语音识别REST-API-NodeSDK

安装语音识别 Node SDK

新建AipSpeechClient

语音识别

接口描述

请求说明