短语音识别REST-API-C#SDK
更新时间:2024-05-29
安装语音识别 C# SDK
C# SDK 现已开源! https://github.com/Baidu-AIP/dotnet-sdk
支持平台:.Net Framework 3.5 4.0 4.5, .Net Core 2.0
方法一:使用Nuget管理依赖 (推荐)
在NuGet中搜索 Baidu.AI,安装最新版即可。
packet地址 https://www.nuget.org/packages/Baidu.AI/
方法二:下载安装
语音识别 C# SDK目录结构
                Plain Text
                
            
            1Baidu.Aip
2    ├── net35
3    │   ├── AipSdk.dll             // 百度AI服务 windows 动态库
4    │   ├── AipSdk.xml             // 注释文件
5    │   └── Newtonsoft.Json.dll    // 第三方依赖
6    ├── net40
7    ├── net45
8    └── netstandard2.0
9        ├── AipSdk.deps.json
10        └── AipSdk.dll
            如果需要在 Unity 平台使用,可引用工程源码自行编译。
安装
1.在官方网站下载C# SDK压缩工具包。
2.解压后,将 AipSdk.dll 和 Newtonsoft.Json.dll 中添加为引用。
新建交互类
Baidu.Aip.Speech.Asr是语音识别的交互类,为使用语音识别的开发人员提供了一系列的交互方法。
用户可以参考如下代码新建一个交互类:
                Plain Text
                
            
            1// 设置APPID/AK/SK
2var APP_ID = "你的 App ID";
3var API_KEY = "你的 Api Key";
4var SECRET_KEY = "你的 Secret Key";
5
6var client = new Speech.Asr(APP_ID, API_KEY, SECRET_KEY);
7client.Timeout = 60000;  // 修改超时时间
            在上面代码中,常量APP_ID在百度云控制台中创建,常量API_KEY与SECRET_KEY是在创建完毕应用后,系统分配给用户的,均为字符串,用于标识用户,为访问做签名验证,可在AI服务控制台中的应用列表中查看。
语音识别
接口描述
向远程服务上传整段语音进行识别
请求说明
举例:
                CSharp
                
            
            1// 识别本地文件
2public void AsrData()
3 {
4     var data = File.ReadAllBytes("语音pcm文件地址");
5
6     // 可选参数
7     var options = new Dictionary<string, object>
8     {
9        {"dev_pid", 1537}
10     };
11     client.Timeout = 120000; // 若语音较长,建议设置更大的超时时间. ms
12     var result = client.Recognize(data, "pcm", 16000, options);
13     Console.Write(result);
14 }
            接口函数说明:
| 参数 | 类型 | 描述 | 是否必须 | 
|---|---|---|---|
| data | byte[] | 语音二进制数据, 语音文件的格式,pcm 或者 wav 或者 amr。不区分大小写 | 是 | 
| format | String | 语音文件的格式,pcm 或者 wav 或者 amr。不区分大小写。推荐pcm文件 | 是 | 
| rate | int | 采样率,16000、8000,固定值 | 是 | 
| cuid | String | 用户唯一标识,用来区分用户,填写机器 MAC 地址或 IMEI 码,长度为60以内 | 否 | 
| dev_pid | Int | 默认1537(普通话 输入法模型)。dev_pid 必须为整数类型。参数可选值见REST API文档说明 | 否 | 
| 否 | |||
| lan(已废弃) | String | 历史兼容参数,请使用dev_pid。如果dev_pid填写,该参数会被覆盖。语种选择,输入法模型,默认中文(zh)。 中文=zh、粤语=ct、英文=en,不区分大小写。 | 否 | 
dev_pid 参数列表
| dev_pid | 语言 | 模型 | 是否有标点 | 备注 | 
|---|---|---|---|---|
| 1537 | 普通话(纯中文识别) | 语音近场识别模型 | 有标点 | 支持自定义词库 | 
| 1737 | 英语 | 英语模型 | 无标点 | 不支持自定义词库 | 
| 1637 | 粤语 | 粤语模型 | 有标点 | 不支持自定义词库 | 
| 1837 | 四川话 | 四川话模型 | 有标点 | 不支持自定义词库 | 
返回数据参数详情
| 参数 | 类型 | 是否一定输出 | 描述 | 
|---|---|---|---|
| err_no | int | 是 | 错误码 | 
| err_msg | int | 是 | 错误码描述 | 
| sn | int | 是 | 语音数据唯一标识,系统内部产生,用于 debug | 
| result | int | 是 | 识别结果数组,提供多个候选结果,无论返回多少个请取第一个 | 
返回样例:
                Plain Text
                
            
            1// 成功返回
2{
3	"err_no": 0,
4	"err_msg": "success.",
5	"corpus_no": "15984125203285346378",
6	"sn": "481D633F-73BA-726F-49EF-8659ACCC2F3D",
7	"result": ["北京天气"]
8}
9
10// 失败返回
11{
12	"err_no": 2000,
13	"err_msg": "data empty.",
14	"sn": null
15}
            