logo

音频组件测试

我们来更一篇最近大家非常关心的,但很多小伙伴找不到入口,和落地教程的,AppBuilder的语音功能的实战贴~

1.AppBuilder是个啥?

先给刚入坑的小伙伴简单科普一下:
百度云千帆AppBuilder(以下简称AppBuilder)是基于大模型搭建AI原生应用的工作台,提供RAG、Agent、GBI等应用框架,文档问答、表格问答、对话、创作等应用组件,以及文生图、语音等传统AI组件,降低AI原生应用的开发门槛,赋能开发者快速实现应用搭建!

2.组件是个啥?

目前,Appbuilder集成了超过 60 种类型的组件,包括百度搜索、语音识别、文生图、代码解释器、图像内容理解等AI能力组件。满足各类高灵活度定制开发需求,例如,在你的Agent内添加代码解释器插件,那么你的Agent将拥有执行代码的能力。
我们可以理解为,文心大模型本身是一个通用的普适性的文本生成模型。
没有使用组件时,他直接以文字的形式与我们对话。假设你想做一个旅游攻略,需要先从网上收集一堆旅游攻略,再将攻略内容贴给大模型,由其来整理输出,然后再将他的输出记录到记事本上。
那你经常会遇到的问题是,对于这种复杂任务时,每次都是你来收集输入的资料喂给大模型,然后再根据大模型给出相关的思路和解决方案,再将其生成的文字粘贴到文档中。
而组件就是Agent能力的延伸,在面对复杂任务时,人类会使用工具来简化任务的解决过程并提高效率,从而节省时间和资源。同样,Agent也学会使用和利用工具,就有可能更高效、更高质量地完成复杂任务。在上述场景中,创建agent时,选择“百度搜索”组件和“代码解释器”组件,就可以实现Agent 自动去网络上搜索相关资料,并生成和生成旅游攻略报告。

3.语音处理组件都有哪些?

目前有4个,其中语音识别的有短语音识别-极速版,语音合成的有短文本在线合成-精品音库、短文本在线合成和文本转语音
其中
  1. 短语音识别可以将音频流实时识别为文字,并返回每句话的开始和结束时间,适用于手机语音输入、语音搜索、人机对话等语音交互场景。他采用领先国际的流式端到端建模方法SMLTA,近场普通话语音识别准确率可达98%
  2. 短文本在线合成提供高度拟人、流畅自然的语音合成服务,将文本朗读出来,精品音库听感逼真。可实时生成语音输出,几乎没有延迟,更自然流畅。

4.怎么用这个功能?

4.1 短文本在线合成组件-语音讲故事

step1.打开AppBuilder创建应用
step2.打开AppBuilder创建应用
输入应用名称,并生成头像
编写角色相关指令
选择组件
step3.测试应用
step4.发布

4.2 播客内容总结

step1.打开AppBuilder创建应用
step2.打开AppBuilder创建应用
输入应用名称,并生成头像
编写角色相关指令
选择组件
step3.测试应用
step4.发布
————————————————
如有侵权,请联系千帆社区进行删除
评论
用户头像