登录/注册

用户头像

音频组件测试

大模型开发/技术交流

LLM

5月17日107看过

我们来更一篇最近大家非常关心的，但很多小伙伴找不到入口，和落地教程的，AppBuilder的语音功能的实战贴~

1.AppBuilder是个啥？

先给刚入坑的小伙伴简单科普一下：

百度云千帆AppBuilder（以下简称AppBuilder）是基于大模型搭建AI原生应用的工作台，提供RAG、Agent、GBI等应用框架，文档问答、表格问答、对话、创作等应用组件，以及文生图、语音等传统AI组件，降低AI原生应用的开发门槛，赋能开发者快速实现应用搭建！

2.组件是个啥？

目前，Appbuilder集成了超过 60 种类型的组件，包括百度搜索、语音识别、文生图、代码解释器、图像内容理解等AI能力组件。满足各类高灵活度定制开发需求，例如，在你的Agent内添加代码解释器插件，那么你的Agent将拥有执行代码的能力。

我们可以理解为，文心大模型本身是一个通用的普适性的文本生成模型。

没有使用组件时，他直接以文字的形式与我们对话。假设你想做一个旅游攻略，需要先从网上收集一堆旅游攻略，再将攻略内容贴给大模型，由其来整理输出，然后再将他的输出记录到记事本上。

那你经常会遇到的问题是，对于这种复杂任务时，每次都是你来收集输入的资料喂给大模型，然后再根据大模型给出相关的思路和解决方案，再将其生成的文字粘贴到文档中。

而组件就是Agent能力的延伸，在面对复杂任务时，人类会使用工具来简化任务的解决过程并提高效率，从而节省时间和资源。同样，Agent也学会使用和利用工具，就有可能更高效、更高质量地完成复杂任务。在上述场景中，创建agent时，选择“百度搜索”组件和“代码解释器”组件，就可以实现Agent 自动去网络上搜索相关资料，并生成和生成旅游攻略报告。

3.语音处理组件都有哪些？

目前有4个，其中语音识别的有短语音识别-极速版，语音合成的有短文本在线合成-精品音库、短文本在线合成和文本转语音

其中

短语音识别可以将音频流实时识别为文字，并返回每句话的开始和结束时间，适用于手机语音输入、语音搜索、人机对话等语音交互场景。他采用领先国际的流式端到端建模方法SMLTA，近场普通话语音识别准确率可达98%
短文本在线合成提供高度拟人、流畅自然的语音合成服务，将文本朗读出来，精品音库听感逼真。可实时生成语音输出，几乎没有延迟，更自然流畅。

4.怎么用这个功能？

4.1 短文本在线合成组件-语音讲故事

step1.打开AppBuilder创建应用

step2.打开AppBuilder创建应用

输入应用名称，并生成头像

编写角色相关指令

选择组件

step3.测试应用

小石头的故事：https://to37lxghky.feishu.cn/docx/FG7bdV3OuoRU8AxNGQ5cI9jFnM4#BDISd3OrxovSydxDdThcZzHwnae

吃拉面的小白兔：https://to37lxghky.feishu.cn/docx/FG7bdV3OuoRU8AxNGQ5cI9jFnM4#JN1Edr0Y0o3tnCxb1jrcIPXGnC6

step4.发布

4.2 播客内容总结

step1.打开AppBuilder创建应用

step2.打开AppBuilder创建应用

输入应用名称，并生成头像

编写角色相关指令

选择组件

step3.测试应用

step4.发布

————————————————

原文链接：https://to37lxghky.feishu.cn/docx/FG7bdV3OuoRU8AxNGQ5cI9jFnM4

如有侵权，请联系千帆社区进行删除

评论

用户头像

相关推荐

百度智能云千帆AppBuilder升级！开放多源模型接入，思考模型再次加速！
- AppBuilder
- 5月29日
- 3817
- 3
- 0
Prompt Engineering设计赛
- 百度智能云千帆社区
- 6月4日
- 2186
- 0
- 0
【养老政策问答】银发经济你怎么看？
- AppBuilder
- 6月4日
- 1111
- 0
- 0

作者头像

相关文章

热点话题