多模态RAG最佳实践
更新时间:2025-09-08
整体概述
本文介绍了如何利用AppBuilder的多模态RAG能力,整合多模态信息并借助跨模态线索实现联合推理,从而生成更准确、更丰富的回答。文章以千帆AppBuilder的平台问答助手为例,演示了多模态RAG问答助手的实现过程,并与传统基于OCR后再进行RAG的问答方法进行了对比。
多模态RAG能力介绍
多模态检索增强生成(Multimodal Retrieval-Augmented Generation)是一种新兴的架构范式,使AI模型能够综合利用文本、图像、视频等多种类型的数据进行交互与推理。 通过整合图像和音频等多模态知识源,扩展了传统RAG框架,为内容生成提供更加丰富的上下文信息。这种整合不仅提高了生成输出的精确度,还利用多模态线索增强了MLLMs(Multi-modal Large Language Models)的推理能力。提高了视觉叙事的连贯性,并确保多模态摘要内容与事实保持一致。 处理流程:
- 离线处理阶段:系统首先对多模态文档进行分割,随后通过多模态Embedding技术将不同模态(如文本、图像等)映射到统一的语义空间中,实现跨模态的语义对齐。
- 在线检索阶段:借助多模态Embedding模型,将用户查询嵌入为向量表示,从而召回与之最相关的文档片段,支持图文混合检索。系统还支持自定义检索策略,进一步提升了上下文筛选的准确性与可靠性。
功能优势
能够整合图像、音频、结构化数据等多种模态的信息,极大地丰富了上下文来源。 利用跨模态线索进行联合推理(例如,根据图片内容回答问题,或根据文本来解释图表),从而生成更准确、更丰富的回答。
行业 | 场景 | 传统 RAG 症结 | 多模态 RAG 优势 |
---|---|---|---|
政务 | 面向执法人员的智能问询助理。 | 处理证据图像有限,证据解读能力弱。 | 输入现场照片、证据截屏、文档扫描等,多模态 RAG 可以召回相关案件中的相似图像证据与文字说明,帮助生成“问询方案”或“证据比对报告”,支持图文并茂的案情推理与查证。 |
制造 | 面向经销商的咨询助手。 | 缺乏视觉参考,无法解决因语义差异导致的信息匹配问题,文字描述与实际屏幕或产品照片可能差别大,检索结果不准确。 | 输入产品照片、设备状态截屏、文档样表等,多模态 RAG 能从历史案件中检索类似产品问题的图文解决方案,生成带图片解释的操作步骤或维修建议。 |
制造 | 面向研发人员的咨询助手。 | 缺少图像理解能力,研发问题常涉及设计图、原理图、错误截图等,仅靠文本检索会丢失关键信息。传统 RAG 无法检索或理解图中结构、布局及标注。 | 输入上传设计图、流程图、故障截图、接口文档等多种形式材料,多模态 RAG 能从历史案件资料中召回信息,为当前研发问题生成问询方案或调试建议。 |
千帆Appbuilder平台知识问答助手
应用场景 | 为什么传统RAG解决不了? | 多模态RAG的优势 |
---|---|---|
用户想快速了解千帆 AppBuilder 的平台功能与框架。知识库中包含 AppBuilder 平台介绍、RAG 概述等信息,其中既有文字说明,也有架构框架图、功能示意图等图片资料。部分信息以流程图说明,无文字描述。 需要解答的问题示例: 附件: 知识库文档 |
|
|
操作步骤
Step 1: 上传多模态数据文档
- 在 创建知识库 - 配置选择 中,勾选 文档图片解析,并选择 图片理解(VLM)策略。 完整创建知识库流程可查看创建知识库。
- 图片文字识别(OCR)侧重于把图中的字符转为文本,但无法理解图表、示意或场景语义;而图片理解(VLM)不仅能识别文字,还能理解图像整体语义、结构关系并结合语言推理。因此推荐选择图片理解(VLM)。
Step 2: 命中测试
- 知识库创建后,您可在命中测试页面输入查询Query(图搜图功能敬请期待)。系统将返回与之相关的知识库图片或图文混排内容。展示效果如下:
多模态 RAG 示例 | 传统 RAG 示例 |
---|---|
![]() |
![]() |
效果对比:
- 传统 RAG:召回的文本切片主要是通用段落(如场景举例、RAG 概述等),虽然也带了图,但是没有精准定位。
- 多模态 RAG:检索召回的图片直接对应提问“包含哪些步骤、执行顺序”。定位更精准,节约了输入大模型的消耗tokens。
Step 3: 智能体调用
您可在以下四类 Agent 中调用已创建的多模态知识库,实现图文混排的智能回答或内容生成:
Agent 类型 | 多模态 RAG 示例 | 传统 RAG 示例 | 效果 |
---|---|---|---|
自主规划 Agent | ![]() |
![]() |
自主规划 Agent 调用多模态 RAG 时,既能检索文字,又能同时召回并理解文档中的图片内容,并正确理解其中的结构和位置关系。 传统 RAG 只能提取文字片段,容易误判模块所在位置(如将粗排与重排序错放到「知识解析 & 索引构建模块」),无法理解图片信息,容易遗漏关键信息。 完整流程参考自主规划Agent。 |
工作流 Agent | ![]() |
![]() |
大模型节点引用 content 字段后,可输出图文混排内容。- 在工作流 Agent 下,传统 RAG 没有对图片进行理解,输出了其他相关信息;而 多模态 RAG 能理解图片的结构和含义,能更好地支持需要直观理解的任务。 完整流程参考工作流Agent。 |
多智能体协同 Agent | ![]() |
![]() |
多智能体协同 Agent 通过调用自主规划 Agent,实现图文混排内容输出。 多模态 RAG:能够输出框架图的正确分析,对图像中的各个模块全面讲解,显著增强召回效果和直观性 传统 RAG:只能解析文字,无法理解结构,容易错漏关键信息 完整流程参考多智能体协同Agent。 |
交互式写作 Agent | ![]() |
![]() |
交互式写作场景下,多模态 RAG 能够输出框架图的正确分析,对图像中的各个模块全面讲解,显著增强召回效果和直观性。 传统 RAG 无法调用或理解图像内部结构,容易遗漏关键信息。 完整流程参考交互式写作Agent。 |
- 使用多模态RAG进行知识库问答,能够更清晰地描述流程图中的处理过程,而在传统OCR后进行检索问答的方法中,这部分内容往往容易出现事实性错误。
- 例如,千帆AB的知识增强主要体现在知识解析与索引构建阶段,而非问答生成阶段。多模态RAG很好的进行理解,但是传统RAG回答有误。