创建分析器
更新时间:2026-05-25
内容理解是使用AI大模型从非结构化的多模态数据内容精准的转化为机器和AI语言模型可以理解和处理的结构化数据内容,最终形成构建-评估-部署的使用闭环。
- 构建分析器:基于预置模版进行分析器的配置和调试,构建对于场景的专属分析器
- 评估分析器:通过构建数据集对分析器效果进行评估,提供分析器优化依据和效果定量指标
- 部署分析器:提供可调用的API分析服务,支持在数据管道等应用调用,并且监控调用情况
前提条件
- 项目所绑定的资源组中有Ray类型的数据处理实例和通用资源队列,并且所属项目的模型服务中LLM模型已经启动(例如:projectName-deepseek_model_server)
- 确认已获取百度胜算内容理解应用的菜单权限;
- 准备待解析的文档样例(如 PDF、扫描件),明确需要抽取的目标字段;
分析器创建
- 登录百度胜算控制台,侧边导航选择内容理解进入列表界面。
- 列表右上方单击创建分析器按钮,进入创建流程。
- 填写分析器名称、描述以及选择所属项目位置后确定,继续为分析器进行详细配置。详细配置包含文档解析、文档抽取两大核心区域,详细配置说明如下:
文档解析配置
预处理配置
-
单击预处理右侧的列表,在下拉选项中可选择所需功能(倾斜矫正等);
- 对于需要处理的文档,通过预处理,可以使得解析结果更精准
- 对于无需处理的文档,请谨慎选择,可能会出现解析结果准确率下降
-
若无需某预处理功能,单击功能右侧的「×」按钮删除。
通过对文档进行预处理,可以使得解析结果更精准。文档畸变矫正请谨慎添加,可能会导致正常文档的变形,如无需要请勿添加。
布局分析配置
- 返回布局信息:选择是 / 否,选 “是” 可获取文档元素(文本、表格、图片等)的空间位置、层级关系以及排版结构
- 置信度阈值:根据需求输入数值(范围 0-100),只有检测得分大于等于阈值的检测框才会被保留
-
布局分析模型:选择布局检测使用的模型
- DocLayoutV2(能力均衡的布局检测模型);
- DocLayoutV3(增强对倾斜、畸变文档布局检测模型)。
内容解析配置
- 内容解析模式:选择需要解析的内容类型,下拉选择文本、图片、公式或表格,可多选;
- 解析范围:下拉选择文档的全部范围或指定范围;
-
解析模型:下拉选择内容解析模型版本
- 基础版本 Base (内容解析速度快,对于复杂表格解析存在局限);
- 专业版本 Pro(对于有跨业表格和公式解析选择此版本,准确率更高)。
文档抽取区域配置
- 单击抽取字段区域的添加按钮,添加抽取字段,填写字段配置项:
表1 添加抽取字段配置项说明
| 配置项名称 | 说明 |
|---|---|
| 字段名称 | 输入字段名称,需要抽取字段的名称。 |
| 字段描述 | 填写字段的描述,描述越详细模型抽取的准确率越高。 |
| 字段类型 | 选择对应字段的返回类型,字段类型有:字符串、数字、布尔值、日期、时间、对象、列表和整数。 |
| 模式 | 根据字段出现规则选择,模式有:一定存在只有一个、一定存在,数量不限、可能存在,数量不限、可能存在,零个或者一个。 |
| 置信度 | 输入阈值(范围 0-1),过滤低置信度的抽取结果,低于置信度的返回结果会被舍弃。 |
| 操作 | 保存:单击保存,则新增抽取字段成功。取消:单击取消,则重置此条字段内容。编辑:对已保存添加成功的抽取字段进行调整,调整结束单击保存按钮。删除:删除已保存添加成功的抽取字段。注意:抽取字段删除后无法恢复,请谨慎操作。 |
- 抽取样例:单击去样例标注按钮,去标注页面,配置完成后单击确认。具体配置详情可参见下表:
| 配置项名称 | 说明 |
|---|---|
| 导入方式 | 目前支持本地导入、媒体集导入两种方式。选择本体导入时,拖动文件到目标位置或单击上传按钮,上传文件,支持.pdf、.docx及图片格式。 |
| 媒体集 | 选择媒体集导入方式时,单击浏览按钮,选择媒体集。限制:单次最多可以从媒体集中选择1000份文档。 |
- 单击高级配置旁的按钮,支持修改文档抽取默认的抽取指令、最大思考轮次。具体配置详情可参见下表:
| 配置项名称 | 说明 |
|---|---|
| 抽取指令 | 文档抽取的指令。 |
| 模型 | 目前仅支持deepseek-v3。 |
| 工具 | 默认是抽取工具、标准学习工具,不支持修改。 |
| 最大思考轮次 | 智能体最多执行的步骤数,默认是3。 |
分析器信息
在页面右侧有分析器的其他信息,包括分析器的基本信息、调优测试、运行记录以及历史版本。
调优测试
- 切换至右侧调优测试区域,单击输入模块的上传按钮,导入准备好的文档样例;
- 单击运行按钮,等待系统输出解析与抽取结果;
- 单击调试器,可预览文档解析的结果、文档抽取结果以及文档抽取的推理过程。
- 查看输出模块的结果:若抽取准确率低,返回文档解析 / 抽取区域调整参数(如调整置信度、修改字段描述等),重复测试直至结果达标。
本地上传增加图片、.docx、xls、xlsx、.md、.txt文档类型。 对于md和txt文档则没有文档解析,只有文档抽取,抽取结果左侧展示原始md和txt文档。
运行记录
在页面右侧导航通过切换按钮选择运行记录,查看分析器运行记录的详细信息,包括运行时间、运行状态和运行时长。
历史版本
在页面右侧导航通过切换按钮选择历史版本,查看分析器版本信息,版本支持查看和恢复。
保存与发布
- 测试通过后,点击页面顶部的保存按钮,保存当前分析器配置;
- 确认配置无误后,单击发布按钮,填写版本描述信息,将分析器投入正式使用;
- 发布后可返回分析器列表,查看该分析器的状态。
评估
单击右上角评估按钮,跳转至评估界面,关于评估的具体操作详情,可参见评估分析器文档。
部署
单击右上角部署按钮,跳转至部署界面,关于部署的具体操作详情,可参见部署分析器文档。
删除
单击右上角删除按钮,在删除对话框单击确认,即可完成当前分析器的删除。
构建分析器
构建分析器是定义数据处理的过程和模型,不同数据和意图,对应不同预置的分析器配置。
在分析器列表单击分析器名称,进入分析器详情。分析器详情页面通过切换tab页,选择构建模块,查看分析器基本信息以及文档解析、文档抽取具体配置。
- 如需调整配置,在页面右上角单击编辑按钮,对分析器进行调整和编辑。
- 如需删除当前分析器,单击页面右上角删除按钮,确定后分析器删除成功。注意:分析器删除后无法恢复,请谨慎操作。
评价此篇文章
