创建分析器
更新时间:2026-01-23
内容理解是使用AI大模型从非结构化的多模态数据内容精准的转化为机器和AI语言模型可以理解和处理的结构化数据内容,最终形成构建-评估-部署的使用闭环。
- 构建分析器:基于预置模版进行分析器的配置和调试,构建对于场景的专属分析器
- 评估分析器:通过构建数据集对分析器效果进行评估,提供分析器优化依据和效果定量指标
- 部署分析器:提供可调用的API分析服务,支持在数据管道等应用调用,并且监控调用情况
前提条件
- 项目所绑定的资源组中有Ray类型的数据处理实例和通用资源队列,并且所属项目的模型服务中LLM模型已经启动(例如:projectName-deepseek_model_server)
- 确认已获取 DataBuilder 内容理解应用的菜单权限;
- 准备待解析的文档样例(如 PDF、扫描件),明确需要抽取的目标字段;
分析器创建
- 登录百度智能云百度千帆·数据智能平台 DataBuilder 控制台,侧边导航选择内容理解进入列表界面。
- 列表右上方单击创建分析器按钮,进入创建流程。
- 填写分析器名称、描述以及选择所属项目位置后确定,继续为分析器进行详细配置。详细配置包含文档解析、文档抽取两大核心区域,详细配置说明如下:
文档解析配置
预处理配置
-
单击预处理右侧的列表,在下拉选项中可选择所需功能(倾斜矫正等);
- 对于需要处理的文档,通过预处理,可以使得解析结果更精准
- 对于无需处理的文档,请谨慎选择,可能会出现解析结果准确率下降
- 若无需某预处理功能,单击功能右侧的「×」按钮删除。
布局分析配置
- 返回布局信息:选择是 / 否,选 “是” 可获取文档元素(文本、表格、图片等)的空间位置、层级关系以及排版结构
- 置信度阈值:根据需求输入数值(范围 0-100),只有检测得分大于等于阈值的检测框才会被保留
-
布局分析模型:选择布局检测使用的模型
- YOLO(布局检测速度快,元素识别能力均衡)
内容解析配置
- 内容解析模式:选择需要解析的内容类型,下拉选择文本、图片、公式或表格,可多选;
- 解析范围:下拉选择文档的全部范围或指定范围;
-
解析模型:下拉选择内容解析模型版本
- 基础版本 Base (内容解析速度快,对于复杂表格解析存在局限)
文档抽取区域配置
- 单击抽取字段区域的添加按钮,添加抽取字段,填写字段配置项:
表1 添加抽取字段配置项说明
| 配置项名称 | 说明 |
|---|---|
| 字段名称 | 输入字段名称,需要抽取字段的名称。 |
| 字段描述 | 填写字段的描述,描述越详细模型抽取的准确率越高。 |
| 字段类型 | 选择对应字段的返回类型,字段类型有:字符串、数字、布尔值、日期和整数。 |
| 模式 | 根据字段出现规则选择,模式有:一定存在只有一个、一定存在,数量不限、可能存在,数量不限、可能存在,零个或者一个。 |
| 置信度 | 输入阈值(范围 0-1),过滤低置信度的抽取结果,低于置信度的返回结果会被舍弃。 |
| 操作 | 保存:单击保存,则新增抽取字段成功。取消:单击取消,则重置此条字段内容。编辑:对已保存添加成功的抽取字段进行调整,调整结束单击保存按钮。删除:删除已保存添加成功的抽取字段。注意:抽取字段删除后无法恢复,请谨慎操作。 |
- 抽取样例:单击去样例标注按钮,去标注页面,标注样例。
分析器信息
在页面右侧有分析器的其他信息,包括分析器的基本信息、调优测试、运行记录以及历史版本。
调优测试
- 切换至右侧调优测试区域,单击输入模块的上传按钮,导入准备好的文档样例;
- 单击运行按钮,等待系统输出解析与抽取结果;
- 查看输出模块的结果:若抽取准确率低,返回文档解析 / 抽取区域调整参数(如调整置信度、修改字段描述等),重复测试直至结果达标。
运行记录
在页面右侧导航通过切换按钮选择运行记录,查看分析器运行记录的详细信息,包括运行时间、运行状态和运行时长。
历史版本
在页面右侧导航通过切换按钮选择历史版本,查看分析器版本信息,版本支持查看和恢复。
保存与发布
- 测试通过后,点击页面顶部的保存按钮,保存当前分析器配置;
- 确认配置无误后,单击发布按钮,填写版本描述信息,将分析器投入正式使用;
- 发布后可返回分析器列表,查看该分析器的状态。
构建分析器
构建分析器是定义数据处理的过程和模型,不同数据和意图,对应不同预置的分析器配置。
在分析器列表单击分析器名称,进入分析器详情。分析器详情页面通过切换tab页,选择构建模块,查看分析器基本信息以及文档解析、文档抽取具体配置。
- 如需调整配置,在页面右上角单击编辑按钮,对分析器进行调整和编辑。
- 如需删除当前分析器,单击页面右上角删除按钮,确定后分析器删除成功。注意:分析器删除后无法恢复,请谨慎操作。
