支持添加类型
概述
数据管道组件分为输入、处理、输出三类,协同完成数据全流程自动化处理:
- 输入组件:采集原始数据,作为数据原料;
- 处理组件:清洗、转换、关联数据,让杂乱数据变规范可用;
- 输出组件:将处理好的数据写入指定目标,供后续使用。
输入
输入作为数据管道的数据入口,核心功能是读取各类原始数据源,为后续数据处理环节提供基础原料,确保数据采集的灵活性、全面性。输入组件支持两种方式进行数据输入:
- 输入表:直接输入表格数据,适用于数据量较少、可手动录入的场景。
- 添加数据:选择已创建项目的结构化数据集和媒体集,快速完成数据添加。
处理
处理是数据管道的核心加工环节,承接输入采集的原始数据,通过各类功能组件的组合配置,完成数据的清洗、转换、关联、合并、AI辅助处理等操作,是将原始数据转化为可用数据的关键。为满足不同场景的数据加工需求,平台支持5类核心处理组件,具体如下:
Transform
Transform是数据处理流程中的核心加工环节,核心作用是对上游异构、非标准化数据,通过添加算子进行数据清洗、格式转换和规则加工,输出符合业务要求的规范数据。
操作步骤
单击节点右侧的Transform,节点名称默认为transform,若重名会自动在末尾追加数字(如transform1、transform2)。单击添加算子,您可按一下说明完成配置,配置完成后单击应用即可。您也可以单击右侧“小眼睛”图标,查看该节点的输入数据和加工后的输出数据。
表1 Transform配置界面说明
| 配置项 | 说明 |
|---|---|
| 表达式 | 搜索函数或逻辑表达式对数据进行计算、转换等处理。 |
| 列名 | 选择需要进行转换操作的数据源列,自定义转换后输出列的名称。 |
| 常量 | 选择常量类型,输入常量值,作为转换逻辑中的固定参数使用。 |
更多算子的使用说明请参见Transform组件算子使用说明文档。
Join
Join是数据处理流程中的数据拼接工具,核心作用是将两个不同的表,根据条件,拼接成一个完整的表,相当于把分散在不同表中的相关数据,整合到一起,方便后续加工、输出。
操作步骤
单击节点右侧的Join,节点名称默认为join,若重名会自动在末尾追加数字(如join1、join2)。您可按以下说明完成配置,配置完成后单击应用即可。
表2 Join配置界面说明
| 配置项 | 说明 |
|---|---|
| Join方式 | 支持内连接、左外连接、右外连接、交叉连接、全外连接、左半连接和左反连接。其中内连接、左外连接、右外连接为最常用的方式,具体操作导向说明如下:
|
| Join数据 | 展示已选中的两个待连接的节点。支持交换两张表的左右位置。 |
| Join条件 | 支持配置表之间的连接条件,也支持同时配置多个连接条件。 |
| 选择输出列 | 可勾选左侧表、右侧表中需要输出的字段,同时右侧表的输出字段可配置前缀。 |
| 右表列名前缀 | 输入右表列名前缀,用于给右表字段添加自定义前缀,避免与左表同名字段冲突,方便区分字段来源。 |
Union
Union是数据处理流程中的多表合并组件,核心功能是将结构相同(字段名称、字段类型一致) 的多张数据表进行纵向合并,把多张表的行数据整合到同一张表中,实现同结构多表数据的汇总。
操作步骤
单击节点右侧的Union,节点名称默认为union,若重名会自动在末尾追加数字(如union1、union2)。您可按以下说明完成配置,配置完成后单击应用即可。
表3 Union配置界面说明
| 配置项 | 说明 |
|---|---|
| Union方式 | 支持两种合并方式(均不带去重功能):
|
| Union数据 |
|
Use LLM
Use LLM是数据处理流程中的AI赋能算子,核心功能是调用大语言模型(LLM)对数据表中的文本类数据进行智能化处理,如文本解析、内容总结、关键词提取、情感分析、格式标准化等,实现数据的智能加工。
操作步骤
单击节点右侧的Use LLM,节点名称默认为use_llm,若重名会自动在末尾追加数字(如use_llm1、use_llm2)。您可按以下说明完成配置,配置完成后单击应用即可。
表4 Use LLM配置界面说明
| 配置项 | 说明 |
|---|---|
| 系统提示词 | 输入系统提示词,用于引导模型的行为。 |
| 用户提示词 | 输入用户提示词,向大模型传递待处理的文本数据。 |
| 选择模型 | 目前仅支持deepseek-v3模型。 |
| 温度 | 需输入0~1之前的浮点数,数值越小输出越稳定,数值越大输出越灵活。 |
| 最大Token数 | 需输入大于0的整数。限制模型返回内容的最大长度,避免输出过长。 |
| 停止序列 | 单击添加停止标识,可设置最多4个停止标识,模型生成到该内容时会自动停止输出。 |
| 输出字段类型 | 目前仅支持STRING。 |
| 输出列名 | 可自定义输出列名称。支持英文、数字、下划线,必须以字母开头,长度1~128个字符。 |
输出
输出作为数据管道的数据出口,核心功能是将处理组件加工完成的数据,写入指定的目标存储或业务模块,实现数据的落地使用,完成整个数据处理链路的闭环。其中,Output组件是输出环节的核心载体,负责承接处理后的规范数据,执行具体的写入操作,保障数据输出的准确性和高效性。该组件主要包含Structure Data和Object Type两部分,具体内容如下:
Structure Data
用于配置结构化输出的整体结构,指定模型返回数据的字段、类型与格式,确保输出结果规范、可直接用于后续数据处理。
操作步骤
单击节点右侧的Structure Data组件,节点名称默认为output,若重名会自动在末尾追加数字(如output1、output2)。您可按以下说明完成配置,配置完成后单击应用即可。
表5 Structure Data配置界面说明
| 配置项 | 说明 |
|---|---|
| 输出目录 | 用于指定结构化数据输出后存储的文件夹路径。 |
| 新建数据集 | 新建数据集来存储结构化输出结果,需填写数据集名称,支持英文、数字、下划线,必须以字母开头,长度为1~128个字符。 |
| 写入模式 | 配置数据写入的规则,支持追加写入(将新数据新增至目标位置已有数据末尾)和覆盖写入(替换原有数据)。 |
| 描述 | 对当前输出任务的描述,不超过100字。 |
| 输出字段 | 可自定义需要输出的字段列表,也可以单击智能推荐按钮,一键添加所以字段。 |
| 分区信息 | 用于配置数据分区规则,需填写字段名称(选择分区依据字段)和转换函数(对字段进行处理后再分区)。 |
Object Type
用于定义结构化对象中每个字段的名称、数据类型与说明,明确每个输出字段的含义与约束,保证结构化数据解析稳定可靠。
操作步骤
单击节点右侧的Object Type,节点名称默认为output,若重名会自动在末尾追加数字(如output1、output2)。您可按以下说明完成配置,配置完成后单击应用即可。
表6 Object Type配置界面说明
| 配置项 | 说明 |
|---|---|
| Object Type | 用于定义结构化输出对象的类型,您可以单击新建Object Type,创建一个业务需要的对象类型。关于新建Object Type,您可参见 |
| 写入模式 | 配置数据写入的规则,支持覆盖写入(替换原有数据)和更新写入(仅更新匹配条件的数据)。 |
| 输出字段 | 可自定义需要输出的字段列表,也可以单击智能推荐按钮,一键添加所以字段。 |
评价此篇文章
