支持添加类型

更新时间：2026-05-13

概述

数据管道组件分为输入、处理、输出三类，协同完成数据全流程自动化处理：

输入组件：采集原始数据，作为数据原料；
处理组件：清洗、转换、关联数据，让杂乱数据变规范可用；
输出组件：将处理好的数据写入指定目标，供后续使用。

输入

输入作为数据管道的数据入口，核心功能是读取各类原始数据源，为后续数据处理环节提供基础原料，确保数据采集的灵活性、全面性。输入组件支持两种方式进行数据输入：

输入表：直接输入表格数据，适用于数据量较少、可手动录入的场景。
添加数据：选择已创建项目的结构化数据集和媒体集，快速完成数据添加。

处理

处理是数据管道的核心加工环节，承接输入采集的原始数据，通过各类功能组件的组合配置，完成数据的清洗、转换、关联、合并、AI辅助处理等操作，是将原始数据转化为可用数据的关键。为满足不同场景的数据加工需求，平台支持5类核心处理组件，具体如下：

Transform

Transform是数据处理流程中的核心加工环节，核心作用是对上游异构、非标准化数据，通过添加算子进行数据清洗、格式转换和规则加工，输出符合业务要求的规范数据。

操作步骤

单击节点右侧的Transform，节点名称默认为transform，若重名会自动在末尾追加数字（如transform1、transform2）。单击添加算子，您可按一下说明完成配置，配置完成后单击应用即可。您也可以单击右侧“小眼睛”图标，查看该节点的输入数据和加工后的输出数据。

表1 Transform配置界面说明

配置项	说明
表达式	搜索函数或逻辑表达式对数据进行计算、转换等处理。
列名	选择需要进行转换操作的数据源列，自定义转换后输出列的名称。
常量	选择常量类型，输入常量值，作为转换逻辑中的固定参数使用。

更多算子的使用说明请参见Transform组件算子使用说明文档。

Join

Join是数据处理流程中的数据拼接工具，核心作用是将两个不同的表，根据条件，拼接成一个完整的表，相当于把分散在不同表中的相关数据，整合到一起，方便后续加工、输出。

操作步骤

单击节点右侧的Join，节点名称默认为join，若重名会自动在末尾追加数字（如join1、join2）。您可按以下说明完成配置，配置完成后单击应用即可。

表2 Join配置界面说明

配置项	说明
Join方式	支持内连接、左外连接、右外连接、交叉连接、全外连接、左半连接和左反连接。其中内连接、左外连接、右外连接为最常用的方式，具体操作导向说明如下：内连接：仅保留两张表中连接条件（如用户 ID）完全匹配的记录。左外连接：保留左表所有数据，右表仅匹配对应数据，无匹配字段显示为空。右外连接：保留右表所有数据，左表仅匹配对应数据，无匹配字段显示为空。交叉连接、全外连接、左半连接、左反连接：日常操作比较少用，仅在特殊筛选、数据处理场景下使用。
Join数据	展示已选中的两个待连接的节点。支持交换两张表的左右位置。
Join条件	支持配置表之间的连接条件，也支持同时配置多个连接条件。
选择输出列	可勾选左侧表、右侧表中需要输出的字段，同时右侧表的输出字段可配置前缀。
右表列名前缀	输入右表列名前缀，用于给右表字段添加自定义前缀，避免与左表同名字段冲突，方便区分字段来源。

Union

Union是数据处理流程中的多表合并组件，核心功能是将结构相同（字段名称、字段类型一致）的多张数据表进行纵向合并，把多张表的行数据整合到同一张表中，实现同结构多表数据的汇总。

操作步骤

单击节点右侧的Union，节点名称默认为union，若重名会自动在末尾追加数字（如union1、union2）。您可按以下说明完成配置，配置完成后单击应用即可。

表3 Union配置界面说明

配置项	说明
Union方式	支持两种合并方式（均不带去重功能）：根据列名做union：按字段名称对应合并数据。根据列位置做union：按字段先后顺序对应合并数据。
Union数据	展示已选中的两个待连接的节点。支持查看数据详情：表一：第一个待合并节点的原始数据。表二：第二个待合并节点的原始数据。支持查看数据详情：Union后的表：两张表合并后的最终数据。

Use LLM

Use LLM是数据处理流程中的AI赋能算子，核心功能是调用大语言模型（LLM）对数据表中的文本类数据进行智能化处理，如文本解析、内容总结、关键词提取、情感分析、格式标准化等，实现数据的智能加工。

操作步骤

单击节点右侧的Use LLM，节点名称默认为use_llm，若重名会自动在末尾追加数字（如use_llm1、use_llm2）。您可按以下说明完成配置，配置完成后单击应用即可。

表4 Use LLM配置界面说明

配置项	说明
系统提示词	输入系统提示词，用于引导模型的行为。
用户提示词	输入用户提示词，向大模型传递待处理的文本数据。
选择模型	目前仅支持deepseek-v3模型。
温度	需输入0～1之前的浮点数，数值越小输出越稳定，数值越大输出越灵活。
最大Token数	需输入大于0的整数。限制模型返回内容的最大长度，避免输出过长。
停止序列	单击添加停止标识，可设置最多4个停止标识，模型生成到该内容时会自动停止输出。
输出字段类型	目前仅支持STRING。
输出列名	可自定义输出列名称。支持英文、数字、下划线，必须以字母开头，长度1～128个字符。

输出

输出作为数据管道的数据出口，核心功能是将处理组件加工完成的数据，写入指定的目标存储或业务模块，实现数据的落地使用，完成整个数据处理链路的闭环。其中，Output组件是输出环节的核心载体，负责承接处理后的规范数据，执行具体的写入操作，保障数据输出的准确性和高效性。该组件主要包含Structure Data和Object Type两部分，具体内容如下：

Structure Data

用于配置结构化输出的整体结构，指定模型返回数据的字段、类型与格式，确保输出结果规范、可直接用于后续数据处理。

操作步骤

单击节点右侧的Structure Data组件，节点名称默认为output，若重名会自动在末尾追加数字（如output1、output2）。您可按以下说明完成配置，配置完成后单击应用即可。

表5 Structure Data配置界面说明

配置项	说明
输出目录	用于指定结构化数据输出后存储的文件夹路径。
新建数据集	新建数据集来存储结构化输出结果，需填写数据集名称，支持英文、数字、下划线，必须以字母开头，长度为1～128个字符。
写入模式	配置数据写入的规则，支持追加写入（将新数据新增至目标位置已有数据末尾）和覆盖写入（替换原有数据）。
描述	对当前输出任务的描述，不超过100字。
输出字段	可自定义需要输出的字段列表，也可以单击智能推荐按钮，一键添加所以字段。
分区信息	用于配置数据分区规则，需填写字段名称（选择分区依据字段）和转换函数（对字段进行处理后再分区）。

Object Type

用于定义结构化对象中每个字段的名称、数据类型与说明，明确每个输出字段的含义与约束，保证结构化数据解析稳定可靠。

操作步骤

单击节点右侧的Object Type，节点名称默认为output，若重名会自动在末尾追加数字（如output1、output2）。您可按以下说明完成配置，配置完成后单击应用即可。

表6 Object Type配置界面说明

配置项	说明
Object Type	用于定义结构化输出对象的类型，您可以单击新建Object Type，创建一个业务需要的对象类型。关于新建Object Type，您可参见
写入模式	配置数据写入的规则，支持覆盖写入（替换原有数据）和更新写入（仅更新匹配条件的数据）。
输出字段	可自定义需要输出的字段列表，也可以单击智能推荐按钮，一键添加所以字段。

评价此篇文章

有帮助没帮助

数据管道任务管理

Transform组件算子使用说明

百度智能云

百度胜算

百度胜算

支持添加类型

概述

输入

处理

Transform

操作步骤

Join

操作步骤

Union

操作步骤

Use LLM

操作步骤

输出

Structure Data

操作步骤

Object Type

操作步骤