Transform组件算子使用说明
本文将详细说明各算子的用途、使用方法,涵盖计算、字符串、逻辑判断、日期等各类常用场景,便于快速上手使用。
聚合类
聚合(aggregate)
对一组数据进行汇总计算,将多条数据的指定字段合并为单个结果,是多维度数据统计的核心算子。您可以按以下说明完成配置。
表1 聚合配置界面说明
| 配置项 | 说明 |
|---|---|
| 分组字段 | 支持输入多个列,并且支持拖拽改变列的顺序。 |
| 聚合表达式 | 配置需要执行的聚合计算规则,可使用聚合函数对指定字段进行统计计算。 |
| 新增聚合表达式 | 点击可添加聚合表达式,支持同时配置多个不同的聚合计算逻辑。 |
计数(Count)
统计指定字段或数据表的行数,包含空值(NULL)在内的所有记录都会被计数,适用于数据量统计场景。
表2 计数配置界面说明
| 配置项 | 说明 |
|---|---|
| 分组字段 | 支持输入多个列,并且支持拖拽改变列的顺序。 |
| 聚合表达式 | 配置计数相关的聚合计算规则,使用聚合函数对指定字段进行统计。 |
| 新增聚合表达式 | 点击可添加聚合表达式,支持同时配置多个不同的聚合计算逻辑。 |
去重计数(DistinctCount)
统计指定字段中不重复值的数量,自动过滤重复数据,仅计算唯一值的条数,适用于唯一值统计场景。
表3 去重计数配置界面说明
| 配置项 | 说明 |
|---|---|
| 分组字段 | 支持输入多个列,并且支持拖拽改变列的顺序。 |
| 聚合表达式 | 配置去重计数相关的聚合计算规则,使用聚合函数对指定字段进行去重统计。 |
| 新增聚合表达式 | 点击可添加聚合表达式,支持同时配置多项独立的去重计数统计逻辑。 |
最大值(Max)
从指定数值型或日期型字段中筛选出最大值,适用于极值统计场景(如最高金额、最新日期等)。
表4 最大值配置界面说明
| 配置项 | 说明 |
|---|---|
| 分组字段 | 支持输入多个列,并且支持拖拽改变列的顺序。 |
| 聚合表达式 | 配置最大值相关的聚合计算规则,可使用聚合函数获取指定字段的最大值。 |
| 新增聚合表达式 | 点击可添加聚合表达式,支持同时配置多个不同的最大值逻辑。 |
最小值(Min)
从指定数值型或日期型字段中筛选出最小值,适用于极值统计场景(如最小金额、最早日期等)。
表5 最小值配置界面说明
| 配置项 | 说明 |
|---|---|
| 分组字段 | 支持输入多个列,并且支持拖拽改变列的顺序。 |
| 聚合表达式 | 配置最小值相关的聚合计算规则,可使用聚合函数获取指定字段的最小值。 |
| 新增聚合表达式 | 点击可添加聚合表达式,支持同时配置多个不同的最小值逻辑。 |
求和(Sum)
对指定数值字段进行累加求和。
表6 求和配置界面说明
| 配置项 | 说明 |
|---|---|
| 分组字段 | 支持输入多个列,并且支持拖拽改变列的顺序。 |
| 聚合表达式 | 配置求和相关的聚合计算规则,可使用聚合函数对指定字段进行求和计算。 |
| 新增聚合表达式 | 点击可添加聚合表达式,支持同时配置多个不同的求和逻辑。 |
窗口函数
密集排名(DenseRank)
对数据进行连续排名,相同值排名相同,序号不会跳号。
表6 密集排名配置界面说明
| 配置项 | 说明 |
|---|---|
| 分组字段 | 支持输入多个列,并且支持拖拽改变列的顺序。 |
| 排序字段 | 配置密集排名的排序规则,指定排序字段与升降序方式,用于确定排名顺序。 |
| 新增排序字段 | 点击可添加多个排序字段,支持按多字段组合排序。 |
| 表达式列表 | 展示已配置的密集排名表达式,支持输入输出列的名称。 |
| 新增表达式 | 点击可添加新的密集排名表达式,支持同时配置多条独立的排名逻辑。 |
第一个值(FirstValue)
获取分组或排序后结果集中的第一条数据。
表7 第一个值配置界面说明
| 配置项 | 说明 |
|---|---|
| 分组字段 | 支持输入多个列,并且支持拖拽改变列的顺序。 |
| 排序字段 | 配置第一个值的排序规则,指定排序字段与升降序方式,用于确定排名顺序。 |
| 新增排序字段 | 点击可添加多个排序字段,支持按多字段组合排序。 |
| 表达式列表 | 展示已配置的第一个值表达式,可选择表达式,设置是否忽略空值,支持输入输出列的名称。 |
| 新增表达式 | 点击可添加新的获取第一个值的表达式,支持同时配置多个不同的第一个值逻辑。 |
前N行(Lag)
获取当前行前面第 N 行的数据。
表8 前N行配置界面说明
| 配置项 | 说明 |
|---|---|
| 分组字段 | 支持输入多个列,并且支持拖拽改变列的顺序。 |
| 排序字段 | 配置前N行值的排序规则,指定排序字段与升降序方式,用于确定数据顺序。 |
| 新增排序字段 | 点击可添加多个排序字段,支持按多字段组合排序。 |
| 表达式列表 | 展示已配置的前N行表达式,可选择表达式、设置偏移量与默认值,支持输入输出列的名称。 |
| 新增表达式 | 点击可添加新的前N行表达式,支持同时配置多个不同的获取前N行数据的逻辑。 |
最后一个值(LastValue)
返回分区内有序值集合中的最后一个值。
表9 最后一个值配置界面说明
| 配置项 | 说明 |
|---|---|
| 分组字段 | 支持输入多个列,并且支持拖拽改变列的顺序。 |
| 排序字段 | 配置最后一个值的排序规则,指定排序字段与升降序方式,用于确定排名顺序。 |
| 新增排序字段 | 点击可添加多个排序字段,支持按多字段组合排序。 |
| 表达式列表 | 展示已配置的最后一个值表达式,可选择表达式,设置是否忽略空值,支持输入输出列的名称。 |
| 新增表达式 | 点击可添加新的获取最后一个值的表达式,支持同时配置多个不同的最后一个值的逻辑。 |
后N行(Lead)
访问分区内当前行之后指定偏移量的行的值,无需使用自连接。
表10 后N行配置界面说明
| 配置项 | 说明 |
|---|---|
| 分组字段 | 支持输入多个列,并且支持拖拽改变列的顺序。 |
| 排序字段 | 配置后N行值的排序规则,指定排序字段与升降序方式,用于确定数据顺序。 |
| 新增排序字段 | 点击可添加多个排序字段,支持按多字段组合排序。 |
| 表达式列表 | 展示已配置的后N行表达式,可选择表达式、设置偏移量与默认值,支持输入输出列的名称。 |
| 新增表达式 | 点击可添加新的后N行表达式,支持同时配置多个不同的获取后N行数据的逻辑。 |
分桶(Ntile)
将分区内的行分配到指定数量的近似相等的组中,为每一行分配一个桶号。
表11 后N行值配置界面说明
| 配置项 | 说明 |
|---|---|
| 分组字段 | 支持输入多个列,并且支持拖拽改变列的顺序。 |
| 排序字段 | 配置分桶算子的排序规则,指定排序字段与升降序方式,用于确定数据顺序。 |
| 新增排序字段 | 点击可添加多个排序字段,支持按多字段组合排序。 |
| 表达式列表 | 展示已配置的分桶表达式,设置数量,支持输入输出列的名称。 |
| 新增表达式 | 点击可添加新的分桶算子表达式,支持同时配置多个不同的分桶算子的逻辑。 |
百分比排名(PercentRank)
计算分区内行的相对排名百分比,返回值范围在0到1之间。
表12 百分比排名配置界面说明
| 配置项 | 说明 |
|---|---|
| 分组字段 | 支持输入多个列,并且支持拖拽改变列的顺序。 |
| 排序字段 | 配置百分比排名的排序规则,指定排序字段与升降序方式,用于确定数据顺序。 |
| 新增排序字段 | 点击可添加多个排序字段,支持按多字段组合排序。 |
| 表达式列表 | 展示已配置的百分比排名表达式,支持输入输出列的名称。 |
| 新增表达式 | 点击可添加新的百分比排名表达式,支持同时配置多个不同百分比排名的逻辑。 |
排名(Rank)
为分区内的每一行分配一个排名,相同值的行获得相同排名,但排名值可能不连续(有间隔)。
表13 排名配置界面说明
| 配置项 | 说明 |
|---|---|
| 分组字段 | 支持输入多个列,并且支持拖拽改变列的顺序。 |
| 排序字段 | 配置排名的排序规则,指定排序字段与升降序方式,用于确定数据顺序。 |
| 新增排序字段 | 点击可添加多个排序字段,支持按多字段组合排序。 |
| 表达式列表 | 展示已配置的排名表达式,支持输入输出列的名称。 |
| 新增表达式 | 点击可添加新的排名表达式,支持同时配置多个不同排名的逻辑。 |
行号(RowNumber)
为分区内的每一行分配一个唯一的连续整数,从1开始。
表14 行号配置界面说明
| 配置项 | 说明 |
|---|---|
| 分组字段 | 支持输入多个列,并且支持拖拽改变列的顺序。 |
| 排序字段 | 配置行号的排序规则,指定排序字段与升降序方式,用于确定数据顺序。 |
| 新增排序字段 | 点击可添加多个排序字段,支持按多字段组合排序。 |
| 表达式列表 | 展示已配置的行号表达式,支持输入输出列的名称。 |
| 新增表达式 | 点击可添加新的行号表达式,支持同时配置多个不同行号的逻辑。 |
数组
展开数组(ExplodeArray)
将数组展开为每行一个值。将数组中的每个元素展开为单独的行,原始数组中的每个元素对应输出表中的一行。
表15 展开数组配置界面说明
| 配置项 | 说明 |
|---|---|
| 表达式列表 | 展示已配置的展开数组表达式,可选择表达式、设置是否保留空数组或null数组,支持输入输出列的名称。 |
数组扁平化(FlattenArray)
展平嵌套数组函数,将嵌套数组(数组的数组)展平为一维数组。
表15 数组扁平化配置界面说明
| 配置项 | 说明 |
|---|---|
| 表达式列表 | 展示已配置的数组扁平化表达式,填写输入(input),支持输入输出列的名称。 |
字节
Base64编码(Base64)
将字符串或二进制数据转换为 Base64 格式字符串。
表16 Base64编码配置界面说明
| 配置项 | 说明 |
|---|---|
| 表达式列表 | 展示已配置的Base64编码表达式,需填写表达式(expression),支持输入输出列的名称。 |
Base64解码(Unbase64)
将 Base64 格式字符串还原为原始字符串。
表17 Base64解码配置界面说明
| 配置项 | 说明 |
|---|---|
| 表达式列表 | 展示已配置的Base64解码表达式,需填写表达式(expression),支持输入输出列的名称。 |
布尔型
等于(Equals)
相等比较运算符,判断两个表达式是否相等。
表18 等于算子配置界面说明
| 配置项 | 说明 |
|---|---|
| 表达式 | 输入左右两侧表达式,配置相等判断逻辑。支持自定义输入输出列的名称。 |
大于(GreaterThan)
大于比较运算符,判断左侧表达式是否大于右侧表达式。
表19 大于算子配置界面说明
| 配置项 | 说明 |
|---|---|
| 表达式 | 输入左右两侧表达式,配置大于判断逻辑。支持自定义输入输出列的名称。 |
大于等于(GreaterThanOrEquals)
大于等于比较运算符,判断左侧表达式是否大于或等于右侧表达式。
表20 大于等于算子配置界面说明
| 配置项 | 说明 |
|---|---|
| 表达式 | 输入左右两侧表达式,配置大于等于判断逻辑。支持自定义输入输出列的名称。 |
包含(In)
包含运算符,判断表达式是否在指定的值列表中。
表21 包含算子配置界面说明
| 配置项 | 说明 |
|---|---|
| 表达式 | 输入左右两侧表达式,配置in 包含判断逻辑。支持自定义输入输出列的名称。 |
是否非空(IsNotNull)
非空值判断运算符,判断表达式是否不为NULL。
表22 是否非空算子配置界面说明
| 配置项 | 说明 |
|---|---|
| 表达式 | 输入表达式,配置isNotNull 不为空判断逻辑。支持自定义输入输出列的名称。 |
是否为空(IsNull)
空值判断运算符,判断表达式是否为NULL。
表23 是否为空算子配置界面说明
| 配置项 | 说明 |
|---|---|
| 表达式 | 输入表达式,配置isNull 为空判断逻辑。支持自定义输入输出列的名称。 |
小于(LessThan)
小于比较运算符,判断左侧表达式是否小于右侧表达式。
表24 小于算子配置界面说明
| 配置项 | 说明 |
|---|---|
| 表达式 | 输入左右两侧表达式,配置小于判断逻辑。支持自定义输入输出列的名称。 |
小于等于(LessThanOrEquals)
小于等于比较运算符,判断左侧表达式是否小于或等于右侧表达式。
表25 小于等于算子配置界面说明
| 配置项 | 说明 |
|---|---|
| 表达式 | 输入左右两侧表达式,配置小于等于判断逻辑。支持自定义输入输出列的名称。 |
非(Not)
逻辑非运算符,对条件表达式进行逻辑取反运算。
表26 非算子配置界面说明
| 配置项 | 说明 |
|---|---|
| 表达式 | 展示已配置的非算子表达式,设置条件(condition),支持输入输出列的名称。 |
不等于(NotEquals)
不等比较运算符,判断两个表达式是否不相等。
表27 不等于算子配置界面说明
| 配置项 | 说明 |
|---|---|
| 表达式 | 输入左右两侧表达式,配置不等于判断逻辑。支持自定义输入输出列的名称。 |
不包含(NotIn)
不包含运算符,判断表达式是否不在指定的值列表中。
表28 不包含算子配置界面说明
| 配置项 | 说明 |
|---|---|
| 表达式 | 输入左侧表达式,配置not in 不包含判断逻辑,单击添加元素,设置右侧表达式,可添加多个元素。支持自定义输入输出列的名称。 |
类型转换
类型转换(Cast)
类型转换函数,将值转换为目标数据类型。
表29 类型转换配置界面说明
| 配置项 | 说明 |
|---|---|
| 表达式 | 展示已配置的类型转换表达式,设置表达式(expr)和类型(type),支持输入输出列的名称。 |
日期格式化(DateFormat)
将时间戳转换为指定格式的字符串。
表30 日期格式话配置界面说明
| 配置项 | 说明 |
|---|---|
| 表达式 | 展示已配置的日期格式化表达式,设置时间戳(timestamp)和格式(format),支持输入输出列的名称。 |
Base64解码(Unbase64)
将Base64编码的字符串解码。
表30 Base64解码配置界面说明
| 配置项 | 说明 |
|---|---|
| 表达式 | 展示已配置的Base64解码表达式,需填写表达式(expression),支持输入输出列的名称。 |
媒体类型
PDF抽取算子(extract_entity_from_pdf)
支持从PDF中提取各种实体信息将文档数据转化成结构化数据。
表31 PDF抽取算子配置界面说明
| 配置项 | 说明 |
|---|---|
| 分析服务 | 选择用于PDF文件内容抽取的分析服务实例。 |
| 输入列名 | 指定数据集中存储PDF文件的输入列名称。 |
| 字段映射 | 填写输出字段名。支持英文、数字、下划线,必须以字母开头,长度为1~128个字符。 |
PDF解析算子(extract_text_from_pdf)
支持将PDF的内容解析成text。
表32 PDF解析算子配置界面说明
| 配置项 | 说明 |
|---|---|
| 分析服务 | 选择用于PDF文件内容解析的分析服务实例。 |
| 输入列名 | 指定数据集中存储PDF文件的输入列名称。 |
| 输出列名 | 支持自定义输入输出列名。 |
数字类型
加法(AddNumbers)
数值相加函数,对多个数值表达式进行求和运算。
表33 加法算子配置界面说明
| 配置项 | 说明 |
|---|---|
| 表达式 | 展示已配置的加法表达式,单击添加元素,设置数组列表,可添加多个元素,支持输入输出列的名称。 |
除法(DivideNumbers)
对多个数值表达式进行除法运算。
表34 除法算子配置界面说明
| 配置项 | 说明 |
|---|---|
| 表达式 | 展示已配置的除法表达式,单击添加元素,设置数组列表,可添加多个元素。支持输入输出列的名称。 |
十六进制编码(Hex)
将字符串转换为十六进制表示。
表35 十六进制编码配置界面说明
| 配置项 | 说明 |
|---|---|
| 表达式 | 展示已配置的十六进制编码表达式,设置表达式(expression),支持输入输出列的名称。 |
取模(Mod)
返回第一个参数除以第二个参数的余数。
表36 取模配置界面说明
| 配置项 | 说明 |
|---|---|
| 表达式 | 展示已配置的取模表达式,设置左表达式(left)和右表达式(right),支持输入输出列的名称。 |
乘法(MultiplyNumbers)
数值相乘函数,对多个数值表达式进行乘法运算。
表37 乘法配置界面说明
| 配置项 | 说明 |
|---|---|
| 表达式 | 展示已配置的乘法表达式,单击添加元素,设置数组列表,可添加多个元素。支持输入输出列的名称。 |
减法(SubtractNumbers)
数值相减函数,对多个数值表达式进行减法运算。
表38 减法配置界面说明
| 配置项 | 说明 |
|---|---|
| 表达式 | 展示已配置的减法表达式,单击添加元素,设置数组列表,可添加多个元素。支持输入输出列的名称。 |
正则表达式
正则提取(RegexpExtract)
使用正则表达式提取字符串中的匹配部分。
表39 正则提取配置界面说明
| 配置项 | 说明 |
|---|---|
| 表达式 | 展示已配置的正则提取表达式,设置表达式(expression)、模式(pattern)和分组索引(groupIndex)。支持输入输出列的名称。 |
正则匹配(RegexpLike)
判断字符串是否匹配正则表达式。
表40 正则匹配配置界面说明
| 配置项 | 说明 |
|---|---|
| 表达式 | 展示已配置的正则匹配表达式,设置表达式(expression)和模式(pattern)。支持输入输出列的名称。 |
正则替换(RegexpReplace)
使用正则表达式替换字符串中的匹配部分。
表41 正则替换配置界面说明
| 配置项 | 说明 |
|---|---|
| 表达式 | 展示已配置的正则替换表达式,设置表达式(expression)、模式(pattern)和替换内容(replacement)。支持输入输出列的名称。 |
字符串类型
连接字符串(Concat)
使用分隔符连接多个字符串。
表42 连接字符串配置界面说明
| 配置项 | 说明 |
|---|---|
| 表达式 | 展示已配置的连接字符串表达式,设置分隔符(separator)和表达式列表(expressions),表达式列表可以添加多个元素。支持输入输出列的名称。 |
日期格式化(DateFormat)
将时间戳转换为指定格式的字符串。
表43 日期格式化配置界面说明
| 配置项 | 说明 |
|---|---|
| 表达式 | 展示已配置的日期格式化表达式,设置时间戳(timestamp)和格式(format)。支持输入输出列的名称。 |
以...结束(EndsWith)
后缀匹配运算符,判断字符串是否以指定后缀结尾。
表44 以...结束配置界面说明
| 配置项 | 说明 |
|---|---|
| 表达式 | 展示已配置的以...结束表达式,设置左右两侧的表达式,配置以...结尾判断逻辑。支持输入输出列的名称。 |
提取QA信息(ExtractQaPairs)
使用 LLM 提取文本的QA信息。
表45 提取QA信息配置界面说明
| 配置项 | 说明 |
|---|---|
| 表达式 | 展示已配置的提取QA信息表达式,设置表达式(expression)和模型(model)。支持输入输出列的名称。 |
提取摘要(ExtractSummary)
使用 LLM 提取文本的摘要。
表46 提取摘要配置界面说明
| 配置项 | 说明 |
|---|---|
| 表达式 | 展示已配置的提取摘要表达式,设置表达式(expression)和模型(model)。支持输入输出列的名称。 |
提取三元组(ExtractTriplets)
使用 LLM 提取文本中的三元组。
表47 提取三元组配置界面说明
| 配置项 | 说明 |
|---|---|
| 表达式 | 展示已配置的提取三元组表达式,设置表达式(expression)和模型(model)。支持输入输出列的名称。 |
十六进制编码(Hex)
将字符串转换为十六进制表示。
表48 十六进制编码配置界面说明
| 配置项 | 说明 |
|---|---|
| 表达式 | 展示已配置的十六进制编码表达式,设置表达式(expression)。支持输入输出列的名称。 |
左截取(Left)
从字符串左侧提取指定长度的子串。
表49 左截取配置界面说明
| 配置项 | 说明 |
|---|---|
| 表达式 | 展示已配置的左截取表达式,设置表达式(expression)和长度(length)。支持输入输出列的名称。 |
长度(Length)
获取字符串的长度。
表50 长度配置界面说明
| 配置项 | 说明 |
|---|---|
| 表达式 | 展示已配置的长度表达式,设置表达式(expression)。支持输入输出列的名称。 |
转小写(Lower)
将字符串转换为小写。
表51 长度配置界面说明
| 配置项 | 说明 |
|---|---|
| 表达式 | 展示已配置的转小写表达式,设置表达式(expression)。支持输入输出列的名称。 |
去除左空格(Ltrim)
去除字符串左端的指定字符(默认为空白字符)。
表51 去除左空格配置界面说明
| 配置项 | 说明 |
|---|---|
| 表达式 | 展示已配置的去除左空格表达式,设置表达式(expression)和去除字符串(trimStr)。支持输入输出列的名称。 |
文本切分(PbTextChunker)
基于 Chonkie 对文本进行切分。
表52 文本切分配置界面说明
| 配置项 | 说明 |
|---|---|
| 表达式 | 展示已配置的文本切分表达式,设置内容(content)、输入类型(input_type)、块大小(chunk_size)、重叠大小(chunk_overlap)、分隔符(delim)和文档类型(file_type),其中分隔符可以添加多种元素。支持输入输出列的名称。 |
句子切分(PbTextSentenceChunker)
从 chunk 中按句号等分隔符提取句子。
表53 句子切分配置界面说明
| 配置项 | 说明 |
|---|---|
| 表达式 | 展示已配置的句子切分表达式,设置chunk(chunk)和分隔符(delim),其中分隔符可以添加多种元素。支持输入输出列的名称。 |
替换(Replace)
替换字符串中的子串。
表54 替换配置界面说明
| 配置项 | 说明 |
|---|---|
| 表达式 | 展示已配置的替换表达式,设置表达式(expression)、查找字符串(search)和替换字符串(replace)。支持输入输出列的名称。 |
右截取(Right)
从字符串右侧提取指定长度的子串。
表55 右截取配置界面说明
| 配置项 | 说明 |
|---|---|
| 表达式 | 展示已配置的右截取表达式,设置表达式(expression)和长度(length)。支持输入输出列的名称。 |
去除右空格(Rtrim)
去除字符串右端的指定字符(默认为空白字符)。
表56 去除右空哥配置界面说明
| 配置项 | 说明 |
|---|---|
| 表达式 | 展示已配置的去除右空格表达式,设置表达式(expression)和去除字符串(trimStr)。支持输入输出列的名称。 |
分割(SplitString)
按正则表达式模式分割字符串为数组,可指定限制分割次数。
表57 分割配置界面说明
| 配置项 | 说明 |
|---|---|
| 表达式 | 展示已配置的分割表达式,设置表达式(expression)、正则表达式模式(pattern)和限制数量(limit)。支持输入输出列的名称。 |
以...开始(StartsWith)
前缀匹配运算符,判断字符串是否以指定前缀开头。
表58 以...开始配置界面说明
| 配置项 | 说明 |
|---|---|
| 表达式 | 展示已配置的以...开始表达式,设置左右两侧的表达式,配置以...开头判断逻辑。支持输入输出列的名称。 |
子字符串(Substring)
提取字符串的子串。
表59 子字符串配置界面说明
| 配置项 | 说明 |
|---|---|
| 表达式 | 展示已配置的子字符串表达式,设置表达式(expression)、起始位置(start)和长度(length)。支持输入输出列的名称。 |
文本嵌入(TextEmbedding)
使用 Embedding 模型生成文本的嵌入向量。
表60 文本嵌入配置界面说明
| 配置项 | 说明 |
|---|---|
| 表达式 | 展示已配置的文本嵌入表达式,设置表达式(expression)和模型(model)。支持输入输出列的名称。 |
去除空格(Trim)
去除字符串两端的指定字符(默认为空白字符)。
表61 去除空格配置界面说明
| 配置项 | 说明 |
|---|---|
| 表达式 | 展示已配置的去除空格表达式,设置表达式(expression)和去除字符串(trimStr)。支持输入输出列的名称。 |
转大写(Upper)
将字符串转换为大写。
表62 转大写配置界面说明
| 配置项 | 说明 |
|---|---|
| 表达式 | 展示已配置的转大写表达式,设置表达式(expression)。支持输入输出列的名称。 |
结构体
结构体扁平化(flatten_struct)
支持将结构体的数据类型打平成多个列。
表63 结构体扁平化配置界面说明
| 配置项 | 说明 |
|---|---|
| 输入列 | 指定需要进行扁平化处理的结构体类型输入列。 |
| 最大解析度 | 设置结构体字段的最大解析深度,控制嵌套层级的展开程度。 |
| 列名称前缀 | 为展开后的新字段名称添加统一前缀,便于区分和识别。 |
| 分隔符 | 设置展开后多级字段名称之间的连接符号,规范字段命名格式。 |
获取结构体字段(GetStructField)
从结构体中提取指定字段的值,支持通过点分隔的路径(如 'airline.id')。
表64 获取结构体字段配置界面说明
| 配置项 | 说明 |
|---|---|
| 表达式 | 展示已配置的获取结构体字段表达式,设置结构体(struct)和定位器(locator)。支持输入输出列的名称。 |
其他
去重(drop_duplicates)
支持选择按照多个列进行去重。
表65 去重配置界面说明
| 配置项 | 说明 |
|---|---|
| 去重字段列表 | 输入去重字段列表。 |
排序(sort)
支持选择多个列设置排序规则,包含升序和降序并且支持调整列的顺序。
表66 排序配置界面说明
| 配置项 | 说明 |
|---|---|
| 排序字段 | 配置排序规则,指定排序字段与升降序方式,用于确定排名顺序。 |
| 新增排序字段 | 点击可添加多个排序字段,支持按多字段组合排序。 |
SQL(sql)
支持在管道中直接编写SQL,和各个算子联合使用。
表67 SQL配置界面说明
| 配置项 | 说明 |
|---|---|
| SQL编辑器 | 提供SQL语句编写、编辑、语法校验的可视化编辑区域,支持输入自定义SQL逻辑实现数据查询、过滤、聚合、关联等操作,支持语法高亮、关键字提示、换行缩进等便捷编辑功能。 |
窗口(window)
支持窗口函数,支持分区字段配置、排序字段配置、窗口函数支持。
表68 窗口配置界面说明
| 配置项 | 说明 |
|---|---|
| 分组字段 | 支持输入多个列,并且支持拖拽改变列的顺序。 |
| 排序字段 | 配置窗口的排序规则,指定排序字段与升降序方式,用于确定排名顺序。 |
| 新增排序字段 | 点击可添加多个排序字段,支持按多字段组合排序。 |
| 表达式列表 | 展示已配置的密集排名表达式,支持输入输出列的名称。 |
| 新增表达式 | 点击可添加新的密集排名表达式,支持同时配置多条独立的排名逻辑。 |
评价此篇文章
