算子
更新时间:2025-10-24
在元数据中可以查看内置算子和在工作流中使用内置算子。
查看内置算子
在system 数据目录中内置多个算子,单击名为system的数据目录展开可查看当前内置算子。单击具体算子名称可查看对应的算子概览和算子详情。
概览
通过tab切换可查看算子概览信息。包括描述、使用说明和版本列表。
- 描述:关于函数能力的介绍。
- 使用说明:包括函数详细介绍、使用方式说明和数据处理示例。
- 版本列表:介绍算子的版本信息,以列表形式展示。列表可查看版本的详细信息,包括版本号、ID和创建时间等,单击版本号可展开查看版本详情。
表1 版本列表项说明
| 列表项名称 | 说明 |
|---|---|
| 版本号 | 对应算子的版本号。单击版本号可展开查看版本详情。 |
| ID | 算子唯一ID。 |
| 创建时间 | 创建版本的时间点。 |
| 修改时间 | 更新该版本算子的时间。 |
| 版本描述 | 对于版本的描述信息。支持大小写字母、数字、下划线等各种特殊字符,0-150字符。默认查看少量字符,展开后显示全部描述。 |
表2 版本详情说明
| 详情项名称 | 说明 |
|---|---|
| 版本号 | 对应算子的版本号。 |
| 版本ID | 版本的唯一ID。 |
| 版本描述 | 当前算子版本的描述。展开可查看全部字符。 |
| 创建时间 | 当前版本创建时间。 |
| 创建人 | 创建算子的用户。 |
| 修改时间 | 更新该版本算子的时间。 |
| 最近修改人 | 修改算子的用户。 |
| 代码语言 | python。 |
| 算子代码路径 | 算子代码路径。 |
| 算子类型 | 类型包含extract、transform、filter、dedup、embedding、others。 |
| 运行环境 | 当前算子的运行环境。 |
| 输入参数 | 包括3个字段,key、类型和value。key默认为input,不同算子有不同的类型和value。 |
| 输出参数 | 包括3个字段,key、类型和value。key默认为output,不同算子有不同的类型和value。 |
| 运行参数 | 包括4个字段,key、默认值、类型和required。默认值 = 5;类型:Interger;required = true。 |
| 支持引擎 | 支持运行该算子的引擎,包括Ray、Spark。 |
| 资源配置 | 支持运行该算子的资源,包括GPU、CPU。 |
表3 算子说明
| 算子名称 | 说明 |
|---|---|
| databuilder_location_loader | 加载数据源路径的数据,目前支持BOS和数据卷方式。BOS路径格式为:bos://bucket_name/path/to/data;数据卷路径格式为:/数据卷s/test/default/data_vol/。 |
| exporter | 将数据输出到指定路径,目前支持BOS和数据卷方式。BOS路径格式为:bos://bucket_name/path/to/data;数据卷路径格式为:/数据卷s/test/default/data_vol/。 |
| video_info_extractor | 提取视频信息(帧数、高度、宽度、长宽比、帧率、帧率和像素值)。 |
| column_filter | 过滤指定数值列中满足条件的行,设置过滤数值列名、表达式运算符、阈值。eg:过滤帧数小于100的视频,filtercol值为num_frames、filter算子值为<、filter_value值为100。 |
| video_scene_detector | 检测视频场景边界,输出边界时间列表。 |
| video_scene_cutter | 根据场景时间戳分割视频。 |
| aesthetic_evaluation | 对视频的美学质量进行打分,采用improved aesthetic predictor模型,其中美学质量越高分数越高。 |
| optical_flow_evaluation | 对视频的运动进行打分,采用UniMatch模型,计算视频的光流分数,其中画面运动越多分数越高。 |
| ocr_evaluation | 对视频中的文字进行检测,采用DBNet++模型,计算OCR分数。文字越密集的视频,分数越高。 |
| pllava_caption | 采用pllava模型对视频进行caption,生成文字描述视频的内容。 |
| matching_score | 采用CLIP计算文本和视频之间的匹配分数。 |
| video_scanner | 给定一个bos视频路径,可以生成这个路径下所有的视频信息,包括文件名和bos地址。 |
详情
通过tab切换可查看算子详细信息。包括数据目录名称、数据模式名称和创建时间等。
表4 算子详情信息说明
| 基本信息项名称 | 说明 |
|---|---|
| 数据目录名称 | 当前算子的数据目录名称。 |
| 数据模式名称 | 当前算子的数据模式名称。 |
| 算子名称 | 当前算子的算子名称。 |
| 算子别名 | 算子其他名称。 |
| 使用说明 | 当前算子概览的使用说明。 |
| 创建时间 | 创建当前算子的时间。 |
| 创建人 | 创建算子的用户。 |
| 修改时间 | 所有版本的最后修改时间。 |
| 最近修改人 | 最后修改版本的用户。 |
| 最新版本 ID | 算子最新版本的ID名。 |
| 最新版本号 | 算子最新版本号名。 |
自定义算子
DataBuilder支持在数据模式中创建自定义算子。
创建自定义算子及版本
- 在数据模式页面右上角单击立即创建>创建算子,填写创建自定义算子配置项。
- 填写完成后单击仅创建算子按钮,算子创建完毕,可在算子列表上方单击创建算子版本,去创建算子版本。如选择提交并创建算子版本,进入创建算子版本流程。
表5 创建自定义算子配置项
| 配置项名称 | 说明 |
|---|---|
| 算子名称 | 填写自定义算子名称,支持输入 大小写字母、数字、下划线,1-64字符,自定义算子名称在schema中不可重复。 |
| 算子别名 | 算子的别称,方便用户更直观地理解算子用途。 |
| 描述 | 对当前算子的描述,字符长度限制在 0 到 150 之间。 |
| 使用说明 | 输入对当前算子的使用说明。 |
表6 创建自定义算子版本配置项说明
| 配置项名称 | 说明 |
|---|---|
| 算子名称 | 填写自定义算子名称,支持输入 大小写字母、数字、下划线,1-64字符,自定义算子名称在数据卷中不可重复。 |
| 算子别名 | 算子的别称,方便用户更直观地理解算子用途。 |
| 算子版本 | 算子的版本号,用于标识算子的不同迭代版本。 |
| 版本描述 | 对当前算子版本的描述说明,可输入相关信息,字符长度限制在 0 到 150 之间。 |
| 算子类型 | 下拉选择算子的类型,算子类型分为:DEDUP、EMBEDDING、EXTRACT、FILTER、OTHERS、TRANSFORM、SOURCE、SINK。 |
| 代码语言 | 下拉选择编写算子代码所用的编程语言,Python |
| 执行代码 | 通过 “+ 添加文件” 按钮添加算子的执行代码文件。 |
| 支持引擎 | 下拉选择算子运行所支持的引擎,Ray/Spark。 |
| 资源类型 | 下拉选择算子运行所需的资源类型,CPU/GPU。 |
| 类名 | 输入算子代码中对应的类名称,用于指定运行的类。 |
| 执行镜像 | 可选择 “官方镜像” 或 “自定义镜像”,“官方镜像” 使用平台提供的标准运行环境镜像,“自定义镜像” 可使用用户自己配置的镜像,以满足特定的运行环境需求。当前只支持官方镜像。 |
| 输入参数 | 单击添加字段,可新增输入参数配置行,用于添加更多的输入参数。 |
| 输出参数 | 单击添加字段,可新增输出参数配置行,添加更多输出参数。 |
| 运行参数 | 单击添加字段,用于添加更多的运行参数。 |
查看自定义算子
在左侧目录树选择自定义算子后,右侧展示自定义算子的详细内容,用tab页切换可查看自定义算子概览/详情。
自定义算子概览
- 通过切换tab页选择概览可查看自定义算子描述、版本信息。
- 单击描述旁边修改按钮可以对自定义算子的描述进行修改。
- 版本信息:概览页面展示自定义算子概览版本信息,支持对版本信息进行删除操作。
版本信息详情
单击自定义算子概览中版本信息名称可侧边展开查看版本信息详情。
自定义算子详情
通过切换tab页选择详情可查看自定义算子自定义算子基本信息。包括自定义算子名称、自定义算子 ID、自定义算子类型、所有者、创建人、创建时间、最近修改人、修改时间、存储类型和数据类型。
权限管理
通过切换tab页选择权限管理,可在权限管理页面查看当前自定义算子的用户。通过单击授权或撤销可对用户进行授权和取消权限操作,支持通过主体名称进行搜索。
重命名自定义算子名称
在自定义算子页面右上角创建按钮旁边单击按钮,选择重命名算子。在编辑框内修改自定义算子名称后单击确定,需要注意的是,自定义算子的名称在同个数据卷中不可重复,不同数据卷中间可以重复。
删除自定义算子
在自定义算子页面右上角创建按钮旁边单击按钮,选择删除算子。注意:删除后数据无法恢复,请谨慎删除。
