技能效果评测
更新时间:2026-04-10
技能评测可完成技能评测数据集管理、技能评测任务创建、评测结果查看与比对等全流程操作,通过标准化评测流程实现技能效果的量化评估,筛选最优技能版本发布,保障发布技能的效果质量。
评测数据集管理
技能评测需要使用评测数据集。
创建评测数据集
选择“数据>数据集管理”,点击【创建数据集】。


- 数据集用途选择“技能评测”
- 填写数据集名称
- 数据集分类仅可选择视频类,对视频进行正负样本分类标注
- 可为数据集添加数据集标签
- 支持添加电子围栏,添加后可在标注时被使用
导入数据
在「数据集详情」页,点击【导入数据】,为评测数据集添加视频数据。


- 数据类型仅可选择视频类型
- 可上传原始视频,勾选标注信息后,仅可上传压缩包
-
开启数据处理后,数据集将只导入处理了完成后的数据。数据处理支持多选,可同时选择视频切片和视频去重
- 视频切片:将视频切分为固定时长的短视频,高级参数只包含视频切片时长,默认值为30s,支持输入1-3600的整数
- 视频去重:将视频进行特征比对并去掉重复性较高的视频,高级参数为视频去重帧间隔和视频去重Hash距离;视频去重帧间隔默认参数为50帧,支持输入1-100的整数;视频去重Hash距离默认值为5,支持输入1-16的整数
标注评测数据
点击导入的视频数据,进入标注详情页面。

-
可将样本标注为“正样本”或“负样本”
- 正样本:与真实目标类别匹配的样本,在技能评测中,指在该技能逻辑下应当产生结果的数据
- 负样本:与真实目标类别不匹配的样本,在技能评测中,指在该技能逻辑下不应当产生结果的数据
-
电子围栏标注:绘制多边形电子围栏,圈定视频中的目标区域,电子围栏需配置目标占比和选区范围
- 目标占比:指目标在电子围栏中的部分占目标总体的比例,当目标进入电子围栏占比超过所设置占比值时,系统即产生报警,反之将不产生报警。填写时,支持输入0.00-1.00的数字。
- 选取范围:目前仅支持正选
发布评测数据集
标注完所有数据后,点击【发布】,发布后的评测数据集才可用于技能评测。

创建评测任务
选择“技能>技能评测”,进入「技能评测」页面。

点击【创建评测任务】。

- 填写评测任务名称
- 评测类型默认效果评测
- 选择已发布的评测数据集
- 选择评测技能,可选择单个技能查看评测结果报告,也可选择多个技能或技能的多个版本,查看评测结果对比
点击【创建】后,开始执行评测任务,等待评测任务完成。
查看评测报告
选择“评测成功”的评测任务,点击【查看报告】,进入任务详情页。

技能评测指标
- 评测样本数:评测数据集里的样本数量
- 推理总帧数:对评测数据集中的样本进行抽帧后,模型成功返回结果的图片总数
- 技能结果总数:技能运行后,符合技能编排逻辑输出结果的数量
- TP:真正例,True Positive,模型预测为正例,且实际确实为正例
- FP:假正例,False Positive,模型预测为正例,但实际是负例
- TN:真负例,True Negative,模型预测为负例,且实际确实为负例
- FN:假负例,False Negative,模型预测为负例,但实际是正例
- 召回率:实际为正类的样本中被模型正确预测为正类的比例,计算公式为 TP/(TP+FN)
- 准确率:模型正确预测的样本数占总样本数的比例,计算公式为 (TP+TN)/(TP+TN+FP+FN)
- 精确率:模型预测为正类的样本中实际为正类的比例,计算公式为 TP/(TP+FP)
样本分析
选择创建评测任务时选择的技能,对比每个样本的自动评测结果:
- 数据集中标注为正样本,技能评测运行成功后技能结果数量大于0,则自动评测结果为TP
- 数据集中标注为负样本,技能评测运行成功后技能结果数量大于0,则自动评测结果为FP
- 数据集中标注为正样本,技能评测运行成功后技能结果数量等于0,则自动评测结果为FN
- 数据集中标注为负样本,技能评测运行成功后技能结果数量等于0,则自动评测结果为TN
评测结果对比
- 选择评测数据集
- 选择该数据集已完成技能评测任务所使用的技能及技能版本
- 点击【生成评测对比报告】,可跨任务对比不同技能或技能版本的评测结果

评价此篇文章
