数据集准备
数据集用于对图片或视频数据进行管理,为后续模型训练作业和技能评测提供数据来源。
在工作空间中,选择“数据”,默认进入「数据集管理」页面。
创建数据集
点击【创建数据集】。

-
根据实际应用选择数据集用途
- 本章节以下内容为模型训练数据集使用介绍
- 技能评测数据集使用可查看 评测数据集管理
- 填写数据集名称。
-
数据集分类默认为图片,根据训练模型类型选择对应类型的数据集。
- 目标检测:识别图片中每个物体的位置及其对应类别。
- 图像单标签分类:识别图片是否有某个指定物体/状态/场景。
- 图像多属性分类:识别一张图片中物体所属的类别及属性。
- 语义分割:识别图中每个个体的区域/面积。
- 实例分割:识别图片中每个个体的位置、类别、数量。
- 图片问答:通过自然语言定义图片中的人物、事件或场景。
- 添加数据集标签,方便快速查找数据集。
- 创建标注标签或提示词,用于数据标注,不同类型数据集的标签不同。
数据集列表
创建完成的数据集以列表方式在「数据集管理」页面展示。
- 可查看“全部”或“我创建的”数据集。
- 支持按数据集分类、数据集状态和数据集用途进行筛选。
- 支持输入数据集名称或ID进行搜索。
- 支持按数据集标签进行筛选。

点击【编辑】,可修改数据集名称和数据集标签。 完成数据标注后的数据集可以点击【发布】,发布后的数据集才可以在模型训练或技能评测中使用。
数据集详情
点击数据集名称或【查看】,进入「标注集详情」页面。

数据集信息
顶部显示数据集名称、类型、数据量及标注进展。 点击名称后的【编辑】按钮,可修改数据集名称和数据集标签。 点击【查看信息】,可查看数据集完整信息。

管理数据
- 可点击【放大】/【缩小】,调整图片缩略图尺寸。

- 勾选图片后,点击【批量处理】,可批量删除图片。

- 勾选图片后,点击【数据去重】,设置去重算法和Hash距离,可去除重复图片,判定为重复的图片将保留最早导入的一张。

导入数据
点击【导入数据】,可为数据集添加数据。
- 选择数据类型,支持图片和视频类型
-
图片:
- 原始图片:指不包含标注信息的原始图片,上传后需在平台进行数据标注。
-
标注信息:不同类型的标注集支持的标注信息格式不同:
- 目标检测:支持COCO V1.0、CVAT for images、Vistudio V1.0
- 图像单标签分类:支持ImageNet、CVAT for images、Vistudio V1.0
- 图像多属性分类:支持MultiAttributeDataset、Vistudio V1.0
- 语义分割:支持COCO、Cityscapes、CVAT for images、Vistudio V1.0
- 实例分割:支持COCO V1.0、Vistudio V1.0
- 图片问答:支持VQA、Vistudio V1.0

-
视频:
- 原始视频:支持上传原始视频文件,并按设置的抽帧间隔抽取图片。

- 添加数据标签,方便快速查找数据。
- 开启数据去重,平台将删除本次导入数据中的重复数据。可选择不同的去重算法,并设置去重Hash距离。

- 上传数据,支持上传文件和上传压缩包。 若图片数据类型勾选了“标注信息”,只支持压缩包上传。不同标注格式的文件存放方式要求不同,可点击【图例说明】查看文件存放方式,或【下载模板】,按模板格式上传。
- 数据处理规则: (1)标注标签ID相同、名称不同时,导入数据的标签ID在标注标签ID最大值上+1、名称不变。 (2)标注标签ID不同、名称相同时,导入数据的标注标签合并为标注标签。 (3)图片名称相同时,新增的图片导入时将被过滤,不进行上传。 (4)特别说明:多属性分类先校验类别,遵循以上规则;当类别的名称相同时再进一步校验属性,属性仍然遵循以上规则。
数据标注
图片操作
- 标注过程中可以对图片进行放大、缩小、移动、复位等操作。
- 支持对当前的图片进行显示调整,包括切换视图(普通、九宫格、十六宫格)、显示设置(标注背景色、标注标签名称、鼠标信息、辅助线、网格/标尺、像素化标注)以及视觉增强(图片亮度、图片对比度)。
- 可点击切换查看上一张/下一张图片,或输入图片序号,直接跳转到图片位置。
- 点击【数据信息】,可以查看图片的名称、分辨率、人工标注状态、导入时间和数据标签等信息。

管理标注标签
进行数据标注前,需要添加标注使用的标注标签。

- 可在创建数据集时添加标注标签,也可在「数据集详情」页点击【管理标注标签】,添加标注标签,支持对标签的颜色进行指定。
- 语义分割数据集默认存在ID为0的“背景”标注标签。
- 图片问答类数据集,需要添加提示词(Prompt)模板,根据需要识别的物体或行为设置提示词内容,根据期望多模态大模型回复内容的格式设置回复指令,让模型可以生成结构化的推理结果
数据标注
点击数据集中的图片,进入「图片标注」页面。
- 目标检测标注
支持多边形标注,选择标注标签后,在图片中进行框选标注。 标注后可查看标注框坐标信息,复制、隐藏/显示、删除标注,或切换标注标签。 可一键隐藏/显示所有标注或某标签下的所有标注。

- 图像单标签分类标注
选择标注标签对图片进行分类,标签仅支持单选。

- 图像多属性分类标注
选择标注分类及标签,可选择多个分类,每个分类下仅可选择一个标签。

- 语义分割/实例分割标注
支持多边形和涂抹两种标注方式。标注框操作同目标检测数据标注。

- 图片问答标注
在标注时可以选择提示词模板,并更新回复内容进行标注。


标注完成后点击右上角【保存并下一张】进行保存。 若图片中的信息无法进行人工确认,可点击【无法判断】。
智能标注
智能标注支持利用已有模型对数据进行快速标注,缩短数据标注周期。 同时可以用智能标注进行多个模型的效果对比,在相同的数据上进行推理结果分析,挑选最优模型。
创建智能标注任务
- 勾选图片后,点击【智能标注】

-
选择用于智能标注的模型及模型标签
- 仅可选择和数据集同类型的模型
- 不支持追踪模型包
-
会进行标注标签验证,比较预标注标签与标注集标注标签的差异:
- ID相同、名称不同时,预标注的标签ID在标注集标注标签ID最大值上+1、名称不变
- ID不同、名称相同时,预标注的标签合并为标注集标注标签
- 图片问答类数据集进行参数设置,并要求选择提示词

- 可在「任务中心」查看智能标注任务进度

处理预标注结果
点击图片详情,查看模型推理结果。 目标检测标注集,支持通过置信度筛选预标注结果。

语义分割、实例分割标注集,支持通过图像面积筛选预标注结果。

点击「接受结果」按钮,支持选择「覆盖已有标注」或「新增标注」。 如果对预标注结果进行了筛选,将按筛选后的结果执行。
- 覆盖标注:将清除历史人工标注结果,并以模型推理结果替换
- 新增标注:新增人工标注结果

数据集版本管理
数据集为“单草稿多版本”模式,标注过程中的数据集为“草稿”状态,标注完成后,可点击【发布】,将数据集发布为一个版本。 发布时,若数据量较少(少于100)或标注比例过低(低于80%),会弹出提示信息。数据量大小及标注准确性会极大影响模型训练效果,可前往数据集继续导入数据并标注,或点击【继续发布】。 数据量为0或标注进展为0%的数据集不允许发布。 版本发布后,将不支持对该版本的数据进行编辑、删除等其他任何操作。

可在“任务中心>发布任务“中查看发布进度。

版本发布完成后,可继续导入数据并标注,再次【发布】后,会在该数据集上新增版本。 点击【版本管理】,可查看数据集每个已发布版本的详细信息,在模型训练时,可选择数据集的不同版本。


选择数据集版本,点击【覆盖当前草稿】,可将所选版本的还原为草稿版本,进行数据操作。

数据筛选
在「数据集详情」页面左侧面板,选择“数据筛选”,支持按标注和图片属性对图片进行筛选。

标注筛选
- 人工标注:判断图片上是否存在人工标注。支持筛选单张图片上人工标注框的数量,标注数量默认为大于0。
- 模型推理:判断图片上是否存在某个模型推理结果,需要选择用于模型推理的模型包名称及版本。支持筛选单张图片上模型推理框的数量,标注数量默认为大于0。
- 标注标签选择:支持对人工标注和模型推理的标注标签进行筛选,默认为全选。
- 置信度:支持对模型推理结果的置信度进行筛选,默认为0-1。
- 面积:支持对标注框的面积进行筛选。
- 宽:支持对标注框的高度进行筛选。
-
高:支持对标注框的宽度进行筛选。
图像分类数据集不支持按面积、宽、高筛选。 图片问答类数据集支持人工标注、模型推理和提示词与回复查询筛选。
图像属性筛选
- 导入时间:支持根据图片的导入时间进行筛选。
- 图片名称:支持根据图片名称模糊匹配进行筛选。
- 标注状态:支持根据标注状态进行筛选,包括已标注、未标注、无法判断和预标注。
- 图片标签:支持根据图片标签进行筛选。
统计评估
点击【统计评估】,切换至「统计评估」Tab页,支持展示经过筛选之后的数据分析结果,可用于管控数据集标注质量和评估智能标注所使用的模型性能。

构建计划管理
数据构建计划可以自动将「数据湖」中的数据添加至数据集,用于模型训练,推动数据飞轮运转。

创建构建计划
点击【创建构建计划】。
-
基本信息配置
- 填写计划名称。
- 设置计划启停。
-
设置运行周期:
- 单次运行:设置开始时间和执行时间。开启计划后,单次计划执行完成后自动结束
- 循环运行:设置按天、周、月的循环频率,并设置开始日期、结束日期和执行时间。开启计划后,循环计划将于开始日期开始执行,按循环频率的执行时间重复运行,截止到结束日期结束。
-
筛选条件配置
- 文件属性筛选:支持设置按添加时间、文件大小、文件格式对「数据湖」里的数据进行筛选,至少开启一个筛选条件。
- 预警筛选(目前不生效)

-
构建参数配置构建动作可选“添加至已有数据集”或“创建新数据集”。
-
添加至已有数据集:符合该计划的数据都会按照运行周期自动进入所选数据集。
- 选择数据集分类。
- 选择数据集。
- 设置抽帧间隔,该配置仅对视频生效。
- 开启数据去重,平台将删除本次导入数据中的重复数据。
-
创建新数据集:符合该计划的数据都会按照运行周期执行新建数据集。
- 填写数据集名称。
- 选择数据集用途。
- 选择数据集分类。
- 设置抽帧间隔,该配置仅对视频生效。
- 开启数据去重,平台将删除本次导入数据中的重复数据。
-
管理构建计划
创建完成的数据构建计划以列表方式在「构建计划管理」页面展示。
- 支持按计划状态、循环周期、启停状态筛选构建计划。
- 支持输入计划名称或ID搜索构建计划。
- 可对计划进行启用/停用、删除操作。勾选多个计划,可批量启用/停用、删除计划。计划停用后计划将暂停运行,已发起的任务不受影响。

- 点击计划名称或【查看】,可查看计划详情信息。

- 点击【查看任务】,可在"任务中心>导入任务"中,查看任务状态。

可点击【任务结果】查看任务结果详情。可点击【前往】,跳转至数据导入目标数据集。

评价此篇文章
