数据湖
更新时间:2026-04-10
数据湖作为一见平台的数据管理底座,负责存储技能开放平台和视觉管理平台应用的所有图像数据(图片/视频),主要用于回流、沉淀高价值的行业场景数据,驱动模型迭代,不断提升应用效果。同时,在新场景落地初期,支持原始图像数据快速接入,缩短模型训练之前的数据集准备周期,加速AI技能达标。
数据湖支持租户内用户跨空间进行数据存储、添加数据标签、数据筛选、数据添加至数据集等操作,高效地筛选出目标数据并添加至指定数据集,用于模型训练或评测。
导入数据
点击【导入数据】。
-
数据属性
-
选择数据类型,支持选择图片或视频类型。
-
图片
- 添加数据标签,提供行业、场景、技能三个推荐标签,自定义填写标签内容,可删除默认标签名称,可添加标签。
- 若开启数据去重,在高级参数中选择去重算法及去重Hash距离,去重后的图片添加至数据湖。
-
视频
- 添加数据标签,默认提供行业、场景、技能三个标签名称,自定义填写标签内容,可删除默认标签名称,可添加标签。
-
视频抽帧
- 若开启,上传的视频将按设置的抽帧间隔抽帧成图片进入数据湖。
- 不开启,以原始视频的方式进入数据湖。
- 若开启数据去重,在高级参数中选择去重算法及去重Hash距离,去重后的数据添加至数据湖。
-
-
-
上传数据
- 本地上传:选择本地文件或文件夹上传
- 对象存储上传:选择百度网盘BOS中的文件上传
数据管理
数据筛选
支持按文件属性和预警结果(暂不支持)对数据湖里的数据进行筛选。 点击【设置】按钮,可以自定义配置筛选条件。

数据详情
点击图片或视频,可查看数据详情,包括数据预览、基本信息和业务信息(暂不支持)。

添加数据标签
选择数据后,点击【添加数据标签】,可批量添加数据标签,便于管理和快速检索。

删除数据
鼠标悬浮在数据缩略图上,点击【删除】,可删除图片。

也可以选择多个数据后,点击【批量删除】,批量删除数据。

添加至数据集
勾选数据后,点击【添加至数据集集】,可将数据添加至指定数据集。 注意:单次最多支持将 2000 条数据添加至数据集,超出数据将拆分为新的导入任务
- 选择数据集分类。
- 选择工作空间,可选择有权限的工作空间。
- 选择已有数据集,或创建数据集后,选择新创建的数据集。
- 设置抽帧间隔,仅对视频类数据生效
- 若开启数据去重,在高级参数中选择去重算法及去重Hash距离,去重后的图片添加至数据湖。

评价此篇文章
