工作台
DataBuilder 工作台是平台的管理中枢,通过 “项目、我的、用户、共享、回收站” 五大部分,实现数据任务、资源资产的全生命周期管理。
项目
“项目”是databuilder的基本协作单元,负责管理应用文件与数据,分配计算资源,并控制团队协作的权限边界。本文档将指导你完成项目的创建、编辑、关联资源等操作,帮助你以项目为维度高效管理数据工作全流程,适配团队协作与任务隔离的场景需求。
适用场景
- 在 DataBuilder 工作台中新建项目,用于管理应用文件、数据。
创建项目
- 登录百度千帆 DataBuilder 平台,点击左侧导航栏的工作台。
- 在工作台左侧列表中,选择项目分类。
- 单击项目列表右上角的 + 创建 按钮,弹出创建项目配置窗口,填写以下项目配置信息。
表1 项目配置信息说明
| 配置项名称 | 说明 |
|---|---|
| 项目名称 | 填写自定义的项目名称,名称长度需在 0-64 字符范围内,不可为空。 |
| 描述 | 填写项目的用途、说明,描述长度需在 0-256 字符范围内。 |
- 确认配置信息无误后,单击弹窗右下角的确定按钮;若需取消创建,单击取消按钮或弹窗右上角的关闭窗口。
- 项目创建成功后,会自动出现在项目列表中,可通过列表的操作列(“...” 按钮)对项目进行编辑、删除等管理操作。
创建项目文件
单击项目列表右上方创建按钮,可创建的类型有以下几种:文件夹、文件、导入文件;应用:应用是指围绕特定场景构建的功能模块,用于以可视化方式完成数据建模、治理与开发。可创建的应用类型包含Notebook、工作流、数据集成、数据管道、内容理解;数据集:结构化数据集、媒体集。
工作流、数据集成、数据管道、内容理解部分请参照具体文档查看创建流程。
创建文件
- 通过在项目列表右上角单击创建按钮,选择文件夹,进入文件夹创建配置流程。
- 填写文件夹名称,名称支持中⽂、英⽂、数字、中划线、下划线、.·特殊字符,不能以中划线、下划线开头,⻓度为1~128个字符。填写完毕后单击确定,文件夹创建完毕。
导入文件
通过在项目列表右上角单击创建按钮,选择导入文件,将文件拖拽到页面对应区域或选择文件可进行数据上传。
创建结构化数据集
- 通过在项目列表右上角单击创建按钮,选择结构化数据集,进入结构化数据集配置流程。
- 配置完成后单击确定,数据集创建成功。
详细配置项说明见下表。
表2 结构化数据集基本信息配置说明
| 配置项名称 | 说明 |
|---|---|
| 数据集名称 | 输入数据集名称,支持大小写字母,数字,下划线,必须以字母开头,不支持中文。⻓度为1~256个字符。 |
| 位置 | 当前文件夹的路径,路径不可修改。 |
| 描述 | 输入对数据集的描述信息,长度在0~500个字符。 |
表3 结构化数据集字段信息配置说明
| 字段配置项 | 说明 |
|---|---|
| 序号 | 字段在表中的顺序编号。 |
| 字段名称 | 数据集中字段的唯一标识。 |
| 字段类型 | 字段存储的数据类型(CHAR、VARCHAR、STRING、TINYINT、SMALLINT、INT、BIGINT、LARGEINT、FLOAT、DOUBLE、DECIMAL、BOOLEAN、DATE、DATETIME、ARRAY)。 |
| 非空 | 表示该字段是否允许为空值。 |
| 字段描述 | 对该字段业务含义的补充说明。 |
| 操作 | 删除:单击删除按钮,删除当前字段信息。如果只存在一个字段信息,则不支持删除。添加字段:单击添加字段按钮,添加一行字段信息。 |
表4 分区信息配置说明
分区信息用于对数据集进行分区管理,以优化数据查询等操作效率。单击添加分区按钮,填写分区信息配置项。
| 配置项名称 | 说明 |
|---|---|
| 字段名称 | 选择用于分区的字段,通过该字段的值将数据划分到不同分区。 |
| 转换函数 | 下拉选择转换函数,identity/bucket/truncate |
| 操作 | 删除:单击操作列移除按钮,可移除当前配置的分区信息。 |
| 添加分区 | 点击 “+ 添加分区”按钮,支持为数据表设置多个分区规则,满足复杂的分区需求。 |
表5 高级配置说明
高级配置用于设置数据集的额外属性,丰富数据集的元数据等信息。
| 配置项名称 | 说明 |
|---|---|
| 属性名称 | 自定义数据集的属性标识,用于描述该属性的含义。 |
| 属性值 | 对应属性名称的具体取值,为属性名称所描述的内容赋予实际的值。 |
| 操作 | 删除:单击操作列移除按钮,可移除当前不需要的属性配置。 |
| 添加表属性 | 点击 “+ 添加表属性”按钮,新增高级配置项,支持为数据表添加多个额外属性。 |
创建媒体集
- 创建数据集需要有对应文件夹的管理权限,创建入口在项目文件夹内列表右上角。单击创建按钮选择媒体集,填写数据集名称选择格式(PDF文本、Markdown、任意格式)进入配置流程。
- 配置完成后跳转数据集详情,单击右上角上传按钮对数据进行上传。将文件拖拽到页面对应区域或选择文件可进行数据上传。在上传过程中,在页面右下方可查看文件上传情况和进度。注意:每次上传的总文件大小不超过500MB,单个文件不超过100MB;每次最多上传100个文件。详情可查看数据集文档说明。
表6 创建媒体集配置项说明
| 配置项名称 | 说明 |
|---|---|
| 名称 | 输入媒体集名称,仅支持大小写字母,数字,下划线,必须以字母开头,不支持中文。⻓度为1~256个字符。 |
| 所属位置 | 当前媒体集所在文件夹。 |
| 格式 | 选择媒体集格式,PDF文本/Markdown格式/任意格式。 |
| 描述 | 输入对媒体集的描述信息,长度为0~500个字符。 |
Notebook
创建Notebook
- 创建入口在项目文件夹内列表右上角。单击创建按钮选择Notebook,进入Notebook编辑页面。
- 在编辑页面单击Notebook名称可以对名称进行修改。
- 创建成功的Notebook以列表形式展示在项目文件夹列表,在列表单击Notebook名称可以在当前页面打开Notebook编辑器。单击右上角退出按钮,可回到项目文件夹列表。
编辑Notebook
- 在Notebook编辑页面单元格内进行Python、Markdown或SQL代码编辑,单元格上方点击添加标题可对当前单元格添加标题。
- 编辑器上方操作可以对整个notebook进行操作,单元格右上角更多按钮展开可选择对单元格进行不同操作。
- 通过编辑器上方待连接按钮可以进行实例连接,单击待连接展开查看常驻实例和查询检索实例,选择实例进行资源连接,连接成功的实例展示在最上方。
表7 Notebook上方操作
| 操作项 | 说明 |
|---|---|
| 保存 | 单击保存按钮,系统将保存最新内容。 |
| 导出 | 单击导出按钮,系统会导出ipynb文件。 |
| 清空单元格 | 清空所有单元格。 |
| 撤销 | 单击撤销可撤销上一步的操作。 |
| 重做 | 单击可恢复被撤销的操作。 |
| 清空全部输出 | 清空全部单元格的输出。 |
| 显示行号 | 显示当前行的排序数。 |
表8 Notebook单元格操作说明
| 操作项 | 操作说明 |
|---|---|
| 复制单元格 | 将当前单元格复制。 |
| 剪切单元格 | 将当前单元格剪切。 |
| 粘贴单元格 | 将复制的单元格粘贴到此单元格。 |
| 在上方添加一个单元格 | 在此单元格上方增加一个单元格。 |
| 在下方添加一个单元格 | 在此单元格下方增加一个单元格。 |
| 上移 | 将当前单元格上移一格。 |
| 下移 | 当当前单元格下移一格。 |
| 执行上方单元格 | 执行此单元格上方单元格。 |
| 执行下方单元格 | 执行此单元格下方单元格。 |
| 清空输出 | 清空当前单元格的输出。 |
| 删除 | 删除当前单元格。 |
查看项目列表
项目以目录形式展示在工作台,同时创建成功的项目在右侧以列表展示。支持按照名称进行搜索项目。
表9 项目列表及操作说明
| 列表项名称 | 说明 |
|---|---|
| 名称 | 项目名称,单击项目名称可进入项目详情。 |
| 描述 | 该项目的相关描述。 |
| 创建人 | 上传文件或创建文件夹的用户。 |
| 创建时间 | 创建文件夹或上传文件的时间。 |
| 操作项 | 单击不同操作项,执行不同操作。 |
在新窗口打开:单击在新窗口打开按钮,在新的网页页签打开当前内容,保留顶部、左侧导航。
复制路径:单击复制按钮可以复制当前文件/文件夹的完整路径+当前文件名。
权限管理:
删除:单击删除按钮,可删除当前文件或文件夹。注意:文件或文件夹被删除后,会被移动至回收站,默认保留30天后,请谨慎操作。|
文件列表
在项目列表单击项目名称可进入项目详情,在项目详情列表单击项目详情内名称,可查看当前项目内具体文件、应用或数据集。
表10 项目详情列表说明
| 列表项名称 | 说明 |
|---|---|
| 名称 | 具体项目的名称,单击具体项目名称跳转至项目详情。 |
| 类型 | 项目类型,支持按照项目类型进行筛选。项目类型有:文件、文件夹、Notebook、工作流、数据集成、结构化数据集、媒体集、内容理解和模型服务。 |
| 创建人 | 创建该项目文件的用户。 |
| 创建时间 | 创建该项目文件的时间。 |
| 操作 | 单击不同操作项,执行不同操作。 |
在新窗口打开:单击在新窗口打开按钮,在新的网页页签打开当前内容,保留顶部、左侧导航。
创建文件夹:单击新建文件夹按钮,在当前文件夹新建一个子文件夹。创建文件:单击创建文件按钮,跳转至SQL文件编辑界面。
导入文件:通过单击操作项导入文件按钮可上传文件到该文件夹。单次最多可上传100个文件,单个文件不超过100M,文件总大小不超过500M。
复制:单击复制按钮,输入新的文件或文件夹的名称,名称不可重复。系统会复制一个相同的文件或文件夹展示在列表。
复制路径:单击复制按钮可以复制当前文件/文件夹的完整路径+当前文件名。
重命名:单击重命名按钮,系统弹出重命名弹窗,修改文件的名称。
移动:单击移动按钮,系统弹出移动窗口,选择移动的位置后确定。
删除:单击删除按钮,可删除当前文件或文件夹。注意:处于运行中的应用无法删除;文件或文件夹被删除后,会被移动至回收站,默认保留30天后,请谨慎操作。|
我的
- 工作台目录中进入“我的”,目录下展示当前用户在“我的”空间下创建的文件,右侧列表区域展示当前用户创建的所有文件及文件夹。单击具体文件类型,可进入不同文件内部或编辑界面。
- 列表支持按照名称进行搜索,支持按照类型(文件/文件夹/Notebook/工作流/结构化数据集/媒体集)进行筛选,同时支持按照创建时间进行排序。
共享
在工作台目录侧选择“共享”,可查看当前“共享” 用户创建的“共享”文件夹,右侧可查看用户创建的所有文件夹,及不同类型文件。用户在“共享”中创建的文件,所有用户都拥有同样的权限。
表11 “共享”列表项说明
| 共享文件夹列表项名称 | 说明 |
|---|---|
| 名称 | 文件或文件夹名称,单击名称可进入文件夹详情,不同类型的文件单击可进入文件编辑页面。 |
| 类型 | 共享的类型,类型有:文件/文件夹/Notebook/工作流/ |
| 创建人 | 创建该共享文件的用户。 |
| 创建时间 | 创建该共享文件的时间。 |
| 操作 | 具体操作可参照 表2 部分操作。 |
用户
“用户” 部分用于对平台的用户权限管理,支持对平台内用户的角色分配、权限配置等操作。
回收站
删除后的文件或文件夹会被移入回收站,默认保存30天。回收站支持按照文件或文件夹名称进行搜索。
- 恢复:若要恢复文件或文件夹,需在30天内进入回收站,在操作列中单击恢复按钮,选择恢复的目标目录后,即可完成恢复操作。
- 永久删除:单击永久删除按钮,可对文件或文件夹进行永久性删除。永久删除的文件或文件夹数据将被清空,不可恢复,请谨慎操作。
