工作台
DataBuilder 工作台是平台的管理中枢,通过 “项目、我的、用户、共享、回收站” 五大部分,实现数据任务、资源资产的全生命周期管理。
项目
“项目”是databuilder的基本协作单元,负责管理应用文件与数据,分配计算资源,并控制团队协作的权限边界。本文档将指导你完成项目的创建、编辑、关联资源等操作,帮助你以项目为维度高效管理数据工作全流程,适配团队协作与任务隔离的场景需求。
适用场景
- 在 DataBuilder 工作台中新建项目,用于管理应用文件、数据。
创建项目
- 登录百度千帆 DataBuilder 平台,点击左侧导航栏的工作台。
- 在工作台左侧列表中,选择项目分类。
- 单击项目列表右上角的 + 创建 按钮,弹出创建项目配置窗口,填写以下项目配置信息。
表1 项目配置信息说明
| 配置项名称 | 说明 |
|---|---|
| 项目名称 | 填写自定义的项目名称,名称长度需在 0-64 字符范围内,不可为空。 |
| 描述 | 填写项目的用途、说明,描述长度需在 0-256 字符范围内。 |
- 确认配置信息无误后,单击弹窗右下角的确定按钮;若需取消创建,单击取消按钮或弹窗右上角的关闭窗口。
- 项目创建成功后,会自动出现在项目列表中,可通过列表的操作列(“...” 按钮)对项目进行权限管理、删除、查看详情等管理操作。
创建项目文件
单击项目内右上方创建按钮,可创建的类型有以下几种:文件夹、文件、导入文件;应用:应用是指围绕特定场景构建的功能模块,用于以可视化方式完成数据建模、治理与开发。可创建的应用类型包含Notebook、工作流、数据集成、数据管道、内容理解、模型服务等;数据集:结构化数据集、媒体集。
工作流、数据集成、数据管道、内容理解、模型服务等应用的创建请参照具体文档查看创建流程。
创建文件夹
- 通过在项目内右上角单击创建按钮,选择文件夹,进入文件夹创建配置流程。
- 填写文件夹名称,名称支持中⽂、英⽂、数字、中划线、下划线、.·特殊字符,不能以中划线、下划线开头,⻓度为1~128个字符。填写完毕后单击确定,文件夹创建完毕。
创建文件
通过在项目内右上角单击创建按钮,选择文件,进入文件创建配置流程。当前仅支持创建JDBC SQL文件,在页面单击添加按钮可添加一个新文件。
具体操作项说明如下:
- 开发编辑:在editor编辑器界面左上角下拉选择数据源类型(当前仅支持MySQL、Oracle、SQLServer、PostgreSQL、HANA)和对应数据源后,在代码编辑区进行代码编辑开发。
- 保存:单击保存按钮,可保存当前编辑的 SQL 文件。
- 导出:单击导出,可将当前编辑的 SQL 文件导出到本地。
- 撤销:单击撤销可撤销上一步的操作。
- 重做:单击可恢复被撤销的操作。
- 运行:请先选择计算资源、数据源并编写SQL语句后可运行该 SQL 文件,运行后执行信息和结果在下方展示,执行信息可查看运行状态、运行时长和日志信息,日志信息支持下载到本地。执行结果默认展示1000条记录,支持下载为csv文件,最多下载10000条数据。
导入文件
通过在项目列表右上角单击创建按钮,选择导入文件,将文件拖拽到页面对应区域或选择文件可进行数据上传。
结构化数据集
创建结构化数据集
- 通过在项目列表右上角单击创建按钮,选择结构化数据集,进入结构化数据集配置流程。
- 配置完成后单击确定,数据集创建成功。
详细配置项说明见下表。
表2 结构化数据集基本信息配置说明
| 配置项名称 | 说明 |
|---|---|
| 数据集名称 | 输入数据集名称,支持大小写字母,数字,下划线,必须以字母开头,不支持中文。⻓度为1~256个字符。 |
| 位置 | 当前文件夹的路径,路径不可修改。 |
| 描述 | 输入对数据集的描述信息,长度在0~500个字符。 |
表3 结构化数据集字段信息配置说明
| 字段配置项 | 说明 |
|---|---|
| 序号 | 字段在表中的顺序编号。 |
| 字段名称 | 数据集中字段的唯一标识。 |
| 字段类型 | 字段存储的数据类型(CHAR、VARCHAR、STRING、TINYINT、SMALLINT、INT、BIGINT、LARGEINT、FLOAT、DOUBLE、DECIMAL、BOOLEAN、DATE、DATETIME、ARRAY)。 |
| 非空 | 表示该字段是否允许为空值。 |
| 字段描述 | 对该字段业务含义的补充说明。 |
| 操作 | 删除:单击删除按钮,删除当前字段信息。如果只存在一个字段信息,则不支持删除。 |
| 添加字段 | 点击 “+ 添加字段”按钮,支持为数据表设置多个字段。 |
分区信息用于对数据集进行分区管理,以优化数据查询等操作效率。单击添加分区按钮,填写分区信息配置项。
表4 分区信息配置说明
| 配置项名称 | 说明 |
|---|---|
| 字段名称 | 选择用于分区的字段,通过该字段的值将数据划分到不同分区。 |
| 转换函数 | 下拉选择转换函数,identity/bucket/truncate |
| 操作 | 删除:单击操作列移除按钮,可移除当前配置的分区信息。 |
| 添加分区 | 点击 “+ 添加分区”按钮,支持为数据表设置多个分区规则,满足复杂的分区需求。 |
高级配置用于设置数据集的额外属性,丰富数据集的元数据等信息。
表5 高级配置说明
| 配置项名称 | 说明 |
|---|---|
| 属性名称 | 自定义数据集的属性标识,用于描述该属性的含义。 |
| 属性值 | 对应属性名称的具体取值,为属性名称所描述的内容赋予实际的值。 |
| 操作 | 删除:单击操作列移除按钮,可移除当前不需要的属性配置。 |
| 添加表属性 | 点击 “+ 添加表属性”按钮,新增高级配置项,支持为数据表添加多个额外属性。 |
查看结构化数据集
创建成功的结构化数据集展示在文件列表下,单击结构化数据集名称可查看具体信息。
概览
在结构化数据集详细信息页面通过tab切换查看结构化数据集概览,包括字段信息和分区信息,字段信息支持按照字段名称查询。
数据预览
用户使用当前项目绑定资源组中的分析与AI搜索实例进行结构化数据集预览,在结构化数据集详细信息页面通过tab切换查看数据预览,若未连接计算实例,请联系空间管理员进行资源配置。
- 下载:结构化数据集支持下载功能,单击右上角下载按钮,可选择下载格式后对结构化数据集进行下载。
详情
在结构化数据集详细信息页面通过tab切换查看结构化数据集详情,查看结构化数据集基本信息,包括名称、描述、存储路径、属性、创建时间、创建人、修改时间、最近修改人。
编辑结构化数据集
在结构化数据集页面右上方单击编辑按钮,可对结构化数据集配置信息进行编辑。
媒体集
创建媒体集
- 通过在项目列表右上角单击创建按钮,选择媒体集,进入媒体集配置流程。
- 配置完成后单击确定,媒体集创建成功。
详细配置项说明见下表。
表6 媒体集基本信息配置说明
| 配置项名称 | 说明 |
|---|---|
| 数据集名称 | 输入媒体集名称,支持大小写字母,数字,下划线,必须以字母开头,不支持中文。⻓度为1~256个字符。 |
| 位置 | 当前文件夹的路径,路径不可修改。 |
| 格式 | 媒体集中的文件格式,可选范围:PDF文本、Markdown、任意格式 |
| 描述 | 输入对媒体集的描述信息,长度在0~500个字符。 |
查看媒体集
创建成功的媒体集展示在文件列表下,单击媒体集名称可查看具体信息。
概览
在媒体集详细信息页面通过tab切换查看媒体集概览,展示已有文件列表,并支持如下操作:
- 上传文件:单击右上角上传按钮对数据进行上传。将文件拖拽到页面对应区域或选择文件可进行数据上传。在上传过程中,在页面右下方可查看文件上传情况和进度。注意:每次上传的总文件大小不超过500MB,单个文件不超过100MB;每次最多上传100个文件。
- 文件列表操作:上传成功的文件以列表形式展示,可以对文件进行复制路径、删除或下载操作。复制路径:单击按钮复制文件在 DataBuilder 的文件路径。删除:单击删除按钮系统再次提示,确认无误后单击确认按钮,删除成功。注意:删除后的文件无法恢复,请您谨慎操作。下载:单击下载按钮后文件可以通过浏览器下载到本地。
详情
在媒体集详细信息页面通过tab切换查看媒体集详情,查看媒体集基本信息,包括名称、格式、描述、存储路径、创建时间、创建人、修改时间、最近修改人。
Notebook
创建Notebook
- 创建入口在项目文件夹内列表右上角。单击创建按钮选择Notebook,进入Notebook编辑页面。
- 在编辑页面单击Notebook名称可以对名称进行修改。
- 创建成功的Notebook以列表形式展示在项目文件夹列表,在列表单击Notebook名称可以在当前页面打开Notebook编辑器。单击右上角退出按钮,可回到项目文件夹列表。
查看Notebook
创建成功的Notebook展示在文件列表下,单击Notebook名称可查看具体信息。
编辑Notebook
- 在Notebook编辑页面单元格内进行Python、Markdown或SQL代码编辑,单元格上方点击添加标题可对当前单元格添加标题。
- 编辑器上方操作可以对整个notebook进行操作,单元格右上角更多按钮展开可选择对单元格进行不同操作。
- 通过编辑器上方待连接按钮可以进行实例连接,单击待连接展开查看常驻实例和查询检索实例,选择实例进行资源连接,连接成功的实例展示在最上方。
表7 Notebook上方操作
| 操作项 | 说明 |
|---|---|
| 保存 | 单击保存按钮,系统将保存最新内容。 |
| 导出 | 单击导出按钮,系统会导出ipynb文件。 |
| 清空单元格 | 清空所有单元格。 |
| 撤销 | 单击撤销可撤销上一步的操作。 |
| 重做 | 单击可恢复被撤销的操作。 |
| 清空全部输出 | 清空全部单元格的输出。 |
| 显示行号 | 显示当前行的排序数。 |
表8 Notebook单元格操作说明
| 操作项 | 操作说明 |
|---|---|
| 复制单元格 | 将当前单元格复制。 |
| 剪切单元格 | 将当前单元格剪切。 |
| 粘贴单元格 | 将复制的单元格粘贴到此单元格。 |
| 在上方添加一个单元格 | 在此单元格上方增加一个单元格。 |
| 在下方添加一个单元格 | 在此单元格下方增加一个单元格。 |
| 上移 | 将当前单元格上移一格。 |
| 下移 | 当当前单元格下移一格。 |
| 执行上方单元格 | 执行此单元格上方单元格。 |
| 执行下方单元格 | 执行此单元格下方单元格。 |
| 清空输出 | 清空当前单元格的输出。 |
| 删除 | 删除当前单元格。 |
查看项目列表
项目以目录形式展示在工作台,同时创建成功的项目在右侧以列表展示。支持按照名称进行搜索项目。
表9 项目列表及操作说明
| 列表项名称 | 说明 |
|---|---|
| 名称 | 项目名称,单击项目名称可进入项目详情。 |
| 描述 | 该项目的相关描述。 |
| 创建人 | 上传项目的用户。 |
| 创建时间 | 创建项目的时间。 |
| 操作项 | 单击不同操作项,执行不同操作。 • 在新窗口打开:单击在新窗口打开按钮,在新的网页页签打开当前内容,保留顶部、左侧导航。 • 复制路径:单击复制按钮可以复制当前项目的完整路径。 • 权限管理:单击“权限管理”按钮可打开项目权限管理页面,在该页面可为用户授予权限。项目权限支持继承,配置在项目上的权限将自动生效于项目下的所有文件。 • 删除:单击删除按钮,可删除当前项目。注意:项目被删除后,会被移动至回收站,默认保留30天后,请谨慎操作。 • 详情:单击详情按钮,可查看项目基本信息和计算资源。基本信息包括项目名称、项目ID、创建人、创建时间;计算资源是该项目所绑定的资源组的配置信息,包括CPU资源详情和GPU资源详情。 |
文件列表
在项目列表单击项目名称可进入项目详情,在项目详情列表单击项目详情内名称,可查看当前项目内具体文件、应用或数据集。
表10 项目详情列表说明
| 列表项名称 | 说明 |
|---|---|
| 名称 | 具体文件/文件夹的名称,单击具体文件/文件夹名称跳转至文件/文件夹详情。 |
| 类型 | 文件类型,支持按照类型进行筛选。项目类型有:文件、文件夹、Notebook、工作流、数据集成、结构化数据集、媒体集、内容理解和模型服务等。 |
| 创建人 | 创建该文件/文件夹的用户。 |
| 创建时间 | 创建该文件/文件夹的时间。 |
| 操作 | 单击不同操作项,执行不同操作。 • 在新窗口打开:单击在新窗口打开按钮,在新的网页页签打开当前内容,保留顶部、左侧导航。(仅文件夹支持) • 创建文件夹:单击新建文件夹按钮,在当前文件夹新建一个子文件夹。(仅文件夹支持)创建文件:单击创建文件按钮,跳转至SQL文件编辑界面。(仅文件夹支持) • 导入文件:通过单击操作项导入文件按钮可上传文件到该文件夹。单次最多可上传100个文件,单个文件不超过100M,文件总大小不超过500M。(仅文件夹支持) • 复制:单击复制按钮,输入新的文件或文件夹的名称,名称不可重复。系统会复制一个相同的文件或文件夹展示在列表。(部分应用支持) • 复制路径:单击复制按钮可以复制当前文件/文件夹的完整路径+当前文件名。 • 重命名:单击重命名按钮,系统弹出重命名弹窗,修改文件的名称。权限管理:单击权限管理按钮打开页面,可对用户进行赋权等操作。权限支持继承,配置在文件夹上的权限将自动生效于文件夹下的所有文件。 • 移动:单击移动按钮,系统弹出移动窗口,选择移动的位置后确定。 • 删除:单击删除按钮,可删除当前文件或文件夹。注意:处于运行中的应用无法删除;文件或文件夹被删除后,会被移动至回收站,默认保留30天后,请谨慎操作。 |
我的
- 工作台目录中选择“我的”,目录下展示当前用户在“我的”空间下创建的文件,右侧列表区域展示当前用户创建的所有文件及文件夹。单击具体文件类型,可进入不同文件内部或编辑界面。
- 列表支持按照名称进行搜索,支持按照类型(文件/文件夹/Notebook/工作流/结构化数据集/媒体集)进行筛选,同时支持按照创建时间进行排序。
注:“我的”目录下创建的文件归属于空间默认项目,相关计算资源将使用该项目所绑定的资源组。
共享
在工作台目录中选择 “共享”,右侧将展示共享文件夹下所有用户创建的文件夹及各类文件。
用户在 “共享” 中创建的文件,或将其他位置的文件移动到共享文件夹后,空间内所有用户均拥有该文件的管理权限。
表11 “共享”列表项说明
| 共享文件夹列表项名称 | 说明 |
|---|---|
| 名称 | 文件或文件夹名称,单击名称可进入文件夹详情,不同类型的文件单击可进入文件编辑页面。 |
| 类型 | 共享的类型,类型有:文件/文件夹/Notebook/工作流/结构化数据集/媒体集。 |
| 创建人 | 创建该共享文件的用户。 |
| 创建时间 | 创建该共享文件的时间。 |
| 操作 | 具体操作可参照 表10 部分操作。 |
注:“共享”目录下创建的文件归属于空间默认项目,相关计算资源将使用该项目所绑定的资源组。
用户
在工作台目录中选择 “用户”,目录下将展示以本空间 用户名命名 的用户文件夹。
- 每个用户默认拥有自己文件夹的管理权限;在未单独授权的情况下,用户无法查看其他用户的文件夹。空间管理员则拥有所有用户文件夹的管理权限。
- 进入具备访问权限的用户文件夹后,可查看该文件夹下的所有文件,并支持创建新文件。
注:“用户”目录下创建的文件归属于空间默认项目,相关计算资源将使用该项目所绑定的资源组。
回收站
删除后的文件/文件夹/项目会被移入回收站,默认保存30天。回收站支持按照文件/文件夹/项目名称进行搜索。
- 恢复:若要恢复文件/文件夹/项目,需在30天内进入回收站,在操作列中单击恢复按钮,选择恢复的目标目录后,即可完成恢复操作。
- 永久删除:单击永久删除按钮,可对文件/文件夹/项目进行永久性删除。永久删除的文件/文件夹/项目数据将被清空,不可恢复,请谨慎操作。
