数据集成
更新时间:2025-08-13
DataBuilder 数据集成支持结构化数据(如 MySQL)和非结构化数据(如 FTP 中的视频、图片)的采集,并统一落地至 DataBuilder 数据表或数据卷中管理。通过全流程可视化配置界面,用户仅需完成简单配置,即可轻松完成数据集成任务。
前提条件
- 具有空间管理员权限或其他具备该功能权限的角色
上传文件到数据卷
- 登录百度智能云 DataBuilder 控制台,在侧边导航选中数据集成模块。
- 在数据集成tab选择文件采集,单击页面中上传文件到数据卷。
- 将文件夹或多个文件拖到对应区域或者单击点击上传按钮后,选择上传文件到对应目录后单击上传按钮,文件开始上传。
文件离线采集
创建文件离线采集任务
- 创建文件离线采集任务:
- 如没有创建过任务,在数据集成>文件离线采集页面选择对应的数据源进入配置页面。
- 已经创建过任务,在文件离线采集任务列表右上角单击创建。选择对应数据源后进入配置页面。
- 填写对应配置项后单击保存并运行,任务创建完成。
表1 创建文件离线采集任务配置项说明
配置项名称 | 说明 |
---|---|
任务名称 | 输入任务名称,支持中文、英文、数字、中划线(-)、下划线(_),不超过256字符。注意:单个单个工作空间内任务名称不可重复。 |
任务描述 | 输入任务描述,任意字符,不超过500字符。 |
源端类型 | 下拉选择数据来源,SFTP、HDFS 或 FTP。 |
数据源名称 | 下拉选择数据源,单击去创建可创建新数据源。 |
文件路径 | 输入读取文件所在的目录路径。 |
路径正则过滤 | 输入路径正则过滤,使用正则表达式对文件路径进行过滤。 |
文件格式过滤 | 输入文件格式过滤。 |
更新时间过滤 | 选择开启或关闭时间更新过滤。 |
开始时间 | 当更新时间选择过滤时,需填写开始时间。选择固定时间/动态时间/不限制,选择固定时间时,需要选择具体年月日时分秒;选择动态时间,需输入开始时间过滤表达式,同时也可以下拉选择。 |
结束时间 | 当更新时间选择过滤时,需填写结束时间。选择固定时间/动态时间/不限制,选择固定时间时,需要选择具体年月日时分秒;选择动态时间,需输入开始时间过滤表达式,同时也可以下拉选择。 |
目标端类型 | DataBuilder Catalog。 |
目标端路径 | 输入目标端路径。 |
同名文件处理 | 支持配置同名文件处理策略,下拉选择覆盖、跳过或重命名。 |
计算实例 | 下拉选择计算实例,选择范围是当前空间下创建的源连接与集成实例。 |
最大并发数 | 输入并发数,最小值为1,最大值为6。 |
文件离线采集任务列表
创建成功的任务以列表形式展示,支持按照任务名称进行搜索。列表支持按照源端类型进行搜索,按照创建时间进行排序。
表2 列表字段说明
列表项名称 | 说明 |
---|---|
任务名称 | 集成任务的名称,用于识别任务唯一性。 |
状态 | 任务状态,支持按状态进行筛选列表。状态分为:全部、草稿、前置检查中、前置检查通过、前置检查未通过、更新中和已发布。 |
源端类型 | SFTP、HDFS 或 FTP。 |
源端数据源 | 任务选择的源端数据源名称。 |
目标端路径 | 任务配置的目标端路径。 |
最近运行 | 任务最近5次的运行状态,为空说明暂无运行。状态类型分为:运行中、成功、失败、终止中、已终止、待触发。 |
创建人 | 创建任务的用户名。 |
创建时间 | 创建任务的时间。 |
操作 | 在操作列可以对任务进行不同操作。 |
查看文件离线采集任务详情
在任务详情页面单击任务名称,进入任务详情。查看任务的详细信息,包括运行记录和任务配置,同时可以在详情页面对任务进行运行或编辑操作。
运行记录
在集成任务详情通过切换tab页选择运行记录,查看任务运行记录列表。
表3 任务详情运行记录列表说明
列表项名称 | 说明 |
---|---|
运行记录ID | 运行记录唯一ID。 |
业务时间 | 运行时对应业务时间。 |
状态 | 任务运行的状态,状态的类型有:全选、运行中、成功、失败、终止中、已终止和待触发。 |
运行类型 | 运行类型分为:全部、例行执行、工作流单词执行和单次执行。支持通过运行类型进行筛选。 |
开始时间 | 任务运行开始的时间。 |
结束时间 | 任务运行结束的时间。 |
运行时长 | 任务运行开始到结束的时长,单位为秒。 |
操作 | 在操作列可以对任务进行不同操作。 |
任务信息
在集成任务详情通过切换tab页选择任务信息,可查看任务的源端信息、目标端信息和运行信息。包括数据源名称、文件路径、路径正则过滤、文件格式过滤、更新时间过滤、目标端路径、同名文件处理、计算实例和最大并发数。
库表离线采集
创建库表离线采集任务
- 登录百度智能云 DataBuilder 控制台,在侧边导航选中数据集成模块。
- 通过tab页切换选择库表离线采集,单击右上角创建按钮,选择源端类型后确定。源端类型为: MySQL、SQLServer、Oracle、PostgreSQL、HAHA。
- 进入源端与目标端配置界面,填写相关配置项。
表4 源端与目标端配置说明
列表项名称 | 说明 |
---|---|
任务名称 | 输入库表离线采集任务名称,支持中文、英文、数字、中划线(-)、下划线(_),不超过256字符,注意:单个工作空间内任务名称不可重复。 |
任务描述 | 输入任务描述,不超过500字符。 |
计算实例 | 下拉选择计算实例。 |
源端类型 | MySQL、SQLServer、Oracle、PostgreSQL、HAHA。 |
数据源名称 | 下拉选择数据源,也可以单击创建数据源去创建数据源,详见数据源。 |
目标端类型 | iceberg、Doris。 |
建表方式 | 下拉选择自动建表或选择已有表。 当选择自动建表的时候,需要填写以下配置项: 当选择已有表时,需填写以下配置项: |
描述 | 输入描述,不超过256字。 |
- 完成源端与目标端配置后,单击下一步,进入运行信息配置。填写运行信息配置项后单击下一步进行映射设置。
表5 运行信息配置说明
配置项 | 说明 |
---|---|
开启限速 | 选择是否开启或关闭限速。 |
最大流量速率 | 选择开启限速后填写最大流量速率。 |
最大行数速率 | 选择开启限速后填写最大行数速率。 |
最大并发数 | 填写最大并发数。 |
分片字段(切分键) | 当并发数大于1时,需要填写分片字段。分片字段支持TINYINT、SMALLINT、INTEGER、BIGINT、REAL、FLOAT、DOUBLE、NUMERIC、DECIMAL、BIT、BOOLEAN、DATE、TIME、TIMESTAMP类型。 |
源端表删除字段 | 终止任务/忽略已删除字段。 |
源端表新增字段 | 终止任务/忽略已新增字段。 |
源端表删除 | 终止任务。 |
写入模式 | 选择写入模式:overwrite(覆盖写入)/append(追加写入)/upsert(更新写入)。 |
脏数据策略 | 下拉选择脏数据策略:不容忍脏数据 / 容忍部分部分脏数据 / 忽略脏数据。 |
脏数据容忍度 | 当脏数据策略选择容忍部分部分脏数据,需填写此项。选择百分比或条数,然后填入相应数字。 |
是否写入脏数据 | 当脏数据策略选择不容忍脏数据或忽略脏数据,需填写此项。选择是/否。 |
脏数据存储路径 | 当是否写入脏数据选择是,需填写此项。填写脏数据存储路径,数据格式为CSV。 |
- 在完成运行设置后,在映射设置进行源端字段、目标端字段、表达式、where语句、目标端表分区等个性化设置。
- 完成映射设置后单击确定,库表离线采集任务创建完成。
库表离线采集任务列表
创建完成的库表离线采集任务以列表形式展示,支持通过任务名称、源端数据源、源端数据库和目标端数据库进行搜索,列表支持按照状态进行筛选,同时支持按照创建时间对列表进行排序。
表6 库表离线采集任务列表说明
列表项名称 | 说明 |
---|---|
任务名称 | 库表离线采集任务的名称。 |
状态 | 任务状态,状态分为:全部、草稿、前置检查中、更新中、已发布、前置检查通过和前置检查未通过。 |
源端类型 | MySQL、SQLServer、Oracle、PostgreSQL、HAHA。 |
源端数据源 | 单击源端数据源名称,可跳转数据源管理查看详细信息。 |
源端数据库 | 数据抽取的源头数据库名称。 |
源端数据表 | 源端数据库里具体要抽取数据的表名称。 |
目标端数据表 | 数据最终写入的目标表名称,确定集成后数据存储的表位置。 |
最近运行 | 最近一次运行任务的状态。 |
创建人 | 创建库表采集任务的用户名。 |
创建时间 | 创建任务的时间。 |
操作 | 在列表操作项可以对任务进行不同操作: |
查看库表离线采集任务详情
单击任务名称可进入库表离线采集任务详情,通过切换tab页可查看运行记录或任务信息。
运行记录
在库表采集任务详情通过切换tab页选择运行记录,查看任务运行记录列表。
表7 库表采集任务详情概览
列表项名称 | 说明 |
---|---|
运行记录ID | 运行记录唯一ID。 |
业务时间 | 运行时对应业务时间。 |
状态 | 任务运行的状态,状态的类型有:全部、待触发、运行中、失败、成功、终止中、已终止。 |
运行时长 | 任务运行开始到结束的时长。 |
运行类型 | 任务运行类型,类型分为:全部、例行执行、工作流单次执行、单次执行、补数据执行和重跑。 |
开始时间 | 任务运行开始的时间。 |
结束时间 | 任务运行结束的时间。 |
操作 | 在操作列可以对任务运行记录进行查看。 |
任务信息
在库表采集任务详情通过切换tab页选择任务信息,查看任务的源端与目标端信息、运行信息和映射信息。