数据集成
DataBuilder 数据集成支持结构化数据(如 MySQL)和非结构化数据(如 FTP 中的视频、图片)的采集,并统一落地至 DataBuilder 数据表或数据卷中管理。通过全流程可视化配置界面,用户仅需完成简单配置,即可轻松完成数据集成任务。
前提条件
- 具有空间管理员权限或其他具备该功能权限的角色
上传文件到数据卷
- 登录百度智能云 DataBuilder 控制台,在侧边导航选中数据集成模块。
- 在数据集成tab选择文件采集,单击页面中上传文件到数据卷。
- 将文件夹或多个文件拖到对应区域或者单击点击上传按钮后,选择上传文件到对应目录后单击上传按钮,文件开始上传。
文件离线采集
创建文件离线采集任务
- 创建文件离线采集任务:
- 如没有创建过任务,在数据集成>文件离线采集页面选择对应的数据源进入配置页面。
- 已经创建过任务,在文件离线采集任务列表右上角单击创建。选择对应数据源后进入配置页面。
- 填写对应配置项后单击保存并运行,任务创建完成。
表1 创建文件离线采集任务配置项说明
| 配置项名称 | 说明 |
|---|---|
| 任务名称 | 输入任务名称,支持中文、英文、数字、中划线(-)、下划线(_),不超过256字符。注意:单个单个工作空间内任务名称不可重复。 |
| 任务描述 | 输入任务描述,任意字符,不超过500字符。 |
| 源端类型 | 下拉选择数据来源,SFTP、HDFS 或 FTP。 |
| 数据源名称 | 下拉选择数据源,单击去创建可创建新数据源。 |
| 文件路径 | 输入读取文件所在的目录路径。 |
| 路径正则过滤 | 输入路径正则过滤,使用正则表达式对文件路径进行过滤。 |
| 文件格式过滤 | 输入文件格式过滤。 |
| 更新时间过滤 | 选择开启或关闭时间更新过滤。 |
| 开始时间 | 当更新时间选择过滤时,需填写开始时间。选择固定时间/动态时间/不限制,选择固定时间时,需要选择具体年月日时分秒;选择动态时间,需输入开始时间过滤表达式,同时也可以下拉选择。 |
| 结束时间 | 当更新时间选择过滤时,需填写结束时间。选择固定时间/动态时间/不限制,选择固定时间时,需要选择具体年月日时分秒;选择动态时间,需输入开始时间过滤表达式,同时也可以下拉选择。 |
| 目标端类型 | DataBuilder Catalog。 |
| 目标端路径 | 输入目标端路径。 |
| 同名文件处理 | 支持配置同名文件处理策略,下拉选择覆盖、跳过或重命名。 |
| 计算实例 | 下拉选择计算实例,选择范围是当前空间下创建的源连接与集成实例。 |
| 最大并发数 | 输入并发数,最小值为1,最大值为6。 |
文件离线采集任务列表
创建成功的任务以列表形式展示,支持按照任务名称进行搜索。列表支持按照源端类型进行搜索,按照创建时间进行排序。
表2 列表字段说明
| 列表项名称 | 说明 |
|---|---|
| 任务名称 | 集成任务的名称,用于识别任务唯一性。 |
| 状态 | 任务状态,支持按状态进行筛选列表。状态分为:全部、草稿、前置检查中、前置检查通过、前置检查未通过、更新中和已发布。 |
| 源端类型 | SFTP、HDFS 或 FTP。 |
| 源端数据源 | 任务选择的源端数据源名称。 |
| 目标端路径 | 任务配置的目标端路径。 |
| 最近运行 | 任务最近5次的运行状态,为空说明暂无运行。状态类型分为:运行中、成功、失败、终止中、已终止、待触发。 |
| 创建人 | 创建任务的用户名。 |
| 创建时间 | 创建任务的时间。 |
| 操作 | 在操作列可以对任务进行不同操作。 |
列表批量操作
- 批量运行:在列表最前方选中任务后,单击列表右上角运行按钮,可对任务进行批量运行操作。
- 批量删除:在列表最前方选中任务后,单击列表右上角删除按钮,可对任务进行批量删除操作。
查看文件离线采集任务详情
在任务详情页面单击任务名称,进入任务详情。查看任务的详细信息,包括运行记录和任务配置,同时可以在详情页面对任务进行运行或编辑操作。
运行记录
在集成任务详情通过切换tab页选择运行记录,查看任务运行记录列表。
表3 任务详情运行记录列表说明
| 列表项名称 | 说明 |
|---|---|
| 运行记录ID | 运行记录唯一ID。 |
| 业务时间 | 运行时对应业务时间。 |
| 状态 | 任务运行的状态,状态的类型有:全选、运行中、成功、失败、终止中、已终止和待触发。 |
| 运行类型 | 运行类型分为:全部、例行执行、工作流单词执行和单次执行。支持通过运行类型进行筛选。 |
| 开始时间 | 任务运行开始的时间。 |
| 结束时间 | 任务运行结束的时间。 |
| 运行时长 | 任务运行开始到结束的时长,单位为秒。 |
| 操作 | 在操作列可以对任务进行不同操作。 |
任务信息
在集成任务详情通过切换tab页选择任务信息,可查看任务的源端信息、目标端信息和运行信息。包括数据源名称、文件路径、路径正则过滤、文件格式过滤、更新时间过滤、目标端路径、同名文件处理、计算实例和最大并发数。
库表离线采集
创建库表离线采集任务
- 登录百度智能云 DataBuilder 控制台,在侧边导航选中数据集成模块。
- 通过tab页切换选择库表离线采集,可按照需求选择单个任务创建或批量创建任务,选择源端类型后确定。源端类型为: MySQL、SQLServer、Oracle、PostgreSQL、HAHA。
| 类型 | 说明 |
|---|---|
| 单个任务创建 | 单个任务创建适用于用户需要从特定数据表中采集数据,并对该数据表进行详细配置的情况。用户需要选择具体的表,并配置表与目标系统之间的映射关系,以确保数据能够正确采集和存储。 |
| 批量任务创建 | 批量任务创建适用于用户需要从单个数据库中一次性选择多个数据表进行采集的情况。用户通过批量选择数据表并配置相应的采集任务,以提高效率。 |
- 进入源端与目标端配置界面,填写相关配置项。
表4 源端与目标端配置说明
| 列表项名称 | 说明 |
|---|---|
| 任务名称 | 输入库表离线采集任务名称,支持中文、英文、数字、中划线(-)、下划线(_),不超过256字符,注意:单个工作空间内任务名称不可重复。 |
| 任务描述 | 输入任务描述,不超过500字符。 |
| 计算实例 | 下拉选择计算实例。 |
| 源端类型 | MySQL、SQLServer、Oracle、PostgreSQL、HAHA。 |
| 数据源名称 | 下拉选择数据源,也可以单击创建数据源去创建数据源,详见数据源。 |
| 目标端类型 | iceberg、Doris。 |
| 建表方式 | 下拉选择自动建表或选择已有表。 当选择自动建表的时候,需要填写以下配置项: 当选择已有表时,需填写以下配置项: |
| 描述 | 输入描述,不超过256字。 |
- 完成源端与目标端配置后,单击下一步,进入运行信息配置。填写运行信息配置项后单击下一步进行映射设置。
表5 运行信息配置说明
| 配置项 | 说明 |
|---|---|
| 开启限速 | 选择是否开启或关闭限速。 |
| 最大流量速率 | 选择开启限速后填写最大流量速率。 |
| 最大行数速率 | 选择开启限速后填写最大行数速率。 |
| 最大并发数 | 填写最大并发数。 |
| 分片字段(切分键) | 当并发数大于1时,需要填写分片字段。分片字段支持TINYINT、SMALLINT、INTEGER、BIGINT、REAL、FLOAT、DOUBLE、NUMERIC、DECIMAL、BIT、BOOLEAN、DATE、TIME、TIMESTAMP类型。 |
| 源端表删除字段 | 终止任务/忽略已删除字段。 |
| 源端表新增字段 | 终止任务/忽略已新增字段。 |
| 源端表删除 | 终止任务。 |
| 写入模式 | 选择写入模式:overwrite(覆盖写入)/append(追加写入)/upsert(更新写入)。 |
| 脏数据策略 | 下拉选择脏数据策略:不容忍脏数据 / 容忍部分部分脏数据 / 忽略脏数据。 |
| 脏数据容忍度 | 当脏数据策略选择容忍部分部分脏数据,需填写此项。选择百分比或条数,然后填入相应数字。 |
| 是否写入脏数据 | 当脏数据策略选择不容忍脏数据或忽略脏数据,需填写此项。选择是/否。 |
| 脏数据存储路径 | 当是否写入脏数据选择是,需填写此项。填写脏数据存储路径,数据格式为CSV。 |
- 在完成运行设置后,在映射设置进行源端字段、目标端字段、表达式、where语句、目标端表分区等个性化设置。
- 完成映射设置后单击确定,库表离线采集任务创建完成。
库表离线采集任务列表
创建完成的库表离线采集任务以列表形式展示,支持通过任务名称、源端数据源、源端数据库和目标端数据库进行搜索,列表支持按照状态或源端类型进行筛选,同时支持按照创建时间对列表进行排序。
表6 库表离线采集任务列表说明
| 列表项名称 | 说明 |
|---|---|
| 任务名称 | 库表离线采集任务的名称。 |
| 状态 | 任务状态,状态分为:全部、草稿、前置检查中、更新中、已发布、前置检查通过和前置检查未通过。 |
| 源端类型 | MySQL、SQLServer、Oracle、PostgreSQL、HAHA。支持按照源端类型对列表进行筛选。 |
| 源端数据源 | 单击源端数据源名称,可跳转数据源管理查看详细信息。 |
| 源端数据库 | 数据抽取的源头数据库名称。 |
| 源端数据表 | 源端数据库里具体要抽取数据的表名称。 |
| 目标端数据表 | 数据最终写入的目标表名称,确定集成后数据存储的表位置。 |
| 最近运行 | 最近一次运行任务的状态。 |
| 创建人 | 创建库表采集任务的用户名。 |
| 创建时间 | 创建任务的时间。 |
| 更新人 | 记录最后一次更新该任务的用户。 |
| 更新时间 | 记录任务最后一次更新的时间 |
| 发布人 | 记录发布该任务的用户。 |
| 发布时间 | 记录任务发布的具体时间。 |
| 操作 | 在列表操作项可以对任务进行不同操作: |
列表批量操作
- 批量编辑:在列表最前方选中任务后,单击列表右上角更多按钮,选择 批量编辑 > 批量修改运行资源、批量修改目的端写入设置、修改源端读取配置,可对任务进行不同批量编辑操作。
- 批量前置检查:在列表最前方选中任务后,单击列表右上角前置检查按钮,可对任务进行批量前置检查操作。
- 批量发布:在列表最前方选中任务后,单击列表右上角发布按钮,可对任务进行批量发布操作。
- 批量删除:在列表最前方选中任务后,单击列表右上角删除按钮,可对任务进行批量删除操作。
查看库表离线采集任务详情
单击任务名称可进入库表离线采集任务详情,通过切换tab页可查看运行记录或任务信息。
运行记录
在库表采集任务详情通过切换tab页选择运行记录,查看任务运行记录列表。
表7 库表采集任务详情概览
| 列表项名称 | 说明 |
|---|---|
| 运行记录ID | 运行记录唯一ID。 |
| 业务时间 | 运行时对应业务时间。 |
| 状态 | 任务运行的状态,状态的类型有:全部、待触发、运行中、失败、成功、终止中、已终止。 |
| 运行时长 | 任务运行开始到结束的时长。 |
| 运行类型 | 任务运行类型,类型分为:全部、例行执行、工作流单次执行、单次执行、补数据执行和重跑。 |
| 开始时间 | 任务运行开始的时间。 |
| 结束时间 | 任务运行结束的时间。 |
| 操作 | 在操作列可以对任务运行记录进行查看。 |
任务信息
在库表采集任务详情通过切换tab页选择任务信息,查看任务的源端与目标端信息、运行信息和映射信息。
库表实时采集
创建库表实时采集
- 创建库表实时采集数据集成任务:
如没有创建过任务,在数据集成>库表实时采集选择对应的数据源(MySQL/Oracle/SQLServer)进入配置页面。
已经创建过任务,在库表实时采集任务列表右上角单击创建。选择对应数据源(MySQL/Oracle/SQLServer)后进入配置页面。
- 来源与目标端配置
| 配置项 | 说明 |
|---|---|
| 任务名称 | 输入任务的名称,用于标识数据集成任务,字符长度限制在 0 到 256 之间。 |
| 任务描述 | 输入对该任务的描述信息,字符长度限制在 0 到 500 之间。 |
| 同步步骤 | 全量 + 增量同步/增量同步。 |
| 增量时间点 | 当选择增量同步时,需选择增量时间点。 |
| 计算实例 | 通过下拉选择用于执行该数据集成任务的计算实例,为任务提供计算资源支持。 |
| 源端类型 | 下拉选择源端类型:MySQL/SQLServer/Oracle/PostgreSQL。 |
| 数据源名称 | 选择具体的数据源,需与源端类型匹配,用于指定从哪个数据源获取数据。 |
| 目的地类型 | 下拉选择目的地类型:iceberg/Doris。 |
| 建表方式 | 自动建表/选择已有表。 |
| 表类型 | 当选择了选择已有表时,需选择表类型:内部表。 |
| 表名设置 | 当选择了选择已有表时,需选择表名设置:无前后缀、增加前缀、增加后缀、增加前后缀。选择增加前缀、后缀或者前后缀时,需要输入相关字符。 |
| 目标数据库 | 单击浏览选择数据库。 |
- 运行信息配置
| 配置项 | 说明 |
|---|---|
| 并发数 | 输入并发数,最小值为1。 |
| 源端表删除字段 | 终止任务/忽略 |
| 源端表被删除 | 终止任务。 |
| 源端表新增字段 | 终止任务/忽略/目的端自动新增字段并同步数据。 |
| 源端表重命名字段 | 终止任务/忽略。 |
| 源端表清空数据 | 终止任务/忽略。 |
| 源端表名称重命名 | 终止任务/忽略。 |
| 源端表修改字段类型 | 终止任务/忽略/同步修改字段类型 |
| 源端表修改表描述信息 | 终止任务/忽略/同步修改表描述 |
| 源端表修改字段描述信息 | 终止任务/忽略/同步修改字段描述 |
| 源端表插入数据 | 正常处理/忽略。 |
| 源端表更新数据 | 正常处理/忽略。 |
| 源端表删除数据 | 正常处理/忽略/逻辑删除。 |
| 脏数据处理策略 | 忽略/不容忍。 |
| 是否写入脏数据 | 是/否。 |
- 批量增加字段
当选择自动建表时,可通过该步骤批量增加字段,单击添加字段增加一行字段,填写字段值,单击操作列删除可对当前字段进行删除。
| 字段项 | 说明 |
|---|---|
| 字段名称 | 输入字段的名称,用于标识数据表中的某一列,字符长度限制在 1 ~ 128 之间。 |
| 字段类型 | 下拉选择字段的数据类型,STRINGFIXEDINTLONGFLOATDOUBLEDECIMALBOOLEANBINARYDATETIMETIMESTAMPTIMESTAMPTZLISTMAPSTRUCT |
| 默认值 | 输入该字段的默认值,当字段没有明确赋值时,会使用这个默认值。 |
| 字段描述 | 输入对该字段的描述信息,用于说明字段的含义、用途等。 |
| 操作 | 单击 “删除” 按钮,可删除当前配置的字段。 |
| 添加字段 | 单击该按钮,可新增一个字段配置行,用于添加更多的字段。 |
- 写入设置:
通过搜索表名称选择将实时采集的数据写入到哪些表,右边展示已选择表,单击清空按钮可移除已选表。点击单表的编辑按钮可打开单表写入设置页面,展示源端目标端映射信息并支持修改,同时支持针对以下配置进行单表的个性化调整:
| 配置项 | 说明 |
|---|---|
| 源端表插入数据 | 正常处理/忽略。 |
| 源端表更新数据 | 正常处理/忽略。 |
| 源端表删除数据 | 正常处理/忽略/逻辑删除。 |
2.配置项配置完成后单击保存,确定后库表实时采集任务创建成功。
库表实时采集任务列表
创建完成的库表实时采集任务以列表形式展示,支持通过任务名称、源端类型、源端数据源、源端数据库或目的端库对列表进行筛选。
| 列表项 | 说明 |
|---|---|
| 任务名称 | 库表实时采集任务的名称,标识每个数据集成任务的唯一名称。 |
| 状态 | 显示任务当前的运行状态,状态类型分为:全部、草稿、待触发、运行中、前置检查中、前置检查通过、前置检查失败、暂停中、已暂停和运行失败。可通过此项筛选列表。 |
| 源端类型 | 展示当前源端类型,MySQL/Oracle/SQLServer。可通过此项筛选列表。 |
| 源端数据源 | 数据来源的具体数据库名称。 |
| 目标端数据库 | 数据写入的目标数据库名称。 |
| 持续运行时长 | 任务从启动到当前持续运行的时间。 |
| 当前位点 | 标记任务在数据同步过程中的当前位置或时间点。 |
| 任务类型 | 说明任务的数据同步类型,任务类型:说明任务的数据同步类型/说明任务的数据同步类型,可通过此项筛选列表。 |
| 执行概况 | 任务的执行情况。 |
| 创建人 | 创建任务的用户名。 |
| 创建时间 | 创建该任务的时间节点。 |
| 更新人 | 最新一次操作任务的用户名。 |
| 更新时间 | 最新一次操作任务的时间节点。 |
| 操作 | 前置检查:在任务运行前进行检查编辑:可修改任务配置运行:启动任务删除:删除此项任务暂停:停止任务复制:复制一个任务在列表权限管理:对该任务进行权限管理,对用户进行赋权或取消权限 |
库表实时采集任务详情
单击任务名可查看进入任务详情,查看任务运行记录、运行日志、任务配置和统计信息。
运行记录
在任务详情界面通过tab页切换查看运行记录,运行记录分为全量进度和实时同步,通过按钮进行切换查看,同时可以通过输入表名称进行筛选。
| 列表项 | 说明 |
|---|---|
| 源端表名称 | 源端表的名称。 |
| 目标端表名称 | 写入目标表名称。 |
| 全量进度 | 全量进度会展示全量数据同步的完成进度。 |
| 状态 | 显示任务的执行状态,状态类型有:全部、运行中、失败、成功、已终止、未开始和已暂停。 |
| 全量开始时间 | 全量进度会展示全量数据同步开始的时间。 |
| 全量结束时间 | 全量进度会展示全量数据同步结束的时间。 |
运行日志
在任务详情界面通过tab页切换查看运行日志,日志面板右上角可对日志内容进行下载,同时可对当前日志进行刷新。
任务配置
在任务详情界面通过tab页切换查看任务配置,在该页面也查看任务的源端与目标端信息、运行信息和映射信息。
