库表离线采集
更新时间:2026-07-03
库表离线采集是平台面向结构化数据库提供的数据集成能力,支持对接 DM、SAP HANA、MySQL、Oracle、PostgreSQL、SQL Server 等主流关系型数据库,基于自定义查询条件、增量过滤规则,批量抽取库表结构化数据,统一落地至平台数据卷、Lance 湖仓,完成业务结构化数据的离线归集与存储,支撑数据分析、报表计算、多模态融合等下游业务。
前提条件
- 具有空间管理员权限或其他具备该功能权限的角色。
- 任务运行需使用任务所在项目绑定资源组下的源链接与集成实例,请确保该计算实例与需要集成的数据源网络已打通。
配置说明
平台提供向导模式、脚本模式两种任务配置方式,适配不同业务复杂度场景,可按需选择使用。
- 向导模式(默认):零代码可视化表单配置,操作简单、上手快速,适配常规标准化库表同步场景。
- 脚本模式:支持自定义脚本灵活拓展同步逻辑,适合快速接入更多引擎层已支持的数据源,满足复杂及个性化业务需求。
需在向导模式完成全部基本配置后,才可切换至脚本模式。
创建库表离线采集任务
任务创建入口
- 未创建过任务:进入数据集成>库表离线采集页面,选择对应数据源即可进入任务配置页面。
- 已创建过任务:在库表离线采集任务列表右上角,单击创建/批量创建按钮新建任务。
| 类型 | 说明 |
|---|---|
| 单个任务创建 | 适用于用户需要从特定数据表中采集数据,并对该数据表进行详细配置的情况。 |
| 批量任务创建 | 适用于用户需要从单个数据库中一次性选择多个数据表进行采集的情况。 |
选择源端
在创建对话框,选择结构化数据源端,目前支持6类结构化数据,按需选择对应数据源类型完成连接创建:
| 数据源 | 适用场景 |
|---|---|
| DM | 国产信创业务库,适配政企国产化数据库同步场景。 |
| SAP HANA | 企业 ERP 配套高性能内存数据库,业务经营数据抽取。 |
| MySQL | 互联网通用业务库,支持 MySQL5、MySQL8 版本全量 / 增量同步。 |
| Oracle | 传统大型企业核心业务库,适配 Oracle11g 版本数据采集。 |
| PostgreSQL | 开源事务型业务库、MPP 分析库批量数据抽取。 |
| SQL Server | Windows 体系企业业务库,支持 2016、2019 版本离线同步。 |
任务配置流程
下文主要解释库表离线采集两种配置模式的完整搭建流程,明确两种模式的操作差异、配置规范及使用约束,可根据业务场景复杂度,选择适配的模式完成任务配置。
向导模式配置流程
- 根据需求选择单击DM/HANA/MySQL/Oracle/PostgreSQL/SQLServer数据源;
- 完整填写对应数据源连接配置参数;
- 填写对应配置项,关于数据源的详细配置如下表:
表1 基本配置说明
| 列表项名称 | 说明 |
|---|---|
| 任务名称 | 输入任务名称,名称长度必须在1~256字符之间,不能出现/或者\,不能仅为. |
| 所属位置 | 指定当前任务所处项目文件夹,侧边通过浏览按钮选择路径,实现任务文件的统一管理。 |
| 任务描述 | 输入任务描述,不超过500字符。 |
表2 源端配置说明
| 列表项名称 | 说明 |
|---|---|
| 源端类型 | DM、MySQL、SQLServer、Oracle、PostgreSQL、HAHA。 |
| 数据源名称 | 下拉选择数据源,也可以单击创建数据源去创建数据源。 |
| 数据库名称 | 下拉选择数据库。 |
| 数据表名称 | 下拉选择数据表。 |
| 分片字段 | 选择用于多并发数据同步的切分字段,建议使用主键或唯一键。 |
| 源端表删除字段 | 选择当源表字段被删除时的处理策略,支持忽略已删除字段、终止任务两种策略。 |
| 源端表新增字段 | 选择当源表新增字段时的处理策略,支持忽略已新增字段、终止任务两种策略。 |
| 源端表被删除 | 当源端表被删除时,将暂停任务执行,并将任务状态置为失败。 |
| where 语句 | 配置where语句,数据过滤条件,不含WHERE关键字,支持时间宏如 ${logicTime(yyyy-MM-dd HH:mm:ss,-1d)} |
表3 目标端配置说明
| 列表项名称 | 说明 |
|---|---|
| 目标端类型 | iceberg/Doris/结构化数据集。 |
| 类型选择Iceberg | 需配置数据库、更新写入、写入模式、建表方式(自动建表/选择已有表)、表类型、表名设置、描述、目标表。 |
| 类型选择Doris | 需配置数据库、建表方式(自动建表/选择已有表)、表类型、表名设置、描述、目标表。 |
| 类型选择结构化数据集 | 需配置更新写入、写入模式、目标位置、建表方式(自动建表/选择已有数据集)、表名设置、描述、目标表。 |
- 完成源端与目标端配置后,若为自动建表,可查看系统自动生成的映射配置,支持手动编辑调整字段映射配置。若为选择已有表,则可按需进行同名映射、同行映射或手动映射。
- 最后配置高级配置,具体参数说明如下:
表4 高级配置说明
| 配置项名称 | 说明 |
|---|---|
| 最大并发数 | 填写最大并发数。范围是1~100。 |
| 断点续传 | 默认开启,开启后,任务执行过程中将定期将临时目录数据提交到正式目录,若任务失败,重跑时可从最近一次checkpoint位置继续执行。 |
- 在完成高级配置后,单击保存并前置检查,会对计算资源状态检查、源端数据源连通性测试、目的端数据源连通性测试、脚本内容合法性检查、任务的合法性检查。
前置检查失败后,页面会展示具体失败原因,可根据日志提示修正数据源连接、任务过滤规则、目标端权限等配置项,修改完成后重新执行前置检查,全部校验项通过方可保存并创建任务。
- 前置检查通过后,您单击运行按钮或单击发布按钮,对任务进行发布操作,发布任务之后,可以在工作流中被调度执行。
- 若选择单击运行按钮,可按需选择运行或运行并查看详情两种执行方式,任务发起后即代表任务创建成功;选择运行并查看详情可直接跳转至任务运行记录页面,实时查看本次同步任务执行进度。
脚本模式配置流程
- 单击创建,选择某个源端类型
- 在向导模式完成全部基本配置后,单击创建页面最上方的转为脚本模式按钮,进行切换。
- 编辑脚本,配置集成任务,库表离线采集的通用脚本配置如下:
_db_jobMeta:任务基础配置信息。建议在向导模式完成配置后,不再在脚本模式中修改该部分内容。env:任务高级配置信息。其中job.mode用于区分离线任务和实时任务;parallelism用于设置并发数;checkpoint.interval用于配置断点续传检查点保存间隔。source、sink:数据源和目标端配置,不同源端插件支持的配置项有所差异。
JSON
1{
2 "_db_jobMeta": {
3 "name": "任务名称",
4 "description": "任务描述",
5 "parentFolderId": "project_91cc_799bd26eee94",
6 "type": "batch",
7 "mode": "script"
8 },
9 "env": {
10 "job.mode": "BATCH",
11 "parallelism": 1,
12 "checkpoint.interval": 30000
13 },
14 "source": [
15 {
16 "plugin_name": "插件名",
17 "_db_pluginId": "DB侧插件名"
18 }
19 ],
20 "sink": [
21 {
22 "plugin_name": "插件名",
23 "_db_pluginId": "DB侧插件名"
24 }
25 ]
26}
- 配置完成后,单击保存并前置检查,各检查项通过后方可保存并创建任务。
- 前置检查通过后,您单击运行按钮或单击发布按钮,对任务进行发布操作。
- 若选择单击运行按钮,可按需选择运行或运行并查看详情两种执行方式。
查看库表离线采集任务列表
创建完成的库表离线采集任务以列表形式展示,支持通过任务名称、源端数据源、源端数据库和目标端数据库进行搜索。
表5 库表离线采集任务列表说明
| 列表项名称 | 说明 |
|---|---|
| 任务名称 | 库表离线采集任务的名称。 |
| 状态 | 任务状态,分为:全部、草稿、前置检查中、更新中、已发布、前置检查通过和前置检查未通过。 |
| 源端类型 | DM、MySQL、SQLServer、Oracle、PostgreSQL、HAHA。 |
| 源端数据源 | 单击源端数据源名称,可跳转数据源管理查看详细信息。 |
| 源端数据库 | 数据抽取的源头数据库名称。 |
| 源端数据表 | 源端数据库里具体要抽取数据的表名称。 |
| 目标端数据表 | 数据最终写入的目标表名称。 |
| 最近运行 | 最近一次运行任务的状态。 |
| 创建人 | 创建库表采集任务的用户名。 |
| 创建时间 | 创建任务的时间。 |
| 更新人 | 记录最后一次更新该任务的用户。 |
| 更新时间 | 记录任务最后一次更新的时间。 |
| 发布人 | 记录发布该任务的用户。 |
| 发布时间 | 记录任务发布的具体时间。 |
| 操作 | 前置检查、运行、发布、编辑、删除、复制、权限管理。 |
列表批量操作
- 批量编辑高级配置、批量前置检查、批量运行、批量发布、批量删除。
查看库表离线采集任务详情
单击任务名称可进入库表离线采集任务详情,通过切换tab页可查看运行记录、任务信息和统计信息。
运行记录
表6 库表采集任务详情概览
| 列表项名称 | 说明 |
|---|---|
| 运行记录ID | 运行记录唯一ID。 |
| 业务时间 | 运行时对应业务时间。 |
| 状态 | 全部、待触发、运行中、失败、成功、终止中、已终止。 |
| 运行时长 | 任务运行开始到结束的时长。 |
| 运行类型 | 全部、例行执行、工作流单次执行、单次执行、补数据执行和重跑。 |
| 开始时间 | 任务运行开始的时间。 |
| 结束时间 | 任务运行结束的时间。 |
| 读取行数 | 任务从源端读取的数据行数。 |
| 写入行数 | 任务向目标端写入的数据行数。 |
| 读取大小 | 任务从源端读取的数据量大小。 |
| 写入大小 | 任务向目标端写入的数据量大小。 |
| 操作 | 详情(统计信息与任务日志)、终止、重跑(从断点继续或忽略断点全量重跑)。 |
任务信息
可查看任务的基本配置信息,脚本模式创建的任务仅支持以脚本形式查看。
统计信息
查看统计概览(已读取数据、已写入数据行数及大小)和趋势分析(运行时长、数据量和处理速率),趋势分析可通过时间范围进行筛选。
评价此篇文章
