文件离线采集
文件离线采集是平台面向批量文件同步提供的数据集成能力,支持将本地上传至数据卷的文件、源端 FTP/SFTP/HDFS存储的文件,按自定义过滤规则、时间范围批量同步至数据卷或媒体集,完成多格式非结构化文件的统一归集、落地存储。
前提条件
- 具有空间管理员权限或其他具备该功能权限的角色。
- 任务运行需使用任务所在项目绑定资源组下的源链接与集成实例,请确保该计算实例与需要集成的数据源网络已打通。
配置说明
平台提供向导模式、脚本模式两种任务配置方式,适配不同业务复杂度场景,可按需选择使用。
- 向导模式(默认):零代码可视化表单配置,操作简单、上手快速,适配常规标准化文件同步场景。
- 脚本模式:支持自定义脚本灵活拓展同步逻辑,适合快速接入更多引擎层已支持的数据源,满足复杂及个性化业务需求。
需在向导模式完成全部基本配置后,才可切换至脚本模式。
创建文件离线采集任务
任务创建入口
- 未创建过任务:进入数据集成>文件离线采集页面,选择对应数据源即可进入任务配置页面。
- 已创建过任务:在文件离线采集任务列表右上角,单击创建按钮新建任务。
数据来源选择方式
文件离线采集支持两种数据接入方式,可根据文件实际存储位置选择对应方案:
方式一:上传文件到卷(文件)
适用场景:本地电脑存在 CSV、图片、音视频、PDF 等文件,需要先上传至平台内置数据卷存储。
操作步骤:单击上传文件到卷,将文件夹或多个文件拖到对应区域或单击点击上传按钮进行上传文件,接着单击浏览按钮,配置上传目录,配置完成后,单击上传按钮即可。
方式二:FTP / SFTP / HDFS(数据源)
适用场景:文件已存放在远端服务器、分布式集群,需要建立远程连接拉取文件做离线采集。
| 数据源 | 适用场景 |
|---|---|
| FTP | 普通文件传输服务器,无加密传输,内网可信环境使用。 |
| SFTP | 加密安全文件传输服务器,公网、跨环境文件拉取优先选 SFTP。 |
| HDFS | Hadoop 分布式文件系统,大数据离线文件仓库场景。 |
操作步骤:具体操作步骤可参见下方任务配置流程。
任务配置流程
下文主要解释文件离线采集两种配置模式的完整搭建流程,明确两种模式的操作差异、配置规范及使用约束,可根据业务场景复杂度,选择适配的模式完成任务配置。
向导模式配置流程
- 根据需求选择单击FTP/SFTP/HDFS数据源;
- 完整填写对应数据源连接配置参数;
- 填写对应配置项后,校验连接无异常后,数据源创建完成,可基于该数据源配置采集任务。关于数据源的详细配置如下表:
表1 基本配置说明
| 配置项名称 | 说明 |
|---|---|
| 任务名称 | 输入任务名称,名称长度必须在1~256字符之间,不能出现/或者\,不能仅为. |
| 所属位置 | 指定当前任务所处项目文件夹,侧边通过浏览按钮选择路径,实现任务文件的统一管理。 |
| 任务描述 | 输入任务描述,任意字符,不超过500字符。 |
表2 源端配置项说明
| 配置项名称 | 说明 |
|---|---|
| 源端类型 | 下拉选择数据来源,SFTP、HDFS 或 FTP。 |
| 数据源名称 | 下拉选择数据源,单击去创建可创建新数据源。 |
| 文件路径 | 输入读取文件所在的目录路径。 |
| 连接模式 | 源端类型选择FTP时,需配置连接模式,支持选择主动模式或被动模式。 |
| 路径正则过滤 | 输入路径正则过滤,使用正则表达式对文件路径进行过滤。 |
| 文件格式过滤 | 输入文件格式过滤。 |
| 更新时间过滤 | 选择开启或关闭时间更新过滤。 |
| 开始时间 | 当更新时间选择过滤时,需填写开始时间。选择固定时间/动态时间/不限制,选择固定时间时,需要选择具体年月日时分秒;选择动态时间,需输入开始时间过滤表达式,同时也可以下拉选择。 |
| 结束时间 | 当更新时间选择过滤时,需填写结束时间。选择固定时间/动态时间/不限制,选择固定时间时,需要选择具体年月日时分秒;选择动态时间,需输入开始时间过滤表达式,同时也可以下拉选择。 |
表3 目标端配置说明
| 配置项名称 | 说明 |
|---|---|
| 目标端类型 | 数据卷/媒体集。 |
| 目标端路径 | 输入目标端路径。 |
| 同名文件处理 | 支持配置同名文件处理策略,下拉选择覆盖、跳过或重命名。 |
- 在配置完源端目标端配置后,需进行运行配置,具体配置参数如下:
表4 运行配置说明
| 配置项名称 | 说明 |
|---|---|
| 最大并发数 | 填写最大并发数。范围是1~100。 |
| 断点续传 | 默认开启,开启后,任务执行过程中将定期将临时目录数据提交到正式目录,若任务失败,重跑时可从最近一次checkpoint位置继续执行,避免已传输数据的重复传输。关闭时,任务完成后一次性提交数据,重跑时仅能全量重新执行任务。 |
- 配置完成后,单击保存并前置检查,会对计算资源状态检查、源端数据源连通性测试、目的端数据源连通性测试、脚本内容合法性检查、任务的合法性检查。
前置检查失败后,页面会展示具体失败原因,可根据日志提示修正数据源连接、任务过滤规则、目标端权限等配置项,修改完成后重新执行前置检查,全部校验项通过方可保存并创建任务。
- 前置检查通过后,您单击运行按钮或单击发布按钮,对任务进行发布操作,发布任务之后,可以在工作流中被调度执行。
- 若选择单击运行按钮,可按需选择运行或运行并查看详情两种执行方式,任务发起后即代表任务创建成功;选择运行并查看详情可直接跳转至任务运行记录页面,实时查看本次同步任务执行进度。
脚本模式配置流程
- 单击创建,选择某个源端类型
- 在向导模式完成全部基本配置后,单击创建页面最上方的转为脚本模式按钮,进行切换。
- 编辑脚本,配置集成任务,文件离线采集的通用脚本配置如下:
_db_jobMeta:任务基础配置信息,包括任务名称、任务描述、任务所属位置ID、任务类型等。建议在向导模式完成配置后,不再在脚本模式中修改该部分内容。
env:任务高级配置信息。其中:
job.mode:用于区分离线任务和实时任务,该配置在任务创建时已确定,不支持修改。parallelism:用于设置任务运行并发数,可根据实际需求进行调整。checkpoint.interval:用于配置断点续传的检查点保存间隔。删除该配置表示关闭断点续传;保留并设置时间间隔则表示开启断点续传,并按配置周期保存任务执行进度。source、sink:数据源和目标端配置,不同源端插件支持的配置项有所差异,具体说明请参见脚本模式配置说明。
1{
2 "_db_jobMeta": {
3 "name": "任务名称",
4 "description": "任务描述",
5 "parentFolderId": "folder_af42_bccdb16a1d00",
6 "type": "file",
7 "mode": "script"
8 },
9 "env": {
10 "job.mode": "BATCH",
11 "parallelism": 1,
12 "checkpoint.interval": 900000
13 },
14 "source": [
15 {
16 "plugin_name": "插件名",
17 "_db_pluginId": "DB侧插件名"
18 }
19 ],
20 "sink": [
21 {
22 "plugin_name": "插件名",
23 "_db_pluginId": "DB侧插件名"
24 }
25 ]
26}
- 配置完成后,单击保存并前置检查,会对计算资源状态检查、源端数据源连通性测试、目的端数据源连通性测试、脚本内容合法性检查、任务的合法性检查。
前置检查失败后,页面会展示具体失败原因,可根据日志提示修正数据源连接、任务过滤规则、目标端权限等配置项,修改完成后重新执行前置检查,全部校验项通过方可保存并创建任务。
- 前置检查通过后,您单击运行按钮或单击发布按钮,对任务进行发布操作,发布任务之后,可以在工作流中被调度执行。
- 若选择单击运行按钮,可按需选择运行或运行并查看详情两种执行方式,任务发起后即代表任务创建成功;选择运行并查看详情可直接跳转至任务运行记录页面,实时查看本次同步任务执行进度。
查看文件离线采集任务列表
创建成功的任务以列表形式展示,支持按照任务名称、目标端路径进行搜索。列表支持按照源端类型进行搜索,按照创建时间进行排序。
表5 列表字段说明
| 列表项名称 | 说明 |
|---|---|
| 任务名称 | 集成任务的名称,用于识别任务唯一性。 |
| 状态 | 任务状态,支持按状态进行筛选列表。状态分为:全部、草稿、前置检查中、前置检查通过、前置检查未通过、更新中和已发布。 |
| 源端类型 | SFTP、HDFS 或 FTP。 |
| 源端数据源 | 任务选择的源端数据源名称。 |
| 目标端路径 | 任务配置的目标端路径。 |
| 最近运行 | 任务最近5次的运行状态,为空说明暂无运行。状态类型分为:运行中、成功、失败、终止中、已终止、待触发。 |
| 创建人 | 创建任务的用户名。 |
| 创建时间 | 创建任务的时间。 |
| 操作 | 在操作列可以对任务进行不同操作:前置检查、发布、运行、编辑、复制、删除、权限管理。 |
列表批量操作
- 批量运行:在列表最前方选中任务后,单击列表右上角运行按钮,可对任务进行批量运行操作。
- 批量删除:在列表最前方选中任务后,单击列表右上角删除按钮,可对任务进行批量删除操作。
查看文件离线采集任务详情
在任务详情页面单击任务名称,进入任务详情。查看任务的详细信息,包括运行记录、任务信息和统计信息,同时可以在详情页面对任务进行运行或编辑操作。
运行记录
在集成任务详情通过切换tab页选择运行记录,查看任务运行记录列表。
表6 任务详情运行记录列表说明
| 列表项名称 | 说明 |
|---|---|
| 运行记录ID | 运行记录唯一ID。 |
| 业务时间 | 运行时对应业务时间。 |
| 状态 | 任务运行的状态,状态的类型有:全选、运行中、成功、失败、终止中、已终止和待触发。 |
| 运行类型 | 运行类型分为:全部、例行执行、工作流单次执行和单次执行。 |
| 开始时间 | 任务运行开始的时间。 |
| 结束时间 | 任务运行结束的时间。 |
| 运行时长 | 任务运行开始到结束的时长,单位为秒。 |
| 操作 | 在操作列可以对任务运行记录进行查看:详情(统计信息与任务日志)、终止、重跑(支持从断点继续或忽略断点全量重跑)。 |
任务信息
在集成任务详情通过切换tab页选择任务信息,可查看任务的基本配置信息,请注意:脚本模式创建的任务仅支持以脚本形式查看配置信息。
统计信息
在集成任务详情通过切换tab页选择统计信息,查看统计概览(已读取文件、已写入文件和已跳过文件数量及大小)和趋势分析(运行时长、数据量和速率),趋势分析可通过时间范围进行筛选。
评价此篇文章
