库名映射 在弹出的窗口中,设置该数据库在目标端实例中的名称。 表名映射 在弹出的窗口中,设置该数据表在目标端实例中的名称。 列名映射 在弹出的窗口中的 列名映射 区域,设置对应的列在目标端实例中的名称。 点击 确认 。 根据提示完成后续操作。
2、进入“数据湖-元数据”菜单,创建主题、数据库、数据表。 本示例新建数据库test_db,选中已创建的数据湖存储test_datalake作为默认存储路径。 按照1.1示例数据模型,创建数据表test_score,表结构如下图所示: 数据源准备 在准备好数据湖之后,在EasyDAP数据源模块创建数据源链接,本示例选择RDS作为外部数据源,后续将把数据湖数据导出到RDS中,以便对接数据服务。
在任务配置页的迁移类型中勾选全量迁移和增量同步(Table1_1 表结构已提前建好,无需结构迁移)。由于在线数据拆分的源端和目标端数据库经常为线上业务使用的数据库,为了不在全量迁移时对数据库造成过大压力,推荐您开启 限制传输速度 的选项并对全量迁移阶段设置合理的限速。 配置 任务1 的对象映射规则。
在线表结构修改 支持在已导入数据的情况下修改表结构,包括增加列、删除列、修改列类型和改变列顺序等操作。变更操作不会影响当前数据库的查询和写入操作。 丰富的生态 PALO可以方便的导入存储在对象存储、HDFS或Kafka中的数据。用户也可以通过Spark来直接查询PALO中存储的数据。
解析格式 自动解析、Parquet、ORC、CSV、Hudi、Delta Lake 目标数据源 支持选择用户在EDAP-数据源管理中已创建的数据源 目标数据库 选择该数据源下的数据库 支持刷新数据库 目标数据前缀 输入数据前缀,为发现的表表名增加前缀。
正常执行的迁移任务暂停后,当前会话(即 DTS 服务端到目标端的数据库会话)不会立马中断,同时,当前会话所执行的事务在未提交的情况下,相关事务所占用的行锁和表锁等资源也不会被释放,因此可能会导致其他会话申请相关资源受阻,否则可能会影响数据库现有的性能。
可以将仓库中备份的表恢复替换数据库中已有的同名表,但须保证两张表的表结构完全一致。表结构包括:表名、列、分区、物化视图等等。 当指定恢复表的部分分区时,系统会检查分区范围是否能够匹配。 恢复操作的效率: 在集群规模相同的情况下,恢复操作的耗时基本等同于备份操作的耗时。
若目标端的表结构和源端不一致,表结构差异部分(包括差异部分的全部数据)会丢失。 场景 2 :在目标端数据库学生信息表增加了新列 GPA 。源端学生信息表进行同步 Online DDL 操作,修改列名字段 ID 为 StudentID ,同步到目标端会导致目标端学生信息表中新增的 GPA 列数据丢失。
从左侧各数据源类型中选择一个,并且选中一个数据库。单击 新建质量作业 进入创建质量作业页面。 选择一个表,输入作业名称,规则配置添加对应质量规则配置,单击 确认 按钮完成创建。 表一 配置项说明 名称 含义 使用限制 表名称 选择一个需要进行质量校验的表。 作业名称 数据质量作业名称。 不大于30个字符。 扫描范围 选择全表扫描或条件扫描。
如果选择的是一个数据库,则显示当前数据库的整体得分,即库下所有表评分的平均值。 历史得分趋势 选中的主题/源连接或者库的历史得分趋势。 库评分、表评分 如果选择的是一个主题/源连接,则显示当前主题/源连接的所有库的得分详情。如果选择的是一个数据库,则显示当前数据库的所有表的得分详情。配置规则数是当天该库或表已有的所有规则总数。告警规则数和告警状态数量是仅当天的告警数据统计,不包含历史告警数量。