导入事务和原子性
更新时间:2022-12-01
导入原子性
PALO 中的所有导入操作都有原子性保证,即一个导入作业中的数据要么全部成功,要么全部失败。不会出现仅部分数据导入成功的情况。
在 BROKER LOAD 中我们也可以实现多多表的原子性导入。
对于表所附属的 [物化视图](TODO),也同时保证和基表的原子性和一致性。
Label 机制
PALO 的导入作业都可以设置一个 Label。这个 Label 通常是用户自定义的、具有一定业务逻辑属性的字符串。
Label 的主要作用是唯一标识一个导入任务,并且能够保证相同的 Label 仅会被成功导入一次。
Label 机制可以保证导入数据的不丢不重。如果上游数据源能够保证 At-Least-Once 语义,则配合 PALO 的 Label 机制,能够保证 Exactly-Once 语义。
Label 在一个数据库下具有唯一性。Label 的保留期限默认是 3 天。即 3 天后,已完成的 Label 会被自动清理,之后 Label 可以被重复使用。
典型实践
Label 通常被设置为 业务逻辑+时间
的格式。如 my_business1_20201010_125000
。
这个 Label 通常用于表示:业务 my_business1
这个业务在 2020-10-10 12:50:00
产生的一批数据。通过这种 Label 设定,业务上可以通过 Label 查询导入任务状态,来明确的获知该时间点批次的数据是否已经导入成功。如果没有成功,则可以使用这个 Label 继续重试导入。