导入事务和原子性
所有文档

          数据仓库 Palo

          导入事务和原子性

          导入原子性

          Palo 中的所有导入操作都有原子性保证,即一个导入作业中的数据要么全部成功,要么全部失败。不会出现仅部分数据导入成功的情况。

          BROKER LOAD 中我们也可以实现多多表的原子性导入。

          对于表所附属的 [物化视图](TODO),也同时保证和基表的原子性和一致性。

          Label 机制

          Palo 的导入作业都可以设置一个 Label。这个 Label 通常是用户自定义的、具有一定业务逻辑属性的字符串。

          Label 的主要作用是唯一标识一个导入任务,并且能够保证相同的 Label 仅会被成功导入一次。

          Label 机制可以保证导入数据的不丢不重。如果上游数据源能够保证 At-Least-Once 语义,则配合 Palo 的 Label 机制,能够保证 Exactly-Once 语义。

          Label 在一个数据库下具有唯一性。Label 的保留期限默认是 3 天。即 3 天后,已完成的 Label 会被自动清理,之后 Label 可以被重复使用。

          最佳实践

          Label 通常被设置为 业务逻辑+时间 的格式。如 my_business1_20201010_125000

          这个 Label 通常用于表示:业务 my_business1 这个业务在 2020-10-10 12:50:00 产生的一批数据。通过这种 Label 设定,业务上可以通过 Label 查询导入任务状态,来明确的获知该时间点批次的数据是否已经导入成功。如果没有成功,则可以使用这个 Label 继续重试导入。

          上一篇
          JSON格式数据导入说明
          下一篇
          列的映射、转换与过滤