数据集支持的全部存储类型 进入数据集详情页,点击版本列表Tab,在版本列表中操作【导入数据】 已有数据集导入 限制条件 当前仅支持PFS L2与BOS之间进行互相转储。 操作步骤 将需要导入数据的目录(目标数据集)和被导入目录(源数据集)分别创建为数据集,数据集创建完成后在数据集列表中找到对应数据集,在操作列选择【导入数据】 在创建转储任务弹窗内选择源数据集及版本等信息。
如希望绑定到存储桶中的abc/123/myprefix目录, 则需完整输入/abc/123/myprefix/,需要以/开头,/结尾。 数据糊存储加速工具无法校验目录的准确性,请您仔细确认。若不填写目录,则默认绑定整个Bucket。 保留软链接 保留软链接时,软连接将会以软连接形式存⼊缓存实例中;不保留软链接时,软链接的源⽂件将会存⼊缓存实例中。请注意,保留软链接会降低元数据导入效率。
BOS导入 支持文件导入和目录导入两种方式。 文件限制:单个文件/压缩包源文件大小,均不超过50G,所有文件数量不超过1000。 支持文件导入和目录导入两种方式。 文件限制:单个文件/压缩包源文件大小,均不超过50G,所有文件数量不超过100。 分享链接导入 支持来自百度BOS、阿里OSS、腾讯COS、华为OBS的共享链接。
Label 的主要作用是唯一标识一个导入任务,并且能够保证相同的 Label 仅会被成功导入一次。 Label 机制可以保证导入数据的不丢不重。如果上游数据源能够保证 At-Least-Once 语义,则配合 PALO 的 Label 机制,能够保证 Exactly-Once 语义。 Label 在一个数据库下具有唯一性。Label 的保留期限默认是 3 天。
导入本地数据 Stream Load 用于将本地文件导入到 PALO 中。 不同于其他命令的提交方式,Stream Load 是通过 HTTP 协议与 PALO 进行连接交互的。 该方式中涉及 HOST:PORT 应为 HTTP 协议端口。 公有云用户必须使用 Compute Node(BE)的 HTTP 协议端口,默认为 8040。
SK”进行签名计算鉴权,即使用安全认证中的Access Key ID 和 Secret Access Key进行鉴权,具体鉴权认证机制参考 HTTP调用鉴权说明 。
序列标注数据导入 创建数据集 您可以在BML中,选择“数据管理/标注”并点击按钮“创建数据集”,对话框中选择数据类型为“文本”,标注类型选择“序列标注”,同时您需要根据您的标注数据,选择此序列标注数据集的标注体系(详见文档《序列标注标注说明》)。注意:当前序列标注数据集不支持在线标注功能,您在序列标注数据集中仅能上传标注数据。
例如,在两副本的情况下,必须两个副本都写入成功才能完成导入,这意味着在导入过程中不允许任何一个副本不可用。 为了解决上述问题并提高导入的可用性,PALO 提供了最小写入副本数(Min Load Replica Num)选项。 功能说明 最小写入副本数允许用户指定导入数据时需要成功写入的最少副本数。当成功写入的副本数大于或等于这个值时,导入即视为成功。
例如,在两副本的情况下,必须两个副本都写入成功才能完成导入,这意味着在导入过程中不允许任何一个副本不可用。 为了解决上述问题并提高导入的可用性,Doris 提供了最小写入副本数(Min Load Replica Num)选项。 功能说明 最小写入副本数允许用户指定导入数据时需要成功写入的最少副本数。当成功写入的副本数大于或等于这个值时,导入即视为成功。
基于导入的批量删除 基于导入的批量删除 删除操作可以视为数据更新的一种特殊形式。在主键模型(Unique Key)表上,PALO 支持通过导入数据时添加删除标记来实现删除操作。 相比 DELETE 语句,使用删除标记在以下场景中具有更好的易用性和性能优势: CDC 场景 :在从 OLTP 数据库同步数据到 PALO 时,binlog 中的 Insert 和 Delete 操作通常交替出现。