清单导入迁移 迁移配置 在面对比较复杂的迁移场景是,您可以在第三方云生成一份对象存储清单,CloudFlow可以通过解析您上传的csv清单文件来获取待迁移的文件列表。清单迁移目前仅适用于第三方云厂商。 配置项 配置描述 清单导入 清单支持本地上传,选择bos bucket之后,将.csv文件上传文件至对象存储后,CloudFlow将会对文件进行解析,之后将对清单内的文件列表进行迁移。
对于有特殊需求的场景,PALO 提供了最小写入副本数等其他选项来进一步提高系统的灵活性。 最小写入副本数 多数派写入策略在保证数据可靠性的同时,也可能在某些场景下影响系统的可用性。例如,在两副本的情况下,必须两个副本都写入成功才能完成导入,这意味着在导入过程中不允许任何一个副本不可用。
其他高可用性机制 除了最小写入副本数选项,Doris 还采用了以下机制来提高导入的可用性: 导入重试:自动重试因临时故障导致的失败导入任务。 负载均衡:将导入任务分散到不同的 BE 节点,避免单点压力过大。 事务机制:确保数据的一致性,失败时自动回滚。
下载脚本示例 特别注意: 以下示例均在网络可达的前提条件下验证,使用前请先验证资源池可以访问源数据地址 验证使用镜像registry.baidubce.com/aihcp-public/pytorch:2.7.0-cu12.8.61-py3.12-ubuntu24.04,自定义其他镜像时可根据事件信息进行脚本调试 示例脚本只是方便用户理解下载方法,实际使用时需要根据需求对脚本进行修改 从魔搭下载数据集
csv文件 文件内单条数据在表格中为一行,由表头定义prefix和middle。 文件内单条数据在表格中为一行,由表头定义prefix、suffix和middle。 压缩包 支持 tar.gz/zip 压缩包。 文件编码支持UTF-8。 数据导入方式 创建数据集完成后,在数据集管理页面中,找到该数据集,点击右侧操作列下的“导入”按钮,即可进入导入数据页面。
参数 说明 数据来源 您可以选择数据来源为本账号对象存储或其他账号对象存储。 数据源名称 输入数据源的名称。名称支持大小写字母、数字、中文以及-_ /.特殊字符,必须以中文或字母开头,长度1-65。 存储桶选择 此处会列出实例所在 Region 下 对象存储全部的 Bucket。若该地区还没有 Bucket,请先去 对象存储控制台上创建。
详见平台导入数据处的数据样例。 文件类型支持xlsx格式,单次上传限制100个文件;文件格式示意图如下: 示例:例如在歌词创作场景中,希望用户输入歌名,由模型创作歌词,则上传文本为:“歌名:晴天”。 请注意,“歌名:”作为样本的前缀,需要固定在每一个样本中添加,不固定的前缀,将影响模型效果; 示例样本请详见平台导入数据处的数据样例。
其他:暂不支持API接口上传服务
上传已标注文件要求格式为zip格式压缩包 已有数据集 支持选择百度云 BOS 导入、分享链接导入、平台已有数据集导入;支持选择线上已有的数据集,包括其他图像类模型的数据集 BOS目录导入格式要求:请确保将全部图片已保存至同一层文件目录,该层目录下子文件目录及非相关内容(包括压缩包格式等)不导入 分享链接导入请确保将全部图片已保存至同一压缩包,压缩包仅支持zip格式,压缩前源文件大小限制5G以内;仅支持来自百度
Label 的主要作用是唯一标识一个导入任务,并且能够保证相同的 Label 仅会被成功导入一次。 Label 机制可以保证导入数据的不丢不重。如果上游数据源能够保证 At-Least-Once 语义,则配合 PALO 的 Label 机制,能够保证 Exactly-Once 语义。 Label 在一个数据库下具有唯一性。Label 的保留期限默认是 3 天。