对象存储BOS

    数据上云方案

    场景概述

    数据上云的过程,可以分为“本地数据上云”、“从其他云迁移到BOS”两种场景,每种场景下都有存量和增量数据。百度智能云对象存储BOS提供了多种数据迁移方式,在数据一致性及无缝切换的前提下,尽量减少额外开销。您可以根据自身的业务情况,灵活选择数据迁移方式。

    迁移场景 数据类型 迁移方案
    本地数据上云 存量数据 BOS CMD 工具(在线)
    月光宝盒(离线)
    本地数据离线传输(离线)
    增量数据 BOS CMD sync 功能
    从其他云迁移 存量数据 BOS Import 工具
    控制台在线数据导入功能
    增量数据 镜像回源

    本地数据上云

    存量数据

    存量数据的特点是数据量一般比较大,迁移需要较长的时间,但数据基本固定,很少再进行修改。本地数据上云时,您可以根据自身网络条件选择在线方式或离线方式进行迁移。

    在线方式:BOS CMD 工具

    本地数据上云的在线方式适用于客户本地网络条件较好(带宽充裕)的情况。在这种情况下,我们推荐通过 BOS CMD 工具的Object上传功能实现数据上云。

    BOS CMD 是BOS提供的命令行工具,它提供了丰富的功能,方便用户对BOS资源进行各种操作和管理。 BOS CMD 支持批量上传、同步上传(sync)、单文件上传三种Object上传方式,使用批量上传和同步上传(sync)可以高效的解决本地存量数据在线上云的问题。在这里先介绍批量上传方式:

    您可以在已安装了 BOS CMD 的机器上执行以下命令来使用批量上传:

    $ bcecmd bos cp <local-path> <bos-path> --recursive [--storage-class [STORAGE_CLASS]] [--restart] [--quiet] [--yes] [--disable-bar]

    其中 local-path 为本地上传文件的目录。具体操作及注意事项请参见:BOS CMD Object 上传功能

    离线方式 1:月光宝盒

    如果客户侧的网络环境不好(带宽小、网络不稳定),且带宽成本非常昂贵时,在有限的带宽下进行传输,速度也不是特别理想,则推荐使用月光宝盒进行离线传输。

    月光宝盒是百度智能云BOS提供的一种TB级数据传输解决方案,它使用存储设备在百度智能云和客户之间传输大量数据。它解决了大规模数据传输中出现的高昂网络成本、较长传输时间和安全等问题,且具有简单、快速、安全、成本低的优点。

    和BOS提供的另一种离线方式“本地数据离线传输”相比,月光宝盒由BOS为您提供硬盘,因此,月光宝盒适用于迁移量大于等于20TB的情况。

    月光宝盒正处于公测期间,使用前需要填写公测申请:月光宝盒公测申请

    具体操作流程及注意事项请参见:月光宝盒操作流程

    离线方式 2:本地数据离线传输

    BOS还提供了一种离线方式“本地数据离线传输”。它和“月光宝盒”的不同之处在于,离线传输仅支持客户自己提供硬盘。因此,离线传输适用于迁移量小于20TB的情况。

    使用离线传输前,请先通过工单或者客户经理联系我们。您把数据拷贝到硬盘上后,请把硬盘寄送到下面地址:

    地址 北京市通州区光电一体化基地兴光二街甲2号
    电话 010-80823088/18611817954
    联系人 CQ02机房

    硬盘寄回的地址,可以联系客户经理告知我们的接口人。硬盘寄送请选择保价,邮费请自负,寄回去时也会选择到付。北京同城1天,异地一般2天内可达。硬盘寄回之前,按照百度安全要求会统一清空硬盘,请关注。

    增量数据

    BOS CMD sync 功能

    BOS CMD 的同步上传(sync)功能可以方便快捷的解决本地数据上云过程中,增量数据的问题。同步上传默认支持批量操作,可以将本地目录同步到BOS。如果BOS端已经有名称相同且修改时间比本地文件新,同步上传会忽略此文件,只同步新文件或有改动的文件。 sync命令会同时列举本地和BOS侧文件, 对于不同情况分别执行不同的动作,以保证增量数据的准确安全上传。

    您可以在已安装了 BOS CMD 的机器上执行以下命令来使用同步上传(sync):

    $ bcecmd bos sync <local_dir> bos:/<bucket_name>/[prefix] [--exclude EXCLUDE] [--include INCLUDE] [--delete] [--exclude-delete EXCLUDE-DELETE] [--dryrun] [--yes] [--quiet] [--storage-class STORAGE-CLASS] [--sync-type SYNC-TYPE] [--concurrency CONCURRENCY] [--restart]

    其中 local_DIR 为本地同步目录。具体操作及注意事项请参见:BOS CMD 同步上传(sync)功能

    从其他云迁移

    存量数据

    针对客户从其他云迁移到BOS的场景,百度智能云对象存储BOS提供了两种迁移方式,分别是BOS Import 工具和控制台在线数据导入功能。BOS Import 工具的特点是可靠、安全、稳定,适用于1TB以上的数据迁移;控制台在线数据导入功能的特点是在迁移量不大的情况下,操作方便、快捷,适用于1TB以下的数据迁移。

    BOS Import 工具

    BOS Import 工具是百度智能云对象存储BOS推出的用于将其它云存储的数据迁移到BOS的工具,具有“可拓展性良好”、“支持迁移任务热启停”等多种优点。工具基于C-S结构实现,client端负责读取文件列表, 任务调度和进度统计等工作, 所有和迁移相关的参数/配置都在client端进行;迁移任务在server端完成, client端通过RPC请求通知server对哪些文件进行迁移。

    具体使用方式及注意事项请参见:BOS Import 工具

    控制台在线数据导入功能

    当用户准备使用百度智能云BOS时,时常需要将其他云存储上的数据迁移至百度智能云BOS上。如果迁移部分数据量较大,使用传统的 “下载再上传” 的人工迁移方式往往费时费力,难以达到用户快速迁移的业务需求。

    因此,BOS为广大用户提供了在线数据导入功能。用户只需配置好导入规则,系统将自动去源目录抓取数据并存储至BOS上的指定路径,大幅提高业务数据的迁移效率。

    使用在线数据导入功能需要在BOS控制台上进行操作,具体操作及注意事项请参见:在线数据导入

    增量数据

    镜像回源

    镜像回源是一项Bucket级别的配置,主要用于帮助用户在不停服的情况进行数据热迁移,解决从其他云迁移到BOS的增量数据问题。

    对一个Bucket配置了镜像回源后,当用户访问(GetObject)一个BOS中的Object,BOS发现该Object在BOS中并不存在时,BOS会向回源地址请求该Object,并将源站所返回数据一边返回给请求用户,一边存入BOS。

    具体使用方式及注意事项请参见:BOS镜像回源