本地数据迁移到BOS 概览 针对本地数据上云的典型实践操作。如您的数据存储在自建 IDC,或存储在本地托管机房,您可以参考该篇指南进行数据的上云迁移。 需求场景 需求场景1:历史存量数据迁移上云 存量数据的特点是数据量一般比较大,迁移需要较长的时间,但数据基本固定,很少再进行修改。本地数据上云时,您可以根据自身网络条件选择在线方式或离线方式进行迁移。
使用场景 自有硬盘寄送的方式适用于客户拥有较多硬盘,且需要迫切上云的场景,如: 本地 IDC 机房需要清退,数据需要尽快寻找云上合适的存储位置; 本地数据规模较大,希望尽快将数据备份上云。但专线方式花销较大,希望寻求其他性价比更高的方式; 使用限制 仅支持国标 3.5 寸或者 2.5 寸移动硬盘; 仅支持 USB 接口硬盘。
sync命令会同时列举本地和 BOS 侧文件, 对于不同情况分别执行不同的动作,以保证增量数据的准确安全上传。 相关产品 对象存储 提供稳定、安全、高效以及高扩展存储服务。将数据的传输、存储、处理和发布四个环节有机融为一体
上传lambda代码 :上传代码必须为zip格式,处理程序填写Go文件的文件名 配置触发器 :我们选择S3触发器,进一步选择需要监听的S3存储桶,还能通过object前后缀缩小监听事件范围;添加之后会看到触发器内容为:存储桶: s3/bucket-name 事件类型: ObjectCreated 保存配置,用户每次上传object到S3 bucket,就会执行上传的Go lambda代码,同步该object
下载平台预置公共数据到用户本地的PFS 这里介绍如何基于开发机,使用BOSCMD工具,将平台公共的数据(模型权重、数据集等)下载到您的并行文件存储PFS 1. 创建开发机 这里我们创建一个百舸开发机,详见: 创建开发机 ,主要配置: 资源规格:4C8G即可,无需GPU 镜像:推荐选择百舸预置镜像(已经预装BOSCMD工具),如aibox-cuda镜像。
Logstash数据存储到BOS 工具概述 Logstash 是一个开源的数据收集、处理、分析工具,可以从众多来源捕捉事件,流式传输到所需的存储库中,本文将描述Logstash如何把数据存储到BOS bucket。 配置教程 官网下载安装 Logstash安装包 ,选择对应操作系统的最新版本即可;下载后解压安装包并创建配置文件。
部署本地网关 本地存储网关 使用本地网关需要用户自行部署与启动bsg-agent服务, 具体部署与启动bsg-agent详见下文描述 注意: bsg-agent需要与百度智能云上bsg-master组件进行交互, 需要保证部署bsg-agent机器与外网互通。
Flume 数据存储到 BOS Flume Flume 是一个分布式、可靠性和高可用的海量日志聚合系统,支持在系统中定制各类数据发送方,用于收集数据;同时,Flume 提供对数据进行简单处理,并写到各种数据接收方(可定制)的能力。 Flume 支持多种 Sink 类型,可以借助 HDFS Sink 将收集到的数据存储到 BOS。 开始 1. 下载并安装 apache-flume 略 2.
Fluentd收集数据存储到BOS 工具概述 Fluentd是一个开源数据收集器,可以从各种数据源收集事件,统一收集数据后可以写入文件、RDBMS、NoSQL、Hadoop、S3等存储系统消费,以便更好地使用数据。本文将详细阐述如何利用Fluentd的 fluent-plugin-s3插件 将日志数据输出到BOS存储桶。
Elasticsearch快照数据存储到BOS 工具概述 Elasticsearch 是一个分布式搜索和数据分析引擎,能够高效地存储、检索、分析、处理庞大的数据集。它支持将快照数据备份到S3等对象存储系统上,本文将详细阐述如何利用ES的 S3 Repository插件 将快照安全地备份至BOS远程存储。 配置教程 下载 Elasticsearch安装包 ,解压并启动ES。