搜索本产品文档关键词
概述
所有文档
menu
没有找到结果,请重新输入

对象存储 BOS

概述

什么是BOS HDFS工具

BOS HDFS 工具是百度智能云基于 Hadoop 框架推出的专门用于解决大数据场景下BOS中数据的读写和使用问题的便捷工具。

大数据场景下的数据分析已经成为企业关注的核心业务。Hadoop 在分布式数据处理方面具有出色的能力,凭借其可靠、高效、可伸缩、并发处理的特点,已发展为当今最为主流的大数据开源框架之一。Hadoop 实现了一个分布式文件系统(Hadoop Distributed File System),简称为 HDFS。HDFS 具有高容错性的特点,并通过高吞吐量来支持应用程序的数据访问,适合超大数据集的业务场景。HDFS 为海量数据提供了可靠的存储性能,已成为 Hadoop 生态中最重要的一部分。数据量的与日俱增使原生的 Hadoop 面临一些新的问题,HDFS自建及运维成本非常高,同时本地 HDFS 上海量数据如何存放也是企业面临的巨大挑战。因此,在企业数据上云的趋势下,越来越多的企业选择将数据存储在云端,即存储在对象存储服务当中。但由于对象存储上层数据接口的限制,对象存储中数据和自建 HDFS 之间的访问和读写操作一直是大数据场景下的一个瓶颈,BOS HDFS 很好地解决了这个问题。

BOS HDFS 工具全面兼容 Hadoop 2.7+/3.1+ 系列,支持 HDFS 数据在 BOS 中的海量存储,并在上层数据运算中使用 HDFS 标准接口来对数据进行访问和读写,有效解决自建 HDFS 数据的高运维成本和低可扩展性问题。您可以通过调用该工具充分享受到 BOS 带来的超低价格、超高性能、高可靠和高吞吐的强大优势,满足企业在大数据场景中对数据的读写和使用需求。

BOS HDFS工具的优势

  • 框架兼容:全面兼容 Hadoop 2.7+/3.1+
  • 无感调用:实现对 BOS 中数据的无感调用
  • 数据存储性价比高:融合对象存储服务 BOS 的超低价格、超高性能、高可靠性、高可用性和高吞吐优势

更新记录

【1.0.5】

  • 支持append/truncate接口
  • 支持多桶隔离配置ak/sk/endpoint
  • 支持EnvironmentVariableCredentialsProvider
  • 优化getFileStatus/create/delete接口
  • 优化isFile/isDirectory接口
  • 更新hadoop-common依赖到3.2.2版本

【1.0.4】

  • 支持CRC32C Checksum校验
  • 优化create接口
  • 优化open接口
  • 优化层级rename接口
  • 默认分块调整10MB->12MB
  • 顺序读策略优化

【1.0.3】

  • 支持层级bucket
  • 读cache优化,默认开启
  • 优化顺序读
  • 优化多文件删除
  • 已知问题修复