概述
更新时间:2024-08-15
什么是 BOS HDFS 工具
BOS HDFS 工具是百度智能云基于 Hadoop 框架推出的专门用于解决大数据场景下 BOS 中数据的读写和使用问题的便捷工具。
大数据场景下的数据分析已经成为企业关注的核心业务。Hadoop 在分布式数据处理方面具有出色的能力,凭借其可靠、高效、可伸缩、并发处理的特点,已发展为当今最为主流的大数据开源框架之一。Hadoop 实现了一个分布式文件系统(Hadoop Distributed File System),简称为 HDFS。HDFS 具有高容错性的特点,并通过高吞吐量来支持应用程序的数据访问,适合超大数据集的业务场景。HDFS 为海量数据提供了可靠的存储性能,已成为 Hadoop 生态中最重要的一部分。数据量的与日俱增使原生的 Hadoop 面临一些新的问题,HDFS 自建及运维成本非常高,同时本地 HDFS 上海量数据如何存放也是企业面临的巨大挑战。因此,在企业数据上云的趋势下,越来越多的企业选择将数据存储在云端,即存储在对象存储服务当中。但由于对象存储上层数据接口的限制,对象存储中数据和自建 HDFS 之间的访问和读写操作一直是大数据场景下的一个瓶颈,BOS HDFS 很好地解决了这个问题。
BOS HDFS 工具全面兼容 Hadoop 2.7+/3.1+ 系列,支持 HDFS 数据在 BOS 中的海量存储,并在上层数据运算中使用 HDFS 标准接口来对数据进行访问和读写,有效解决自建 HDFS 数据的高运维成本和低可扩展性问题。您可以通过调用该工具充分享受到 BOS 带来的超低价格、超高性能、高可靠和高吞吐的强大优势,满足企业在大数据场景中对数据的读写和使用需求。
BOS HDFS 工具的优势
- 框架兼容:全面兼容 Hadoop 2.7+/3.1+
- 无感调用:实现对 BOS 中数据的无感调用
- 数据存储性价比高:融合对象存储服务 BOS 的超低价格、超高性能、高可靠性、高可用性和高吞吐优势
更新记录
【1.0.5】
- 支持 append/truncate 接口
- 支持多桶隔离配置 ak/sk/endpoint
- 支持 EnvironmentVariableCredentialsProvider
- 优化 getFileStatus/create/delete 接口
- 优化 isFile/isDirectory 接口
- 更新 hadoop-common 依赖到 3.2.2 版本
【1.0.4】
- 支持 CRC32C Checksum 校验
- 优化 create 接口
- 优化 open 接口
- 优化层级 rename 接口
- 默认分块调整 10MB->12MB
- 顺序读策略优化
【1.0.3】
- 支持层级 bucket
- 读 cache 优化,默认开启
- 优化顺序读
- 优化多文件删除
- 已知问题修复