Java-Spark系列1-Spark概述

简介：Spark是用于大规模数据处理的统一分析引擎，基于内存计算的大数据并行计算框架。本文将介绍Spark的基本概念、发展历程和核心组件。

Spark是一个用于大规模数据处理的统一分析引擎，基于内存计算的大数据并行计算框架。它诞生于加州大学伯克利分校AMPLab，于2010年开源，2013年6月成为Apache孵化项目，2014年2月成为Apache顶级项目。Spark生态系统已经发展成为一个包含多个子项目的集合，其中包含SparkSQL、Spark Streaming、GraphX、MLlib等子项目。
相对于MapReduce的批处理计算，Spark可以带来上百倍的性能提升，因此它成为继MapReduce之后，最为广泛使用的分布式计算框架。Spark支持Java、Python和Scala的API，还支持超过80种高级算法，使用户可以快速构建不同的应用。
Spark应用程序由集群上的一个Driver节点和多个Executor节点组成。Spark基于Spark Core扩展了四个核心组件，分别用于满足不同领域的计算需求。

Spark SQL：主要用于结构化数据的处理。
Spark Streaming：主要用于快速构建可扩展、高吞吐量、高容错的流处理程序。支持从HDFS、Flume、Kafka、Twitter和ZeroMQ读取数据，并进行处理。
MLlib：是Spark的机器学习库。
以上是对Spark的概述，后续文章将详细介绍Spark的各个组件和具体应用场景。

Java-Spark系列1-Spark概述

最热文章