Java-Spark系列1-Spark概述

作者:搬砖的石头2024.02.04 16:01浏览量:9

简介:Spark是用于大规模数据处理的统一分析引擎,基于内存计算的大数据并行计算框架。本文将介绍Spark的基本概念、发展历程和核心组件。

Spark是一个用于大规模数据处理的统一分析引擎,基于内存计算的大数据并行计算框架。它诞生于加州大学伯克利分校AMPLab,于2010年开源,2013年6月成为Apache孵化项目,2014年2月成为Apache顶级项目。Spark生态系统已经发展成为一个包含多个子项目的集合,其中包含SparkSQL、Spark Streaming、GraphX、MLlib等子项目。
相对于MapReduce的批处理计算,Spark可以带来上百倍的性能提升,因此它成为继MapReduce之后,最为广泛使用的分布式计算框架。Spark支持Java、Python和Scala的API,还支持超过80种高级算法,使用户可以快速构建不同的应用。
Spark应用程序由集群上的一个Driver节点和多个Executor节点组成。Spark基于Spark Core扩展了四个核心组件,分别用于满足不同领域的计算需求。

  1. Spark SQL:主要用于结构化数据的处理。
  2. Spark Streaming:主要用于快速构建可扩展、高吞吐量、高容错的流处理程序。支持从HDFS、Flume、Kafka、Twitter和ZeroMQ读取数据,并进行处理。
  3. MLlib:是Spark的机器学习库。
    以上是对Spark的概述,后续文章将详细介绍Spark的各个组件和具体应用场景。