多读书多实践,勤思考善领悟

Spark Streaming 整合 Kafka

Spark Streaming 整合 Kafka

一、版本说明Spark针对Kafka的不同版本,提供了两套整合方案:spark-streaming-kafka-0-8和spark-streaming-kafka-0-10,其主要区别如下: spark-streaming-k...

Spark Streaming 整合 Flume

Spark Streaming 整合 Flume

一、简介Apache Flume是一个分布式,高可用的数据收集系统,可以从不同的数据源收集数据,经过聚合后发送到分布式计算框架或者存储系统中。Spark Straming提供了以下两种方式用于Flume的整合。 二、推送式方法在推送式...

Spark Streaming 基本操作

Spark Streaming 基本操作

一、案例引入这里先引入一个基本的案例来演示流的创建:获取指定端口上的数据并进行词频统计。项目依赖和代码实现如下: 12345<dependency> <groupId>org.apache.spark&l...

Spark Streaming与流处理

Spark Streaming与流处理

一、流处理1.1 静态数据处理在流处理之前,数据通常存储在数据库,文件系统或其他形式的存储系统中。应用程序根据需要查询数据或计算数据。这就是传统的静态数据处理架构。Hadoop采用HDFS进行数据存储,采用MapReduce进行数据查...

Spark SQL JOIN

Spark SQL JOIN

一、 数据准备本文主要介绍Spark SQL的多表连接,需要预先准备测试数据。分别创建员工和部门的Datafame,并注册为临时视图,代码如下: 1234567val spark = SparkSession.builder().ap...

Spark聚合函数Aggregations

Spark聚合函数Aggregations

一、简单聚合1.1 数据准备12345678// 需要导入spark sql内置的函数包import org.apache.spark.sql.functions._val spark = SparkSession.builder()...

Spark SQL外部数据源

Spark SQL外部数据源

一、简介1.1 多数据源支持Spark支持以下六个核心数据源,同时Spark社区还提供了多达上百种数据源的读取方式,能够满足绝大部分使用场景。 CSV JSON Parquet ORC JDBC/ODBC connections P...

Spark Structured API基本使用

Spark Structured API基本使用

一、创建DataFrame和Dataset1.1 创建DataFrameSpark中所有功能的入口点是SparkSession,可以使用SparkSession.builder()创建。创建后应用程序就可以从现有RDD,Hive表或S...

Spark DataFrame和Dataset简介

Spark DataFrame和Dataset简介

一、Spark SQL简介Spark SQL是Spark中的一个子模块,主要用于操作结构化数据。它具有以下特点: 能够将SQL查询与Spark程序无缝混合,允许您使用SQL或DataFrame API对结构化数据进行查询; 支持多种...

Spark累加器与广播变量

Spark累加器与广播变量

一、简介在Spark中,提供了两种类型的共享变量:累加器(accumulator)与广播变量(broadcast variable): 累加器:用来对信息进行聚合,主要用于累计计数等场景; 广播变量:主要用于在节点间高效分发大对象。...