Spark Streaming与流处理

• 2019年07月11日

一、流处理1.1 静态数据处理在流处理之前，数据通常存储在数据库，文件系统或其他形式的存储系统中。应用程序根据需要查询数据或计算数据。这就是传统的静态数据处理架构。Hadoop采用HDFS进行数据存储，采用MapReduce进行数据查...

Spark SQL JOIN

• 2019年07月11日

一、数据准备本文主要介绍Spark SQL的多表连接，需要预先准备测试数据。分别创建员工和部门的Datafame，并注册为临时视图，代码如下： 1234567val spark = SparkSession.builder().ap...

• 2019年07月11日

一、简单聚合1.1 数据准备12345678// 需要导入spark sql内置的函数包import org.apache.spark.sql.functions._val spark = SparkSession.builder()...

• 2019年07月11日

一、简介1.1 多数据源支持Spark支持以下六个核心数据源，同时Spark社区还提供了多达上百种数据源的读取方式，能够满足绝大部分使用场景。 CSV JSON Parquet ORC JDBC/ODBC connections P...

• 2019年07月10日

一、创建DataFrame和Dataset1.1 创建DataFrameSpark中所有功能的入口点是SparkSession，可以使用SparkSession.builder()创建。创建后应用程序就可以从现有RDD，Hive表或S...

• 2019年07月10日

一、Spark SQL简介Spark SQL是Spark中的一个子模块，主要用于操作结构化数据。它具有以下特点：能够将SQL查询与Spark程序无缝混合，允许您使用SQL或DataFrame API对结构化数据进行查询；支持多种...

• 2019年07月10日

一、简介在Spark中，提供了两种类型的共享变量：累加器(accumulator)与广播变量(broadcast variable)：累加器：用来对信息进行聚合，主要用于累计计数等场景；广播变量：主要用于在节点间高效分发大对象。...

• 2019年07月10日

一、作业提交1.1 spark-submitSpark所有模式均使用spark-submit命令提交作业，其格式如下： 12345678./bin/spark-submit \ --class <main-class>...

• 2019年07月10日

一、Transformationspark常用的Transformation算子如下表： Transformation算子 Meaning（含义） map(func) 对原RDD中每个元素运用 func 函数，并生成新的...

• 2019年07月10日

一、RDD简介RDD全称为Resilient Distributed Datasets，是Spark最基本的数据抽象，它是只读的、分区记录的集合，支持并行操作，可以由外部数据集或其他RDD转换而来，它具有以下特性：一个RDD由一个...