多读书多实践,勤思考善领悟

Spark聚合函数Aggregations

Spark聚合函数Aggregations

一、简单聚合1.1 数据准备12345678// 需要导入spark sql内置的函数包import org.apache.spark.sql.functions._val spark = SparkSession.builder()...

Spark SQL外部数据源

Spark SQL外部数据源

一、简介1.1 多数据源支持Spark支持以下六个核心数据源,同时Spark社区还提供了多达上百种数据源的读取方式,能够满足绝大部分使用场景。 CSV JSON Parquet ORC JDBC/ODBC connections P...

Spark Structured API基本使用

Spark Structured API基本使用

一、创建DataFrame和Dataset1.1 创建DataFrameSpark中所有功能的入口点是SparkSession,可以使用SparkSession.builder()创建。创建后应用程序就可以从现有RDD,Hive表或S...

Spark DataFrame和Dataset简介

Spark DataFrame和Dataset简介

一、Spark SQL简介Spark SQL是Spark中的一个子模块,主要用于操作结构化数据。它具有以下特点: 能够将SQL查询与Spark程序无缝混合,允许您使用SQL或DataFrame API对结构化数据进行查询; 支持多种...

Spark累加器与广播变量

Spark累加器与广播变量

一、简介在Spark中,提供了两种类型的共享变量:累加器(accumulator)与广播变量(broadcast variable): 累加器:用来对信息进行聚合,主要用于累计计数等场景; 广播变量:主要用于在节点间高效分发大对象。...

Spark部署模式与作业提交

Spark部署模式与作业提交

一、作业提交1.1 spark-submitSpark所有模式均使用spark-submit命令提交作业,其格式如下: 12345678./bin/spark-submit \ --class <main-class>...

Spark Transformation 和 Action 常用算子

Spark Transformation 和 Action 常用算子

一、Transformationspark常用的Transformation算子如下表: Transformation算子 Meaning(含义) map(func) 对原RDD中每个元素运用 func 函数,并生成新的...

Spark弹性式数据集RDDs

Spark弹性式数据集RDDs

一、RDD简介RDD全称为Resilient Distributed Datasets,是Spark最基本的数据抽象,它是只读的、分区记录的集合,支持并行操作,可以由外部数据集或其他RDD转换而来,它具有以下特性: 一个RDD由一个...

Spark简介

Spark简介

一、简介Spark于2009年诞生于加州大学伯克利分校AMPLab,2013年被捐赠给Apache软件基金会,2014年2月成为Apache的顶级项目。相对于MapReduce的批处理计算,Spark可以带来上百倍的性能提升,因此它成...

Hive数据查询详解

Hive数据查询详解

一、数据准备为了演示查询操作,这里需要预先创建三张表,并加载测试数据。 数据文件emp.txt和dept.txt可以从本仓库的resources目录下载。 1.1 员工表1234567891011121314 -- 建表语句 CR...