多读书多实践,勤思考善领悟

Spark简介

Spark简介

一、简介Spark于2009年诞生于加州大学伯克利分校AMPLab,2013年被捐赠给Apache软件基金会,2014年2月成为Apache的顶级项目。相对于MapReduce的批处理计算,Spark可以带来上百倍的性能提升,因此它成...

Hive数据查询详解

Hive数据查询详解

一、数据准备为了演示查询操作,这里需要预先创建三张表,并加载测试数据。 数据文件emp.txt和dept.txt可以从本仓库的resources目录下载。 1.1 员工表1234567891011121314 -- 建表语句 CR...

Hive常用DML操作

Hive常用DML操作

一、加载文件数据到表1.1 语法123LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, pa...

Hive视图和索引

Hive视图和索引

一、视图1.1 简介Hive 中的视图和RDBMS中视图的概念一致,都是一组数据的逻辑表示,本质上就是一条SELECT语句的结果集。视图是纯粹的逻辑对象,没有关联的存储(Hive 3.0.0引入的物化视图除外),当查询引用视图时,Hi...

Hive分区表和分桶表

Hive分区表和分桶表

一、分区表1.1 概念Hive中的表对应为HDFS上的指定目录,在查询数据时候,默认会对全表进行扫描,这样时间和性能的消耗都非常大。 分区为HDFS上表目录的子目录,数据按照分区存储在子目录中。如果查询的where字句的中包含分区条件...

Hive常用DDL操作

Hive常用DDL操作

一、Database1.1 查看数据列表1show databases; 1.2 使用数据库1USE database_name; 1.3 新建数据库语法: 1234CREATE (DATABASE|SCHEMA) [IF N...

Hive CLI和Beeline命令行的基本使用

Hive CLI和Beeline命令行的基本使用

一、Hive CLI1.1 Help使用hive -H或者 hive --help命令可以查看所有命令的帮助,显示如下: 12345678910111213usage: hive -d,--define <key=value&g...

Hive简介及核心概念

Hive简介及核心概念

一、简介Hive是一个构建在Hadoop之上的数据仓库,它可以将结构化的数据文件映射成表,并提供类SQL查询功能,用于查询的SQL语句会被转化为MapReduce作业,然后提交到Hadoop上运行。 特点: 简单、容易上手(提供了类...

hadoop HDFS Java API的使用

hadoop HDFS Java API的使用

一、 简介想要使用HDFS API,需要导入依赖hadoop-client。如果是CDH版本的Hadoop,还需要额外指明其仓库地址: 1234567891011121314151617181920212223242526272829...

hadoop HDFS常用Shell命令

hadoop HDFS常用Shell命令

HDFS文件操作       HDFS是一种文件系统,专为MapReduce这类框架下的大规模分布式数据处理而设计,你可以把一个大数据集(比如说100TB)在HDFS中存储为单个文件,而大多数其...