多读书多实践,勤思考善领悟

Scala简介及开发环境配置

Scala简介及开发环境配置

一、Scala简介1.1 概念Scala全称为Scalable Language,即“可伸缩的语言”,之所以这样命名,是因为它的设计目标是希望伴随着用户的需求一起成长。Scala是一门综合了面向对象和函数式编程概念的静态类型的编程语言...

Azkaban Flow 1.0 的使用

Azkaban Flow 1.0 的使用

一、简介Azkaban主要通过界面上传配置文件来进行任务的调度。它有两个重要的概念: Job: 你需要执行的调度任务; Flow:一个获取多个Job及它们之间的依赖关系所组成的图表叫做Flow。 目前 Azkaban 3.x 同时...

Azkaban简介

Azkaban简介

一、Azkaban 介绍1.1 背景一个完整的大数据分析系统,必然由很多任务单元(如数据收集、数据清洗、数据存储、数据分析等)组成,所有的任务单元及其之间的依赖关系组成了复杂的工作流。复杂的工作流管理涉及到很多问题: 如何定时调度某...

Sqoop基本使用

Sqoop基本使用

一、Sqoop 基本命令1. 查看所有命令1# sqoop help 2. 查看某条命令的具体使用方法1# sqoop help 命令名 二、Sqoop 与 MySQL1. 查询MySQL所有数据库通常用于Sqoop与MyS...

Sqoop简介与安装

Sqoop简介与安装

一、Sqoop 简介Sqoop是一个常用的数据迁移工具,主要用于在不同存储系统之间实现数据的导入与导出: 导入数据:从MySQL,Oracle等关系型数据库中导入数据到HDFS、Hive、HBase等分布式文件存储系统中; 导出数...

Flume整合Kafka

Flume整合Kafka

一、背景先说一下,为什么要使用 Flume + Kafka? 以实时流处理项目为例,由于采集的数据量可能存在峰值和峰谷,假设是一个电商项目,那么峰值通常出现在秒杀时,这时如果直接将Flume聚合后的数据输入到Storm等分布式计算框架...

Flume简介及基本使用

Flume简介及基本使用

一、Flume简介Apache Flume是一个分布式,高可用的数据收集系统。它可以从不同的数据源收集数据,经过聚合后发送到存储系统中,通常用于日志数据的收集。Flume 分为 NG 和 OG (1.0 之前)两个版本,NG在OG的基...

Zookeeper ACL权限控制

Zookeeper ACL权限控制

一、前言为了避免存储在Zookeeper上的数据被其他程序或者人为误修改,Zookeeper提供了ACL(Access Control Lists)进行权限控制。只有拥有对应权限的用户才可以对节点进行增删改查等操作。下文分别介绍使用原...