大数据hadoop资料分享与开发工具推荐
本文于2069天之前发表,文中内容可能已经过时。
这里分享一些自己学习过程中觉得不错的资料和开发工具。
经典书籍
- 《hadoop 权威指南(第四版)》 2017年
- 《Kafka权威指南》 2017年
- 《从Paxos到Zookeeper 分布式一致性原理与实践》 2015年
- 《Spark技术内幕 深入解析Spark内核架构设计与实现原理》 2015年
- 《Spark.The.Definitive.Guide》 2018年
- 《HBase权威指南》 2012年
- 《Hive编程指南》 2013年
- 《快学Scala(第2版)》 2017年
- 《Scala编程》 2018年
官方文档
上面的书籍我都列出了出版日期,可以看到大部分书籍的出版时间都比较久远了,虽然这些书籍比较经典,但是很多书籍在软件版本上已经滞后了很多。所以推荐优先选择各个框架的官方文档作为学习资料。大数据框架的官方文档都很全面,并且对知识点的讲解都做到了简明扼要。这里以 Spark RDD 官方文档为例,你会发现不仅清晰的知识点导航,而且所有示例都给出了Java,Scala,Python三种语言的版本,除了官方文档,其他书籍很少能够做到这一点。
优秀博客
- 有态度的HBase/Spark/BigData:http://hbasefly.com/
- 深入Apache Spark的设计和实现原理 : https://github.com/JerryLead/SparkInternals
开发工具
1. VirtualBox
一款开源、免费的虚拟机管理软件,虽然是轻量级软件,但功能很丰富,基本能够满足全部的使用需求。
官方网站:https://www.virtualbox.org/
2. MobaXterm
大数据的框架通常都部署在服务器上,这里推荐使用MobaXterm进行连接。同样是免费开源的,支持多种连接协议,支持拖拽上传文件,支持使用插件扩展。
官方网站:https://mobaxterm.mobatek.net/
3. Translate Man
Translate Man是一款浏览器上的翻译插件(谷歌和火狐均支持)。它采用谷歌的翻译接口,准确性非常高,支持划词翻译,可以辅助进行官方文档的阅读。
4. ProcessOn
ProcessOn式一个在线绘图平台,使用起来非常便捷,可以用于笔记或者博客配图的绘制。