昨天是习惯养成记的第三天,全程纸质书阅读,感觉非常不错。
昨日阅读的部分主要是讲解环境搭建,以及如何编译配置,都是一些实战,所以我在这里就不再多说了,真正有需要的时候参照着去构建就好了。
主要的方式有: 本地模式 虚拟机集群样板机 Docker集群;
今天将会重点理解Spark的核心编程模型:RDD,这个是贯穿整个Spark 2.x 最最核心的部分,必须花时间学习和理解。
其实昨天还看了祝威廉写的博文《Spark 之殇》,文中的主要观点是:Spark团队太过于专注他们所谓的架构,忽略了对用户问题的解决。为了所谓的统一(DataFrame API)导致公司精力都放在了内核的重构上,这也直接让Spark在很多方面慢了一大拍。
Spark 不是为我等欢快的工作而努力,而是为了他们的技术追求和审美的强迫症而努力。或许这是技术人员难以逾越的坑吧。
- 曾经机器学习的新星,现在没落了
- 曾经的全平台,现在只有批处理还有优势
- 有望成为SQL的新标准,现在依然丧失
我觉得不管怎么样,Spark还是有很多非常值得学习的,每个产品,每个技术都会在发展过程中出现或多或少的一些问题,但是这个不能掩盖它本身的价值。
###总结###
- 早上要错峰出行。
- 晚上可控性真的很差。
延伸阅读
茶歇驿站
一个让你可以在茶歇之余,停下来看一看,里面的内容或许对你有一些帮助。
这里的内容主要是团队管理,个人管理,后台技术相关,其他个人杂想。