昨天是习惯养成记的第三天,全程纸质书阅读,感觉非常不错。

昨日阅读的部分主要是讲解环境搭建,以及如何编译配置,都是一些实战,所以我在这里就不再多说了,真正有需要的时候参照着去构建就好了。

主要的方式有: 本地模式 虚拟机集群样板机 Docker集群;

今天将会重点理解Spark的核心编程模型:RDD,这个是贯穿整个Spark 2.x 最最核心的部分,必须花时间学习和理解。

其实昨天还看了祝威廉写的博文《Spark 之殇》,文中的主要观点是:Spark团队太过于专注他们所谓的架构,忽略了对用户问题的解决。为了所谓的统一(DataFrame API)导致公司精力都放在了内核的重构上,这也直接让Spark在很多方面慢了一大拍。

Spark 不是为我等欢快的工作而努力,而是为了他们的技术追求和审美的强迫症而努力。或许这是技术人员难以逾越的坑吧。
  • 曾经机器学习的新星,现在没落了
  • 曾经的全平台,现在只有批处理还有优势
  • 有望成为SQL的新标准,现在依然丧失

我觉得不管怎么样,Spark还是有很多非常值得学习的,每个产品,每个技术都会在发展过程中出现或多或少的一些问题,但是这个不能掩盖它本身的价值。

###总结###

  1. 早上要错峰出行。
  2. 晚上可控性真的很差。

延伸阅读

  1. Spark之殇-祝威廉

茶歇驿站

一个让你可以在茶歇之余,停下来看一看,里面的内容或许对你有一些帮助。

这里的内容主要是团队管理,个人管理,后台技术相关,其他个人杂想。