习惯养成记之07-图解spark之存储原理

昨天是习惯养成记的第六天,也是开始之后的第二周第一天。 经过一周的坚持,总体来说,还是有一些收获的,至少我现在还在继续。

昨天有好些朋友推荐了我周末写的一篇文章《如何成为开源项目的Contributor》,因此来了好多新朋友。最近我正在打卡我的习惯养成系列(“流水账”),如果它打扰到你,还请你暂时取消关注,如果能对你有所帮助或者共鸣,你可以在后台给我留言,大家一起探讨。

言归正传,昨天阅读了《图解spark》的存储分析,文中从源码的角度分析了以下过程。

首先从整体给以存储分析介绍和调用详解,涉及到RDD存储调用、读数据过程、写数据过程。 其次是Shuffle分析,也包括写操作和读操作。 再次是数据的序列化和压缩。 最后介绍了一下共享变量,包括广播变量和累加器。 通过实例演示对Shuffle写操作的中间文件数据进行查看,并与UI监控得到各调度阶段和每个调度阶段中任务数计算进行比对。

虽然我读这本书已经到第5章了,但还是对源码分析一知半解,没有scala基础,不太容易理解。

但是看过之后,我对于一些流程和基本实现有了了解,这回为我今后可能的深入做一些准备。

从今天开始,我将开始第6章Spark运行架构的阅读。该部分预计阅读起来会相对更快一些,因为有比较多的是介绍在不同运行模式上的详解。

###总结###

  1. 阅读并不会马上带来直接受益,但是不能因此而中断,否则付出的就是浪费。

延伸阅读

  1. 张开涛-亿级流量网站架构核心技术

这本书将对京东网站/大促活动等大流量和高性能方面做深度的讲解,不涉及到语言层面的优化。所以给服务器端开发有多了一个很好的参考,也算是一本葵花宝典了吧,现目前在京东是预售,大概4月1日发售。


茶歇驿站

一个让你可以在茶歇之余,停下来看一看,里面的内容或许对你有一些帮助。

这里的内容主要是团队管理,个人管理,后台技术相关,其他个人杂想。

茶歇驿站二维码