习惯养成记之07-图解spark之存储原理

昨天是习惯养成记的第六天，也是开始之后的第二周第一天。经过一周的坚持，总体来说，还是有一些收获的，至少我现在还在继续。

昨天有好些朋友推荐了我周末写的一篇文章《如何成为开源项目的Contributor》，因此来了好多新朋友。最近我正在打卡我的习惯养成系列（“流水账”），如果它打扰到你，还请你暂时取消关注，如果能对你有所帮助或者共鸣，你可以在后台给我留言，大家一起探讨。

言归正传，昨天阅读了《图解spark》的存储分析，文中从源码的角度分析了以下过程。

首先从整体给以存储分析介绍和调用详解，涉及到RDD存储调用、读数据过程、写数据过程。其次是Shuffle分析，也包括写操作和读操作。再次是数据的序列化和压缩。最后介绍了一下共享变量，包括广播变量和累加器。通过实例演示对Shuffle写操作的中间文件数据进行查看，并与UI监控得到各调度阶段和每个调度阶段中任务数计算进行比对。

虽然我读这本书已经到第5章了，但还是对源码分析一知半解，没有scala基础，不太容易理解。

但是看过之后，我对于一些流程和基本实现有了了解，这回为我今后可能的深入做一些准备。

从今天开始，我将开始第6章Spark运行架构的阅读。该部分预计阅读起来会相对更快一些，因为有比较多的是介绍在不同运行模式上的详解。

###总结###

阅读并不会马上带来直接受益，但是不能因此而中断，否则付出的就是浪费。

习惯养成记之07-图解spark之存储原理

文章目录

延伸阅读