习惯养成记之08-图解spark

昨天是习惯养成记的第七天，也是开始习惯养成打卡的第9天。

下面是一些笔记：

spark 运行架构（文中详细介绍了本地运行模式，伪分布运行模式，独立运行模式，YARN运行模式，Mesos运行模式，）
- Spark 应用程序一般有三部分，包括SparkContext、ClusterManager和Executor。
- SparkContext用于负责和ClusterManager通信，进行资源的申请、任务的分配和监控等，负责作业执行的全生命周期管理。
- ClusterManager提供了资源的分配和管理，在不同的运行模式下所担任的角色有所不同。
Spark SQL（核心就是DataFrame）
- Spark SQL，是一个用于处理结构化数据的 Spark 组件，强调的是“结构化数据”，而非“SQL”
- Spark SQL 对 SQL 语句的处理和关系型数据库采用的方式类似，首先会将 SQL 语句进行解析形成一个 Tree，然后使用 Rule 对 Tree 先进性绑定、优化等处理过程，通过模式匹配对不同类型的节点采用不同的操作。
- Spark SQL 由Core、Catalyst、Hive和Hive-ThriftServer 4个部分组成。

###总结###

文章目录