习惯养成记之09-图解spark

昨天是习惯养成记的第八天，也是开始习惯养成打卡的第10天。

Spark SQL 和 Spark Streaming倒还能看的懂一点点，Spark MLlib则有点吃力了，毕竟之前没有接触过，一点认知都没有，所以我是略读。

下面是一些笔记：

Spark SQL（核心就是DataFrame）
- 主要是Hive-Console，SQLConsole的使用介绍。
- 读取JSON格式数据，Parquet格式数据。
- 实战：销售数据分类、网店销售数据统计。
Spark Streaming（Discretized Stream，简称:DStream）
- DStream输入源
- 流处理引擎
- 接收机存储流数据
Spark MLlib
- Spark 机器学习库，它的目标是让机器学习更加容易和可伸缩性。
- MLBase分为：MLlib、MLI、ML Optimizer 和 MLRuntime。
- MLlib 提供了常用机器学习算法的实现，包括分类、回归、聚集、协同过滤和降维等。
- MLlib 包括两部分：底层基础和算法库。
- Spark MLlib 算法分类：
  - 二元分类（线性支持向量机、逻辑回归、决策树、随机森林、梯度提升决策树、朴素贝叶斯）
  - 多类分类（逻辑回归、决策树、随机森林、朴素贝叶斯）
  - 回归（线性最小二乘法、Lasso、岭回归、决策树、随机森林、梯度提升决策树、保序回归）

###总结###

文章目录