Spark笔记-treeReduce、reduce、reduceByKey

安哥网络 · 发表于 2017-3-22 12:42:46

参考资料：

http://stackoverflow.com/questions/32281417/understadning-treereduce-in-spark

http://stackoverflow.com/questions/34078430/treereduce-vs-reducebykey-in-spark

reduceByKey和treeReduce之间有一个根本区别，reduceByKey它只对key-value pair RDDs可用，而treeReduce可以对任何RDD使用，相当于是reduce操作的泛化。 reduceByKey用于实现treeReduce，但它们在任何IT论坛意义上都不相关。

reduceByKey对每个键执行reduce，结果生成RDD; 它不是"action"操作，而是返回ShuffleRDD，是"transformation"。这等效于groupByKey后面跟着一个map，它执行key-wise reduction（为什么使用groupByKey是低效的）。

另一方面，treeAggregate是reduce函数的泛化，灵感来自AllReduce。这在Spark中是一个"action"，将结果返回到master节点。在执行本地的reduce操作之后，普通的reduce在master上执行剩余的计算，这样的计算量可能是非常繁重的（特别是在机器学习中，reduce函数结果是大的向量或矩阵时）。相反，treeReduce使用reduceByKey并行的执行reduction（这是通过在运行时创建key-value pair RDD，其中键由树的深度确定）

treeReduce & reduce return some result to driver

treeReduce does more work on the executors

while reduce bring everything back to the driver.

Spark笔记-treeReduce、reduce、reduceByKey

		自动登录	找回密码
密码			立即注册

Spark笔记-treeReduce、reduce、reduceByKey

浏览过的版块

优秀会员

助人为乐

辛勤工作

技术精英

多才多艺

优秀班竹

灌水天才

星球管理

宣传大使

灌水之王

财富勋章

版主勋章

动漫勋章

勤奋会员

论坛精英

PS高手

心

8

闪游皮肤

双鱼座

8★8➹

志愿者

乖