ThinkChat2.0新版上线,更智能更精彩,支持会话、画图、视频、阅读、搜索等,送10W Token,即刻开启你的AI之旅 广告
**1. 为什么需要Shuffle** 因为需要将具有某种共同特征的一类数据汇聚到一个节点上进行计算。 <br/> **2. 什么是Shuffle** 与 MapReduce 的 Shuffle 类似,即在分区之间重新分配数据,将数据打乱重新汇聚到不同节点的过程。 <br/> map、flatMap等窄依赖算子不需要在分区之间,或节点之间进行数据传输,所以没有产生Shuffle过程;而向reduceByKey这样的宽依赖算子,需要将所有相同的key进行聚合,所以是需要在各个分区,或节点之间传输数据的,所以会产生Shuffle过程。