博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
宽依赖与窄依赖区别
阅读量:7226 次
发布时间:2019-06-29

本文共 394 字,大约阅读时间需要 1 分钟。

  hot3.png

  • 宽依赖往往对应着shuffle操作,需要在运行的过程中将同一个RDD分区传入到不同的RDD分区中,中间可能涉及到多个节点之间数据的传输,而窄依赖的每个父RDD分区通常只会传入到另一个子RDD分区,通常在一个节点内完成。
  • 当RDD分区丢失时,对于窄依赖来说,由于父RDD的一个分区只对应一个子RDD分区,这样只需要重新计算与子RDD分区对应的父RDD分区就行。这个计算对数据的利用是100%的
  • 当RDD分区丢失时,对于宽依赖来说,重算的父RDD分区只有一部分数据是对应丢失的子RDD分区的,另一部分就造成了多余的计算。宽依赖中的子RDD分区通常来自多个父RDD分区,极端情况下,所有父RDD都有可能重新计算。如下图,par4丢失,则需要重新计算par1,par2,par3,产生了冗余数据par5

723d7fa5a98bc754d5c07a84fc721297dbe.jpg 

转载于:https://my.oschina.net/134596/blog/3038241

你可能感兴趣的文章
linux 命令大全
查看>>
网站登录时记住密码
查看>>
越南菜在北京——西贡在巴黎的滋味
查看>>
SQL Server数据库备份:通过Windows批处理命令执行
查看>>
python2读取EXCEL表格内的数据时碰到的问题
查看>>
FFmpeg-20160506-snapshot-bin
查看>>
《Ext JS 4.2 实战》可以买了
查看>>
【maven】 在 MyEcplise上使用maven搭建Web项目
查看>>
C/C++STL常用容器用法总结
查看>>
gdal库集成MrSID库的做法
查看>>
missing ';' before 'namesapce'错误的解决
查看>>
js 浏览器滑动页面滚动条时,获取元素距离浏览器顶部距离,并且固定浮动导航...
查看>>
iphone Three20如何添加到工程,以及如何添加删除图片的按钮。
查看>>
PHP json_decode返回null解析失败原因
查看>>
SpringMVC与Struts2的对比
查看>>
Java_eclipse软件与git配合使用创建git仓库
查看>>
极路由饥饿营销引质疑 联合创始人拿数据正面回应
查看>>
配置visual studio code for Mac 调试c/c++
查看>>
9、android开发之java.lang.verifyError(转载)
查看>>
创造特殊的构造函数——寄生构造函数模式
查看>>