当前位置: 首页 > news >正文

国内做心理咨询师培训出名的网站江西网

国内做心理咨询师培训出名的网站,江西网,兰州做网站客户,合肥大型网站设计公1. 什么是数据倾斜? 在分布式计算场景下,大量的数据集中在某一个节点而导致一个任务的执行时间变长。而大量的节点只处理了小部分的数据,大数据组件处理海量数据的特点就是不患多,而患不均。 2. 怎么发现任务出现了数据倾斜现象 …
1. 什么是数据倾斜?

        在分布式计算场景下,大量的数据集中在某一个节点而导致一个任务的执行时间变长。而大量的节点只处理了小部分的数据,大数据组件处理海量数据的特点就是不患多,而患不均。

2. 怎么发现任务出现了数据倾斜现象

        在yarn上可以查看task的执行情况,如果一个阶段中有些task很快执行完了,有些task迟迟无法结束或者运行时间减少,则大概率出现了数据倾斜的现象。

3. 描述1个数据倾斜的情景,针对这个情景给出解决方案
情景1:select count(distinct user_id) from t_user;
为什么:如果存在大量相同的user_id,而在count的时候会因为大量相同的user_id集中在同一个reducetask中,导致数据倾斜
解决方案:

1) 设置提高reduceTask的个数

2) select count(*) from(select sex from t_person group by sex) t1;

情景2:在group by分组的时候,某个key过多;
解决方案:将 key 打散
  1. 给 key 增加随机前缀

    在进行 group by 之前,先给每个 user_id 增加一个随机前缀,使得原本相同的 user_id 被打散到不同的分组中。

  2. 按带前缀的 key 进行分组

    对带有随机前缀的 user_id 进行分组和聚合。

  3. 去掉前缀后再分组

    在第一步的基础上,去掉前缀,再进行一次分组和聚合,得到最终的结果。

情况3:在join表连接的时候课可能出现数据倾斜
解决方案:mapjoin ;大表打散、小表扩容;smbjoin
        大表打散:大表打散是指将大表中的数据打散到多个分区或分桶中,以均衡各节点的负载。这通常通过在大表上引入一个随机分布的哈希值或对数据进行重新分区来实现。
        小表扩容:小表扩容是指将小表的数据复制到多个节点上,以避免在连接操作中出现数据倾斜的问题。通常,小表会被广播到所有计算节点,以确保每个节点都能本地访问小表数据。
        总结:
        大表打散:通过添加随机分区键和重新分区,将大表数据均匀分布到多个节点。
        小表扩容:将小表广播到所有节点,确保连接操作时各节点能本地访问小表数据,避免数据倾斜。
http://www.15wanjia.com/news/177615.html

相关文章:

  • 鲜花网站的数据库建设新建的网站百度搜不到
  • 做网站要什么专业wordpress5.2.2中文
  • 百度网站搜索关键字温州市建设工程质量安全管理总站
  • 义乌网站建设设中国做本地服务好的网站
  • 小型网站开发教程wordpress加跳转
  • 培训网站开发怎么样企业自建网站劣势
  • 有做网站的公司吗欢迎访问中国建设银行网站
  • 门户网站整改报告网站开发与设计结课大作业
  • 360 网站备案wordpress搜索增加条件
  • 抚顺网站建设7113房屋装修效果图怎么制作
  • 深圳专门做网站的公司建网站多少钱 优帮云
  • 校园类网站模板免费下载wordpress文章显示颜色
  • 懒人做图网站深圳推广公司网站建设书模板
  • 订阅号可以做微网站吗多个图表统计的网站怎么做
  • gstatic wordpress抖音搜索seo排名优化
  • 高端网站建设公司零零南宁seo公司
  • 第三方商城网站开发深圳市广告传媒有限公司
  • 如何做网站的内链和外链学院网站建设自评
  • 网站安全 代码网页设计提升班有哪些
  • 网站做好怎么推广中文 域名的网站
  • 模特公司网站模板手机餐饮网站开发
  • 网站关键词结构家谱网站的首页怎么做
  • 做自己个人网站烟台海阳市专业做网站
  • 优秀企业网站的优缺点广东汕头最新消息
  • 黄冈网站推广厂家iis7创建网站
  • 新乡网站建设新乡wordpress数据库修改后台网址
  • 免费微商城网站建设在线设计网站源码
  • 做办公家具在哪个网站推销好八上数学优化设计答案
  • 在线建站网站wordpress 新浪云
  • 网站开发公司业务游客可进的直播