当前位置: 首页 > news >正文

做好评做销量的网站安徽建工集团网站

做好评做销量的网站,安徽建工集团网站,网站解决方案,h5免费制作平台企业秀测试用表准备 hive企业级调优策略测试数据 (阿里网盘下载链接):https://www.alipan.com/s/xsqK6971Mrs 订单表(2000w条数据) 表结构 建表语句 drop table if exists order_detail; create table order_detail(id string comment 订单id,user_id …

测试用表准备

hive企业级调优策略测试数据
(阿里网盘下载链接):https://www.alipan.com/s/xsqK6971Mrs

订单表(2000w条数据)

表结构
在这里插入图片描述
建表语句

drop table if exists order_detail;
create table order_detail(id           string comment '订单id',user_id      string comment '用户id',product_id   string comment '商品id',province_id  string comment '省份id',create_time  string comment '下单时间',product_num  int comment '商品件数',total_amount decimal(16, 2) comment '下单金额'
)comment '订单表'partitioned by (dt string)row format delimited fields terminated by '\t'

数据装载
将order_detail.txt文件上传到HDFS,并执行以下导入语句。
注:文件较大,请耐心等待。

load data inpath 'hdfs://flinkv1:8020/input/order_detail.txt' overwrite into table order_detail partition(dt='2020-06-14');

支付表(600w条数据)

表结构
在这里插入图片描述
建表语句

drop table if exists payment_detail;
create table payment_detail(id              string comment '支付id',order_detail_id string comment '订单明细id',user_id         string comment '用户id',payment_time    string comment '支付时间',total_amount    decimal(16, 2) comment '支付金额'
)
partitioned by (dt string)
row format delimited fields terminated by '\t';

数据装载
将payment_detail.txt文件上传HDFS,并执行以下导入语句。
注:文件较大,请耐心等待。

load data inpath 'hdfs://flinkv1:8020/input/payment_detail.txt' overwrite into table payment_detail partition(dt='2020-06-14');

商品信息表(100w条数据)

表结构
在这里插入图片描述
建表语句

drop table if exists product_info;
create table product_info(id           string comment '商品id',product_name string comment '商品名称',price        decimal(16, 2) comment '价格',category_id  string comment '分类id'
)
row format delimited fields terminated by '\t';

数据装载
将product_info.txt文件上传到HDFS,并执行以下导入语句。

load data local inpath '/opt/module/hive/datas/product_info.txt' overwrite into table product_info;

省份信息表(34条数据)

表结构
在这里插入图片描述
建表语句

drop table if exists province_info;
create table province_info(id            string comment '省份id',province_name string comment '省份名称'
)
row format delimited fields terminated by '\t';

数据装载
将province_info.txt文件上传到HDFS,并执行以下导入语句。

load data inpath 'hdfs://flinkv1:8020/input/province_info.txt' overwrite into table province_info;

优化说明

Hive中未经优化的分组聚合,是通过一个MapReduce Job实现的。Map端负责读取数据,并按照分组字段分区,通过Shuffle,将数据发往Reduce端,各组数据在Reduce端完成最终的聚合运算。
Hive对分组聚合的优化主要围绕着减少Shuffle数据量进行,具体做法是map-side聚合。所谓map-side聚合,就是在map端维护一个hash table,利用其完成部分的聚合,然后将部分聚合的结果,按照分组字段分区,发送至reduce端,完成最终的聚合。map-side聚合能有效减少shuffle的数据量,提高分组聚合运算的效率。

map-side 聚合相关的参数如下:

启用map-side聚合

set hive.map.aggr=true;

用于检测源表数据是否适合进行map-side聚合,根据设置的比例系数进行检测,如果设置为1将不在进行检测,所有数据都进行map-side聚合。检测的方法是:先对若干条数据进行map-side聚合,若聚合后的条数和聚合前的条数比值小于该值,则认为该表适合进行map-side聚合;否则,认为该表数据不适合进行map-side聚合,例如根据主键ID进行分组,那么map端即时聚合也没有作用,反而多此一举浪费资源,后续数据便不再进行map-side聚合。

set hive.map.aggr.hash.min.reduction=0.5;

–用于检测源表是否适合map-side聚合的条数。

set hive.groupby.mapaggr.checkinterval=100000;

如果统计数据远大于分组值(例如100000条数据,计算每个省份的条数,省份可以确认34个,那么统计条数远大于分组值)我们可以直接把检测比例系数设置为1,检测源表数据设置为0;免去检测直接进行map-side聚合。

set hive.map.aggr.hash.min.reduction=1;
set hive.groupby.mapaggr.checkinterval=1;

map-side聚合所用的hash table,占用map task堆内存的最大比例,若超出该值,则会对hash table进行一次flush。(默认不需要调整,出现问题在进行调整)

set hive.map.aggr.hash.force.flush.memory.threshold=0.9;

优化案例

(1)示例SQL

selectprovince_id,count(*)
from order_detail
group by province_id;

关闭map-side优化:
在这里插入图片描述
在这里插入图片描述

(2)优化前
未经优化的分组聚合,执行计划如下图所示:
在这里插入图片描述

(3)优化思路
可以考虑开启map-side聚合,配置以下参数:
–启用map-side聚合,默认是true

set hive.map.aggr=true;

在这里插入图片描述

用于检测源表数据是否适合进行map-side聚合。检测的方法是:先对若干条数据进行map-side聚合,若聚合后的条数和聚合前的条数比值小于该值,则认为该表适合进行map-side聚合;否则,认为该表数据不适合进行map-side聚合,后续数据便不再进行map-side聚合。

set hive.map.aggr.hash.min.reduction=1;

在这里插入图片描述

–用于检测源表是否适合map-side聚合的条数。

set hive.groupby.mapaggr.checkinterval=0;

在这里插入图片描述

–map-side聚合所用的hash table,占用map task堆内存的最大比例,若超出该值,则会对hash table进行一次flush。

set hive.map.aggr.hash.force.flush.memory.threshold=0.9;

在这里插入图片描述
再次执行,耗时显而易见减少。
在这里插入图片描述

优化后的执行计划如图所示:
在这里插入图片描述

http://www.15wanjia.com/news/193988.html

相关文章:

  • 网站推广策划内容如何设置网站会员
  • 做视频分享网站的参考书牛商做网站的理念
  • 网站中的冒号网络销售的方法和技巧
  • 可以做h5的网站有哪些怎么做外围网站的代理
  • 论述网站建设的主要内容网站建设相关制度
  • 企业搭建pc端网站营销培训学院
  • 第一个做电子商务的网站做公司网站需要的资料
  • 网站建设基本资料中济建设有限公司网站
  • 菏泽 网站建设公司天津市建设厅建筑业信息网
  • 如何降低网站跳出率杭州网站建设商城价格
  • 怎样在电脑安装wordpress乐云seo商城网站建设
  • 天津网站备案时间企业网站的推广阶段
  • epcms网站模板wordpress 标签 随机
  • 集美区建设局网站asp网站免费完整源码
  • 网站建设与管理设计hao123网址怎么删除
  • 网站建设公司使用图片侵权使用者有无责任宁波做网站优化
  • 建企业网站哪个平台好怎么看一个网站是否被k
  • 西部数码虚拟主机怎么做网站成都各公司网站
  • 深圳网站建设公司麦wordpress 防篡改
  • 客户端建站静态网站管理系统
  • 有哪些简单的网站成都原画培训机构排行
  • 网站建设项目体会深圳排名网站
  • 百度上搜不到做的网站网站推广邮箱怎么做
  • 怀化网站推广中信建设有限责任公司待遇
  • 坪山网站建设设计上海建网站公司排名
  • 资深网站学校网站开发方案
  • 做网站线稿软件有哪些seo在线培训机构
  • php网站服务器架设网站建设方案基本流程
  • 网站开发劳动合同范本网络营销比赛 营销型网站策划
  • 深圳网站建设 手机网站建设免费做思维导图的网站