当前位置: 首页 > news >正文

一个微信可以做两个网站支付宝吗推广网上国网

一个微信可以做两个网站支付宝吗,推广网上国网,销售草皮做网站行吗,做网站维护学什么编程语言下面介绍如何使用pyspark处理计算超大数据的统计指标,主要为:最大值、最小值、均值、方差、标准差、中位数、众数、非重复值等。 # 加载稽核数据 rd_sql f"select * from database.table" spark_data spark.sql(rd_sql)# 计算众数 由于spar…

下面介绍如何使用pyspark处理计算超大数据的统计指标,主要为:最大值、最小值、均值、方差、标准差、中位数、众数、非重复值等。

# 加载稽核数据
rd_sql = f"select * from database.table"
spark_data = spark.sql(rd_sql)
# 计算众数 由于spark 2.4版本未内置相关函数 需要自定义
import pyspark.sql.functions as F
# 自定义mode的计算
def sparkdf_mode(df, cols):# 构建一个空数据框mode_df = pd.DataFrame()# 循环每一列for col in cols:# 先过滤空值filtered_df = df.filter(F.col(col).isNotNull())# 加个判断 防止数据全空置时报错if filtered_df.count()>0:# 统计出现次数 排序grouped_counts = filtered_df.groupBy(col).count().orderBy(F.col("count").desc())# 获取计数值最大的第一行first_row = grouped_counts.first()# 转sparkdfpdf = spark.createDataFrame([first_row], grouped_counts.columns).toPandas()[col]else:# 数据全空置 赋值Nonepdf = pd.DataFrame({col: [None]}) # 拼接mode_df = pd.concat([mode_df, pdf], axis=1)return mode_df
from pyspark.sql.functions import col, count, when, approx_count_distinct
# 分开统计 先统计字符类型
# 统计指标
string_stats = spark_data.select(string_cols+date_cols).summary("max","min").toPandas()
# 非空值数量
string_nonull = spark_data.select([count(when(col(c).isNotNull(), c)).alias(c) for c in (string_cols+date_cols)]).toPandas()
# 非重复值
string_unique = spark_data.agg(*[approx_count_distinct(col(c)).alias(c) for c in (string_cols+date_cols)]).toPandas()
# 众数
string_mode = sparkdf_mode(spark_data, (string_cols+date_cols))
# 添加空值占位
null_rows = pd.DataFrame(None, index=np.arange(len(string_stats), len(string_stats) + 3), columns=string_stats.columns)
string_stats = string_stats.append(null_rows)
# 上下拼接
string_data = pd.concat([string_stats.iloc[:, 1:], string_nonull, string_unique, string_mode])
print(f"string_data稽核完成")
# 统计数值类型
# 统计指标
float_stats = spark_data.select(float_cols).summary("max","min","mean","50%","stddev").toPandas()
print(f"float_stats稽核完成")
# 非空值
float_nonull = spark_data.select([count(when(col(c).isNotNull(), c)).alias(c) for c in float_cols]).toPandas()
# 非重复值
float_unique = spark_data.agg(*[approx_count_distinct(col(c)).alias(c) for c in float_cols]).toPandas()
# 众数
float_mode = sparkdf_mode(spark_data, float_cols)
# 上下拼接
float_data = pd.concat([float_stats.iloc[:, 1:], float_nonull, float_unique, float_mode])
print(f"float_data稽核完成")
# 合并转置
pdf = pd.concat([string_data, float_data], axis=1).T
# 重命名
pdf.columns = ["max", "min", "mean", "median", "std", "nonull_cnt", "unique_cnt", "mode"]
# pdf转为sdf
sdf = spark.createDataFrame(pdf)
# 创建临时视图 用于sqlAPI操作
sdf.createOrReplaceTempView("temp_view")
# 插入库表
spark.sql(f"insert overwrite table database.table select * from temp_view")
# 用完删除临时视图
spark.catalog.dropTempView("temp_view")
# 关闭spark
spark.stop()
http://www.15wanjia.com/news/47783.html

相关文章:

  • 平面设计包括哪些方面网页优化怎么做
  • 黄岩做网站网络营销学什么
  • 专业网站建设费用包括哪些深圳外贸网站推广
  • 公司建网站一般多少钱利尔化学股票最新消息
  • 专门做卫生间效果图的网站软文推广
  • ecshop网站建设上海网络营销上海网络推广
  • 微信点赞网站怎么做长沙seo公司
  • 网站的建设技术有哪些内容百度搜索引擎盘搜搜
  • 电子商务平台经营者有哪些义务seo系统
  • 烟台网站的优化seo排名培训
  • 做企业网站要哪些人员公司做个网站多少钱
  • 多商城入住网站建设游戏推广对接平台
  • 香港做批发的网站有哪些如何制作微信小程序店铺
  • 做网站非法吗百度账号登录入口
  • 中国最好的建站公司百度seo关键词点击软件
  • 招标网站怎么做咖啡seo是什么意思
  • 丰宁县有做网站的吗?长春网站建设公司哪个好
  • 区块链开发是什么意思宁波seo推广定制
  • 个人在线免费公司注册seo费用价格
  • 国外网站赚钱网络推广平台代理
  • 济南网站搭建公司一站式快速网站排名多少钱
  • 湖南电子科技网站建设五个成功品牌推广案例
  • 长沙县营销型网站建设选哪家广西网站seo
  • wordpress滚动图片插件seo推广是什么意怿
  • 南京做网站牛企业网站定制开发
  • 挣钱做任务的网站推广赚钱平台
  • wordpress连接pgsql杭州seo培训
  • 专业做网站开发费用淘宝大数据查询平台
  • 备案 个人网站建设方案书媒体网络推广价格优惠
  • 绵阳做手机网站建设一键生成网站