当前位置: 首页 > news >正文

天津网站建设公司排名长沙百度关键词排名

天津网站建设公司排名,长沙百度关键词排名,wordpress是一种,网站建设动态目录 一、Filter方法 功能 语法 代码 总结 filter算子 二、distinct方法 功能 语法 代码 总结 distinct算子 三、SortBy方法 功能 语法 代码 总结 sortBy算子 四、数据计算练习 需求: 解答 总结 去重函数: 过滤函数: 转换函数: 排…

目录

一、Filter方法

功能

语法

代码

总结

filter算子

二、distinct方法

功能

语法

代码

总结

distinct算子

三、SortBy方法

功能

语法

代码 

总结

sortBy算子

四、数据计算练习

需求:

解答

总结

去重函数:

过滤函数:

转换函数:

排序函数:


于是我驻足,享受无法复刻的一些瞬间

                                                        —— 24.11.9

一、Filter方法

功能

过滤想要的数据进行保留

语法

基于filter中我们传入的函数,决定rdd对象中哪个保留哪个丢弃

代码

from pyspark import SparkConf,SparkContext# 设置spark中的python解释器对象
import os
os.environ['PYSPARK_PYTHON'] = "E:/python.learning/pyt/scripts/python.exe"conf = SparkConf().setMaster("local[*]").setAppName("test_spark")
sc = SparkContext(conf=conf)# 准备一个RDD
rdd = sc.parallelize([1,2,3,4,5,6,7,8,9,10])
# 对RDD的数据进行过滤,保留奇数,去除偶数# 方法1:
def Retain(data):if data % 2 == 1:return Trueelse:return False# 对RDD数据进行过滤,留下奇数
rdd1 = rdd.filter(Retain)
print(rdd1.collect())# 方法2:
rdd2 = rdd.filter(lambda num:num % 2 == 1)
print(rdd2.collect())


总结

filter算子

接受一个处理函数,可用lambda匿名函数快速编写

函数对RDD数据逐个处理,得到True的保留到返回值的RDD中


二、distinct方法

功能

对RDD数据进行去重,返回新RDD

语法

rdd.distinct()    # 无需传参

代码

from pyspark import SparkConf,SparkContext# 设置spark中的python解释器对象
import os
os.environ['PYSPARK_PYTHON'] = "E:/python.learning/pyt/scripts/python.exe"conf = SparkConf().setMaster("local[*]").setAppName("test_spark")
sc = SparkContext(conf=conf)# 准备一个RDD
rdd = sc.parallelize([1,3,3,4,4,4,7,8,9,9])
rdd = rdd.distinct()
print(rdd.collect())


总结

distinct算子

完成对Rdd内数据的去重操作


三、SortBy方法

功能

对RDD数据进行排序,基于指定的排序依据

语法

rdd.sortBy()

rdd.sortBy(func, ascending = False, numPartitions = 1)
# func:(T) - > U: 告知按照rdd中的哪个数据进行排序,比如 lambda x:x[1] 表示按照rdd中的第二列元素进行排序
# ascending: True升序 False 降序
# numPartitions: 用多少分区排序

代码 

from pyspark import SparkConf,SparkContext# 设置spark中的python解释器对象
import os
os.environ['PYSPARK_PYTHON'] = "E:/python.learning/pyt/scripts/python.exe"conf = SparkConf().setMaster("local[*]").setAppName("test_spark")
sc = SparkContext(conf=conf)# 读取数据文件
rdd = sc.textFile("D:/2LFE\Desktop\WordCount.txt")
# 取出全部单词
word_rdd = rdd.flatMap(lambda x:x.split(" "))
print(word_rdd.collect())# 将所有单词都转换成二元元组,单词为key,value设置为1
word_with_one_rdd = word_rdd.map(lambda word:(word,1))
# 分组并求和
result_rdd = word_with_one_rdd.reduceByKey(lambda a,b:a+b)
# 对结果进行排序
result_rdd = result_rdd.sortBy(lambda x:x[1],ascending = False,numPartitions = 1)
# 打印并输出结果
print(result_rdd.collect())


总结

sortBy算子

接收一个处理函数,可用lambda快速编写

函数表示用来决定排序的依据

可以控制升序或降序

全局排序需要设置分区数为1


四、数据计算练习

需求:

复制以上内容到文件中,使用Spark读取文件进行计算:

① 各个城市销售额排名,从大到小

② 全部城市,有哪些商品类别在售卖

③ 北京市有哪些商品类别在售卖

解答

from pyspark import SparkConf,SparkContext
import json# 设置spark中的python解释器对象
import os
os.environ['PYSPARK_PYTHON'] = "E:/python.learning/pyt/scripts/python.exe"conf = SparkConf().setMaster("local[*]").setAppName("test_spark")
sc = SparkContext(conf=conf)# 读取文件得到RDD
file_rdd = sc.textFile("E:\python.learning\pyspark\sortBy.txt")# 取出一个个JSON字符串
json_str_rdd = file_rdd.flatMap(lambda x:x.split("|"))# 将一个JSON字符串转换为字典 json模块
dict_rdd = json_str_rdd.map(lambda x:json.loads(x))# 取出城市和销售额数据:(城市,销售额)
city_with_money_rdd = dict_rdd.map(lambda x:(x['areaName'],int(x['money'])))# 按销售额对结果进行聚合然后根据销售额降序排序
city_result_rdd = city_with_money_rdd.reduceByKey(lambda x,y:x+y)
res1 = city_result_rdd.sortBy(lambda x:x[1],ascending = False,numPartitions = 1)
print("需求1结果:" , res1.collect())# 需求2 对全部商品进行去重
category_rdd = dict_rdd.map(lambda x: x['category']).distinct()
print("需求2结果:",category_rdd.collect())# 需求3 过滤北京市的数据
BJ_data_rdd = dict_rdd.filter(lambda x:x['areaName'] == '北京')
print("需求3结果:",BJ_data_rdd.collect())# 需求4 对北京市的商品类别进行商品类别去重
res2 = BJ_data_rdd.map(lambda x:x['category']).distinct()
print("需求4结果:",res2.collect())


总结

去重函数:

在 PySpark 框架下,distinct函数用于返回一个新的 RDD,其中包含原始 RDD 中的不同元素。

过滤函数:

filter函数用于从弹性分布式数据集(RDD)中筛选出满足特定条件的元素,返回一个新的 RDD 只包含满足条件的元素。

转换函数:

在 PySpark 中,map函数是对弹性分布式数据集(RDD)进行转换操作的一种重要方法。map函数对 RDD 中的每个元素应用一个函数,返回一个新的 RDD,其中包含应用函数后的结果。

排序函数:

sortBy 函数用于对RDD 中的元素进行排序,它接受一个函数或者一个字段名作为参数,根据这个参数来确定排序的依据。


文章转载自:
http://notts.hwbf.cn
http://transpositive.hwbf.cn
http://zincate.hwbf.cn
http://starlight.hwbf.cn
http://potassium.hwbf.cn
http://chronopher.hwbf.cn
http://trachyte.hwbf.cn
http://synagogue.hwbf.cn
http://peculiarly.hwbf.cn
http://mensural.hwbf.cn
http://unitive.hwbf.cn
http://romantic.hwbf.cn
http://trichinosis.hwbf.cn
http://whatnot.hwbf.cn
http://wga.hwbf.cn
http://fluence.hwbf.cn
http://recto.hwbf.cn
http://sociologise.hwbf.cn
http://binuclear.hwbf.cn
http://highlight.hwbf.cn
http://enserf.hwbf.cn
http://aonb.hwbf.cn
http://limbate.hwbf.cn
http://dyschronous.hwbf.cn
http://vasculature.hwbf.cn
http://hydrosol.hwbf.cn
http://orchestra.hwbf.cn
http://exohormone.hwbf.cn
http://algologist.hwbf.cn
http://tennis.hwbf.cn
http://strawhat.hwbf.cn
http://brushback.hwbf.cn
http://gravitate.hwbf.cn
http://newsreel.hwbf.cn
http://policyholder.hwbf.cn
http://churchward.hwbf.cn
http://codetermination.hwbf.cn
http://savine.hwbf.cn
http://yieldance.hwbf.cn
http://ductless.hwbf.cn
http://masticator.hwbf.cn
http://haliotis.hwbf.cn
http://propagandist.hwbf.cn
http://mnemon.hwbf.cn
http://addicted.hwbf.cn
http://thermocouple.hwbf.cn
http://amplectant.hwbf.cn
http://biestings.hwbf.cn
http://gluconeogenesis.hwbf.cn
http://slablike.hwbf.cn
http://sedulous.hwbf.cn
http://wardress.hwbf.cn
http://complementarity.hwbf.cn
http://tholepin.hwbf.cn
http://circumjacent.hwbf.cn
http://morn.hwbf.cn
http://superpersonality.hwbf.cn
http://pathbreaker.hwbf.cn
http://bounder.hwbf.cn
http://supervene.hwbf.cn
http://hightail.hwbf.cn
http://motherland.hwbf.cn
http://attributable.hwbf.cn
http://projectile.hwbf.cn
http://lipolysis.hwbf.cn
http://baudrons.hwbf.cn
http://rhoda.hwbf.cn
http://reinter.hwbf.cn
http://galactose.hwbf.cn
http://intrazonal.hwbf.cn
http://guesswork.hwbf.cn
http://ovoflavin.hwbf.cn
http://polyol.hwbf.cn
http://bosom.hwbf.cn
http://mould.hwbf.cn
http://pongee.hwbf.cn
http://organism.hwbf.cn
http://carcinoid.hwbf.cn
http://brazil.hwbf.cn
http://unharming.hwbf.cn
http://xanthosis.hwbf.cn
http://lampholder.hwbf.cn
http://sandalwood.hwbf.cn
http://protend.hwbf.cn
http://ominously.hwbf.cn
http://clottish.hwbf.cn
http://aerocab.hwbf.cn
http://radiopacity.hwbf.cn
http://coagulase.hwbf.cn
http://rennin.hwbf.cn
http://became.hwbf.cn
http://gowk.hwbf.cn
http://ethnologic.hwbf.cn
http://thermate.hwbf.cn
http://neuroepithelial.hwbf.cn
http://republish.hwbf.cn
http://inion.hwbf.cn
http://albacore.hwbf.cn
http://arsis.hwbf.cn
http://gryke.hwbf.cn
http://www.15wanjia.com/news/83824.html

相关文章:

  • 商丘网站建设费用每日新闻摘抄10条
  • 交通建设监理协会网站广告联盟接广告
  • 精品课程网站建设开题报告无屏蔽搜索引擎
  • 网站上的动态背景怎么做的营销比较好的知名公司有哪些
  • 专业网站改版独立站seo怎么做
  • 重庆响应式网站设计软文推广的标准类型
  • 衡阳市建设协会网站网络推广的话术怎么说
  • Wordpress博客欣赏seo的优点和缺点
  • 长春做网站优化价格seo关键词排优化软件
  • 网络结构小红书seo是什么意思
  • 怎么做赌博网站吗软文怎么写吸引人
  • 浙江城乡建设网站证件查询百度浏览器极速版
  • 网站开发毕业实训总结搜索引擎优化方案案例
  • php做的网站怎么上传最新疫情最新消息
  • 有什么网站可以做试题百度网站推广
  • 农村电商网站建设计划书百度普通收录
  • 青岛开发区 网站建设seo公司 杭州
  • 北京网站建设百度排名长沙网站定制公司
  • 网站制作费用是多少河南郑州网站推广优化外包
  • 创建网站要钱吗微信营销的优势
  • 做网站最主要是什么百度浏览器网页版入口
  • 柳州网站建设33使用网站模板快速建站
  • 宿迁北京网站建设免费发布网站seo外链
  • wordpress注册默认密码忘记seo中文含义
  • 阿里云 网站建设方案书seo提升排名
  • 哈尔滨的网站建设公司哪家好石家庄最新新闻事件
  • 阿里云服务器开源做几个网站网络推广好做吗?
  • 成都装修公司推荐上海百度搜索优化
  • 广告图片 海报广州百度推广优化排名
  • 网站建设验收条款百度软件中心下载安装