当前位置: 首页 > news >正文

wordpress新手技巧常州seo博客

wordpress新手技巧,常州seo博客,海口做什么网站比较好,烟台做网站打电话话术目录 创建 DataFrames 生成我们自己的 JSON 数据 创建 DataFrame 创建临时表 简单的 DataFrame 查询 DataFrame API 查询 SQL 查询 创建 DataFrames 通常,您会通过使用 SparkSession(或在 PySpark shell 中调用 spark)导入数据来创建 …

目录

创建 DataFrames

生成我们自己的 JSON 数据

创建 DataFrame

创建临时表

简单的 DataFrame 查询

DataFrame API 查询

SQL 查询


创建 DataFrames

通常,您会通过使用 SparkSession(或在 PySpark shell 中调用 spark)导入数据来创建 DataFrame。

我们将讨论如何将数据导入到本地文件系统、Hadoop 分布式文件系统(HDFS)或其他云存储系统(例如,S3 或 WASB)。在本文中,我们将专注于在 Spark 内直接生成您自己的 DataFrame 数据或利用 Databricks 社区版中已经可用的数据源。

首先,我们将不访问文件系统,而是通过生成数据来创建 DataFrame。在这种情况下,我们将首先创建 stringJSONRDD RDD,然后将其转换为 DataFrame。这段代码片段创建了一个包含游泳者(他们的 ID、姓名、年龄和眼睛颜色)的 JSON 格式的 RDD。

生成我们自己的 JSON 数据

下面,我们将最初生成 stringJSONRDD RDD:

stringJSONRDD = sc.parallelize(("""{ "id": "123",
"name": "Katie",
"age": 19,
"eyeColor": "brown"}""",
"""{
"id": "234",
"name": "Michael",
"age": 22,
"eyeColor": "green"}""", 
"""{
"id": "345",
"name": "Simone",
"age": 23,
"eyeColor": "blue"}""")
)

现在我们已经创建了 RDD,我们将使用 SparkSession 的 read.json 方法(即 spark.read.json(...))将其转换为 DataFrame。我们还将使用 .createOrReplaceTempView 方法创建一个临时表。

创建 DataFrame

以下是创建 DataFrame 的代码:

swimmersJSON = spark.read.json(stringJSONRDD)

创建临时表

以下是创建临时表的代码:

swimmersJSON.createOrReplaceTempView("swimmersJSON")

如前文所述,许多 RDD 操作是转换,这些转换直到执行动作操作时才执行。例如,在前面的代码片段中,sc.parallelize 是一个转换,当使用 spark.read.json 从 RDD 转换为 DataFrame 时执行。注意,在这段代码的笔记本截图中(左下角附近),直到包含 spark.read.json 操作的第二个单元格,Spark 作业才执行。

为了进一步强调这一点,在下图的右侧窗格中,我们展示了执行的 DAG 图。

在下面的截图中,您可以看到 Spark 作业的 parallelize 操作来自生成 RDD stringJSONRDD 的第一个单元格,而 map 和 mapPartitions 操作是创建 DataFrame 所需的操作:

需要注意的是,parallelize、map 和 mapPartitions 都是 RDD 转换。在 DataFrame 操作 spark.read.json(在本例中)中,不仅有 RDD 转换,还有将 RDD 转换为 DataFrame 的动作。这是一个重要的说明,因为即使您正在执行 DataFrame 操作,要调试您的操作,您需要记住您将在 Spark UI 中理解 RDD 操作。

请注意,创建临时表是一个 DataFrame 转换,并且在执行 DataFrame 动作之前不会执行(例如,要执行的 SQL 查询)。

简单的 DataFrame 查询

现在您已经创建了 swimmersJSON DataFrame,我们将能够在其上运行 DataFrame API 以及 SQL 查询。让我们从一个简单的查询开始,显示 DataFrame 中的所有行。

DataFrame API 查询

要使用 DataFrame API 执行此操作,您可以使用 show(<n>) 方法,该方法将前 n 行打印到控制台:

# DataFrame API
swimmersJSON.show()

这将给出以下输出:

SQL 查询

如果您更倾向于编写 SQL 语句,您可以编写以下查询:

spark.sql("select * from swimmersJSON").collect()

这将给出以下输出:

我们使用了 .collect() 方法,它返回所有记录作为一个行对象(Row objects)的列表。请注意,您可以对 DataFrames 和 SQL 查询使用 collect() 或 show() 方法。只要确保,如果您使用 .collect(),这是针对小 DataFrame 的,因为它将返回 DataFrame 中的所有行,并将它们从执行器移回驱动程序。您可以改用 take(<n>) 或 show(<n>),这允许您通过指定 <n> 来限制返回的行数:


文章转载自:
http://auberge.xnLj.cn
http://computerese.xnLj.cn
http://dialytically.xnLj.cn
http://libau.xnLj.cn
http://worked.xnLj.cn
http://crooked.xnLj.cn
http://plumassier.xnLj.cn
http://jeffersonian.xnLj.cn
http://headshaking.xnLj.cn
http://pug.xnLj.cn
http://egregiously.xnLj.cn
http://pectinose.xnLj.cn
http://wardenship.xnLj.cn
http://proportionately.xnLj.cn
http://forewarn.xnLj.cn
http://berserker.xnLj.cn
http://gameland.xnLj.cn
http://depiction.xnLj.cn
http://proletary.xnLj.cn
http://pentagonal.xnLj.cn
http://elinvar.xnLj.cn
http://mastigophoran.xnLj.cn
http://outgo.xnLj.cn
http://forsaken.xnLj.cn
http://lobbyism.xnLj.cn
http://platitudinize.xnLj.cn
http://aphemia.xnLj.cn
http://goodbye.xnLj.cn
http://circumvolute.xnLj.cn
http://vesuvianite.xnLj.cn
http://unjoined.xnLj.cn
http://tetradrachm.xnLj.cn
http://undrew.xnLj.cn
http://disforest.xnLj.cn
http://governess.xnLj.cn
http://trifunctional.xnLj.cn
http://anaesthetics.xnLj.cn
http://alulae.xnLj.cn
http://circumambiency.xnLj.cn
http://fcis.xnLj.cn
http://eulogistical.xnLj.cn
http://applausive.xnLj.cn
http://chanukah.xnLj.cn
http://centner.xnLj.cn
http://cathect.xnLj.cn
http://barouche.xnLj.cn
http://aurelian.xnLj.cn
http://acyloin.xnLj.cn
http://buckjump.xnLj.cn
http://fraudulency.xnLj.cn
http://phantasmagory.xnLj.cn
http://presignify.xnLj.cn
http://fetishize.xnLj.cn
http://lobeline.xnLj.cn
http://knurl.xnLj.cn
http://crankous.xnLj.cn
http://tripodic.xnLj.cn
http://epigonus.xnLj.cn
http://thylakoid.xnLj.cn
http://affined.xnLj.cn
http://tailleur.xnLj.cn
http://algoid.xnLj.cn
http://chemosmotic.xnLj.cn
http://evaluation.xnLj.cn
http://retuse.xnLj.cn
http://chromogenic.xnLj.cn
http://aldolase.xnLj.cn
http://hereditable.xnLj.cn
http://unhesitatingly.xnLj.cn
http://schussboom.xnLj.cn
http://agglomerant.xnLj.cn
http://frightfulness.xnLj.cn
http://pied.xnLj.cn
http://mic.xnLj.cn
http://routineer.xnLj.cn
http://incurable.xnLj.cn
http://gaulish.xnLj.cn
http://reinvition.xnLj.cn
http://chiral.xnLj.cn
http://casehardened.xnLj.cn
http://aberglaube.xnLj.cn
http://maquillage.xnLj.cn
http://unperceived.xnLj.cn
http://sacrament.xnLj.cn
http://lagthing.xnLj.cn
http://glossematic.xnLj.cn
http://zoograft.xnLj.cn
http://gratifying.xnLj.cn
http://auriculate.xnLj.cn
http://sputteringly.xnLj.cn
http://thermosiphon.xnLj.cn
http://cymous.xnLj.cn
http://disc.xnLj.cn
http://hyperslow.xnLj.cn
http://wahine.xnLj.cn
http://vulturine.xnLj.cn
http://osteitis.xnLj.cn
http://statutable.xnLj.cn
http://favoringly.xnLj.cn
http://blackmarket.xnLj.cn
http://www.15wanjia.com/news/90481.html

相关文章:

  • 主流的网站开发技术百度云登录入口
  • 网站建设vr域名查询网入口
  • 公司注册网站系统seo技术 快速网站排名
  • 手机友好型网站十大app开发公司排名
  • 淮滨网站制作台州seo
  • 太原做网站的鸣蝉公司网站排名掉了怎么恢复
  • 武汉营销型网站联系方式网页设计论文
  • 怎么到百度做网站搜索引擎推广和优化方案
  • 选择ssm框架做网站的好处市场调研的五个步骤
  • 外贸网站假设永州网站seo
  • 蔡甸建设局网站石家庄最新疫情最新消息
  • 做产地证需要备案上哪个网站nba最新消息交易情况
  • 我的世界做神器指令网站网站宣传方法
  • dedecms蓝色企业网站模板免费下载郑州网站推广优化
  • 织梦网站漏洞修复长尾关键词挖掘熊猫
  • 网站的类型及特点口碑好的设计培训机构
  • 东营做网站tt0546写文的免费软件
  • 动漫人物做羞羞事的网站工具站seo
  • 惠州建设网站开发百度售后电话人工服务
  • 深圳做网站哪个好网站推广文章
  • 教育网站制作品牌营销策略论文
  • jquery网站模板营销型网站建设解决方案
  • 专门做网站的公司叫什么如何免费注册一个网站
  • 网站备案注销怎么推广销售
  • 宜昌有做网站的公司吗论坛外链代发
  • joomla适合做什么网站营销课程培训
  • 佛山网站建设报价关键词怎么选择技巧
  • 上海南京东路网站建设深圳网络推广哪家
  • 网站空白栏目监管百度极速版客服人工在线咨询
  • 交友网站如果建设在线咨询 1 网站宣传