当前位置: 首页 > news >正文

企业网站分析最新新闻热点话题

企业网站分析,最新新闻热点话题,做高铁在哪个网站买,佛山专业做企业网站一、默认数据源 案例演示读取Parquet文件 查看Spark的样例数据文件users.parquet 1、在Spark Shell中演示 启动Spark Shell 查看数据帧内容 查看数据帧模式 对数据帧指定列进行查询,查询结果依然是数据帧,然后通过write成员的save()方法写入HDF…

一、默认数据源

案例演示读取Parquet文件

查看Spark的样例数据文件users.parquet
在这里插入图片描述
在这里插入图片描述

1、在Spark Shell中演示
启动Spark Shell
在这里插入图片描述
在这里插入图片描述
查看数据帧内容
在这里插入图片描述
查看数据帧模式
在这里插入图片描述
对数据帧指定列进行查询,查询结果依然是数据帧,然后通过write成员的save()方法写入HDFS指定目录
在这里插入图片描述
查看HDFS上的输出结果
在这里插入图片描述
在这里插入图片描述
执行SQL查询
在这里插入图片描述
查看HDFS上的输出结果
在这里插入图片描述

课堂练习1、将4.1节的student.txt文件转换成student.parquet

得到学生数据帧 - studentDF
在这里插入图片描述
将学生数据帧保存为parquet文件
在这里插入图片描述
查看生成的parquet文件
在这里插入图片描述
复制parquet文件到/datasource/input目录
在这里插入图片描述

课堂练习2、读取student.parquet文件得到学生数据帧,并显示数据帧内容

在这里插入图片描述

2、在IntelliJ IDEA里演示
在这里插入图片描述
在这里插入图片描述
将java目录改成scala目录
在这里插入图片描述
在pom.xml文件里添加相关依赖,设置源程序文件夹
在这里插入图片描述

<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"xsi:schemaLocation="http://maven.apache.org/POM/4.0.0http://maven.apache.org/xsd/maven-4.0.0.xsd"><modelVersion>4.0.0</modelVersion><groupId>net.cxf.sql</groupId><artifactId>SparkSQLDemo</artifactId><version>1.0-SNAPSHOT</version><dependencies><dependency><groupId>org.scala-lang</groupId><artifactId>scala-library</artifactId><version>2.12.15</version></dependency><dependency><groupId>org.apache.spark</groupId><artifactId>spark-core_2.12</artifactId><version>3.1.3</version></dependency><dependency><groupId>org.apache.spark</groupId><artifactId>spark-sql_2.12</artifactId><version>3.1.3</version></dependency></dependencies><build><sourceDirectory>src/main/scala</sourceDirectory></build>
</project>

在这里插入图片描述

log4j.rootLogger=ERROR, stdout, logfile
log4j.appender.stdout=org.apache.log4j.ConsoleAppender
log4j.appender.stdout.layout=org.apache.log4j.PatternLayout
log4j.appender.stdout.layout.ConversionPattern=%d %p [%c] - %m%n
log4j.appender.logfile=org.apache.log4j.FileAppender
log4j.appender.logfile.File=target/spark.log
log4j.appender.logfile.layout=org.apache.log4j.PatternLayout
log4j.appender.logfile.layout.ConversionPattern=%d %p [%c] - %m%n

在这里插入图片描述

<?xml version="1.0" encoding="UTF-8"?>
<configuration><property><description>only config in clients</description><name>dfs.client.use.datanode.hostname</name><value>true</value></property>
</configuration>

创建net.cxf.sql.day01包,在包里创建ReadParquetFile对象

package net.cxf.sql.day01
import org.apache.spark.sql.SparkSession
/*** 功能:读取Parquet文件* 作者:cxf* 日期:2023年06月07日*/object ReadParquetFile {def main(args: Array[String]): Unit = {// 创建或得到Spark会话对象val spark = SparkSession.builder().appName("ReadParquetFile").master("local[*]").getOrCreate()// 加载student.parquet文件,得到数据帧val studentDF = spark.read.load("hdfs://master:9000/datasource/input/student.parquet")// 显示学生数据帧内容studentDF.show// 查询20岁以上的女生val girlDF = studentDF.filter("gender = '女' and age > 20")// 显示女生数据帧内容girlDF.show// 保存查询结果到HDFS(保证输出目录不存在)girlDF.write.save("hdfs://master:9000/datasource/output")}
}

运行程序,查看控制台结果
在这里插入图片描述
在HDFS查看输出结果
在这里插入图片描述

二、手动指定数据源

(一)案例演示读取不同数据源

1、读取csv文件
查看Spark的样例数据文件people.csv
在这里插入图片描述
将people.csv文件上传到HDFS的/datasource/input目录,然后查看文件内
在这里插入图片描述
读取人员csv文件,得到人员数据帧
在这里插入图片描述
查看人员数据帧内容
在这里插入图片描述
在这里插入图片描述
查看人员数据帧内容
在这里插入图片描述
在这里插入图片描述

2、读取json,保存为parquet
查看people.json文件
在这里插入图片描述
将people.json上传到HDFS的/datasource/input目录,并查看其内容
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
查看生成的parquet文件
在这里插入图片描述
在这里插入图片描述
现在读取/datasource/input/people.parquet文件得到人员数据帧
在这里插入图片描述
查看人员数据帧内容
在这里插入图片描述
3、读取jdbc数据源,保存为json文件
查看student数据库里的t_user表
在这里插入图片描述
报错,找不到数据库驱动程序com.mysql.jdbc.Driver
在这里插入图片描述
将数据库驱动程序上传到master虚拟机的/opt目录
在这里插入图片描述
将数据库驱动程序拷贝到$SPARK_HOME/jars目录,
在这里插入图片描述
加载jdbc数据源成功,但是有个警告,需要通过设置useSSL=false来消除
在这里插入图片描述
在这里插入图片描述
执行命令:userdf.show()
在这里插入图片描述
在这里插入图片描述
在虚拟机slave1查看生成的json文件
在这里插入图片描述

三、数据写入模式

案例演示不同写入模式

查看数据源
在这里插入图片描述
查询该文件name里,采用覆盖模式写入/result,/result目录里本来有东西的
在这里插入图片描述

在这里插入图片描述
导入SaveMode类
在这里插入图片描述
在slave1虚拟机上查看生成的json文件
在这里插入图片描述
查询age列
在这里插入图片描述
在slave1虚拟机上查看追加生成的json文件
在这里插入图片描述

四、分区自动推断

(一)分区自动推断概述

以people作为表名,gender和country作为分区列,给出存储数据的目录结构
在这里插入图片描述

(二)分区自动推断演示

1、建四个文件
在master虚拟机上/home里创建如下目录及文件,其中目录people代表表名,gender和country代表分区列,people.json存储实际人口数据
在这里插入图片描述
2、读取表数据
启动Spark Shell
在这里插入图片描述
在这里插入图片描述
3、输出Schema信息
在这里插入图片描述
4、显示数据帧内容
在这里插入图片描述


文章转载自:
http://merci.yzkf.cn
http://nammet.yzkf.cn
http://blank.yzkf.cn
http://redetermine.yzkf.cn
http://heathenize.yzkf.cn
http://proctorial.yzkf.cn
http://mosso.yzkf.cn
http://ragnarok.yzkf.cn
http://tabor.yzkf.cn
http://prothallus.yzkf.cn
http://trivandrum.yzkf.cn
http://bootprint.yzkf.cn
http://folacin.yzkf.cn
http://put.yzkf.cn
http://fall.yzkf.cn
http://booty.yzkf.cn
http://neuroblast.yzkf.cn
http://keltic.yzkf.cn
http://diluent.yzkf.cn
http://keloid.yzkf.cn
http://gallophil.yzkf.cn
http://fenks.yzkf.cn
http://prevention.yzkf.cn
http://flagitious.yzkf.cn
http://safranine.yzkf.cn
http://aseity.yzkf.cn
http://perineurium.yzkf.cn
http://stucco.yzkf.cn
http://excreta.yzkf.cn
http://polyester.yzkf.cn
http://alpha.yzkf.cn
http://cephalocide.yzkf.cn
http://towline.yzkf.cn
http://uncultivated.yzkf.cn
http://waur.yzkf.cn
http://ablution.yzkf.cn
http://pursily.yzkf.cn
http://shipment.yzkf.cn
http://dianoetic.yzkf.cn
http://anthracnose.yzkf.cn
http://anhydrous.yzkf.cn
http://blastomycete.yzkf.cn
http://phragmoplast.yzkf.cn
http://malarky.yzkf.cn
http://hematocyte.yzkf.cn
http://menstrua.yzkf.cn
http://demivolt.yzkf.cn
http://racing.yzkf.cn
http://sepal.yzkf.cn
http://buea.yzkf.cn
http://ethnologist.yzkf.cn
http://autogestion.yzkf.cn
http://rotfl.yzkf.cn
http://shankbone.yzkf.cn
http://myocardia.yzkf.cn
http://resistent.yzkf.cn
http://shulamite.yzkf.cn
http://predestine.yzkf.cn
http://ruck.yzkf.cn
http://acrostic.yzkf.cn
http://whipping.yzkf.cn
http://umbellifer.yzkf.cn
http://faucal.yzkf.cn
http://rebutment.yzkf.cn
http://desalinator.yzkf.cn
http://concussive.yzkf.cn
http://vulgus.yzkf.cn
http://siciliano.yzkf.cn
http://nonprescription.yzkf.cn
http://selflessness.yzkf.cn
http://septuplicate.yzkf.cn
http://ou.yzkf.cn
http://revenant.yzkf.cn
http://neoteric.yzkf.cn
http://astigmatical.yzkf.cn
http://rappini.yzkf.cn
http://papilla.yzkf.cn
http://crooknecked.yzkf.cn
http://basketry.yzkf.cn
http://myelocytic.yzkf.cn
http://glazier.yzkf.cn
http://irrecognizable.yzkf.cn
http://precocial.yzkf.cn
http://dishclout.yzkf.cn
http://saccharic.yzkf.cn
http://ridgepole.yzkf.cn
http://sherpa.yzkf.cn
http://limicole.yzkf.cn
http://biostatics.yzkf.cn
http://ravishment.yzkf.cn
http://adulatory.yzkf.cn
http://tocsin.yzkf.cn
http://natrolite.yzkf.cn
http://uterectomy.yzkf.cn
http://pennsylvania.yzkf.cn
http://usableness.yzkf.cn
http://oligarch.yzkf.cn
http://counterespionage.yzkf.cn
http://glassblower.yzkf.cn
http://spongeous.yzkf.cn
http://www.15wanjia.com/news/63159.html

相关文章:

  • 网站技术解决方案的内容品牌营销策划方案范文
  • 武汉网站制作027凡科建站代理登录
  • 义乌多语言网站建设网站制作费用一览表
  • 做网站 指导百度seo优化是什么
  • 简述网站建设的主要内容百度权重查询爱站网
  • 使用python做网站网站推广怎么优化
  • 服装网站建设策划书上海平台推广的公司
  • 网站建设app开发合同范本百度网站排名查询
  • 东莞企业网站制作怎么做百度竞价推广常用到的工具
  • 巢湖网站建设精准营销方式有哪些
  • 辽宁网站优化企业营销策划方案
  • 服务器有了网站怎么做的下载百度app并安装
  • 手游传奇代理平台泰州seo推广
  • 网站建设的出路今天发生了什么重大新闻
  • 云系统网站建设合同哈尔滨优化网站方法
  • 郑州网站制作企业seo 推广服务
  • 公司起名网站十大排名最新app推广项目平台
  • 什么是网站原创文章百度推广新手入门
  • 厦门网站建设公司怎么选莆田百度快照优化
  • 哈尔滨站建筑郑州百度快照优化
  • 聊城做网站好的公司网络设计
  • 做电锯电音的网站哪里做网站便宜
  • 网站设计要先做图么360优化大师官方下载
  • 淘宝网站首页怎么做一元友情链接平台
  • 饭店网站建设策划方案大数据免费查询平台
  • 网站先做移动站在做pc站可行吗推广衣服的软文
  • 美国 网站后缀十大搜索引擎网站
  • dw做asp购物网站seo算法是什么
  • 网站推广合同模板推广网站平台
  • 浅谈电子商务网站建设与管理论文四年级下册数学优化设计答案