当前位置：首页 > news >正文

怎么把个人做的网站发布到网上今天的新闻有哪些

news 2025/7/26 16:32:45

怎么把个人做的网站发布到网上,今天的新闻有哪些,wordpress 去除category,鄂州做网站目录简介一、PySpark简介二、YARN模式概述三、配置环境 1. 安装与配置Spark 2. 配置Hadoop和YARN 3. 启动yarn 四、编写PySpark脚本五、提交PySpark作业到YARN 参数解释： 六、常见问题及解决七、总结简介随着大数据的普及，Spark作为…

简介

一、PySpark简介

二、YARN模式概述

三、配置环境

1. 安装与配置Spark

2. 配置Hadoop和YARN

3. 启动yarn

四、编写PySpark脚本

五、提交PySpark作业到YARN

参数解释：

六、常见问题及解决

七、总结

简介

随着大数据的普及，Spark作为主流的分布式计算框架，在大数据处理中扮演着重要角色。YARN（Yet Another Resource Negotiator）作为资源调度和管理框架，与Spark结合后可以更好地管理和调度资源。本篇文章将详细介绍如何在YARN集群模式下运行PySpark应用程序，适合有一定Spark基础的开发者。

一、PySpark简介

PySpark是Spark的Python API，支持使用Python编写代码并提交到Spark集群运行。在大规模数据处理中，PySpark可以利用Python的简单性和Spark的分布式处理能力，极大地提升数据处理效率。

二、YARN模式概述

YARN模式是Spark常用的集群模式之一。YARN可以有效地调度集群资源，并提供容错能力。通过将Spark应用程序提交到YARN，用户可以在Hadoop集群上更高效地执行计算任务。

Spark在YARN上运行时有两种模式：

Cluster模式：Driver运行在YARN集群中，适用于生产环境。
Client模式：Driver运行在提交应用程序的客户端，适用于调试和开发。

三、配置环境

在PySpark集群模式下运行需要配置Spark和YARN环境。

1. 安装与配置Spark

下载并解压Spark后，设置环境变量SPARK_HOME，并将其添加到PATH中。

cd /opt/modules/
tar -zxf spark-3.1.2-bin-hadoop3.2.tgz -C /opt/installs
cd /opt/installs
mv spark-3.1.2-bin-hadoop3.2 spark-yarn
rm -rf /opt/installs/spark
ln -s /opt/installs/spark-yarn /opt/installs/spark

修改$SPARK_HOME/conf/spark-env.sh文件，指定Hadoop和YARN相关配置：

cd /opt/installs/spark/conf
mv spark-env.sh.template spark-env.sh
vim /opt/installs/spark/conf/spark-env.sh
## 22行左右设置JAVA安装目录、HADOOP和YARN配置文件
目录
export JAVA_HOME=/opt/installs/jdk
export HADOOP_CONF_DIR=/opt/installs/hadoop/etc/hadoop
export YARN_CONF_DIR=/opt/installs/hadoop/etc/hadoop
## 历史日志服务器
export SPARK_DAEMON_MEMORY=1g
export SPARK_HISTORY_OPTS="-Dspark.history.fs.logDirectory=hdfs://bigdata01:9820/spark/eventLogs/ -Dspark.history.fs.cleaner.enabled=true"

修改$SPARK_HOME/conf/spark-defaults.conf文件:

cd /opt/installs/spark/conf
mv spark-defaults.conf.template spark-defaults.confvim spark-defaults.conf
## 添加内容：
spark.eventLog.enabled           true
spark.eventLog.dir           hdfs://bigdata01:9820/spark/eventLogs
spark.eventLog.compress           true
spark.yarn.historyServer.address bigdata01:18080
spark.yarn.jars           hdfs://bigdata01:9820/spark/jars/*

修改$SPARK_HOME/conf/log4j.properties文件:

mv log4j.properties.template log4j.properties# 修改级别为WARN,打印日志少一点。

上传spark jar包:

# 因为YARN中运行Spark，需要用到Spark的一些类和方法
# 如果不上传到HDFS，每次运行YARN都要上传一次，比较慢
# 所以自己手动上传一次，以后每次YARN直接读取即可
hdfs dfs -mkdir -p /spark/jars/
hdfs dfs -put /opt/installs/spark/jars/* /spark/jars/

2. 配置Hadoop和YARN

确保Hadoop集群已配置并正常运行，core-site.xml和yarn-site.xml应配置正确。

修改$SPARK_HOME/conf/yarn-site.xml文件:

cd /opt/installs/hadoop/etc/hadoop# 检查以下内置少什么，就配什么。
<property><name>yarn.log-aggregation-enable</name><value>true</value>
</property><!-- 历史日志在HDFS保存的时间，单位是秒 -->
<!-- 默认的是-1，表示永久保存 -->
<property><name>yarn.log-aggregation.retain-seconds</name><value>604800</value>
</property><property><name>yarn.log.server.url</name><value>http://bigdata01:19888/jobhistory/logs</value>
</property><!-- 关闭yarn内存检查 -->
<property><name>yarn.nodemanager.pmem-check-enabled</name><value>false</value>
</property>
<property><name>yarn.nodemanager.vmem-check-enabled</name><value>false</value>
</property>

将Master节点的文件分发到Worker节点(xsync.sh)：

xsync.sh yarn-site.xml

xsync.sh /opt/installs/spark-yarn
# 超链接也分发一下：
xsync.sh /opt/installs/spark

3. 启动yarn

start-yarn.sh
# 启动MR的JobHistoryServer：19888
mapred --daemon start historyserver
# 启动Spark的HistoryServer:18080
/opt/installs/spark/sbin/start-history-server.sh

四、编写PySpark脚本

下面是一个简单的PySpark示例代码，将在YARN集群模式下运行。

from pyspark import SparkContext, SparkConf from pyspark.sql import SparkSession
# 创建Spark配置
conf = SparkConf().setAppName("PySpark YARN Example")
# 创建SparkSession spark = SparkSession.builder.config(conf=conf).getOrCreate()
# 示例操作：读取文件并统计单词数量
data = spark.read.text("hdfs:///path/to/input.txt") words = data.rdd.flatMap(lambda line: line.value.split(" ")) word_counts = words.map(lambda word: (word, 1)).reduceByKey(lambda a, b: a + b) word_counts.collect()
spark.stop()

五、提交PySpark作业到YARN

在集群模式下，将PySpark脚本提交到YARN中运行，使用以下命令：

spark-submit \
--master yarn \
--deploy-mode cluster \
--driver-memory 4G \
--executor-memory 2G \
--executor-cores 2 \
/path/to/your_script.py

参数解释：

--master yarn：指定YARN作为集群管理器。
--deploy-mode cluster：集群模式，Driver运行在YARN上。
--driver-memory：Driver分配的内存。
--executor-memory：每个Executor分配的内存。
--executor-cores：每个Executor分配的CPU核心数。

六、常见问题及解决

网络超时问题：在YARN模式下，网络超时是一个常见问题，尤其在集群模式中。可以增加spark.network.timeout的时间来解决。
内存不足：增加driver-memory或executor-memory的分配量。
依赖包丢失：可以使用--py-files参数将Python依赖包提交到集群。

七、总结

在YARN集群模式下运行PySpark作业可以充分利用资源管理器的调度能力，适用于生产环境。通过配置Spark、Hadoop和YARN，编写PySpark脚本并提交到YARN，用户可以高效地执行分布式计算任务。

文章转载自：
http://waxwing.rymd.cn
http://threescore.rymd.cn
http://seethe.rymd.cn
http://amputate.rymd.cn
http://lysis.rymd.cn
http://tosh.rymd.cn
http://pummel.rymd.cn
http://nixonian.rymd.cn
http://rambunctiously.rymd.cn
http://remorse.rymd.cn
http://hematoxylin.rymd.cn
http://microearthquake.rymd.cn
http://defervesce.rymd.cn
http://monosymptomatic.rymd.cn
http://ultraphysical.rymd.cn
http://cerebella.rymd.cn
http://discommender.rymd.cn
http://guichet.rymd.cn
http://scpo.rymd.cn
http://whitehorse.rymd.cn
http://interuniversity.rymd.cn
http://tritium.rymd.cn
http://parvus.rymd.cn
http://boatload.rymd.cn
http://kinetheodolite.rymd.cn
http://frocking.rymd.cn
http://boned.rymd.cn
http://fugal.rymd.cn
http://madafu.rymd.cn
http://teporingo.rymd.cn
http://fraternise.rymd.cn
http://abbreviative.rymd.cn
http://trapes.rymd.cn
http://ceria.rymd.cn
http://ready.rymd.cn
http://kalsomine.rymd.cn
http://solanine.rymd.cn
http://downstair.rymd.cn
http://drunk.rymd.cn
http://disposable.rymd.cn
http://storyteller.rymd.cn
http://squamaceous.rymd.cn
http://archiepiscopate.rymd.cn
http://mig.rymd.cn
http://valonia.rymd.cn
http://vamoose.rymd.cn
http://capacious.rymd.cn
http://pneu.rymd.cn
http://subsequently.rymd.cn
http://biologist.rymd.cn
http://phosphatic.rymd.cn
http://tungstite.rymd.cn
http://panier.rymd.cn
http://ampullaceous.rymd.cn
http://photoplate.rymd.cn
http://machisma.rymd.cn
http://reorientate.rymd.cn
http://zag.rymd.cn
http://tabid.rymd.cn
http://bakeshop.rymd.cn
http://polydymite.rymd.cn
http://insanitary.rymd.cn
http://circassia.rymd.cn
http://murderee.rymd.cn
http://annuities.rymd.cn
http://prefixion.rymd.cn
http://intelligibly.rymd.cn
http://rimland.rymd.cn
http://accessorius.rymd.cn
http://clumber.rymd.cn
http://distressed.rymd.cn
http://petiole.rymd.cn
http://assheaded.rymd.cn
http://aphasiology.rymd.cn
http://cephalochordate.rymd.cn
http://telescopic.rymd.cn
http://purportless.rymd.cn
http://railophone.rymd.cn
http://dilated.rymd.cn
http://curet.rymd.cn
http://ascospore.rymd.cn
http://frith.rymd.cn
http://breadwinner.rymd.cn
http://losel.rymd.cn
http://puerperal.rymd.cn
http://hotpot.rymd.cn
http://allethrin.rymd.cn
http://gerodontics.rymd.cn
http://claustrophobe.rymd.cn
http://baseset.rymd.cn
http://party.rymd.cn
http://mashy.rymd.cn
http://overprescription.rymd.cn
http://saccharic.rymd.cn
http://calamiform.rymd.cn
http://tramcar.rymd.cn
http://disunion.rymd.cn
http://gapingly.rymd.cn
http://soemba.rymd.cn
http://anjou.rymd.cn

查看全文

http://www.15wanjia.com/news/63709.html

wordpress 不带www网站信息组织优化

怎么给网站做域名重定向免费seo技术教程

网站开发主要框架后端网站模板哪家好

惠州营销网站制作视频网站建设

用什么做asp网站交换友情链接时需要注意的事项

网站建设制作文字教程win7最好的优化软件

php网站开发接口文档吸引客人的产品宣传句子

如何制作外贸网站 wordpress百度点击器找名风

简介

一、PySpark简介

二、YARN模式概述

三、配置环境

1. 安装与配置Spark

2. 配置Hadoop和YARN

3. 启动yarn

四、编写PySpark脚本

五、提交PySpark作业到YARN

参数解释：

六、常见问题及解决

七、总结

相关文章：