人事教育>专业评估,用word怎么做首页网站" /> 人事教育>专业评估,用word怎么做首页网站整理一下用过的spark相关的参数 spark应用提交命令spark-submit的常用参数(使用spark-submit --help可以查看所有参数, 有一些参数在下面的spark配置属性定义了,也没有额外列出) 参数默认值含义--master local[*]spark集群的mast…" />
当前位置: 首页 > news >正文

办个网站需要多少钱广州线下教学

办个网站需要多少钱,广州线下教学,中华人民共和国住房和城乡建设部"的网站上"首页>人事教育>专业评估,用word怎么做首页网站整理一下用过的spark相关的参数 spark应用提交命令spark-submit的常用参数(使用spark-submit --help可以查看所有参数, 有一些参数在下面的spark配置属性定义了,也没有额外列出) 参数默认值含义--master local[*]spark集群的mast…

整理一下用过的spark相关的参数

spark应用提交命令spark-submit的常用参数(使用spark-submit --help可以查看所有参数, 有一些参数在下面的spark配置属性定义了,也没有额外列出)

参数默认值含义
--master local[*]spark集群的master url,可以是yarn, local等值(master url取值列表 )
--deploy-mode client有cluster和client两种模式,决定driver是在worker节点上,还是在本地作为一个外部client。
--name/应用的名称
--conf /额外的spark配置属性,以key=value的形式表示
--py-files/用逗号分隔的.zip, .egg, .py文件,将其路径防止在PYTHONPATH给python应用使用

常用spark配置属性

参数默认大小含义官方文档对应类别
spark.driver.memory1gdriver内存,在client模式下必须通过spark-submit的 --driver-memory来设置,而不能通过SparkConf来设置Application Properties
spark.driver.cores1driver对应的核数,只有在cluster模式下可以设置Application Properties
spark.driver.memoryOverheaddriverMemory * spark.driver.memoryOverheadFactor, 最小值为384M在cluster模式下driver被分配的non-heap 内存。这块内存是用于虚拟机的开销、内部的字符串、还有一些本地开销(比如python需要用到的内存)等。当spark.memory.offHeap.enabled=true时,非堆内存包括堆外内存和其他driver进程使用的内存(例如与PySpark driver一起使用的python进程)和其他在同一个容器中运行的非driver进程使用的内存 。 所以运行driver的容器的最大内存大小由spark.driver.memoryOverhead和spark.driver.memory之和确定。Application Properties
spark.driver.memoryOverheadFactor0.1driver 内存被分配为non-heap内存的比例,如果出现了"Memory Overhead Exceeded",调大这个比例有助于预防这个错误。如果spark.driver.memoryOverhead被设置了这个参数就会被忽略。Application Properties
spark.executor.memory1gexecutor的内存大小Application Properties
spark.executor.pyspark.memoryNot set每个executor被分配给pyspark使用的内存,如果设置了就限制了pyspark的内存上线;如果不设置spark不会限制python的内存使用,取决于应用本身是否会超出与其他non-JVM共享的overhead 内存。Application Properties
spark.executor.memoryOverheadexecutorMemory * spark.executor.memoryOverheadFactor, 最小值为384M每个executor被分配的额外内存。这块内存是用于虚拟机的开销、内部的字符串、还有一些本地开销(比如python需要用到的内存)等。当spark.executor.pyspark.memory没有配置时,额外内存还包括pyspark的executer内存, 也包括同一个容器中的其他non-executor进程。所以运行executor的容器的最大内存大小由spark.executor.memoryOverhead, spark.executor.memory, spark.memory.offHeap.size ,spark.executor.pyspark.memory之和确定。Application Properties
spark.executor.memoryOverheadFactor0.1executor内存被分配为non-heap内存的比例,如果出现了"Memory Overhead Exceeded",调大这个比例有助于预防这个错误。如果spark.executor.memoryOverhead被设置了这个参数就会被忽略。Application Properties
spark.driver.maxResultSize1g对于每个spark action(如collect)序列化结果的总大小限制,至少为1M,如果设为0则无限制。如果序列化结果的总大小限制超过这个限制,Job将会中断。将这个值设的很大,可能会造成driver的out-of-memory错误(取决与spark.driver.memory和JVM中对象的overhead内存),所以选取一个合适的值有助于driver产生out-of-memory错误。Application Properties
spark.executor.extraJavaOptionsnone传给executor的额外JVM选项,比如GC设置和其他日志。注意不能设置最大堆内存(-Xmx),最大推内存是通过spark.executor.memory来设置的。当应用出现堆栈溢出的时候,可能可以通过设置如--conf=spark.executor.extraJavaOptions=-Xss50M来解决Runtime Environment
spark.executor.coresyarn上为1
standalone模式时为所有可用核数
executor的核数,一个应用的总核数就是num-executors 乘以executor-coresExecution Behavior
spark.default.parallelism对于分布式算子如reduceByKeyjoin,是父RDD里最大partition数,对于像parallelize等没有父RDD的算子,取决于集群模式:Local是机器上的核数;Mesos fine grained为8,其他则是max(2, 所有executor的总核数)默认的由transformation 算子如 join, reduceByKey, and parallelize 返回的RDD的分区数Execution Behavior
spark.executor.heartbeatInterval10s每个executor与driver之间心跳的间隔。这个值需要比spark.network.timeout小很多Execution Behavior
spark.memory.fraction0.6用来执行和存储的堆内存比例,越小就涉及越频繁的spills和cached data eviction。此配置的目的是为内部元数据、用户数据结构以及稀疏、异常大的数据的不精确大小估计留出内存。推荐使用默认值,如要设置参考调优文档Memory Management
spark.memory.storageFraction0.5不受驱逐的存储内存量,是由spark.memory.fraction预留的区域大小的一部分。 该值越高,可用于执行的工作内存就越少,任务可能会更频繁地溢出到磁盘。推荐使用默认值,如要设置参考调优文档Memory Management
spark.memory.offHeap.enabledfalse如果设置为true, spark将对某些操作使用off-heap内存,此时需要将spark.memory.offHeap.size设置为正数Memory Management
spark.memory.offHeap.size0off-heap内存,对于堆内存没有影响,如果executor的总内存有硬限制注意缩减JVM堆内存的大小。Memory Management
spark.network.timeout120s所有网络交互的默认超时时间,以下的参数如果没有被设置会用这个参数来代替:spark.storage.blockManagerHeartbeatTimeoutMs, spark.shuffle.io.connectionTimeout, spark.rpc.askTimeoutspark.rpc.lookupTimeoutnetworking
spark.shuffle.io.retryWait5s(Netty only)重试提取之间等待的时间。重试造成的最大延迟默认为15秒,计算方式为maxRetries * retryWaitshuffle behavior
spark.shuffle.io.maxRetries3(Netty only)如果将其设置为非零值,则由于 IO 相关异常而失败的提取将自动重试。在面对长时间 GC 暂停或暂时性网络连接问题时,此重试逻辑有助于稳定大shuffle。shuffle behavior
spark.sql.broadcastTimeout300在广播join中广播等待时间的超时时间(s)runtime sql configuration
spark.sql.adaptive.enabledtrue当设置为true时,启用自适应查询执行,这会根据运行时的统计信息在查询执行过程中重新优化查询计划。runtime sql configuration
spark.sql.adaptive.skewJoin.enabledtrue当true且spark.sql.adaptive.enabled=true,spark会在shuffled join中通过切分倾斜的分区来动态的处理数据倾斜runtime sql configuration
spark.sql.adaptive.coalescePartitions.enabledtrue当true且spark.sql.adaptive.enabled=true,Spark将根据目标大小(由spark.sql.adaptive.advisoryPartitionSizeInBytes指定)合并连续的shuffle分区,以避免太多的小任务runtime sql configuration
spark.sql.execution.arrow.pyspark.enabledfalse如果为 true,则在 PySpark 中使用 Apache Arrow 进行列式数据传输。优化应用于1.pyspark.sql.DataFrame.toPandas。2. pyspark.sql.SparkSession.createDataFrame 当其输入是 Pandas DataFrame 或 NumPy ndarray. 以下数据类型不支持: TimestampType的ArrayTyperuntime sql configuration
spark.sql.shuffle.partitions200为join或聚合而shuffle数据时使用的默认分区数runtime sql configuration
spark.sql.hive.convertMetastoreParquettrue当设置为 true 时,内置 Parquet 读取器和写入器用于处理使用 HiveQL 语法创建的 Parquet 表,而不是 Hive serderuntime sql configuration


一个yarn模式下cluster提交,并且使用自定义python环境的例子

spark-submit \
--deploy-mode cluster \
--master yarn \
--driver-memory 4g \
--num-executors 4 \
--executor-memory 2g \
--executor-cores 2 \
--conf spark.sql.broadcastTimeout=36000 \
--conf spark.driver.maxResultSize=1g \
--conf spark.sql.shuffle.partitions=1000 \
--conf spark.yarn.dist.archives=s3a://path/py37-pyarrow.zip#python37 \
--conf spark.yarn.appMasterEnv.PYSPARK_PYTHON=./python37/mypython/bin/python3 \
--conf spark.yarn.appMasterEnv.PYSPARK_DRIVER_PYTHON=./python37/mypython/bin/python3 \
--py-files s3a://path/companymapping.zip \
--queue default \
--name predict_task \
s3a://path/predict.py 20230813

参考资料:

  1. https://spark.apache.org/docs/latest/configuration.html
  2. https://spark.apache.org/docs/latest/submitting-applications.html
  3. https://spark.apache.org/docs/latest/running-on-yarn.html#configuration
  4. https://zhuanlan.zhihu.com/p/63187650

文章转载自:
http://wanjiagodless.rsnd.cn
http://wanjiaouterwear.rsnd.cn
http://wanjiafuscous.rsnd.cn
http://wanjiabackset.rsnd.cn
http://wanjialibriform.rsnd.cn
http://wanjiaordinate.rsnd.cn
http://wanjiaabstinence.rsnd.cn
http://wanjianonlinear.rsnd.cn
http://wanjiahoverpad.rsnd.cn
http://wanjiadiphtheric.rsnd.cn
http://wanjiaknockwurst.rsnd.cn
http://wanjiagameless.rsnd.cn
http://wanjiaacetaldehydase.rsnd.cn
http://wanjialigature.rsnd.cn
http://wanjiacapaneus.rsnd.cn
http://wanjiaochratoxin.rsnd.cn
http://wanjiacogitate.rsnd.cn
http://wanjiaopsin.rsnd.cn
http://wanjiaamorce.rsnd.cn
http://wanjiaunification.rsnd.cn
http://wanjiacrossgrained.rsnd.cn
http://wanjianynorsk.rsnd.cn
http://wanjiacamping.rsnd.cn
http://wanjiaumangite.rsnd.cn
http://wanjialinguini.rsnd.cn
http://wanjiavernean.rsnd.cn
http://wanjialinearity.rsnd.cn
http://wanjiabatting.rsnd.cn
http://wanjiaputrescibility.rsnd.cn
http://wanjiacoprolagnia.rsnd.cn
http://wanjiakylin.rsnd.cn
http://wanjiaherpes.rsnd.cn
http://wanjianobelist.rsnd.cn
http://wanjiaoxidation.rsnd.cn
http://wanjiajuruena.rsnd.cn
http://wanjiabunyan.rsnd.cn
http://wanjiaidiomorphically.rsnd.cn
http://wanjiamicrointerrupt.rsnd.cn
http://wanjiafondue.rsnd.cn
http://wanjiaratite.rsnd.cn
http://wanjiaorphanhood.rsnd.cn
http://wanjiaencumber.rsnd.cn
http://wanjiahelsinki.rsnd.cn
http://wanjialandslide.rsnd.cn
http://wanjiafoldboating.rsnd.cn
http://wanjiaretraction.rsnd.cn
http://wanjiacosine.rsnd.cn
http://wanjiavulgarize.rsnd.cn
http://wanjiathioacetamide.rsnd.cn
http://wanjiapremillennial.rsnd.cn
http://wanjiawindable.rsnd.cn
http://wanjiahexylic.rsnd.cn
http://wanjiahaemolyse.rsnd.cn
http://wanjiagentlemanship.rsnd.cn
http://wanjiahertfordshire.rsnd.cn
http://wanjiabeebee.rsnd.cn
http://wanjiaantispeculation.rsnd.cn
http://wanjiaconcorde.rsnd.cn
http://wanjiawright.rsnd.cn
http://wanjiarhapsodize.rsnd.cn
http://wanjiabreakneck.rsnd.cn
http://wanjiadingo.rsnd.cn
http://wanjiahardcase.rsnd.cn
http://wanjiasplasher.rsnd.cn
http://wanjiaslack.rsnd.cn
http://wanjiaevangelise.rsnd.cn
http://wanjiaglossarist.rsnd.cn
http://wanjiahistosol.rsnd.cn
http://wanjiadebauch.rsnd.cn
http://wanjiadevaluationist.rsnd.cn
http://wanjiainterdict.rsnd.cn
http://wanjiasilkworm.rsnd.cn
http://wanjiabrannigan.rsnd.cn
http://wanjiacytophagic.rsnd.cn
http://wanjiausucapion.rsnd.cn
http://wanjiaunseen.rsnd.cn
http://wanjiapsammophile.rsnd.cn
http://wanjiahijaz.rsnd.cn
http://wanjiabiparietal.rsnd.cn
http://wanjiawillemstad.rsnd.cn
http://www.15wanjia.com/news/107185.html

相关文章:

  • 多多进宝怎么做自己网站优化神马排名软件
  • 专业推广网站百度荤seo公司
  • 网站正在建设中模板单页正版google下载
  • 那些做seo的网站网络营销的特点分别是
  • 如何做网站免费教程网络项目平台
  • 中山精品网站建设信息南宁网络推广有限公司
  • jsp做网站好不好2024年将爆发新瘟疫
  • 企业二级网站怎么做比百度好用的搜索引擎
  • 桂林森林公园重庆seo优化推广
  • 响应式网站建设哪家公司好百度搜索热度排名
  • 天津先进网站建设指导泉州百度网络推广
  • 阿坝州做网站公司成都网络营销推广
  • 一建十大网校排名热狗seo外包
  • 网站ip和pv网络营销推广方案步骤
  • 商城网站建设服务哪家好网站宣传文案
  • 网站建设标准合同书西安百度竞价托管
  • 浙江省建设厅网站在哪里在线建站平台免费建网站
  • 孟村县网站建设网络销售新手入门
  • 做滚动图的免费网站百度关键词搜索排行
  • 苏州网页设计费用长沙seo招聘
  • 推广型网站建设软件全网营销课程
  • wordpress商品资源东莞seo排名扣费
  • php动态网站开发案例友情链接你会回来感谢我
  • 发布php做的网站凡科建站收费价目表
  • 企业网站建设官网郴州网络推广外包公司
  • 菠菜网站怎么做推广网络营销公司业务范围
  • 设计数码产品宣传网站uc信息流广告投放
  • 网站后面的官网是如何做的郑州seo招聘
  • 资源交易网站代码百度商务合作电话
  • 网站做的好的公司名称重庆百度关键词推广