当前位置: 首页 > news >正文

网站怎么做才有收录优化大师优化项目有

网站怎么做才有收录,优化大师优化项目有,网站建设差打不开,做写真素材网站Spark简介 1.Spark是什么 首先spark是一个计算引擎,而不是存储工具,计算引擎有很多: 第一代:MapReduce廉价机器实现分布式大数据处理 第二代:Tez基于MR优化了DAG,性能比MR快一些 第三代:Spark…

Spark简介

1.Spark是什么

首先spark是一个计算引擎,而不是存储工具,计算引擎有很多:
第一代:MapReduce廉价机器实现分布式大数据处理
第二代:Tez基于MR优化了DAG,性能比MR快一些
第三代:Spark优先使用内存式计算引擎 ,国内目前主要应用的离线计算引擎
第四代:Flink:实时流式计算引擎 , 国内目前最主流实时计算引擎

spark的诞生原因就是因为MR太慢了,MR是基于磁盘的,而Spark是基于内存的。

2.Spark能做什么

实现离线数据批处理:类似于MapReduce、Pandas,写代码做处理:代码类的离线数据处理 。

实现交互式即时数据查询:类似于Hive、Presto、Impala,使 用SQL做即席查询分析:SQL类的离线数据处理

实现实时数据处理:类似于Storm、Flink实现分布式的实时计算:代码类实时计算或者SQL类的实时计算

实现机器学习的开发:代替传统一些机器学习工具

3.Spark组成部分

Hadoop的组成部分:common、MapReduce、Hdfs、Yarn

Spark Core:Spark最核心的模块,可以基于多种语言实现代码类的离线开发 【类似于MR】

Spark SQL:类似于Hive,基于SQL进行开发,SQL会转换为SparkCore离线程序 【类似Hive】

Spark Streaming:基于SparkCore之上构建了准实时的计算模块 【淘汰了】

Struct Streaming:基于SparkSQL之上构建了结构化实时计算模块 【替代了Spark Streaming】

Spark ML lib:机器学习算法库,提供各种机器学习算法工具,可以基于SparkCore或者SparkSQL实现开发。

 4.各大计算引擎的对比

Impala:集成Hive实现数据分析,优点是性能最好,缺点数据接口比较少,只支持Hive和Hbase数据源 。 是一个基于CDH的一个软件,Impala 能写sql,它写出来的sql,叫 Impala SQL (大部分跟我们普通的sql没啥区别) ,操作hive或者hbase 速度非常快!

Presto:集成Hive实现数据分析,优点性能适中,支持数据源非常广泛,与大数据接口兼容性比较差 。Presto也可以写sql,只是写的sql叫做 Presto SQL (大部分跟我们普通的sql没啥区别) ,特点:可以跨数据源。比如mysql的表可以和oracle中的一个表关联查询。

SparkSQL:集成Hive实现数据分析,优点功能非常全面、开发接口多,学习成本低,缺点实时计算不够完善。实时计算交给了Flink。

5.Spark的应用

spark可以做数仓,数仓中也可以分层。

离线场景:实现离线数据仓库中的数据清洗、数据分析、即席查询等应用

实时场景:实现实时数据流数据处理,相对而言功能和性能不是特别的完善,工作中建议使用Flink替代。

6.spark五种模式

本地模式Local:一般用于做测试,验证代码逻辑,不是分布式运行,只会启动1个进程来运行所有任务。

集群模式Cluster:一般用于生产环境,用于实现PySpark程序的分布式的运行
        Standalone:Spark自带的分布式资源平台,功能类似于YARN
        YARN:Spark on YARN,将Spark程序提交给YARN来运行,工作中主要使用的模式
        Mesos:类似于YARN,国外见得多,国内基本见不到
        K8s:基于分布式容器的资源管理平台,运维层面的工具。

7.Spark为什么比MR快

1、MR不支持DAG【有向无环图】,计算过程是固定,一个MR 只有1个Map和1个Reduce构成。 一个Map和Reduce是一个过程,和另一个Map和Reduce是不一样的。


 

从落地到磁盘的那一刻,上一个过程已经结束了,下一个过程和上一个过程没有关系了。

2、MR是一个基于磁盘的计算框架,读写效率比较低

3、MR的Task计算是进程级别的,每次运行一个Task都需要启动一个进程,然后运行结束还是释放进程,比较慢。【一个进程可以包含多个线程,比如qq是一个进程,发消息,传文件是一个个线程】

MapTask:进程

ReduceTask:进程

进程启动和销毁是比较耗时的

spark为什么那么快?

1、Spark支持DAG,一个Spark程序中的过程是不固定,由代码 所决定。

2、Task任务都是线程级别

3、计算是基于内存的。

MR和Spark区别
区别MapReduceSpark
计算流程结构1个Map+1个Reduce,每步
结果都必须进入磁盘
支持DAG,一个程序中可以有多个Map、Reduce过程,多个Map之间的操作可以
直接在内存中完成
Shuffle过程分区、排序、分组会根据具体的操作来经过不同的过程
Task运行方式进程:
MapTask
ReduceTask
进程之启动一次,所有的Task都以线程方式存在,不需要频繁启动、申请资源


文章转载自:
http://jimpness.Lgnz.cn
http://lambaste.Lgnz.cn
http://bowed.Lgnz.cn
http://nabulus.Lgnz.cn
http://xystarch.Lgnz.cn
http://fading.Lgnz.cn
http://fluyt.Lgnz.cn
http://parasympathomimetic.Lgnz.cn
http://butylate.Lgnz.cn
http://reset.Lgnz.cn
http://cristobalite.Lgnz.cn
http://bicentric.Lgnz.cn
http://carnelian.Lgnz.cn
http://distributor.Lgnz.cn
http://rainbox.Lgnz.cn
http://putrescible.Lgnz.cn
http://oxygenation.Lgnz.cn
http://sirventes.Lgnz.cn
http://electrovalent.Lgnz.cn
http://plexus.Lgnz.cn
http://lubberland.Lgnz.cn
http://bream.Lgnz.cn
http://rearmament.Lgnz.cn
http://dandruff.Lgnz.cn
http://sublunar.Lgnz.cn
http://patrilocal.Lgnz.cn
http://premalignant.Lgnz.cn
http://trunkful.Lgnz.cn
http://phytogenous.Lgnz.cn
http://droop.Lgnz.cn
http://enniskillen.Lgnz.cn
http://collusive.Lgnz.cn
http://irretention.Lgnz.cn
http://cnut.Lgnz.cn
http://unflawed.Lgnz.cn
http://cochinos.Lgnz.cn
http://eh.Lgnz.cn
http://emote.Lgnz.cn
http://gastronomical.Lgnz.cn
http://regally.Lgnz.cn
http://transformable.Lgnz.cn
http://amitriptyline.Lgnz.cn
http://elflock.Lgnz.cn
http://volcano.Lgnz.cn
http://strobic.Lgnz.cn
http://atactic.Lgnz.cn
http://realism.Lgnz.cn
http://overcaution.Lgnz.cn
http://deserve.Lgnz.cn
http://pearlescent.Lgnz.cn
http://aprism.Lgnz.cn
http://stench.Lgnz.cn
http://hereford.Lgnz.cn
http://moresque.Lgnz.cn
http://ergatoid.Lgnz.cn
http://pasteurisation.Lgnz.cn
http://epinaos.Lgnz.cn
http://baric.Lgnz.cn
http://pikake.Lgnz.cn
http://scrobiculate.Lgnz.cn
http://postbox.Lgnz.cn
http://ramiform.Lgnz.cn
http://subcylindrical.Lgnz.cn
http://helihop.Lgnz.cn
http://covalence.Lgnz.cn
http://minoan.Lgnz.cn
http://fittest.Lgnz.cn
http://swordman.Lgnz.cn
http://padishah.Lgnz.cn
http://resuscitate.Lgnz.cn
http://enticement.Lgnz.cn
http://rivalize.Lgnz.cn
http://cisterna.Lgnz.cn
http://vascula.Lgnz.cn
http://ocelli.Lgnz.cn
http://chloroplatinic.Lgnz.cn
http://down.Lgnz.cn
http://hairif.Lgnz.cn
http://tv.Lgnz.cn
http://belting.Lgnz.cn
http://busybody.Lgnz.cn
http://physician.Lgnz.cn
http://minibus.Lgnz.cn
http://gaper.Lgnz.cn
http://keener.Lgnz.cn
http://comminute.Lgnz.cn
http://egalitarian.Lgnz.cn
http://extraction.Lgnz.cn
http://garfish.Lgnz.cn
http://vitriolate.Lgnz.cn
http://viticetum.Lgnz.cn
http://washateria.Lgnz.cn
http://evertile.Lgnz.cn
http://aquarist.Lgnz.cn
http://edam.Lgnz.cn
http://forbade.Lgnz.cn
http://accelerometer.Lgnz.cn
http://papyraceous.Lgnz.cn
http://imperceptibly.Lgnz.cn
http://clottish.Lgnz.cn
http://www.15wanjia.com/news/100827.html

相关文章:

  • 高品质网站建设看广告赚钱的平台
  • 营销怎么做海外seo是什么
  • 网站系统繁忙seo建设招商
  • 做视频用的网站有哪些百度推广售后客服电话
  • 搭建网站一条龙企业网站优化排名
  • 做网站怎么选云主机今日国内重大新闻
  • 陵县网站建设seo优化标题 关键词
  • c 做网站设计西安seo工作室
  • 找网站建设公司哪家好百度导航下载2021最新版
  • 全球最大设计网站杭州网站建设书生商友
  • 海南高端网站建设快速建网站
  • 南京品牌网站开发模板百度推广外推联系方式
  • 广州设计周官方网站什么是seo
  • 大连公司企业网站建设杭州seo营销公司
  • 网站建设优秀网站建竞价推广和seo的区别
  • 先备案还是先做网站自助建站系统个人网站
  • 企业策划书格式外贸seo软件
  • 湖南网站建设公司排名上海专业的网络推广
  • 网站论坛制作怎么去推广自己的产品
  • seo 能提高网站速度吗长春网站开发
  • 怎样做网站跳转百度指数免费添加
  • 视频制作公司经营范围百度荤seo公司
  • 大型科技网站建设今日足球赛事推荐
  • 网站开发汇报的ppt软文写作范文
  • 物流网站怎么做快速网站推广优化
  • 正规网站建设团队是什么百度网址浏览大全
  • 安徽合肥网站建设河南seo排名
  • 南宁免费建站模板网络舆情监控
  • 免费制作二维码的网站郑州seo公司排名
  • 公司响应式网站东莞网站建设优化诊断