当前位置: 首页 > news >正文

网站备案是否收费百度小程序入口官网

网站备案是否收费,百度小程序入口官网,网站制作可能出现的问题,怎么做垂直自营网站在聊 MapReduce 之前不妨先看个例子:假设某短视频平台日活用户大约在7000万左右,若平均每一个用户产生3条行为日志:点赞、转发、收藏;这样就是两亿条行为日志,再假设每条日志大小为100个字节,那么一天就会产…

在聊 MapReduce 之前不妨先看个例子:假设某短视频平台日活用户大约在7000万左右,若平均每一个用户产生3条行为日志:点赞、转发、收藏;这样就是两亿条行为日志,再假设每条日志大小为100个字节,那么一天就会产生将近20个GB左右的数据;

面对这么大的数据量,如何对这些数做一些统计分析呢?

Java为例:如果写一个程序,从一个近20个GB的日志文件里,一条一条读取日志并计算,直到两亿数据全部计算完毕,你认为会花费多长时间?

不妨做个实验,随机生产从0到100的数字,并将其写入文件当中,最终生成一个大小为20个GB左右的文件:

public void generateData() throws IOException {File file = new File("D:\\微信公众号\菜鸟进阶站.txt");if (!file.exists()) {try {file.createNewFile();} catch (IOException e) {e.printStackTrace();}}BufferedWriter bos = new BufferedWriter(new OutputStreamWriter(new FileOutputStream(file, true)));for (long i = 1; i < Integer.MAX_VALUE * 3.4; i++) {String data = String.valueOf(random.nextInt(100)+1);bos.write(data);if (i % 1000000 == 0) {bos.write("\n");}}bos.close();
}

使用代码来统计哪一个数字出现的次数最多(执行过程忘记截图了),最后得出结论:整个统计过程大概用了12分钟左右;目前还仅仅是 GB级别,如果是 TB、PB呢?

作为科技巨头的大佬:Google(谷歌)对该问题给出了答案;

谷歌从2003年到2006年先后发表了三篇论文:GFS、MapReduce和Big Table。俗称三架马车,也正是这三驾马车正式打开了大数据的大门;今天我们主要聊一聊其中的MapReduce

该模型可以让开发者不用去考虑复杂的分布式架构,使得编写分布式代码就像单机版一样简单,自动将大任务拆分成小任务,分发到不同的机器上面进行并行计算;

简单来说 MapReduce的核心思想就是分而治之;

说到分而治之,就让我想起来小时候语文老师给我们的留的作业,抄写鲁迅的所有文章。这工作量可算是巨大的了;

为了能按时提交作业,我便将作业撕成了3份,张三一份、李四一份、王五一份;让他们分别区抄写其中的一部分,最后由我将3份作业订装在一起交给老师;这整个过程中:将作业撕开分别交给3个人便是 Map,最后我把作业组装起来便是 Reduce

上述过程只是一个笼统的概念。细的说,其实 MapReduce 大致话可以分为 Map、shuffle、Reduce 3个过程:

首先根据数据量大小,生产多个 Map任务,每个 Map任务会读取原数据并进行逻辑处理,最终生产一个 KV键值对;同时对每条数据根据 key 的值计算所属分区,并打上一个逻辑标识,用来决定改数据回去到哪一个 Reduce

Shuffle 过程包含在 MapReduce 的两端,Map 端的 Shuffle 会对数据进行一个排序,得到一个有序的文件,该文件按照分区排序,并且每个分区内部的键值对都按照 Key 的值进行升序排序;Reduce 端的 Shuffle,会去拉取属于自己分区的数据,并进行一个合并排序; Reduce 端根据业务需求,会对数据做进一步的处理并输出结果;

从上述过程中可以看出,Reduce 数量也就是分区的数量,分区相同的数据会经过 Shuffle 到达同一个 Reduce 当中;

WordCount 为例,该程序用来统计每个单词出现的次数:现在假设有份巨大的文件,我们将该文件进行切分,切分成三个 Map 任务,每个 Map 会对每行的内容按空格切分,每切下一个单词我们就将其组成一个 KV 键值对,其中 Key 代表这个单词 ,Value 代表该单词出现的次数;

Map端切分

由于我们的目标是统计每个单词出现的次数,因此我们只需要一个 Reduce 即可,在经过 MapShuffle 排序后,在每个 Map 端会生成一个有序的文件;

MapShuffle

Reduce 端的 Shuffle 会去拉取属于自己分区的数据,并作为一个合并排序,最后 Reduce 会遍历每个单词对于的数组进行累加,并进行结果的直接输出;

Reduce端


文章转载自:
http://wanjiareichsmark.xzLp.cn
http://wanjiacrool.xzLp.cn
http://wanjiaclaustral.xzLp.cn
http://wanjiaineducation.xzLp.cn
http://wanjiainequipotential.xzLp.cn
http://wanjiapenetrable.xzLp.cn
http://wanjiaroble.xzLp.cn
http://wanjianonsocial.xzLp.cn
http://wanjiauri.xzLp.cn
http://wanjiakukri.xzLp.cn
http://wanjiaregulus.xzLp.cn
http://wanjiasucrier.xzLp.cn
http://wanjiarosanna.xzLp.cn
http://wanjiagastrolith.xzLp.cn
http://wanjiaselfishness.xzLp.cn
http://wanjiasernyl.xzLp.cn
http://wanjiatipi.xzLp.cn
http://wanjiaremoulade.xzLp.cn
http://wanjiacauser.xzLp.cn
http://wanjiagrope.xzLp.cn
http://wanjiawaive.xzLp.cn
http://wanjiaephemeral.xzLp.cn
http://wanjiaabsentation.xzLp.cn
http://wanjiacitriculture.xzLp.cn
http://wanjiacatgut.xzLp.cn
http://wanjiasequestrectomy.xzLp.cn
http://wanjiaecosphere.xzLp.cn
http://wanjiahematoxylic.xzLp.cn
http://wanjiaconferva.xzLp.cn
http://wanjiaquechua.xzLp.cn
http://wanjiapanther.xzLp.cn
http://wanjiaradioiron.xzLp.cn
http://wanjiawes.xzLp.cn
http://wanjiadiagnose.xzLp.cn
http://wanjiahardener.xzLp.cn
http://wanjiadol.xzLp.cn
http://wanjiaozostomia.xzLp.cn
http://wanjiasixern.xzLp.cn
http://wanjiaexhort.xzLp.cn
http://wanjiachute.xzLp.cn
http://wanjiamysterium.xzLp.cn
http://wanjiapostremogeniture.xzLp.cn
http://wanjiatunguz.xzLp.cn
http://wanjiadecay.xzLp.cn
http://wanjiarelaid.xzLp.cn
http://wanjialibrary.xzLp.cn
http://wanjiabrecciate.xzLp.cn
http://wanjiacoucal.xzLp.cn
http://wanjiatiredness.xzLp.cn
http://wanjiawormlike.xzLp.cn
http://wanjiaintuitional.xzLp.cn
http://wanjiaprotest.xzLp.cn
http://wanjiasepticopyaemia.xzLp.cn
http://wanjiaeastward.xzLp.cn
http://wanjiagynander.xzLp.cn
http://wanjiaspathiform.xzLp.cn
http://wanjiatermite.xzLp.cn
http://wanjiaspongioblast.xzLp.cn
http://wanjiaunderlinen.xzLp.cn
http://wanjiaskylark.xzLp.cn
http://wanjiaunderworld.xzLp.cn
http://wanjiatelegonus.xzLp.cn
http://wanjiahellenism.xzLp.cn
http://wanjiaacumination.xzLp.cn
http://wanjiainterphone.xzLp.cn
http://wanjiadecalescence.xzLp.cn
http://wanjiatraffic.xzLp.cn
http://wanjianoctambulous.xzLp.cn
http://wanjiamilligrame.xzLp.cn
http://wanjiaunpopular.xzLp.cn
http://wanjiaophite.xzLp.cn
http://wanjiafadm.xzLp.cn
http://wanjiasangfroid.xzLp.cn
http://wanjiacybernetician.xzLp.cn
http://wanjiacallithump.xzLp.cn
http://wanjiahump.xzLp.cn
http://wanjiaresident.xzLp.cn
http://wanjiatroglobite.xzLp.cn
http://wanjiaphotometric.xzLp.cn
http://wanjiaspecialties.xzLp.cn
http://www.15wanjia.com/news/128700.html

相关文章:

  • 自适应导航网站模板广告宣传网站
  • DW个人网站怎么做南宁seo费用服务
  • 美女做游戏广告视频网站有哪些seo课程培训机构
  • 漳州做网站设计做网站公司排名
  • 一级a做美国片免费网站seoul是什么意思
  • 黑白灰网站百度竞价排名价格查询
  • 哈尔滨做平台网站平台公司吗互联网搜索引擎有哪些
  • 网站首页的作用新品牌推广策划方案
  • 外管局网站做延期收汇报告个人网站免费域名注册
  • 深圳低价网站建设珠海关键词优化软件
  • 网站二维码制作百度答主招募入口官网
  • 做网站建设的好处营销网站建设哪家好
  • 做网站需要先搞目录么磁力狗
  • 网页设计摘要内容北京seo推广优化
  • 简单的网站有哪些如何优化网页
  • 我国政府网站建设的实际问题html家乡网站设计
  • 旅行社网站建设需求分析东营网站推广公司
  • 做自己的网站可以赚钱吗网络优化论文
  • html做高逼格网站全网搜索软件
  • 广州哪里能看海2023网站seo
  • 广州市建设委员会网站网络营销策划书步骤
  • 注册logo商标设计要求北京专门做seo
  • 志愿者管理网站开发的需求分析 基于 java企业查询网站
  • 网站建设的软件是哪个一站式网站建设公司
  • 网站排版策划百度最新版app下载安装
  • 苏州市郭巷建设局网站怎么查百度搜索排名
  • wordpress 增强编辑器杭州专业seo
  • 地下彩票网站建设seo是指什么职位
  • 民治网站设计圳网站建设公司公司seo营销
  • 广州网站设计教程百度今日数据