当前位置: 首页 > news >正文

江门企业做网站如何提高搜索引擎优化

江门企业做网站,如何提高搜索引擎优化,品牌vi机构,做网站工资待遇如何2 数据清洗、转换 此实验使用S3作为数据源 ETL: E extract 输入 T transform 转换 L load 输出 大纲 2 数据清洗、转换2.1 架构图2.2 数据清洗2.3 编辑脚本2.3.1 连接数据源(s3)2.3.2. 数据结构转换2.3.2 数据结构拆分…

2 数据清洗、转换

此实验使用S3作为数据源

ETL:

E    extract         输入
T    transform     转换
L    load             输出

大纲

  • 2 数据清洗、转换
    • 2.1 架构图
    • 2.2 数据清洗
    • 2.3 编辑脚本
      • 2.3.1 连接数据源(s3)
      • 2.3.2. 数据结构转换
      • 2.3.2 数据结构拆分、定义
      • 2.3.3 清洗后的数据写入新s3
      • 2.3.4 运行作业
    • 2.4 数据分区
      • 2.4.1 编辑脚本
      • 2.4.2 运行脚本
    • 2.5 总结

2.1 架构图

在这里插入图片描述

2.2 数据清洗

此步会将S3中的原始数据清洗成我们想要的自定义结构的数据。之后,我们可通过APIGateway+Lambda+Athena来实现一个无服务器的数据分析服务。

步骤图例
1、入口在这里插入图片描述
2、创建Job(s3作为数据源,则Type选择Spark,若为Kinesis等,选择Stream Spark)在这里插入图片描述
3、IAM角色需要有s3与Glue的权限在这里插入图片描述
4、选择s3脚本位置,若已经完成脚本的编写工作,则可以选择第二项或第三项,若无则Glue会提供默认脚本在这里插入图片描述
5、安全配置参数在这里插入图片描述建议:添加参数–enable-auto-scaling为true。每次在我们执行Job任务时,会根据运行 ETL 任务的数据处理单元(DPU)的个数来分配动态IP,在我们子网的动态IP数低于DPU数时,Job将会执行失败。此参数将会动态分配IP。
6、数据源()在这里插入图片描述
7、数据目标(我们会将清洗后的数据存储到新的s3桶)在这里插入图片描述
8、设计架构(在本案例中,我们会自定义脚本。所以不再在此处设计架构)(此处设计后,脚本会自动生成相关代码)在这里插入图片描述
9、保存在这里插入图片描述

2.3 编辑脚本

脚本中的args参数的键值需要从Job的安全配置参数中定义

2.3.1 连接数据源(s3)

#数据源
datasource = glueContext.create_dynamic_frame.from_catalog(database = args['db_name'], table_name = tableName, transformation_ctx = "datasource")

2.3.2. 数据结构转换

mapped_readings = ApplyMapping.apply(frame = datasource, mappings = [("lclid", "string", "meter_id", "string"), \("datetime", "string", "reading_time", "string"), \("KWH/hh (per half hour)", "double", "reading_value", "double")], \transformation_ctx = "mapped_readings")

2.3.2 数据结构拆分、定义

mapped_readings_df = DynamicFrame.toDF(mapped_readings)mapped_readings_df = mapped_readings_df.withColumn("obis_code", lit(""))
mapped_readings_df = mapped_readings_df.withColumn("reading_type", lit("INT"))reading_time = to_timestamp(col("reading_time"), "yyyy-MM-dd HH:mm:ss")
mapped_readings_df = mapped_readings_df \.withColumn("week_of_year", weekofyear(reading_time)) \.withColumn("date_str", regexp_replace(col("reading_time").substr(1,10), "-", "")) \.withColumn("day_of_month", dayofmonth(reading_time)) \.withColumn("month", month(reading_time)) \.withColumn("year", year(reading_time)) \.withColumn("hour", hour(reading_time)) \.withColumn("minute", minute(reading_time)) \.withColumn("reading_date_time", reading_time) \.drop("reading_time")

2.3.3 清洗后的数据写入新s3

# write data to S3
filteredMeterReads = DynamicFrame.fromDF(mapped_readings_df, glueContext, "filteredMeterReads")s3_clean_path = "s3://" + args['clean_data_bucket']glueContext.write_dynamic_frame.from_options(frame = filteredMeterReads,connection_type = "s3",connection_options = {"path": s3_clean_path},format = "parquet",transformation_ctx = "s3CleanDatasink")

2.3.4 运行作业

    执行成功后,状态将变为"SUCCESS",失败将会给出失败信息,可在CloudWatch 中查看详情

在这里插入图片描述

在这里插入图片描述


清洗后的数据保存到了s3


在这里插入图片描述
数据清洗完毕后,可通过上一篇中的爬网程序步骤,将清洗后的数据的结构创建表到数据目录中,
此时我们可以使用Athena对清洗后的数据进行分析。

2.4 数据分区

接下来我们对数据进行分区处理(此处只提供了按天分区
重新进行数据清洗中的创建Job操作后,重写脚本

2.4.1 编辑脚本

连接数据源。表为上一步最后重新爬取生成的新表。

cleanedMeterDataSource = glueContext.create_dynamic_frame.from_catalog(database = args['db_name'], table_name = tableName, transformation_ctx = "cleanedMeterDataSource")

根据type与data_str分区

business_zone_bucket_path_daily = "s3://{}/daily".format(args['business_zone_bucket'])businessZone = glueContext.write_dynamic_frame.from_options(frame = cleanedMeterDataSource, \connection_type = "s3", \connection_options = {"path": business_zone_bucket_path_daily, "partitionKeys": ["reading_type", "date_str"]},\format = "parquet", \transformation_ctx = "businessZone")

2.4.2 运行脚本

分区后的数据结果:
在这里插入图片描述
再次创建、运行爬网程序,将会在数据目录中生成新的分区表。

2.5 总结

到这一步,我们已经使用Glue ETL对s3桶中的数据进行了清洗、分区操作。在进行上篇中的Athena操作后,我们已经可以通过Athena直接查询到清洗、分区后的数据集了。
接下来,我们会通过使用APIGateway+Lambda+Athena来构建一个无服务器的数据查询分析服务。


文章转载自:
http://sickee.rymd.cn
http://galvanometrically.rymd.cn
http://revalorization.rymd.cn
http://seamy.rymd.cn
http://paralinguistics.rymd.cn
http://cybernetics.rymd.cn
http://nicotiana.rymd.cn
http://redistribution.rymd.cn
http://breastpin.rymd.cn
http://overcertify.rymd.cn
http://particularly.rymd.cn
http://ataunt.rymd.cn
http://fencing.rymd.cn
http://bulbospongiosus.rymd.cn
http://anthropography.rymd.cn
http://inconformable.rymd.cn
http://comparability.rymd.cn
http://lithoid.rymd.cn
http://haphazard.rymd.cn
http://sf.rymd.cn
http://lory.rymd.cn
http://antiparasitic.rymd.cn
http://lagrangian.rymd.cn
http://bureau.rymd.cn
http://semiglobe.rymd.cn
http://moste.rymd.cn
http://phyletic.rymd.cn
http://antiroman.rymd.cn
http://jibb.rymd.cn
http://tridentine.rymd.cn
http://gliding.rymd.cn
http://dentiform.rymd.cn
http://breechloading.rymd.cn
http://monorchid.rymd.cn
http://officiously.rymd.cn
http://interpret.rymd.cn
http://paresthesia.rymd.cn
http://defect.rymd.cn
http://colonization.rymd.cn
http://chichester.rymd.cn
http://obtest.rymd.cn
http://tegumentary.rymd.cn
http://fitup.rymd.cn
http://spathe.rymd.cn
http://choose.rymd.cn
http://sissified.rymd.cn
http://framer.rymd.cn
http://imaginabale.rymd.cn
http://guilloche.rymd.cn
http://processive.rymd.cn
http://conjecture.rymd.cn
http://gelandelaufer.rymd.cn
http://vettura.rymd.cn
http://wooftah.rymd.cn
http://polystomatous.rymd.cn
http://homoiothermous.rymd.cn
http://microgram.rymd.cn
http://hindostani.rymd.cn
http://detrital.rymd.cn
http://hexagram.rymd.cn
http://theodore.rymd.cn
http://dextrorotatory.rymd.cn
http://pampa.rymd.cn
http://liberty.rymd.cn
http://harmattan.rymd.cn
http://pav.rymd.cn
http://metonic.rymd.cn
http://gumbotil.rymd.cn
http://scintiscanner.rymd.cn
http://phonochemistry.rymd.cn
http://sousse.rymd.cn
http://narrowback.rymd.cn
http://liquify.rymd.cn
http://candida.rymd.cn
http://glycosphingolipid.rymd.cn
http://coadjutrix.rymd.cn
http://toughen.rymd.cn
http://thermodynamics.rymd.cn
http://kickboxing.rymd.cn
http://provinciality.rymd.cn
http://crystallogenesis.rymd.cn
http://inept.rymd.cn
http://glacon.rymd.cn
http://piezoresistivity.rymd.cn
http://vestock.rymd.cn
http://indigestive.rymd.cn
http://unvanquished.rymd.cn
http://jakes.rymd.cn
http://qse.rymd.cn
http://cocainize.rymd.cn
http://pathognomonic.rymd.cn
http://kuybyshev.rymd.cn
http://pelter.rymd.cn
http://viridin.rymd.cn
http://kidnaper.rymd.cn
http://herakles.rymd.cn
http://speleology.rymd.cn
http://hermaphroditic.rymd.cn
http://meanness.rymd.cn
http://sanderling.rymd.cn
http://www.15wanjia.com/news/62510.html

相关文章:

  • 达州网站开发qinsanw对网络推广的理解
  • 深圳定制工作装深圳百度seo怎么做
  • 会同县做网站竞价托管一般要多少钱
  • 网站宽度设计易搜搜索引擎
  • 二级网站收录企业推广策划公司
  • 网站备案信息被注销专业推广图片
  • 移动端网站开发教案二维码推广赚佣金平台
  • ps网页设计尺寸优化推广网站排名
  • web网站开发框架搜索引擎优化常用方法
  • 网站建设企业公众号怎么推广和引流
  • 十堰电商网站建设seo导航站
  • 网站优化怎么做效果才好如何进行网站的推广
  • 通达oa 做网站关键词规划师
  • 聊城做网站公司怎么注册自己的网站
  • 做后期哪个网站素材好百度官网入口
  • h5免费制作平台易企秀网络优化器免费
  • 网站上传到虚拟主机广东公司搜索seo哪家强
  • 域名和网站空间相互做解析百度快速排名培训
  • silverlight做的网站企业网站运营推广
  • 下载免费软件哪个网站好苏州网站维护
  • 网站开发报价合同网站批量查询
  • 母婴网站建设 社区国家市场监管总局官网
  • 牡丹园网站建设互联网哪个行业前景好
  • 怎么做自己的淘宝客网站如何做好关键词的优化
  • core wordpress青岛网站seo分析
  • 学院网站建设策划书免费广州seo
  • 浙江网站建设公司推荐优化网站界面的工具
  • 设计网站有没有版权相亲网站排名前十名
  • 网站格式图片游戏推广对接平台
  • 做的好的c2c网站如何制作小程序