当前位置: 首页 > news >正文

网站建设与设计学了做什么的网站平台都有哪些

网站建设与设计学了做什么的,网站平台都有哪些,开网店货源从哪里找最好,专业智能建站网站Spark与Iceberg集成落地实践(一) 文章目录 Spark与Iceberg集成落地实践(一)清理快照与元数据配置表维度自动清理元数据文件属性手动清理 清理孤岛文件合并数据文件 清理快照与元数据 配置表维度自动清理元数据文件属性 每一次写…

Spark与Iceberg集成落地实践(一)

文章目录

  • Spark与Iceberg集成落地实践(一)
    • 清理快照与元数据
      • 配置表维度自动清理元数据文件属性
      • 手动清理
    • 清理孤岛文件
    • 合并数据文件

清理快照与元数据

配置表维度自动清理元数据文件属性

每一次写入数据和表变更都会进行一次元数据的版本迭代,默认保存所有。

PropertyDescription
write.metadata.delete-after-commit.enabled每次表提交后是否删除旧的跟踪的元数据文件
write.metadata.previous-versions-max要保留的旧元数据文件的数量

SPARK DDL语句

建表时确认metadata生命周期

		sparkSession.sql("CREATE TABLE local.iceberg_db.table2( id bigint, data string, ts timestamp) USING iceberg PARTITIONED BY (day(ts)) TBLPROPERTIES('write.metadata.delete-after-commit.enabled'='true','write.metadata.previous-versions-max'='3')");

更改表的metadata生命周期

        sparkSession.sql("ALTER TABLE local.iceberg_db.table2 SET TBLPROPERTIES(" +"'write.metadata.delete-after-commit.enabled'='true'," +"'write.metadata.previous-versions-max'='3'" +")");

作用

这只会删除元数据日志中跟踪的元数据文件,而不会删除孤立的元数据文件。

清理从metadata.json链路开始的至data的所有文件,如下图:

数据层
元数据层
data file1
data file2
data file3
data file4
v2.metadata.json
Manifest list1
Manifest file1
Manifest file2

手动清理

        org.apache.iceberg.Table table = org.apache.iceberg.spark.Spark3Util.loadIcebergTable(spark, "local.iceberg_db.table2");long tsToExpire = System.currentTimeMillis() - (1000 * 60 * 60 * 24); // 保留一天org.apache.iceberg.spark.actions.SparkActions.get().expireSnapshots(table).expireOlderThan(tsToExpire).execute();

清理孤岛文件

孤岛文件的产生:

在 Spark 和其他分布式处理引擎中,任务或作业失败可能会留下未被表元数据引用的文件,在某些情况下,正常快照过期可能无法确定文件不再需要并将其删除。任务失败之后,最好进行一次清理表孤岛文件,若表相关任务成功,则不需要进行清理孤岛文件操作。

		org.apache.iceberg.Table table = org.apache.iceberg.spark.Spark3Util.loadIcebergTable(spark, "local.iceberg_db.table2");org.apache.iceberg.spark.actions.SparkActions.get().deleteOrphanFiles(table).execute();

合并数据文件

目前发现,需要分区类有标记删除的记录才会进行合并,why?

		org.apache.iceberg.Table table = org.apache.iceberg.spark.Spark3Util.loadIcebergTable(spark, "local.iceberg_db.table2");org.apache.iceberg.spark.actions.SparkActions.get().rewriteDataFiles(table).filter(Expressions.equal("ts", "2024-09-29")).option("target-file-size-bytes", Long.toString(500 * 1024 * 1024)) // 目标大小500 MB.execute();
http://www.15wanjia.com/news/31397.html

相关文章:

  • 有没有做淘宝首页特效的网站最全资源搜索引擎
  • 湛江模板建站服务商全球疫情最新数据统计
  • 视觉差滚动网站凡科小程序
  • 如何做好网站建设的要点网络媒体发稿平台
  • 做脚奴网站进入百度app查看
  • wordpress安装没有选择语言长沙seo关键词
  • 网站研发公司微信crm
  • 做农产品交易网站有哪些广告公司职位
  • 桂林两江四湖在哪里seo技术自学
  • 网络营销 长沙上海网站seo公司
  • 用java开发网站的步骤网站建设是什么
  • 网站标题title怎么写昨日凌晨北京突然宣布重大消息
  • 群晖服务器做网站英文网站推广
  • 做网站 用什么兼容温州网站快速排名
  • 家教网站怎么做百度秒收录蜘蛛池
  • 怎么查询网站点击量b站在线观看人数在哪
  • 17网站一起做网店类似的优化网站排名需要多少钱
  • 网站建设的申请竞价托管开户
  • 做网站的要花多少钱搜索引擎营销方式
  • 网站地图做计划任务网络营销推广外包服务
  • 手机网站开发的目的青岛百度代理公司
  • 牡丹江网站开发如何给企业做网络推广
  • 沈阳做网站的seo优化网站的注意事项
  • 数据做图网站有哪些内容鼓楼网站seo搜索引擎优化
  • 网站logo设计教程如何优化
  • 上海商城网站建设seo如何挖掘关键词
  • 购物网站开发的背景和意义淘宝关键词搜索
  • 网站优化套餐百度联盟推广
  • 天空台108网站找手工活带回家做不花钱网站推广
  • wordpress网站音乐播放器厦门seo网站优化