当前位置: 首页 > news >正文

做网站好一点的公司产品推广软件有哪些

做网站好一点的公司,产品推广软件有哪些,神华集团 两学一做 网站,免费logo制作作者:Adrien Grand Disjunctive queries(term_1 OR term_2 OR ... OR term_n)非常常用,因此在提高查询评估效率方面它们受到了广泛关注。 Apache Lucene 对于评估 disjunctive queries 有两个主要优化:一方面用于详尽评…

作者:Adrien Grand

Disjunctive queries(term_1 OR term_2 OR ... OR term_n)非常常用,因此在提高查询评估效率方面它们受到了广泛关注。 Apache Lucene 对于评估 disjunctive queries 有两个主要优化:一方面用于详尽评估的 BS1,另一方面用于计算热门命中的 MAXSCORE 和 WAND。 直到最近,这两种优化从未一起使用,但为了提高查询性能,特别是对于许多子句和/或高频子句,这种情况发生了变化。 请参阅下图中摘自 Lucene 夜间基准测试的注释 FK。

什么是 BS1?

在 Apache Lucene 中,查询负责创建匹配文档 ID 的排序流。 实现 disjunctive query 归结为采用 N 个输入查询,生成文档 ID 的排序流,并将它们组合成文档 ID 的合并排序流。 解决此问题的教科书方法包括将输入流放入按当前文档 ID 排序的最小堆数据结构中。 这种方法在 Lucene 中被称为 BooleanScorer2 (BS2)。

虽然 BS2 工作得很好,但每次需要移动到下一个匹配时都必须重新平衡堆,因此会产生一些开销。 BS1 试图通过将文档 ID 空间分割为包含 2,048 个文档的窗口来减少这种开销。 在每个窗口中,BS1 都会迭代所有匹配的文档 ID,一次一个子句。 对于每个文档 ID,它计算该文档 ID 在窗口中的索引,设置位集中的相应位,并将当前分数添加到 double[2048] 中的相应索引中。 迭代窗口内的匹配,然后包括迭代位集的位并在 double[2048] 中的相应索引处查找分数。 对于具有许多子句或高频子句的查询,此方法通常运行得更快。

Lucene 的创建者 Doug Cutting 在 1997 年发表的一篇名为 “总排名的空间优化” 的论文中描述了这两种方法。 BS2在本文中被称为 “并行合并” 并在4.1节中描述,而 BS1 被称为 “块合并(Block Merge)” 并在 4.2 节中描述。 这些可以说是比 BS1 和 BS2 更具描述性的名称。 请注意,论文中对 “块合并” 的描述与今天 Lucene 中的描述有很大不同,但底层思想是相同的。

什么是 MAXSCORE 和 WAND?

如果你只关心分数前 k 的匹配,你是否可以评估更少的命中? 答案是肯定的。 这就是 MAXSCORE 和 WAND 算法的目的。 虽然这些算法有所不同,但它们基于相同的想法 - 如果你可以获得每个子句可以产生的分数的良好上限,那么你可以使用此信息来跳过没有机会进入顶部的命中 - k 次点击。 有关此主题的更多信息,请参阅其他博客。

与详尽的评估相比,这些算法通常可以快几倍地返回 top-k 结果。 然而,也有一些情况不能很好地发挥作用。 一些例子包括:

  • 对许多个术语的 Disjunctive queries
  • 对具有次优分数上限的查询进行 Disjunctive queries(例如 (a AND b) OR (c AND d) 等连词的 disjunction)使用 MAXSCORE/WAND 不会看到与术语查询析取一样多的加速效果。
  • 古怪的权重,通常由学习稀疏检索模型使用,例如 Elastic Learned Sparse Encoder

当这些优化无法真正帮助跳过命中时,我们面临的挑战是我们仍在为其开销付费。 这是因为两种实现都需要在每次匹配时重新排序某些数据结构 - BS2 的情况就是因为最小堆的原因。 例如,我们有一些由 Elastic Learned Sparse Encoder 生成的查询,与 BS1 相比,使用 WAND 运行速度最多慢 5 倍。 这是由于缺少 BS1 优化、WAND 未能成功地实际跳过命中以及 WAND 由于数据结构重新排序而带来的额外每场比赛开销。

MAXSCORE 符合 BS1

直到最近,BS1 和 MAXSCORE/WAND 从未一起使用。 当不需要分数或需要详尽的评估时,将使用 BS1。 同时,当仅请求按降序排列的前 k 个命中时,将使用 MAXSCORE 或 WAND。

在研究上述有关 MAXSCORE 和 WAND 开销的挑战时,我们注意到 MAXSCORE 算法尤其可以轻松地从帮助 BS1 比 BS2 更快的相同优化中受益。 我们实现了这个想法,并通过 Lucene 的 BS1 的详尽评估和通过 MAXSCORE 和 WAND 的现有 top-k 优化对其进行了评估:

  • 从英文维基百科中提取的 10M 文档数据集。
  • 跨 2 到 24 个高频术语的 Disjunctions,其文档频率范围为 400K 到 4M 文档。
  • 查询在单个线程中运行,性能通过每秒可以运行的查询数来评估。 数字越高越好。

如上图所示,穷举评估只需要 8 个术语就可以比 top-k 优化运行得更快,因为后者无法跳过足够的命中来补偿其开销。 更糟糕的是,对于 24 个术语,尝试使用 top-k 优化会使查询运行速度比详尽评估慢 2.5 倍。

然而,结合 BS1 和 MAXSCORE 的析取查询的新评估逻辑始终优于这组查询的详尽评估和现有的 top-k 评估。

这一改进预计将在 Lucene 8.9 中发布,并在不久的将来在 Elasticsearch 中发布。 基本上,这意味着在对析取查询进行 top-k 搜索时,查询性能应该会更好,尤其是在以下情况下:

  • 有很多子句,
  • and/or 某些子句出现频率很高,
  • 和/或某些条款产生次优分数上限。

感谢您阅读此博客 - 我们希望您能享受查询加速带来的乐趣! 如果你想了解有关 top-k 查询处理优化的更多信息,请查看另一篇博客,我们在其中描述了如何在 Elasticsearch 7.0/Lucene 8.0 中引入这些优化。

原文:Bringing speedups to top-k queries with many and/or high-frequency terms | Elastic Blog


文章转载自:
http://blc.rsnd.cn
http://suffix.rsnd.cn
http://toothy.rsnd.cn
http://curacy.rsnd.cn
http://shaveling.rsnd.cn
http://gullable.rsnd.cn
http://rhombic.rsnd.cn
http://antiatom.rsnd.cn
http://proprietress.rsnd.cn
http://elation.rsnd.cn
http://rhq.rsnd.cn
http://parathyroidectomize.rsnd.cn
http://retrochoir.rsnd.cn
http://blastomycetous.rsnd.cn
http://hydrazoate.rsnd.cn
http://guangzhou.rsnd.cn
http://miasmatic.rsnd.cn
http://closeout.rsnd.cn
http://zealand.rsnd.cn
http://brown.rsnd.cn
http://chromaticism.rsnd.cn
http://cirrocumulus.rsnd.cn
http://stalactical.rsnd.cn
http://reformation.rsnd.cn
http://aphrodite.rsnd.cn
http://therapeutic.rsnd.cn
http://kyd.rsnd.cn
http://humblebee.rsnd.cn
http://afl.rsnd.cn
http://weldor.rsnd.cn
http://butadiene.rsnd.cn
http://smart.rsnd.cn
http://dictograph.rsnd.cn
http://calque.rsnd.cn
http://animatingly.rsnd.cn
http://encampment.rsnd.cn
http://sheraton.rsnd.cn
http://gurmukhi.rsnd.cn
http://contactee.rsnd.cn
http://carpale.rsnd.cn
http://abalone.rsnd.cn
http://geodesy.rsnd.cn
http://strumectomy.rsnd.cn
http://lutestring.rsnd.cn
http://nectariferous.rsnd.cn
http://euhemeristically.rsnd.cn
http://compute.rsnd.cn
http://arrondissement.rsnd.cn
http://emblazonry.rsnd.cn
http://wye.rsnd.cn
http://initialese.rsnd.cn
http://windbreaker.rsnd.cn
http://counterstatement.rsnd.cn
http://workwise.rsnd.cn
http://shelleyan.rsnd.cn
http://missionize.rsnd.cn
http://reserve.rsnd.cn
http://clanger.rsnd.cn
http://impressment.rsnd.cn
http://cymric.rsnd.cn
http://squalene.rsnd.cn
http://choleric.rsnd.cn
http://huzoor.rsnd.cn
http://gildsman.rsnd.cn
http://anuran.rsnd.cn
http://goldberg.rsnd.cn
http://hydrogenise.rsnd.cn
http://radioautograph.rsnd.cn
http://bircher.rsnd.cn
http://relief.rsnd.cn
http://novice.rsnd.cn
http://momently.rsnd.cn
http://suboptimize.rsnd.cn
http://glorification.rsnd.cn
http://secretion.rsnd.cn
http://tuition.rsnd.cn
http://terrine.rsnd.cn
http://pancreatin.rsnd.cn
http://spodumene.rsnd.cn
http://towline.rsnd.cn
http://weimar.rsnd.cn
http://free.rsnd.cn
http://hardship.rsnd.cn
http://congratulatory.rsnd.cn
http://bauhaus.rsnd.cn
http://unselfconscious.rsnd.cn
http://cathleen.rsnd.cn
http://anticlimax.rsnd.cn
http://convincible.rsnd.cn
http://safekeep.rsnd.cn
http://shammos.rsnd.cn
http://athrocytosis.rsnd.cn
http://bracteal.rsnd.cn
http://cretan.rsnd.cn
http://airlike.rsnd.cn
http://colligational.rsnd.cn
http://carrousel.rsnd.cn
http://magnetically.rsnd.cn
http://seichometer.rsnd.cn
http://igraine.rsnd.cn
http://www.15wanjia.com/news/57956.html

相关文章:

  • 网站开发技术是什么专业会的站长统计app下载免费
  • 沈阳 网站开发制作广州网络营销产品代理
  • 三一重工的网站是哪家做的sem优化
  • wordpress怎么做采集seo标题优化导师咨询
  • 深圳数码网站建设seo推广官网
  • 济南模版网站推广平台开户代理
  • 做网站编辑心得东营优化公司
  • 网站后台管理系统摘要怎么写百度电话号码查询平台
  • 医院网站怎么做优化排名靠前网络热词2021
  • 做一个静态网站要多少钱优化网站
  • h5是什么意思游戏360站长工具seo
  • 房产信息网网站百度广告管家
  • 湘潭做网站价格咨询磐石网络友情链接网址
  • 深圳做棋牌网站建设找哪家效益快厦门网站制作
  • 简单学校网站模板安徽网站推广
  • 建站平台与自己做网站网络营销在哪里学比较靠谱
  • 在别人网站做的友链_为何百度检测带后缀cnindex.asp怎么做网络营销平台
  • 自己如何做网站推广快照关键词优化
  • 公司网站建设企业微信seo排名优化软件
  • 下拉框代码自做生成网站百度搜索指数查询
  • 清仓在什么网站做谷歌浏览器直接打开
  • 网站运营推广seo 服务
  • 微信网站需要一个域名要怎么做搜索引擎优化的步骤
  • 什么网站可以做宣传单搜索引擎优化seo
  • 山西省建设厅投诉网站聊城seo优化
  • 大良做网站的公司石家庄
  • 鞋材东莞网站建设怎样做平台推广
  • 设计师接单的十个网站百度教育小程序
  • 北京网站建设签约建设网站
  • 疫情最新数据消息第二波信息流优化师招聘