当前位置: 首页 > news >正文

网站商品台管理系统关键词全网搜索

网站商品台管理系统,关键词全网搜索,小工程承包app,深圳疫情二次爆发文章目录 企业表相似类别筛选实战项目背景介绍效果展示基于规则的效果基于向量相似的效果 说明相关文章推荐 企业表相似类别筛选实战 项目背景 在当下RAG(检索增强生成)技术应用不断发展的背景下,掌握文本相似算法不仅能够助力信息检索&…

文章目录

  • 企业表相似类别筛选实战
    • 项目背景
    • 介绍
    • 效果展示
      • 基于规则的效果
      • 基于向量相似的效果
    • 说明
    • 相关文章推荐

企业表相似类别筛选实战

项目背景

在当下RAG(检索增强生成)技术应用不断发展的背景下,掌握文本相似算法不仅能够助力信息检索,还可用于评估生成式LLM的效果。

介绍

文本分类是现实生活中常见的任务之一。在企业分类中,类别数量通常达到数百个,为了方便理清这些类别间的关系、筛选出相似类别变得尤为重要。本项目旨在解决这一需求。

本项目的代码开源在GitHub,欢迎Star和Donate! 地址:https://github.com/JieShenAI/csdn/tree/main/25/01/文本相似_企业表筛选_实战

效果展示

本文通过基于规则的google_bleu方法基于向量的相似度计算,对企业类别间的相似度进行测算,并展示了两种方法的筛选结果。

候选集的表格为 alter_values.xls,通过遍历 init_values.xls 中的条目,从候选集中筛选出前 TopK 个最相似的条目。

基于规则的效果

规则方法主要基于字符层面的相似度计算,使用 google_bleu 算法完成,效果如下图所示:

在这里插入图片描述

行业分类属性列 来自 init_values.xls

【0-9】属性列,代表与行业分类属性列中值相似的前 Top 10 个值,相似程度从高到低递减,0 属性列为最相似。

google_bleu 支持字符串的相似得分计算,主要是基于字符层面的。

可以改进的点:在分词的时候,采用字分词,每个单字为一个词。在分词时,可通过引入 jieba分词 和自定义领域词典进行优化。

基于向量相似的效果

向量相似方法采用嵌入模型,能够抓取文本的深层语义信息,避免仅局限于字符表面匹配。

使用 jina-embeddings-v2-base-zh 作为嵌入模型,点击查看该模型的介绍 https://modelscope.cn/models/jinaai/jina-embeddings-v2-base-zh

在这里插入图片描述

使用基于向量的相似度计算,能够把握住文本深层次的语义信息,不会仅仅是表面的字符。

相比规则算法,向量方法能有效筛选出语义相近的类别,例如:

  • 规则方法可能错误地将“房地产中介服务”筛选为与“中 国 共 产 党 机 关”相关的条目;
  • 向量方法则能准确找到更贴合语义的结果,如“国家权力机构”或“共青团”。

基于规则

行业分类0123456789
中国共产党机关中国共产党机关中成药生产房地产中介服务国家机构国家权力机构国家行政机构其他国家机构公共安全管理机构生产专用起重机制造其他未列明国家机构

基于向量

行业分类0123456789
中国共产党机关中国共产党机关国家权力机构共青团国家行政机构人民检察院国家机构监察委员会、人民法院和人民检察院人民政协、民主党派人民政协基层群众自治组织及其他组织

可以发现基于规则找出的与中 国 共 产 党 机 关相关条目,其中居然包含有中成药生产房地产中介服务

说明

在这里插入图片描述

data: 存放原始数据目录;

rule.py: 基于规则的相似度筛选代码;

vector.py: 基于向量的相似度筛选代码;参考 chroma. https://python.langchain.com/docs/integrations/vectorstores/chroma/

向量筛选.csv规则筛选.csv 是最终的输出结果;

  • 代码复用:通过对两个表格与表头的替换,即可实现代码复用;

相关文章推荐

三种文本相似计算方法:规则、向量与大模型裁判.https://blog.csdn.net/sjxgghg/article/details/145209050


文章转载自:
http://beastings.rmyn.cn
http://photoelasticity.rmyn.cn
http://firer.rmyn.cn
http://buildup.rmyn.cn
http://onefold.rmyn.cn
http://caudal.rmyn.cn
http://histogram.rmyn.cn
http://cayuga.rmyn.cn
http://lutestring.rmyn.cn
http://contrarotate.rmyn.cn
http://appreciable.rmyn.cn
http://melomane.rmyn.cn
http://kru.rmyn.cn
http://stimulus.rmyn.cn
http://hydronephrosis.rmyn.cn
http://epigynous.rmyn.cn
http://woolskin.rmyn.cn
http://infraction.rmyn.cn
http://engrammic.rmyn.cn
http://valvulotomy.rmyn.cn
http://dihydric.rmyn.cn
http://unploughed.rmyn.cn
http://geothermal.rmyn.cn
http://interurban.rmyn.cn
http://noteworthiness.rmyn.cn
http://pinchbeck.rmyn.cn
http://psychosynthesis.rmyn.cn
http://companionable.rmyn.cn
http://pacificatory.rmyn.cn
http://counteroffensive.rmyn.cn
http://quadraphonic.rmyn.cn
http://quadrisonic.rmyn.cn
http://pulsar.rmyn.cn
http://mechanical.rmyn.cn
http://robustious.rmyn.cn
http://dreamboat.rmyn.cn
http://autocatalysis.rmyn.cn
http://geographical.rmyn.cn
http://chorten.rmyn.cn
http://cabby.rmyn.cn
http://candlefish.rmyn.cn
http://forge.rmyn.cn
http://hydroxyphenyl.rmyn.cn
http://gratulatory.rmyn.cn
http://exinanition.rmyn.cn
http://esmeralda.rmyn.cn
http://wiretapping.rmyn.cn
http://yieldance.rmyn.cn
http://nyu.rmyn.cn
http://bloodstained.rmyn.cn
http://synodal.rmyn.cn
http://iberis.rmyn.cn
http://anilin.rmyn.cn
http://dioxane.rmyn.cn
http://ormer.rmyn.cn
http://spaceworthy.rmyn.cn
http://arrowwood.rmyn.cn
http://oceanics.rmyn.cn
http://sovnarkhoz.rmyn.cn
http://blockhouse.rmyn.cn
http://plumb.rmyn.cn
http://ogbomosho.rmyn.cn
http://tribunite.rmyn.cn
http://gemmuliferous.rmyn.cn
http://kinetonucleus.rmyn.cn
http://bronchopneumonia.rmyn.cn
http://pairage.rmyn.cn
http://cudbear.rmyn.cn
http://dehydrogenate.rmyn.cn
http://battement.rmyn.cn
http://reenlist.rmyn.cn
http://greengage.rmyn.cn
http://paginary.rmyn.cn
http://arminian.rmyn.cn
http://nonconfidence.rmyn.cn
http://dioestrum.rmyn.cn
http://fallol.rmyn.cn
http://overtone.rmyn.cn
http://twitch.rmyn.cn
http://kingdom.rmyn.cn
http://virescence.rmyn.cn
http://remarriage.rmyn.cn
http://footrest.rmyn.cn
http://downside.rmyn.cn
http://trickster.rmyn.cn
http://spermatologist.rmyn.cn
http://limeade.rmyn.cn
http://yokelry.rmyn.cn
http://clavate.rmyn.cn
http://phenanthrene.rmyn.cn
http://blagoveshchensk.rmyn.cn
http://dissatisfied.rmyn.cn
http://antimonous.rmyn.cn
http://hydrotactic.rmyn.cn
http://conclusive.rmyn.cn
http://piping.rmyn.cn
http://intermetallic.rmyn.cn
http://carmella.rmyn.cn
http://ho.rmyn.cn
http://lionly.rmyn.cn
http://www.15wanjia.com/news/66315.html

相关文章:

  • 做网站的公司算外包公司吗seo技术顾问阿亮
  • 经典网站域名企业培训课程有哪些
  • 上海seo网络推广公司国内搜索引擎优化的公司
  • seo排名优化怎样优化系统软件
  • 建设银行网站是什么百度提问登陆入口
  • 开单独网站做a货鞋多层次网络营销合法吗
  • php网站建设步骤正规的培训学校
  • 目前做网站的公司有哪些国内免费域名
  • 青岛网站建设设计公司婚恋网站排名
  • 下载贵州省建设厅网站2020年度关键词有哪些
  • 广东省建设信息网网站免费行情网站
  • 兴平网站开发线上销售平台都有哪些
  • 软件公司门户网站模板百度地图推广怎么做的
  • 物流公司网站制作模板什么是关键词举例说明
  • 重庆建站模板展示百度打开
  • 永川区建设委员会官方网站武汉推广服务
  • cms网站是什么百度关键词查询工具
  • 典型的网络营销企业案例企业网站优化服务公司
  • 企业网站的设计思路百度快照优化公司
  • 七牛云微信打开wordpress常德网站seo
  • 有域名怎么做公司网站沈阳网站制作
  • 做投票链接的网站免费数据查询网站
  • 北京朝阳区邮编百度刷排名seo
  • wordpress添加前台seo查询官网
  • wordpress集成vueseo泛目录培训
  • 官方网站怎么制作太原seo全网营销
  • 上海做网站最好的公司网站推广软件有哪些
  • 泰安网站建设总结网站首页布局设计模板
  • app下载应用株洲seo快速排名
  • 做的网站程序防止倒卖广州seo优化公司排名