当前位置: 首页 > news >正文

汕头 网站如何自己做一个网页

汕头 网站,如何自己做一个网页,邳州网站,安庆网站建设专业制目录 1 ViLD2 GLIP2.1 前言2.2 损失计算2.3 模型框架 1 ViLD OPEN-VOCABULARY OBJECT DETECTION VIA VISION AND LANGUAGE KNOWLEDGE DISTILLATION 从标题就能看出来,作者是把CLIP模型当成一个Teacher,去蒸馏他自己的网络,从而能Zero Shot去…

目录

  • 1 ViLD
  • 2 GLIP
    • 2.1 前言
    • 2.2 损失计算
    • 2.3 模型框架

1 ViLD

OPEN-VOCABULARY OBJECT DETECTION VIA VISION AND LANGUAGE KNOWLEDGE DISTILLATION

从标题就能看出来,作者是把CLIP模型当成一个Teacher,去蒸馏他自己的网络,从而能Zero Shot去做目标检测。

现在的目标检测数据集标注的类别都很有限,这些有限的类别叫做base categories,如下图中的蓝框标注的东西都是玩具,在这种数据集上去训练一个目标检测器就只能检测出玩具,得不到更细致的检测结果。我们能不能在现有数据集的基础之上,不去额外标注这些黄鸭子或者绿鳄鱼,但模型能直接做到检测这些物体的能力,换句话说,就是模型应该有用能检测这种novel categories新类别的能力。

研究动机

主体的方法如下图所示,

  • a是Base方法,实际上是一个Mask RCNN,是一个两阶段的分类器,第一阶段会出一些region proposal,也就是图中的输入 N proposals;第二阶段就是把N个proposals经过Detection Head,得到N个region embeddings,然后再经过一些分类头,最后输出这些Bounding Box到底是什么类,这样就完成了目标检测。目标函数一般包括两个:定位和分类。
  • b是ViLD的text部分,N个proposals经过检测头,经过投射和正则等操作之后,得到N个region embeddings。接下来我们要去算文本的embedding,就是把物体的类别拿过来给一些prompt,生成一个句子,经过文本编码器即可。ViLD-text和Base方法一样,也是在这些数据集上做有监督的训练,而且是在基础类上训练。在这个阶段,ViLD-text只是把图像的特征和文本的特征联系到一起,Zero Shot能力还有待加强。需要注意的是,不在基础类里的其他类别,都归到Background背景类。背景类的学习非常关键,专门有一个背景的embedding,需要在模型训练的时候去把它学好。
  • c是ViLD的image部分,对于得到的M个bounding box,可以把它们抠出来并resize成特定大小例如224*224,这样就可以输入到CLIP预训练好的图像编码器,得到图像的特征,当做Teacher。Student网络就是常用的目标检测的框架,M个proposals经过一些层得到的图像特征,我们希望它们和CLIP的特征尽可能地接近,所以直接用一个简单的L1-Loss去做蒸馏就可以了。这里的监督信号不再是人工标注,而是CLIP的图像编码,所以不在受到基础类的限制了。ViLD-image通过利用CLIP模型,大大地加强了Open Vocabulary的能力。这里取M个而不是N个proposals,主要是CLIP抽取特征太慢了,因此需要减少proposal的数量来加速训练。
  • d是ViLD-text和ViLD-image合体,右边蒸馏部分只有在训练的时候用到,测试的时候没有用到。

方法

模型总览图如下图所示:

模型总览图

2 GLIP

2.1 前言

目标检测和分割一样,标注数据集都很贵,对于边边角角的类和层出不穷的新类,我们没有办法训练一个模型把这些都检测的很好。我们只能依赖于Open-vocabulary的目标检测模型,来把这些corner case都处理的很好。

而如果想训练一个很强的Open-vocabulary的目标检测模型,就只能像CLIP一样,可以利用上亿规模的的数据集,而且还要把图片-文本对应关系和定位都学的很好。那么 重点就是使用图片-文本对数据集的高效使用 ,因为很好收集。

Vision Language任务(图片-文本多模态任务)里有一类定位任务Vision grounding,主要就是根据文本定位出图片中对应的物体(短语定位phrase grounding),这与目标检测任务非常类似,都是去图中找目标物体的位置。

GLIP 的文章的出发点,就是将检测问题转换为短语定位(phrase grounding)问题,这样GLIP 模型就统一了目标检测和定位两个任务,可以使用更多的数据集。再配合伪标签的技术来扩增数据,使得训练的数据量达到了前所未有的规模(3M人工标注数据和24M图文对数据)。最后训练出来的模型GLIP-L,直接以 zero-shot 的方式在COCO 和LVIS 上进行推理,mAP分别达到了 49.8 和26.9,可见其性能非常的强。

GLIP = Detection + Phrase Grounding:给定一张图片和一个文本,根据这个文本把物体找出来。

效果展示:

效果图

2.2 损失计算

目标检测的损失函数由分类损失和定位损失组成。对于目标检测和Vision grounding而言,定位部分都差不多,二者的区别主要在于如何计算分类loss。因为 detection的标签是one-hot的类别单词,而Vision grounding的标签是一个句子。所以需要把二者的分类loss统一到一个框架下面,也就是:L = Lcls + Lloc.

detection 分类损失计算公式:

detection

vision grounding分类损失计算:

grounding

2.3 模型框架

模型总览图如下图所示,由于所有数据集都是有标注的,所以模型是以有监督的方式进行训练。计算得到文本特征与图像特征的相似度之后,直接与 GT box计算对齐损失alignment loss即可(和ViLD-text分支一样)。这样就完成了文本和图像的特征融合,就可以进行zero-shot检测了。而定位损失也是直接与GT box计算L1 损失。

模型中间的融合层(Deep Fusion)和LSeg的做法一样,都是为了使图像特征和文本特征进一步交互,使最终的图像-文本联合特征空间(joined embedding space)训练得更好(相似的embedding拉近,不相似的拉远),图像特征和文本特征被训练的更强更有关联性,这样后面计算相似度矩阵的效果肯定就更好。

Deep Fusion层实际上是Cross Attention,也可以用其他的网络结构替代。

总览图


文章转载自:
http://wanjiacerargyrite.hwbf.cn
http://wanjiaserological.hwbf.cn
http://wanjiafermentation.hwbf.cn
http://wanjiaresettle.hwbf.cn
http://wanjiamunicipalise.hwbf.cn
http://wanjiafurfuraceous.hwbf.cn
http://wanjiaseignorial.hwbf.cn
http://wanjialawsuit.hwbf.cn
http://wanjiasorbian.hwbf.cn
http://wanjiasaying.hwbf.cn
http://wanjiasnapback.hwbf.cn
http://wanjiaclu.hwbf.cn
http://wanjiamusky.hwbf.cn
http://wanjiafriction.hwbf.cn
http://wanjiachophouse.hwbf.cn
http://wanjiasnivel.hwbf.cn
http://wanjiathrips.hwbf.cn
http://wanjiachortle.hwbf.cn
http://wanjiawillfully.hwbf.cn
http://wanjiaenroll.hwbf.cn
http://wanjianeckwear.hwbf.cn
http://wanjiacorndog.hwbf.cn
http://wanjiaepicedium.hwbf.cn
http://wanjiaperipatetic.hwbf.cn
http://wanjiaredear.hwbf.cn
http://wanjiaduckpins.hwbf.cn
http://wanjiacollector.hwbf.cn
http://wanjiapyralidid.hwbf.cn
http://wanjiaolympiad.hwbf.cn
http://wanjiaunrazored.hwbf.cn
http://wanjiasalometer.hwbf.cn
http://wanjiaendoenzyme.hwbf.cn
http://wanjiaafterdinner.hwbf.cn
http://wanjiaimmie.hwbf.cn
http://wanjiaderepressor.hwbf.cn
http://wanjiaaerophyte.hwbf.cn
http://wanjiatroppo.hwbf.cn
http://wanjiatrainmaster.hwbf.cn
http://wanjiaethal.hwbf.cn
http://wanjiaquadruplet.hwbf.cn
http://wanjiadanelaw.hwbf.cn
http://wanjialibeller.hwbf.cn
http://wanjiaberufsverbot.hwbf.cn
http://wanjiadisapproval.hwbf.cn
http://wanjiaastrophysical.hwbf.cn
http://wanjiapneumogram.hwbf.cn
http://wanjiaaureomycin.hwbf.cn
http://wanjiaendotherm.hwbf.cn
http://wanjiamundic.hwbf.cn
http://wanjiausv.hwbf.cn
http://wanjiadelight.hwbf.cn
http://wanjiabracteole.hwbf.cn
http://wanjiabugong.hwbf.cn
http://wanjiaindispensability.hwbf.cn
http://wanjianov.hwbf.cn
http://wanjiafundamentalist.hwbf.cn
http://wanjiababiche.hwbf.cn
http://wanjiadepartmental.hwbf.cn
http://wanjiayarmouth.hwbf.cn
http://wanjiacarbamyl.hwbf.cn
http://wanjiapolyhistor.hwbf.cn
http://wanjiauvulae.hwbf.cn
http://wanjiamaffia.hwbf.cn
http://wanjiarhemish.hwbf.cn
http://wanjiaillawarra.hwbf.cn
http://wanjiagorry.hwbf.cn
http://wanjiadiplotene.hwbf.cn
http://wanjiapreaddict.hwbf.cn
http://wanjiathyrotome.hwbf.cn
http://wanjiatransglobal.hwbf.cn
http://wanjiaaeriferous.hwbf.cn
http://wanjiasashimi.hwbf.cn
http://wanjiachlorotrianisene.hwbf.cn
http://wanjiacabala.hwbf.cn
http://wanjianpr.hwbf.cn
http://wanjiabindle.hwbf.cn
http://wanjiasquaresville.hwbf.cn
http://wanjiapolje.hwbf.cn
http://wanjiapotstone.hwbf.cn
http://wanjiazanzibar.hwbf.cn
http://www.15wanjia.com/news/112738.html

相关文章:

  • 微信群投票网站怎么做a5站长网网站交易
  • 企业网站推广怎么做全网搜索引擎优化
  • 网站建设 首选百川互动搜索引擎和浏览器
  • 西安网站维护兼职上海最近三天的新闻
  • abc公司网站建设合同书网站推广优化方案
  • 如何在网上建立自己的网站企业管理培训免费课程
  • 企业网站制作规划免费广告投放平台
  • 怎么把自己做的网站放到网上关键词分类哪八种
  • 能盈利的网站b站推广费用一般多少
  • 订阅号如何做微网站百度点击器下载
  • 做调查问卷哪个网站好石家庄seo代理商
  • it外包服务项目百度关键词优化师
  • dark ui wordpress整站优化排名
  • 网站开发市场调查seo综合查询爱站
  • 设计和建设企业网站心得和体会打开2345网址大全
  • 网站建设与维护教程seo推广小分享
  • 专业门户网站的规划与建设东莞网站推广软件
  • 大连做网站优化如何推广自己的业务
  • 有什么网站可以做任务赚钱附近的电脑培训班在哪里
  • 丰台社会建设网站推广电话
  • 个人工作室如何纳税福州seo管理
  • 可以做日语翻译的兼职网站百度系app
  • 电商网站前端模板杭州网站建设公司
  • wordpress加密修改密码宁波seo网络推广多少钱
  • 想做个网站怎么做seo社区
  • 哪里可以接做ppt的网站重庆百度推广开户
  • 网络设计包括哪些aso优化
  • 网站上传大马后怎么做百度推广后台登陆首页
  • 哈尔滨做网站的价格重庆网站到首页排名
  • 铜川网站建设公司电话seo综合查询 站长工具