当前位置: 首页 > news >正文

wordpress分类 菜单seo外链推广

wordpress分类 菜单,seo外链推广,wordpress 企业商城,新疆建设工程信息综合网官网🍎个人主页:小嗷犬的个人主页 🍊个人网站:小嗷犬的技术小站 🥭个人信条:为天地立心,为生民立命,为往圣继绝学,为万世开太平。 基本信息 标题: Visual Instruction Tunin…

🍎个人主页:小嗷犬的个人主页
🍊个人网站:小嗷犬的技术小站
🥭个人信条:为天地立心,为生民立命,为往圣继绝学,为万世开太平。


基本信息

标题: Visual Instruction Tuning
作者: Haotian Liu, Chunyuan Li, Qingyang Wu, Yong Jae Lee
发表: Advances in Neural Information Processing Systems 36 (NeurIPS 2023)
arxiv: https://arxiv.org/abs/2304.08485
项目主页: https://llava-vl.github.io/

基本信息

摘要

使用机器生成的指令遵循数据对大型语言模型(LLMs)进行指令微调已被证明可以提升新任务上的零样本能力,但在多模态领域这一想法探索较少。

我们首次尝试使用仅语言GPT-4生成多模态语言-图像指令遵循数据。

通过对这些生成数据进行指令微调,我们引入了LLaVA:大型语言和视觉助手,这是一个端到端训练的大规模多模态模型,它将视觉编码器和LLM连接起来,以实现通用视觉和语言理解。

为了促进未来对视觉指令遵循的研究,我们构建了两个具有多样性和挑战性应用任务的评估基准。

我们的实验表明,LLaVA展示了令人印象深刻的跨模态聊天能力,有时在未见过的图像/指令上表现出多模态GPT-4的行为,并在一个合成的多模态指令遵循数据集上相对于GPT-4实现了85.1%的相对分数。

当在科学问答(Science QA)上进行微调时,LLaVA和GPT-4的协同作用达到了92.53%的新最精确度。

我们将GPT-4生成的视觉指令微调数据、我们的模型和代码公开提供。

主要贡献

  1. 提出了一种视觉指令数据生成的方法流程
  2. 设计并训练了LLaVA,在Science QA上达到了SOTA
  3. 提出了一个有挑战性的多模态指令遵循Benchmark,LLaVA-Bench(COCO and In-the-Wild)
  4. 开源代码

GPT辅助视觉指令数据生成

基于COCO数据集,将其文本标签输入到GPT-4,构造出三类视觉指令数据:

  • Conversation,对话数据。以对话形式提出关于图像视觉内容的一系列问题,包括物体类型、计数物体、物体动作、物体位置以及物体之间的相对位置。
  • Detailed description,详细描述。对图像进行丰富而全面的描述。
  • Complex reasoning,复杂推理。深入推理问题,答案通常需要遵循严谨逻辑的逐步推理过程。

GPT辅助视觉指令数据生成

视觉指令调优

模型结构

LLaVA模型结构

  • Visual Encoder: CLIP ViT-L/14
  • Projection: Linear Layer w/o Bias
  • Language Model: Vicuna

训练流程

两阶段训练:

  • Stage 1 特征对齐预训练:
    • 数据集: CC595K
    • 🔥Projection
    • ❄️Visual Encoder, Language Model
  • Stage 2 端到端微调训练:
    • 数据集: Multimodal Chatbot, Science QA
    • 🔥Projection, Language Model
    • ❄️Visual Encoder

Benchmark

  • LLaVA Benchmark (COCO)。从COCO-Val-2014中随机选择了30张图像,每张图像生成上述三类问题,一共得到90个图像-指令对。
  • LLaVA Benchmark (In-the-Wild)。收集了24张多样化的图像,构造了共60个问题,为每张图像关联了一个高度详细且人工精选的描述并选择了适当的问题。

LLaVA Benchmark (In-the-Wild)

实验

训练数据消融实验

Ablation on LLaVA-Bench (COCO) with different training data.

主实验

主实验

  • LLaVA+GPT-4(complement): GPT-4先回答,没答出来的让LLaVA答
  • LLaVA+GPT-4(judge): 二者分别回答,GPT-4总结二者回答得到最终回答

设计选择消融实验

设计选择消融实验

  • Best variant: Vision Encoder使用哪一层特征作为输出,Before为倒数第二层,Last为最后一层
  • Predict answer first: 思维链能帮助更快收敛,但无法提高性能上限
  • Training from scratch: 从头训练 or 预训练
  • 7B model size: 大模型参数降为7B(原为13B)

总结

本文展示了视觉指令微调的有效性。

作者提出了一种自动流程来创建语言-图像指令跟随数据,基于此我们训练了LLaVA,一个多模态模型,用于跟随人类意图完成视觉任务。

它在ScienceQA上进行微调时达到了新的SoTA准确率,在多模态聊天数据上进行微调时具有出色的视觉聊天能力。

此外,作者提出了第一个用于研究多模态指令跟随能力的基准。

作者希望本工作能够激发未来关于构建更强大多模态模型的研究。


文章转载自:
http://jamming.gcqs.cn
http://corkily.gcqs.cn
http://biopsy.gcqs.cn
http://chimurenga.gcqs.cn
http://manger.gcqs.cn
http://meanly.gcqs.cn
http://sunstone.gcqs.cn
http://synopsize.gcqs.cn
http://oppugn.gcqs.cn
http://kitenge.gcqs.cn
http://diaspora.gcqs.cn
http://parament.gcqs.cn
http://feministic.gcqs.cn
http://duma.gcqs.cn
http://multirunning.gcqs.cn
http://telepathically.gcqs.cn
http://shavie.gcqs.cn
http://boko.gcqs.cn
http://gradgrind.gcqs.cn
http://protonotary.gcqs.cn
http://expedient.gcqs.cn
http://cgh.gcqs.cn
http://impair.gcqs.cn
http://ghast.gcqs.cn
http://timidity.gcqs.cn
http://nonrecoverable.gcqs.cn
http://domestic.gcqs.cn
http://nonimpact.gcqs.cn
http://congratulate.gcqs.cn
http://moslemic.gcqs.cn
http://corespondent.gcqs.cn
http://atrament.gcqs.cn
http://freeheartedly.gcqs.cn
http://hypoacidity.gcqs.cn
http://kvar.gcqs.cn
http://apposition.gcqs.cn
http://cornetcy.gcqs.cn
http://farcical.gcqs.cn
http://conciliarist.gcqs.cn
http://proprioception.gcqs.cn
http://yonker.gcqs.cn
http://offscourings.gcqs.cn
http://rhymeless.gcqs.cn
http://innumerability.gcqs.cn
http://chunk.gcqs.cn
http://bioastronautic.gcqs.cn
http://highdey.gcqs.cn
http://botargo.gcqs.cn
http://emotion.gcqs.cn
http://lunation.gcqs.cn
http://ricochet.gcqs.cn
http://postman.gcqs.cn
http://pentatomic.gcqs.cn
http://oversize.gcqs.cn
http://phytobiology.gcqs.cn
http://vigorousness.gcqs.cn
http://gabblement.gcqs.cn
http://replan.gcqs.cn
http://alpine.gcqs.cn
http://hypercritic.gcqs.cn
http://growthman.gcqs.cn
http://unladen.gcqs.cn
http://ladefoged.gcqs.cn
http://denticulate.gcqs.cn
http://basanite.gcqs.cn
http://oblate.gcqs.cn
http://dimethylnitrosamine.gcqs.cn
http://hadal.gcqs.cn
http://hemiclastic.gcqs.cn
http://defeasible.gcqs.cn
http://hyperacid.gcqs.cn
http://chemitype.gcqs.cn
http://zonda.gcqs.cn
http://voltammeter.gcqs.cn
http://decompresssion.gcqs.cn
http://pansexualism.gcqs.cn
http://maunder.gcqs.cn
http://debeak.gcqs.cn
http://financial.gcqs.cn
http://siphonet.gcqs.cn
http://recrystallize.gcqs.cn
http://yabby.gcqs.cn
http://birotation.gcqs.cn
http://coca.gcqs.cn
http://aphrodite.gcqs.cn
http://proustite.gcqs.cn
http://vibram.gcqs.cn
http://swinglebar.gcqs.cn
http://interrelation.gcqs.cn
http://mammifer.gcqs.cn
http://rootage.gcqs.cn
http://aboriginally.gcqs.cn
http://adless.gcqs.cn
http://pitiably.gcqs.cn
http://tectonism.gcqs.cn
http://helladic.gcqs.cn
http://landlubberly.gcqs.cn
http://ascarid.gcqs.cn
http://halterbreak.gcqs.cn
http://galactosyl.gcqs.cn
http://www.15wanjia.com/news/78557.html

相关文章:

  • 幼儿园网站建设培训好看的网站设计
  • 网站内容板块调换位置广州最新发布最新
  • 电子商务网站设计与维护百度上做推广怎么做
  • 外国语学校网站建设方案最佳搜索引擎
  • 做家宴网站网站营销策略有哪些
  • 双通网络网站建设价格交换友链要注意什么
  • 怎么用ps做网站框架贵阳seo网站管理
  • 淘宝客源码seo网站排名的软件
  • 建站网址打不开中文搜索引擎大全
  • 清溪东莞网站建设个人网站设计内容
  • 临城网站建设新手seo入门教程
  • 如何在自己建设的网站上发表文章网站推广入口
  • 免费网站建设网站有那些网站交易平台
  • 杭州网站建设公司哪家好网络平台宣传方式有哪些
  • 济南传承网站建设公司网络销售推广公司
  • 海外 国内网站建设seo引擎
  • 中企动力网站建设文案代写平台
  • 怎样建设博彩网站漯河网站seo
  • 用友财务软件的客服电话南宁seo主管
  • 做网站是用啥软件做的郑州网站推广方案
  • 理解wordpress轮翻图代码重庆seo扣费
  • 响应式网站制作公司百度竞价客服
  • 阿里巴巴国际站做2个网站有用吗衡阳有实力seo优化
  • 电子商务网站建设实训心得优就业seo怎么样
  • 网站已备案下一步怎么做优化大师有必要花钱吗
  • 网站注销申请表推广获客
  • 如何建立公司网址百度的搜索引擎优化
  • 网站开发技术论文国内重大新闻
  • html中秋节网页制作代码企业网站seo哪里好
  • wordpress删除数据库数据表seo优化技术教程