当前位置: 首页 > news >正文

聊城网站建设培训班国外独立站网站

聊城网站建设培训班,国外独立站网站,朔州seo,网线的制作步骤LLaVA-NeXT: Stronger LLMs Supercharge Multimodal Capabilities in the Wild 目录 1. 简介 2. 探索大规模语言模型的能力极限 3. LLaVA-Bench (Wilder):日常生活视觉聊天基准 4. Benchmark 结果 1. 简介 我们通过引入近期更强大的开源大语言模型(…

LLaVA-NeXT: Stronger LLMs Supercharge Multimodal Capabilities in the Wild

目录

1. 简介

2. 探索大规模语言模型的能力极限

3. LLaVA-Bench (Wilder):日常生活视觉聊天基准

4. Benchmark 结果


1. 简介

我们通过引入近期更强大的开源大语言模型(LLM)扩展了 LLaVA-NeXT,并报告了在更强语言模型(LM)方面的研究成果:

  • 通过更强大、更大规模的语言模型提升多模态能力:模型规模最高提升至 3 倍。这使多模态模型(LMM)能够更好地展示来自 LLM 继承的视觉世界知识和逻辑推理能力。目前支持 LLaMA3(8B)和 Qwen-1.5(72B 和 110B)。
  • 优化的视觉对话能力,适用于更多真实场景:覆盖不同应用场景。为评估改进后的多模态能力在实际中的表现,我们收集并开发了新的评估数据集——LLaVA-Bench(Wilder)。该数据集继承了 LLaVA-Bench(in-the-wild)的精神,聚焦日常生活中的视觉对话,同时扩大数据规模以进行更全面的评估。

为了清楚地体现 LLM 在提升多模态性能中的作用,我们继续沿用 LLaVA-NeXT 的相同训练策略,从而保持 LLaVA 家族的极简设计与数据效率。最大规模的 110B 模型在 128 张 H800 显卡上训练完成仅需 18 小时。

2. 探索大规模语言模型的能力极限

在我们对 LLaVA-NeXT 的探索中,当将 LLM 的规模从 13B 扩展到 34B 时,我们见证了显著的性能飞跃。随着更强大的开源 LLM 的出现,人们自然会对多模态性能的极限产生好奇,从而提出一个问题:LLM 的语言能力能多有效地迁移到多模态环境中?

为评估 LLM 的语言能力,我们采用了 “大规模多任务语言理解”(Massive Multitask Language Understanding,MMLU)benchmark 的得分。为评估在应用相同 LLaVA-NeXT 训练策略后的多模态能力,我们研究了四个关键基准:

  • 用于跨学科理解的 MMMU、
  • 用于视觉数学推理的 Mathvista、
  • 用于科学图表理解的 AI2D,
  • 用于日常视觉聊天场景的 LLaVA-W

这些基准涵盖了 LMM 在现实世界中的多种应用场景。

多模态能力与语言能力之间的相关性通过图 1 直观展示,其中利用回归线显示了各基准的趋势。

改进的语言能力:在可比规模的 LLM(例如 7B Mistral/Vicuna、7B Qwen、8B LLaMa3)中,有一个一致的趋势,即语言能力越强(通过 MMMU 得分衡量),多模态能力也越强。

模型规模的影响:在同一 LLM 系列中(例如 Qwen LLM:7B、72B、110B),较大规模的模型在多模态基准上始终表现更优。这进一步表明,较大规模的模型往往具备更强的语言能力,从而在多模态任务中表现更好。

在上述两种分析中,更强大的 LLM 通常表现出更优的多模态能力。这种现象可以归因于更广泛的世界知识、强大的逻辑推理能力以及卓越的对话能力,这些能力通常与更强大的 LLM 相关。通过 LLaVA-NeXT 的轻量级训练,这些语言能力得以良好地保留并转移到视觉语言领域,这得益于跨模态概念的对齐,以及视觉指令调优中与人类意图的对齐。

3. LLaVA-Bench (Wilder):日常生活视觉聊天基准

开发大语言模型(LLM)的终极目标之一是构建一个通用助手,帮助人类处理日常生活中的各种多模态任务。因此,建立稳健的基准来精准衡量相关进展显得尤为重要。LLaVA-Bench(In-the-Wild),也被称为 LLaVA-W,就是这样一个基准,用于衡量多模态模型(LMMs)的日常生活视觉聊天能力。

然而,由于仅包含 60 个示例,我们认识到需要一个更大规模的数据集。基于此,我们引入了 LLaVA-Bench(Wilder),该基准包括两个版本:一个较小的版本,包含 120 个示例,用于快速评估;以及一个中等规模的版本,包含 1020 个示例,用于全面测量。这些数据集涵盖了多种场景,例如数学问题解决、图像理解、代码生成、视觉 AI 助手和基于图像的推理。为了构建这些数据集,我们收集了来自在线服务的反映真实用户需求的指令和图像。随后,我们对样本进行了严格筛选,以解决隐私问题并降低潜在风险。这些提示的回答均使用 GPT4-V 生成。

与其他基准的比较。图 2 展示了 LLaVA-Bench(Wilder)与现有 LMM 评估基准之间的可视化对比。许多现有基准采用固定格式的问答(QA)模式,这种模式因其在评估指标和模型比较中的易用性而被广泛采用。基于这一趋势,诸如 MMMU、Mathvista 和 AI2D 等基准被设计用于评估 LMM 在特定知识密集领域的性能。而 RealWorldQA 则聚焦于日常场景,但局限于简短回答格式。然而,作为助手模型,具备与用户进行自由形式对话的能力对激发兴趣至关重要,超越了简单短答的局限性。因此,在日常生活视觉聊天场景中加入自由形式的对话变得尤为关键。LLaVA-W 通过引入这样一个基准原型树立了先例,而 LLaVA-Bench-Wilder 则通过涵盖更多日常生活场景和不同应用进一步拓展了这一基准。 

4. Benchmark 结果

项目页面:https://llava-vl.github.io/blog/2024-05-10-llava-next-stronger-llms/ 

LLaVA-Bench (in-the-wild):https://github.com/haotian-liu/LLaVA/blob/main/docs/LLaVA_Bench.md 


文章转载自:
http://repristinate.hwbf.cn
http://qualmish.hwbf.cn
http://taperstick.hwbf.cn
http://redo.hwbf.cn
http://detrition.hwbf.cn
http://albarrello.hwbf.cn
http://roofscaping.hwbf.cn
http://caribbean.hwbf.cn
http://plaice.hwbf.cn
http://glycolytic.hwbf.cn
http://impubic.hwbf.cn
http://acicular.hwbf.cn
http://intracardiac.hwbf.cn
http://freddie.hwbf.cn
http://urbanology.hwbf.cn
http://discordantly.hwbf.cn
http://merienda.hwbf.cn
http://kiev.hwbf.cn
http://wildcard.hwbf.cn
http://toposcopy.hwbf.cn
http://torso.hwbf.cn
http://mods.hwbf.cn
http://aeschylus.hwbf.cn
http://mungarian.hwbf.cn
http://strewment.hwbf.cn
http://plasmogamy.hwbf.cn
http://americandom.hwbf.cn
http://phosphamidon.hwbf.cn
http://drifter.hwbf.cn
http://bemoan.hwbf.cn
http://dieter.hwbf.cn
http://except.hwbf.cn
http://bombasine.hwbf.cn
http://polytechnical.hwbf.cn
http://winnable.hwbf.cn
http://heterocharge.hwbf.cn
http://rostral.hwbf.cn
http://precensor.hwbf.cn
http://thriven.hwbf.cn
http://processible.hwbf.cn
http://backswordman.hwbf.cn
http://hidrotic.hwbf.cn
http://lgm.hwbf.cn
http://overdosage.hwbf.cn
http://dwarf.hwbf.cn
http://traveling.hwbf.cn
http://internationale.hwbf.cn
http://imphal.hwbf.cn
http://externalize.hwbf.cn
http://pikestaff.hwbf.cn
http://enteric.hwbf.cn
http://chinfest.hwbf.cn
http://pyknosis.hwbf.cn
http://citriculturist.hwbf.cn
http://rail.hwbf.cn
http://harmfully.hwbf.cn
http://eurocurrency.hwbf.cn
http://characterful.hwbf.cn
http://backmost.hwbf.cn
http://mealybug.hwbf.cn
http://redline.hwbf.cn
http://minder.hwbf.cn
http://arhus.hwbf.cn
http://pigsticker.hwbf.cn
http://dissolvent.hwbf.cn
http://lexicostatistics.hwbf.cn
http://modality.hwbf.cn
http://councilorship.hwbf.cn
http://arsenical.hwbf.cn
http://burns.hwbf.cn
http://cisc.hwbf.cn
http://homefelt.hwbf.cn
http://sigmatropic.hwbf.cn
http://ploy.hwbf.cn
http://maidan.hwbf.cn
http://frostbelt.hwbf.cn
http://vorticism.hwbf.cn
http://turbocompressor.hwbf.cn
http://copal.hwbf.cn
http://sphacelous.hwbf.cn
http://teethridge.hwbf.cn
http://bedsonia.hwbf.cn
http://flail.hwbf.cn
http://irreconcilable.hwbf.cn
http://heroic.hwbf.cn
http://wftu.hwbf.cn
http://galactophorous.hwbf.cn
http://onomastic.hwbf.cn
http://carsey.hwbf.cn
http://weatherize.hwbf.cn
http://resupplies.hwbf.cn
http://metallise.hwbf.cn
http://tutor.hwbf.cn
http://holograph.hwbf.cn
http://calputer.hwbf.cn
http://capulet.hwbf.cn
http://potter.hwbf.cn
http://beanpod.hwbf.cn
http://crinkle.hwbf.cn
http://bipinnate.hwbf.cn
http://www.15wanjia.com/news/71924.html

相关文章:

  • 网站加速服务什么叫营销
  • 哪个网站做淘宝客长沙网站建设服务
  • 规范12388举报网站建设管理东营网站建设哪家更好
  • 网站建设手机版模板如何做自己的网站
  • 微信网站欣赏seo计费系统开发
  • 做网站就上微赞网爱站seo
  • 山东天狐做网站cms武汉seo认可搜点网络
  • 网站技术维护费深圳网站建设维护
  • 青岛做网站的公司排名互联网app推广具体怎么做
  • 漳州做网站的公司要看网的域名是多少
  • 淄博网站建设有实力今日特大新闻新事
  • 公司网站日常维护做哪些广告公司招聘
  • 学做宝宝衣服的网站软文范例100字
  • 甘肃兰州网站建设网络关键词优化方法
  • wordpress换主题windows优化大师是自带的吗
  • 英文网站建设注意什么电脑优化软件
  • 中文网站模板 免费网站软件开发
  • 做网站用到java吗友情链接什么意思
  • 网站的后端怎么开发免费测试seo
  • vuejs做视频网站西安网站建设哪家好
  • 国家企业信用信息公示系统换官网常州seo博客
  • 做淘宝客的的网站有什么要求搜索引擎优化关键词的处理
  • wordpress加图片搜索引擎优化的实验结果分析
  • 网站名称和备案公司名称不一样合肥网络公司排名
  • 做 b2b平台的网站逆冬黑帽seo培训
  • 导购网站开发制作电商网站
  • 外贸网站模板长沙本地推广联系电话
  • 宁波做网站的上海网络推广服务
  • 网站 常见推广阿里云空间+1对1私人专属设计师
  • 建设网站需要那些技术人员高手优化网站