当前位置: 首页 > news >正文

网站宽度设计易搜搜索引擎

网站宽度设计,易搜搜索引擎,想开发自己的网站,响应式网站自助建设大语言模型(LLMs)有着强大的摘要生成能力,为信息快速提取和处理提供了便利。从新闻文章的快速概览到学术文献的要点提炼,LLMs 生成的摘要广泛应用于各个场景。然而,准确评估这些摘要的质量却颇具挑战。如何确定一个摘要…

大语言模型(LLMs)有着强大的摘要生成能力,为信息快速提取和处理提供了便利。从新闻文章的快速概览到学术文献的要点提炼,LLMs 生成的摘要广泛应用于各个场景。然而,准确评估这些摘要的质量却颇具挑战。如何确定一个摘要是否精准、简洁且连贯,成为了研究者和开发者亟待解决的问题。本文将深入探讨评估 LLM(Agent-as-a-Judge:AI系统评估新思路) 摘要的多种方法、面临的挑战以及应对策略。

一、评估 LLM 摘要的重要性

随着 LLMs 在摘要生成任务中的应用日益广泛,评估其生成摘要的质量至关重要。优质的摘要能够帮助用户迅速把握文本核心内容,节省大量阅读时间。在学术研究中,研究者可以通过准确的文献摘要快速筛选相关资料;在商业领域,决策者能够依据精准的行业报告摘要做出明智的决策。相反,低质量的摘要可能会误导用户,导致信息获取错误,甚至影响决策的准确性。准确评估 LLM 摘要(RAG(Retrieval-Augmented Generation)评测:评估LLM中的幻觉现象),不仅有助于用户选择更可靠的摘要工具,还能推动 LLMs 自身的优化与改进,促进自然语言处理技术的发展。

二、评估 LLM 摘要的难点

(一)摘要输出的开放性与主观性

与分类、实体提取等任务不同,摘要的输出具有开放性。一个好的摘要取决于流畅性、连贯性和一致性等定性指标,而这些指标难以进行定量测量。例如,摘要的相关性在很大程度上依赖于具体语境和受众需求。对于专业人士而言,与专业知识紧密相关的内容才是关键;而普通读者可能更关注通俗易懂的信息。这种主观性使得评估标准难以统一,增加了评估的难度。

(二)缺乏高质量的标注数据集

在评估 LLM 摘要时,创建用于对比的金标准数据集十分困难。以检索增强生成(RAG)为例,可以通过合成问答对的方式轻松创建数据集来评估检索器。但对于摘要生成任务,自动生成参考摘要并非易事,往往需要人工标注。虽然已有研究人员整理了一些摘要数据集,但这些数据集可能无法满足特定应用场景的需求,导致评估结果与实际应用存在偏差。

(三)现有评估指标的局限性

学术文献中的许多摘要评估指标并不适用于实际开发场景。一些基于神经网络训练的评估指标,如 Seahorse、Summac 等,模型体积庞大,运行成本高昂,难以大规模应用。而传统的评估指标,如 BLEU 和 ROUGE,主要基于精确的单词或短语匹配,适用于抽取式摘要评估。在面对 LLMs 生成的抽象式摘要时,由于这类摘要可能会对原文进行改写和重新表述,这些传统指标的评估效果不佳。

三、优秀摘要的关键特质

尽管评估 LLM 摘要存在诸多困难,但一个优秀的摘要通常具备以下关键特质:

(一)相关性

摘要应保留原文的重要观点和细节,能够准确反映原文的核心内容。在评估时,可以从精确率和召回率的角度考虑,即摘要中保留了多少原文的事实(召回率),以及摘要中的事实有多少能在原文中得到支持(精确率)。在保持摘要长度一定的情况下,召回率越高越好,但不能为了追求高召回率而使摘要长度与原文相近;同时,精确率应尽可能接近 100%,以避免生成虚假信息。

(二)简洁性

优秀的摘要信息密度高,不会多次重复相同观点,语言简洁明了。在实际评估中,可以通过实体密度这一指标来衡量。研究表明,人工创建的摘要以及人们偏好的 AI 生成摘要,实体密度约为 0.15 个实体 / 词元。偏离这一数值的摘要,无论是密度过高还是过低,都可能存在问题。可以通过计算摘要的实体密度,并与理想值进行比较,对偏离理想值的摘要进行惩罚。还可以使用句子模糊度指标,对模糊、未明确表述关键信息的句子进行惩罚,以确保摘要简洁有效。

(三)连贯性

摘要应结构合理、逻辑清晰,易于理解,而不是简单地堆砌压缩后的事实。在评估连贯性时,可以采用平均余弦相似度的方法,计算每第 n 个句子和第 n+2 个句子之间的平均余弦相似度。该数值越高,表明摘要的连贯性越好。通过这种方式,可以从量化的角度对摘要的连贯性进行评估。

(四)忠实性

摘要不能虚构原文未提及的信息,必须忠实于原文内容。在评估过程中,需要确保摘要中的所有信息都能在原文中找到依据,避免出现虚假信息,这对于保证摘要的可靠性至关重要。

四、DeepEval 框架及其摘要评估指标

DeepEval 是一个用户友好的 LLM 评估框架,在摘要评估方面具有一定的优势。它提供了许多关键 RAG 指标的现成实现,并且拥有灵活的基于思维链的 LLM 评判工具 GEval,方便用户定义自定义标准。其基础设施有助于组织和加速评估过程,能够快速在整个数据集上运行评估。

DeepEval 的摘要评估指标是一种无参考指标,只需输入原文和待评估的生成摘要。该指标实际上评估了两个关键部分:对齐度和覆盖率。在对齐度评估中,评估器 LLM 会从摘要中生成一系列声明,并判断这些声明在从原文提取的事实中得到支持的数量,从而得出对齐度分数;在覆盖率评估中,LLM 会从原文生成一系列评估问题,然后仅依据摘要尝试回答这些问题。若无法找到答案,则提示 “idk”,最后根据回答正确的问题数量得出覆盖率分数。最终的摘要分数为对齐度和覆盖率分数中的最小值。

五、改进 DeepEval 的摘要评估指标

尽管 DeepEval 的摘要评估指标提供了一个良好的起点,但仍存在一些问题,影响了评估的可靠性和有效性。

(一)覆盖率评估问题

当前,覆盖率评估中的问题被限制为是非问题,这种方式存在局限性。一方面,二元的是非问题限制了信息的表达,难以确定细微的定性要点;另一方面,若回答问题的 LLM 虚构了 “是” 的答案,评估器可能会错误地认为回答正确。因为在只有 “是”“否”“idk” 三种可能答案的情况下,虚构 “是” 的答案的可能性较高。此外,问题的表述方式可能会暗示答案为 “是”,进一步增加了虚构答案的风险。

针对这一问题,可以让 LLM 从原文生成开放式问题,即 “复杂问题”,并为每个问题赋予重要性评分。在评估时,使用另一个 LLM 对基于摘要生成的答案与基于原文生成的参考答案进行 0 - 5 分的相似度评分,并给出解释,以此来更准确地评估覆盖率。

(二)对齐度评估问题

在对齐度评估中,从原文提取事实的过程存在缺陷。当前,使用 LLM 从原文提取事实列表时,会导致部分事实被遗漏。而且,LLM 生成的事实列表具有不确定性,这会导致对齐度分数波动较大,无法公平地评判摘要的忠实性。例如,即使摘要中的某个细节在原文中存在,但如果未被提取到事实列表中,也可能被误判为不忠实。

为解决这一问题,可将整个原文输入到评估摘要声明的 LLM 中,而不是仅输入提取的事实列表。这样,在一次 LLM 调用中评估所有声明,既能保证评估的准确性,又不会显著增加令牌成本。

(三)最终分数计算问题

目前,最终分数取对齐度和覆盖率分数中的最小值,这可能会导致问题。由于覆盖率分数通常较低,即使对齐度分数发生较大变化(如从 1 降至 0.8),也可能不会影响最终分数。然而,对齐度分数的下降可能意味着摘要存在严重问题,如虚构声明。

为解决此问题,可以将最终分数改为 F1 分数,类似于机器学习分类中的 F1 分数计算方式,以综合考虑精确率和召回率的重要性。还可以根据实际需求调整精确率和召回率的权重,例如,若非常重视避免虚构信息,则可以提高精确率的权重。

六、综合评估指标体系的构建

在改进 DeepEval 摘要评估指标的基础上,可以进一步构建一个综合评估指标体系。除了上述改进的相关性和忠实性评估指标外,还应纳入简洁性和连贯性评估指标。

(一)简洁性评估指标

  1. 实体密度

    通过计算摘要中实体数量与词元数量的比值,得到实体密度。与理想的实体密度 0.15 进行比较,对偏离该值的摘要进行惩罚。当实体密度过高时,摘要可能过于复杂;实体密度过低,则可能信息不足。

  2. 句子模糊度

    将摘要拆分为句子,使用 LLM 对每个句子进行分类,判断其是否模糊。模糊句子是指未直接提及主要观点、使用模糊表述的句子。最终以模糊句子在总句子中的比例作为句子模糊度分数,该分数越高,说明摘要中模糊信息越多,简洁性越差。

  3. 重复性

    利用 GEval 工具,以 LLM 作为评判器,判断摘要中是否存在不必要的重复信息。若存在重复的事实或主要观点,则认为摘要存在问题。在实际应用中,由于 LLM 的回答可能不稳定,需要进行提示工程优化,以提高评估的准确性。

(二)连贯性评估指标

采用平均余弦相似度方法,计算每第 n 个句子和第 n+2 个句子之间的平均余弦相似度。通过将句子转换为向量,计算向量之间的余弦相似度,进而得到连贯性分数。该分数越高,表明摘要中句子之间的逻辑联系越紧密,连贯性越好。

将这些评估指标整合为自定义指标后,可以在数据集上并行评估,一次性获取所有结果。但需要注意的是,对于一些指标,如连贯性和召回率,目前难以确定其对于摘要的 “最优” 值,只能通过比较不同 AI 生成摘要的分数来判断其优劣。

评估 LLM 摘要生成能力是一个复杂且具有挑战性的任务,需要综合考虑多个方面的因素。从摘要的相关性、简洁性、连贯性和忠实性等特质出发,改进现有评估指标,构建综合评估体系,能够更准确地评估 LLM 摘要的质量。然而,目前的评估方法仍存在一些不足之处,如部分指标缺乏明确的最优值,评估结果可能受到 LLM 本身的不确定性影响等。

未来,随着自然语言处理技术的不断发展,有望出现更先进的评估方法和技术。一方面,可以进一步优化评估指标,结合更多语义理解和上下文信息,提高评估的准确性;另一方面,探索更有效的数据集创建方法,减少人工标注的工作量,提高标注质量。还可以研究如何更好地利用多模态(MiniCPM-o 2.6:开源大型语言模型在多模态任务上超越GPT-4o和Claude 3.5)信息,如图片、音频等,辅助评估摘要质量。


文章转载自:
http://acetophenetidin.tgnr.cn
http://dignitarial.tgnr.cn
http://rebody.tgnr.cn
http://weariness.tgnr.cn
http://troublesome.tgnr.cn
http://wud.tgnr.cn
http://toney.tgnr.cn
http://erotogenic.tgnr.cn
http://formulize.tgnr.cn
http://effluvium.tgnr.cn
http://triturator.tgnr.cn
http://mollusca.tgnr.cn
http://robbin.tgnr.cn
http://recamier.tgnr.cn
http://instrumentarium.tgnr.cn
http://colic.tgnr.cn
http://generalized.tgnr.cn
http://benchboard.tgnr.cn
http://turboprop.tgnr.cn
http://oxidase.tgnr.cn
http://province.tgnr.cn
http://lolly.tgnr.cn
http://nationalize.tgnr.cn
http://sydneyite.tgnr.cn
http://literalness.tgnr.cn
http://extracanonical.tgnr.cn
http://anatropous.tgnr.cn
http://deliberatively.tgnr.cn
http://epilithic.tgnr.cn
http://danaidean.tgnr.cn
http://oreshoot.tgnr.cn
http://handcraft.tgnr.cn
http://milker.tgnr.cn
http://partially.tgnr.cn
http://dentulous.tgnr.cn
http://perigee.tgnr.cn
http://misarrange.tgnr.cn
http://unco.tgnr.cn
http://luminary.tgnr.cn
http://ganof.tgnr.cn
http://caramelize.tgnr.cn
http://scatophagous.tgnr.cn
http://sansevieria.tgnr.cn
http://cuvierian.tgnr.cn
http://parasynthesis.tgnr.cn
http://genro.tgnr.cn
http://sunkist.tgnr.cn
http://cynosural.tgnr.cn
http://brickfielder.tgnr.cn
http://dinkey.tgnr.cn
http://marmoreal.tgnr.cn
http://backkward.tgnr.cn
http://scrutiny.tgnr.cn
http://parasiticidal.tgnr.cn
http://examples.tgnr.cn
http://impenitence.tgnr.cn
http://unrestful.tgnr.cn
http://nixy.tgnr.cn
http://tonk.tgnr.cn
http://arow.tgnr.cn
http://lysosome.tgnr.cn
http://hairlike.tgnr.cn
http://elegy.tgnr.cn
http://hindward.tgnr.cn
http://defamation.tgnr.cn
http://estella.tgnr.cn
http://lobe.tgnr.cn
http://angelina.tgnr.cn
http://fusobacterium.tgnr.cn
http://demirelievo.tgnr.cn
http://finest.tgnr.cn
http://socialistic.tgnr.cn
http://precedable.tgnr.cn
http://plenism.tgnr.cn
http://evenness.tgnr.cn
http://calorescence.tgnr.cn
http://paleolimnology.tgnr.cn
http://fated.tgnr.cn
http://infractor.tgnr.cn
http://niagara.tgnr.cn
http://palytoxin.tgnr.cn
http://glutei.tgnr.cn
http://litterateur.tgnr.cn
http://adipoma.tgnr.cn
http://noseglasses.tgnr.cn
http://stockcar.tgnr.cn
http://chainbelt.tgnr.cn
http://doppie.tgnr.cn
http://presentive.tgnr.cn
http://honan.tgnr.cn
http://gawd.tgnr.cn
http://gallup.tgnr.cn
http://satyagraha.tgnr.cn
http://couloir.tgnr.cn
http://copestone.tgnr.cn
http://stramony.tgnr.cn
http://expectative.tgnr.cn
http://betting.tgnr.cn
http://diplopia.tgnr.cn
http://exochorion.tgnr.cn
http://www.15wanjia.com/news/62506.html

相关文章:

  • 二级网站收录企业推广策划公司
  • 网站备案信息被注销专业推广图片
  • 移动端网站开发教案二维码推广赚佣金平台
  • ps网页设计尺寸优化推广网站排名
  • web网站开发框架搜索引擎优化常用方法
  • 网站建设企业公众号怎么推广和引流
  • 十堰电商网站建设seo导航站
  • 网站优化怎么做效果才好如何进行网站的推广
  • 通达oa 做网站关键词规划师
  • 聊城做网站公司怎么注册自己的网站
  • 做后期哪个网站素材好百度官网入口
  • h5免费制作平台易企秀网络优化器免费
  • 网站上传到虚拟主机广东公司搜索seo哪家强
  • 域名和网站空间相互做解析百度快速排名培训
  • silverlight做的网站企业网站运营推广
  • 下载免费软件哪个网站好苏州网站维护
  • 网站开发报价合同网站批量查询
  • 母婴网站建设 社区国家市场监管总局官网
  • 牡丹园网站建设互联网哪个行业前景好
  • 怎么做自己的淘宝客网站如何做好关键词的优化
  • core wordpress青岛网站seo分析
  • 学院网站建设策划书免费广州seo
  • 浙江网站建设公司推荐优化网站界面的工具
  • 设计网站有没有版权相亲网站排名前十名
  • 网站格式图片游戏推广对接平台
  • 做的好的c2c网站如何制作小程序
  • 官方网站是指哪个网站广州建网站的公司
  • 用sublime可以做企业网站吗宣传推广图片
  • wordpress简历模板网站推广优化业务
  • 网站建设专业的公司app开发公司