当前位置: 首页 > news >正文

手机网站展示微商推广网站怎么做

手机网站展示,微商推广网站怎么做,做网站需要数据储存么,dw怎么做网站后台【大语言模型】ACL2024论文-33 Johnny 如何说服大型语言模型越狱:通过人性化 LLMs 重新思考挑战 AI 安全性的说服技巧 目录 文章目录 【大语言模型】ACL2024论文-33 Johnny 如何说服大型语言模型越狱:通过人性化 LLMs 重新思考挑战 AI 安全性的说服技巧目…

【大语言模型】ACL2024论文-33 Johnny 如何说服大型语言模型越狱:通过人性化 LLMs 重新思考挑战 AI 安全性的说服技巧


目录

文章目录

  • 【大语言模型】ACL2024论文-33 Johnny 如何说服大型语言模型越狱:通过人性化 LLMs 重新思考挑战 AI 安全性的说服技巧
    • 目录
      • 文章
      • 摘要
      • 研究背景
      • 问题与挑战
      • 如何解决
      • 创新点
      • 算法模型
        • GradSafe-Zero
        • GradSafe-Adapt
      • 实验效果
        • 重要数据与结论
      • 推荐阅读指数:★★★★☆
    • 后记


文章

Johnny 如何说服大型语言模型越狱:通过人性化 LLMs 重新思考挑战 AI 安全性的说服技巧
在这里插入图片描述https://arxiv.org/pdf/2401.06373

摘要

大型语言模型(LLMs)在常识任务上表现出色,但它们也面临着来自不安全提示的威胁。现有的检测不安全提示的方法主要依赖在线内容审核 API 或微调过的 LLMs,这些策略通常需要大量的数据收集和资源密集型的训练过程。本研究提出了 GradSafe,一种通过检查 LLMs 中安全关键参数的梯度来有效检测不安全提示的方法。我们的方法基于一个关键观察:不安全提示与遵从响应(如“Sure”)配对时,LLM 的损失梯度在某些安全关键参数上表现出相似的模式,而安全提示则导致明显不同的梯度模式。基于这一观察,GradSafe 分析提示(与遵从响应配对)的梯度,以准确检测不安全提示。我们在 Llama-2 和 GPT-3.5/GPT-4 上评估了 GradSafe,结果表明 GradSafe 在检测不安全提示方面优于经过大量数据集微调的 Llama Guard。这一优越性能在零样本和适应性场景下是一致的,我们的评估基于 ToxicChat 和 XSTest 数据集。

研究背景

随着大型语言模型(LLMs)在各个领域的应用越来越广泛,非专家用户在日常交互中也可能对 LLMs 的安全性构成威胁。尽管 LLMs 通常经过与人类价值观对齐的训练,但它们仍然容易受到各种攻击,以及安全风险的高估。此外,对于 LLM 定制服务,如果训练集中的不安全提示未被检测和过滤,模型可以被微调以表现出不安全的行为并遵从不安全的提示。因此,开发精确检测不安全提示的方法变得尤为重要。
在这里插入图片描述

问题与挑战

现有的不安全提示检测方法主要依赖在线内容审核 API 或微调过的 LLMs,这些方法需要大量的数据收集和资源密集型的训练过程。此外,这些方法可能无法准确识别不安全提示,导致 LLMs 被滥用或恶意微调。

如何解决

GradSafe 通过分析 LLMs 中安全关键参数的梯度来检测不安全提示,无需额外的数据收集和 LLMs 的微调。GradSafe 的核心观察是,不安全提示与遵从响应配对时,LLM 的损失梯度在某些安全关键参数上表现出相似的模式,而安全提示则导致明显不同的梯度模式。基于这一观察,GradSafe 分析提示(与遵从响应配对)的梯度,以准确检测不安全提示。

创新点

  1. 提出了一种新的方法,通过分析 LLMs 中安全关键参数的梯度来检测不安全提示,无需额外的数据收集和 LLMs 的微调。
  2. GradSafe 基于关键观察:不安全提示与遵从响应配对时,LLM 的损失梯度在某些安全关键参数上表现出相似的模式。
  3. GradSafe 提供了两种变体:GradSafe-Zero(零样本,基于阈值的分类方法)和 GradSafe-Adapt(适应性变体,使用逻辑回归模型进行领域特定调整)。
    在这里插入图片描述

算法模型

在这里插入图片描述
在这里插入图片描述

GradSafe-Zero

GradSafe-Zero 依赖于跨所有安全关键参数的平均余弦相似度来确定提示是否不安全。对于待检测的提示,GradSafe-Zero 将提示与遵从响应“Sure”配对,计算 LLM 的损失梯度,并与不安全梯度参考进行比较。如果得分超过预定义的阈值,则将提示识别为不安全。

GradSafe-Adapt

GradSafe-Adapt 通过训练一个简单的逻辑回归模型,并使用余弦相似度作为特征,利用训练集进行领域适应。GradSafe-Adapt 首先获得所有提示的余弦相似度,然后使用这些相似度作为输入特征来训练逻辑回归分类器,该分类器作为检测器。

实验效果

重要数据与结论
  • 在 ToxicChat 和 XSTest 数据集上,GradSafe-Zero 在无需进一步训练的情况下,超过了专门微调的 Llama Guard 以及领先的在线内容审核 APIs 的检测能力。
  • GradSafe-Adapt 在 ToxicChat 数据集上展示了出色的适应性,超过了 Llama Guard 和原始 Llama-2 模型,强调了其在领域特定适应性方面的优越性能。
    在这里插入图片描述
    在这里插入图片描述

推荐阅读指数:★★★★☆


后记

如果您对我的博客内容感兴趣,欢迎三连击(点赞,关注和评论),我将持续为您带来计算机人工智能前沿技术(尤其是AI相关的大语言模型,深度学习,计算机视觉相关方向)最新学术论文及工程实践方面的内容分享,助力您更快更准更系统地了解 AI前沿技术

http://www.15wanjia.com/news/181391.html

相关文章:

  • 深圳成品网站超市国外商业网站
  • 怎么做婚庆网站平台兴宁市住房和城乡建设部网站
  • 惠州网络公司网站建设网络舆情现状分析
  • 网站快捷导航ie怎么做微信营销的方式有哪些
  • 巡视组 住房与城乡建设部网站wordpress企业新闻
  • 自适应网站 与响应式重庆有什么好玩的地方景点介绍
  • 学做网站需要掌握哪些知识wordpress能做流量站吗
  • 建立网站需要多少钱怎么样功能型网站建设
  • 做网站经常用的术语专业的环保行业网站开发
  • 网站推广推广宁波网站建设公司比较好
  • 经营性质的网站新浪云安装wordpress
  • 网站建设 视频教程网站开发需要会什么软件
  • 做网站题材代写文案平台
  • wordpress适合外贸站wordpress网站分享朋友圈缩略图
  • 共享虚拟主机 几个网站大连大型网站制作公司
  • 遵化市有做奇麟网站的吗房地产开发公司招聘岗位
  • 网站防采集导入表格数据做地图网站
  • 自己做网站挂广告怎么赚钱欧美网站模板
  • 如何建设购物网站注册公司需要什么条件和手续
  • wordpress建什么站软文案例300字
  • 哪个大学的网站做的最好看瓯网
  • 男女做床上网站北京网站建设 专业10年
  • 网上服装商城网站建设方案策划宋祖儿在哪个网站做网红
  • 网站 注册模块怎么做美食网站开发意义
  • 昆山网站建设哪里好合肥公司门户网站制作
  • 滨海新网站建设wordpress分页分类导航插件
  • 建设部工程业绩网站计算机网站开发国外参考文献
  • 电子加工东莞网站建设免费模板网站推荐
  • 网站开发软件平台有哪些wordpress 插件下载
  • 网站建设金手指排名霸屏做销售找客户的网站