当前位置：首页 > news >正文

网站首页的作用廊坊seo排名优化

news 2025/7/30 7:14:25

网站首页的作用,廊坊seo排名优化,橙子建站推广,wordpress 禁用可视化概述原文地址：https://www.unite.ai/improving-green-screen-generation-for-stable-diffusion/ 论文地址：https://arxiv.org/pdf/2411.15580 尽管社区研究和投资者对图像生成人工智能充满热情，但此类系统的输出并不总是可以直接用于产品开…

概述

原文地址：https://www.unite.ai/improving-green-screen-generation-for-stable-diffusion/
论文地址：https://arxiv.org/pdf/2411.15580
尽管社区研究和投资者对图像生成人工智能充满热情，但此类系统的输出并不总是可以直接用于产品开发中；一个简单例子是，生成人工智能系统倾向于输出整个图像（或者是视频中的一系列图像），而不是目标孤立的元素，但这些通常是多媒体中的各种应用程序以及视觉效果从业者所必需的。

一个简单的例子是剪贴画被设计为“浮动”（透明背景）在用户选择的任何目标背景上：

浅灰色格子背景可能是 Photoshop 用户最熟悉的，它代表 alpha 通道或透明通道，即使在诸如库存图片之类的简单消费品中也是如此。

这种透明度已经普遍存在了三十多年；自 1990 世纪 XNUMX 年代初的数字革命以来，用户已经能够通过日益复杂的一系列工具集和技术从视频和图像中提取元素。

例如，如何从视频片段中“去除”蓝屏和绿屏背景，曾经是昂贵的化学过程和光学打印机（以及手工制作的哑光) 将成为 Adobe After Effects 和 Photoshop 应用程序等系统（以及许多其他免费和专有程序和系统）中几分钟的工作。

一旦元素被分离出来， alpha通道（实际上是遮挡任何不相关内容的遮罩）允许将视频中的任何元素毫不费力地叠加在新背景上，或与其他孤立元素合成在一起。

方法

在计算机视觉中，alpha 通道的创建属于语义分割，以及 Meta 等开源项目Segment Anything 通过语义增强的对象识别，提供一种可通过文本提示来隔离/提取目标对象的方法。

Segment Anything 框架已广泛应用于各种视觉效果提取和隔离工作流程，例如 Alpha-CLIP 项目.

在 Alpha-CLIP 框架中使用 Segment Anything 进行提取的示例

有许多可供选择的语义分割方法可以适用于分配 alpha 通道的任务。然而，语义分割要依赖于训练的数据，这些数据可能不包含所有需要提取的对象类别。尽管在非常大的数据量上训练的模型可以使更广泛的对象被识别(有效地成为基础模型或世界模型) ，但它们仍然受到它们被训练最有效地识别的类的限制。

语义分割系统（例如 Segment Anything）可能难以识别某些对象或对象的某些部分，正如这里模糊提示的输出所示。

无论如何，语义分割同样是一个事后过程如同绿屏程序，并且必须隔离元素，而没有可以有效识别和去除的单一背景色带的优势。因此，研究者偶尔会想到可以生成图像和视频实际上包含绿屏背景可以通过常规方法立即去除。

不幸的是，流行的潜在扩散模型，如稳定扩散往往有一些困难，渲染一个真正生动的绿色屏幕。这是因为模型的训练数据通常不包含这种相当专业的场景的大量例子。即使系统成功了，由于概念的纠缠，“绿色”的概念也会以一种不受欢迎的方式传播到前景主题:

上图中，我们可以看到稳定扩散优先考虑了图像的真实性，而不是创建单一强度的绿色，有效地复制了传统绿屏场景中出现的真实问题。下图中，我们可以看到“绿色”概念污染了前景图像。提示越关注“绿色”概念，这个问题就越有可能变得严重。

尽管使用了先进的方法，女人的衣服和男人的领带(见上面的下图)都会随着绿色的背景而“退出”——这个问题可以追溯到20世纪70年代和80年代光化学乳剂去除染料的时代。

与以往一样，模型的缺点可以通过向问题投入特定数据并投入大量训练资源来克服。斯坦福大学 2024 年推出的系统 LayerDiffuse创建微调能够生成带有 alpha 通道图像的模型：

斯坦福 LayerDiffuse 项目对一百万张恰当的图像进行了训练，能够为模型注入透明度功能。

不幸的是，除了这种方法需要大量的管理和训练资源外，LayerDiffuse 使用的数据集不公开，限制了在其上训练的模型的使用。即使不存在这个障碍，这种方法也很难针对特定用例进行定制或开发。

2024 年晚些时候，Adobe Research 与纽约州立大学石溪分校合作制作 MAGICK，一种针对定制扩散图像进行训练的 AI 提取方法。

来自 2024 年的论文，MAGICK 中细粒度 alpha 通道提取的一个示例

150,000 个提取的 AI 生成对象被用于训练 MAGICK，以便系统对提取产生直观的理解：

来自 MAGICK 训练数据集的样本

正如源论文所述，由于上述原因，该数据集非常难以生成——扩散方法难以创建稳定的可抠像色带。因此，必须手动选择生成的遮罩。这种后勤瓶颈再次导致系统无法轻松开发或定制，而必须在其最初训练的能力范围内使用。

TKG-DM – Latent Diffusion模型的“原生”色度提取

德国和日本研究人员之间的新合作提出了一种替代此类训练方法的方法，该论文指出，这种方法能够获得比上述方法更好的结果，而无需在专门策划的数据集上进行训练。

TKG-DM 改变了生成图像的随机噪声，使其能够更好地生成任意颜色的纯色、可抠像的背景

该方法通过优化潜在扩散模型(如稳定扩散模型)中产生图像的随机噪声，在生成层次上解决了该问题。
该方法建立在对稳定扩散分布色彩模式的研究基础上，与其他方法相比，能够产生任何类型的背景色，较少(或没有)关键背景色与前景内容的纠缠。

初始噪声由通道均值偏移决定，该偏移能够影响去噪过程的各个方面，而不会将颜色信号纠缠到前景内容中。

论文指出:
“我们的大量实验表明，TKG-DM 能够提高 FID 分数33.7% ，而掩膜 FID 分数提高35.9% 。”。
因此，我们的免训模式可以与微调模式相媲美，为各种需要精确前景和背景控制的视觉内容创建任务提供了高效和通用的解决方案。’
这篇新论文的题目是《 TKG-DM: 无需培训的色度关键内容生成扩散模型》，来自东京和凯撒斯劳滕皇家科学院法政大学研究所的7名研究人员。

实现方法

该方法扩展了稳定扩散的体系结构，通过信道均值漂移(CMS)调节初始高斯噪声，从而产生噪声模式，以鼓励所需的背景/前景分离生成的结果。

CMS 在保持去噪过程总体发展的同时，调整每个颜色通道的平均值。

作者解释道:

为了在色度键背景上生成前景对象，我们应用了一个初始噪声选择策略，使用一个2D 高斯[掩模]有选择性地结合初始[噪声]和初始颜色[噪声]。这个掩模通过保留前景区域的原始噪声并将色移噪声应用到背景区域来创建一个渐变过程。’

背景色度所需的颜色通道通过空文本提示来实例化，而实际的前景内容则是根据用户的文本指令在语义上创建的。

自我注意和交叉注意被用来分离图像的两个方面(色度背景和前景内容)。自我注意有助于前景对象的内部一致性，而交叉注意保持对文本提示的忠实性。本文指出，由于背景图像通常不那么详细和强调的世代，其较弱的影响是相对容易克服和替代的纯色样本。

色度风格生成过程中自我注意力和交叉注意力影响的可视化。

数据与测试

使用Stable Diffusion V1.5 和Stable Diffusion SDXL 测试 TKG-DM。分别在512x512px 和1024x1024px 产生图像。图像创建使用 DDIM 调度程序本机的稳定扩散，在7.5的指导尺度，与50个去噪步骤。目标背景颜色是绿色，现在占主导地位的辍学方法。新的方法是比较 DeepFloyd，在设置下使用的 MAGICK; 微调低等级扩散模型 GreenBack LoRA; 以及前面提到的分层漫射。

对于数据，使用了来自 MAGICK 数据集的3000幅图像。