理解图像到图像和降噪过程

Invoke AI 101 教程

范叶亮 / 2025-06-14

分类: Tech101, AI, 计算机视觉 / 字数: 529 / 标签: Invoke, 图片生成, 图像到图像, image to image, 文本到图像, text to image, 降噪, denoising

本节将介绍「图像到图像」和「降噪」两个重要概念，帮助大家更好的理解 Invoke 中的画布是如何工作的，或者说生成式 AI 图片生成是如何工作的。

Bilibili

YouTube

在之前的图像生成示例中，单击按钮后，整个图像生成过程会从一张静态噪声图像开始，模型会将噪声逐步转化为最终图片，整个过程如下图所示：

将噪声图像转化成最终图片的过程称之为降噪（Denoising）。

将示例图片拖拽至画布上，选择 New Raster Layer，示例图片如下 ¹：

在图层中，可以找到 Denosing Strength 参数：

Denosing Strength 用于控制初始图片或 Raster Layer 在降噪过程中影响最终输出图片的程度。设置较高的值会使降噪过程从一个具有更多噪声数据的图片开始，此时模型会具有更高的自由度根据提示词生成新的内容。

图像到图像和文本到图像的最主要区别在于图像生成的起点。文本到图像时从纯噪声开始，并根据提示词逐步细化。图像到图像则会根据 Denosing Strength 跳过前面的一些步骤，使用提供的图像作为起点。

以 a porcelain teacup on a table 作为提示词，选择 Photography (General) 作为提示词模板，分别将 Denosing Strength 设置为 0.2 和 0.8，生成的图片和原始图片对比如下：

可以看出，较高 Denosing Strength 值可以让模型具有更高的自由度生成图片，而设置较低的 Denosing Strength 值时生成的图片仅有少量的变化。除此之外，在控制层和参考图片上也可以设置 Denosing Strength 来取得不同的效果。