别再瞎搞了！AI生成的核心就仨字：一致性

时间:2026-07-02 11:17:45
浏览:100
来源:越西县融媒体中心

开源地址：https://github.com/Shawn-CodeDev/Awesome-Consistency-Diffusion-Visual-Generation

不同于按文生图任务介绍, 不同于按编辑任务介绍, 不同于按个性化任务介绍, 不同于按视频任务介绍, 不同于按三维生成任务介绍, 还不同于按安全任务介绍, 研究人员试着从更基础的问题着手:

生成结果究竟需要和什么保持一致？

顺着这个问题, 原本散布于文生图、可控生成、编辑等范畴里面的研究能够被再度整合为三种关系, 生成结果跟外部条件的相符, 不同生成状态之间的相符, 以及生成内容跟人类及现实世界标准的相符。

这三种关系, 各自分别对应, 扩散生成, 从「听懂要求」这一层次, 到发展至「维持状态」的阶段, 再后到达「符合可部署标准」的地步 , 如此分成三个层次。

顺着这一框架, 研究人员进一步探讨, 一致性能够在生成流程的哪些地方得以实现, 为何现有的指标常常测不准确 , 并且在多种要求相互冲突之际, 下一代生成模型真正需要解决的是什么问题。

生成模型需要维护三种关系

三类一致性关系及其失败模式

第一种关系，是结果与用户条件之间的关系。

一段文本、一个布局、一张参考图或者一条编辑指令由用户输入, 模型对于这些要求是否真的实现了呢? 把这称作外部一致性。

外部一致性

于文生图里, 物体出现遗漏情况, 属性存在错绑现象, 数量发生错误状况, 以及空间关系呈现混乱态势, 这些统统都归属于外部一致性失败, 模型有可能理解了prompt的主题, 然而却并未将文本当中的对象、属性以及关系精准对应至视觉内容之中。

Attend-and-Excite原理

举例来说, “一只戴着皇冠的狮子”, 这并非仅仅是要求去画出狮子以及皇冠, 而且还要求皇冠能够被准确地绑定到狮子身上。要是模型仅仅画出狮子, 又或者是将皇冠放置在旁边, 就算图像本身看上去很漂亮, 那任务同样没有完成。

那些名为Attend-and-Excite、BoxDiff、GLIGEN等的方法所致力于解决的, 从本质上来说, 其实就是语言条件未曾得到充分落实这样的问题, 它们借助注意力修正、空间约束或者grounding机制, 以此来进一步加强文本单元与视觉实体之间的对应关系。

ControlNet原理

将外部条件从文本扩展到姿态、深度、边缘、布局以及参考图像的是ControlNet、T2I-Adapter和IP-Adapter , 它们尝试保证这些条件并非仅仅「被提供给模型」 , 而是切实融入去噪过程进而对最终结果产生影响。

图像编辑也归属于外部一致性范畴, 然而, 它除此之外还有着一层特别的要求, 即模型不仅仅得去执行指令, 而且还得对那些不应当发生变化的内容加以保护。

DiffEdit原理

但「把马变成斑马」这个指令, 并不表明容许模型去再次生成一整个画面。一个达标的结果, 必须要让目标对象产生改变, 与此同时, 维持原有的姿态、构图、背景以及其他区域才行。而DiffEdit、Prompt-to-Prompt和InstructPix2Pix等方法的核心差别, 就在于它们怎样去划定编辑范围, 以及怎样去降低编辑对无关内容所造成的影响。

所以, 外部一致性所留意的, 并非是模型有没有获取到条件的这种情况, 却在于这些条件可不可以在最终呈现的结果里被清晰地追踪到。

第二种关系，是多个生成结果之间的关系。

当同一个主体, 在不同图片里出现, 在不同视角下呈现, 又在不同时间中现身时, 模型是不是依然维护着同一个对象, 以及同一个世界呢? 我们把这称作内部一致性。

内部一致性

个性化生成是最直观的例子。

Dreambooth和PhotoMaker原理

DreamBooth把人物身份写入到模型参数之中, PhotoMaker以及InstantID将参考图片 encoding 成身份特征, 于推理的时候注入到生成过程里面。

有两条路线, 它们采用了不一样的技术手段, 然而解决的却是同一个问题: 在背景、姿态、动作以及风格出现变化的情况下, 究竟哪些信息需要保持稳定, 以此才能让人们依旧认定这是同一个主体呢?

此处得对外观复制与身份持续加以区分, 复制参考图里的一张脸相对而言较为轻松, 而在视角、姿态以及场景发生改变之后, 仍旧维持人物的脸部结构、发型、服装、配饰还有角色特征, 这其中存在着困难。

SyncDreamer原理

关于同一个问题, 多视图生成把它推进到了三维层面, 模型并非仅仅能生成若干张彼此相似的图片, 而是必定要让这些图片可以由一个共同的几何结构去解释, Zero - 1 - to - 3透过参考图以及相机变化来预测新视角, SyncDreamer和MVDream则是在特定过程里联合多个视角, 从而使它们共享中间状态。

AnimateDiff和StoryDiffusion原理

针对视频以及故事生成而言会面对与之类似的问题, 仅仅是共享状态朝着时间的方向所进行的延伸, AnimateDiff凭借运动模块构建起短程的帧间联系, StoryDiffusion、TaleCrafter等方法更进一步尝试去维护角色、服装、场景以及事件的状态。

从这般角度去看, 视频生成并非是持续生成好多张图片, 而是于持续回答一个状态方面的问题。

前面已经发生了什么，接下来允许发生什么？

哪怕模型欠缺持久状态, 就算每一帧看起来都足够逼真, 长序列依旧会出现身份漂移, 呈现出物体消失的状况, 有动作断裂的现象, 以及出现事件矛盾。

第三种关系

不是源于当下的prompt, 也并非仅仅存在于各异的生成结果彼此之间, 而是源自系统默认理应遵循的那种评价标准, 并且把它称作规范一致性。

规范一致性

一张图, 能够全然契合prompt, 能够于各异场景里维持人物身份, 然而, 它依旧有可能不符人类偏好, 有可能含有不安全内容, 或者相悖于基本的物理以及因果规律。

存在这样一种情况, 偏好优化、安全生成以及物理世界建模, 表面来看, 分别属于不同的研究方向, 然而, 它们却共同拥有一个结构, 这个结构呈现为, 模型必须要和某种长期发挥作用的标准维持一致。

Diffusion-DPO原理

像 ImageReward、HPS 以及 VisionReward 这些方法, 其方向是尝试从人类的选择当中去学习, 学习的内容是「什么样的结果于各方面综合效应来讲是更优良」。而 Diffusion-DPO、FlowGRPO 还有 DiffusionNFT 这一系列方法, 它们所要做的, 是进一步借助这些已经获取到的信号, 进而对生成模型实施优化举措, 以此达成更好的效果。

安全方法则借由训练目标开展, 进行参数编辑, 借助采样引导或者实施输出过滤, 以此降低危险内容的生成概率。

物理以及因果一致性所留意的是属于别的种类的标准, 视频有可能在运动方面显得平滑, 并且画面看起来逼真, 然而却会出现物体穿透的情形, 或者重力失效的状况, 又或者状态跳变的现象, 甚至因果倒置的情况, PhyBench、VideoPhy、PhyGenBench等这类基准恰恰是为了将这类传统图像质量指标没办法发现的问题给暴露出来。

小结

三种关系并不是互相排斥的任务标签

一种个性化编辑系统常常同时得遵循编辑指令, 维持人物身份, 且满足安全与审美标准。一个长视频系统既得依照文本脚本去生成内容, 又要维护人物以及场景状态, 还得确保事件演化契合基本物理规律。

因此，三种一致性更像三个观察角度：

一致性写入生成流程的不同位置

优化扩散模型生成一致性的几个位置

晓得模型所要维系的那些关系之后, 接下去的问题就是: 这般的关系应当于何处予以强化呢?

虽现有方法数量极为庞大, 不过大体上能够放进一条扩散生成流水线里作理解。

有一些方法, 其在训练阶段会对数据以及目标函数作出改变, 会把身份、偏好、安全或者结构约束直接写入到模型参数当中。这些方法一般具备较强的持续性, 然而却需要进行额外训练 , 并且还有可能对模型的其他能力产生影响。

存在一些方法, 其应用于条件接口, ControlNet、T2I-Adapter、GLIGEN以及IP-Adapter所关注的内容为, 文本、布局、姿态、深度以及参考图究竟是怎样被编码的, 还有这些信号又是以何种方式进入扩散模型的, 它们的核心目标在于, 使外部条件成为生成过程里的有效约束, 而非仅仅只是一个弱提示而已。

去噪轨迹直接被另一类采用的方法干预, Attend-and-Excite对注意力里被忽略的文本概念作出检查, Prompt-to-Prompt把控编辑进程中的注意力改变, 而BoxDiff借助空间目标校正中间latent, 这类方法不一定非得重新训练模型, 然而当干预过于强悍时, 视觉质量、多样性或者采样效率有可能会降低。

在身份、多视图以及视频任务之下, 单单修正单一的生成轨迹常常是不足够的。模型要求多张图片、多个相机视角或者多个视频帧去共同分享特征、注意力、中间状态或者外部记忆。在这个时候, 一致性并非属于单个样本, 而是属于整个联合生成过程。

最终, 存在诸多方法, 这些方法不对生成器自身进行修改, 而是在生成结束以后, 运用奖励模型、安全过滤器、重排序器或者物理验证器来筛选结果。这般方式易于接入现有的系统, 然而它主要是处理已然产生的错误, 却无法从根源上改变模型生成不一致内容的倾向。

五类位置说明，一致性不对应某个万能模块。

它能够被写入参数, 能够借助条件注入, 能够于去噪进程里修正, 还能够经由多个样本的联合生成或者事后验证予以维持。

不同的位置相互搭配是可行的。然而, 搭配的数量一旦增多, 新出现的问题便愈发显著: 并不相同的模块之间, 有可能在同一时间对同一组特征进行修改, 甚至会给出彼此互相对立, 存在矛盾的要求。

为什么现有评价经常测不清一致性

一致性的评估方法

在一致性研究里, 存在着一个常见的误区, 这个误区在于, 试图去找到一个总分, 而这个总分要能够概括全部的能力。

然而, prompt忠实度, 与身份保持、时间连续性、安全以及物理合理性并非同一类属性。更为关键的是, 它们甚至无法在同一观察对象之上进行测量。

一致性方面的Prompt, 通常是针对让一张图片与一段文本进行比较, 图像这一内容的编辑事项, 则是需要针对编辑之前以及编辑之后的图像来展开比较的。

身份一致性需观察由同一主体生成的结果。

多视图一致性必须同时检查多个视角。

视频和故事一致性则需要沿时间追踪人物、物体和事件状态。

因此, 诸多评价失败, 并非是由于指标欠缺先进, 而是源于观察单位选取有误。

在单张图片里, 不存在「跨帧身份漂移」此问题。另外，两张相邻视频帧看上去平滑, 这并不能证明在几十秒之后, 角色以及场景仍旧保持一致。再者, 即使人脸相似度非常高, 也并不意味着服装、配饰以及角色属性不存在变化。还有, 即便图文相似度极为高, 同样不意味着对象数量以及空间关系是正确的。

评价一种一致性，至少需要明确四件事：

所以, 一致性评价并非是去寻觅一个具有广泛适用性的万能指标, 而是要构建起一个能够涵盖不同层面关系的评价组合。

一个值得信任的生成系统, 不应当仅仅汇报「整体表现更佳」, 而应当阐述它于哪些约束层面获得了提升, 还应当表明它在哪些能力方面付出了代价。

一致性并不是越强越好

如果三种一致性都很重要，一个自然想法是把它们同时加强。

真实情况是，不同一致性之间经常发生冲突。

更严谨地去执行prompt, 或许会逼迫模型生成那种不自然的构图, 进而致使审美质量有所降低。更强力度的身份绑定能够减少人物漂移现象, 然而也有可能将服装、背景以及姿态一并加以锁死, 从而使得人物在编辑方面变得困难。

能减少视频闪烁的更强跨帧共享, 可能会限制运动幅度, 致使结果显得僵硬。可降低危险内容的更激进安全擦除, 却有可能在一定程度上对正常概念以及无害请求造成误伤。适合机器人与仿真的严格物理约束, 不一定适合超现实主义和开放式艺术生成。

所以, 真正在一致性方面存在困难的部分, 并非是将某一个单独的指标达成最高，而是当多个目标一同出现之际, 去处理它们相互之间的关系。

系统得晓得, 哪些条件是必定要达致的硬性限制, 哪些仅仅是能够予以调节的软性喜好, 需作检测, 不同条件有无产生冲突, 且得表明, 为了促使某一目标提升而舍弃了啥。

当下, 多数的方法仍旧是围绕着单个目标予以设计的, 其中, 一个模块专门负责身份, 一个模块专门负责姿态, 一个模块专门负责安全, 另外还有一个奖励模型负责美学方面事宜, 而将这些模块连接到同一个系统之上, 并不会自动地产生协调效果。

这同样是一致性研究接下来那个阶段最为紧要厉害的问题, 就是要从逐个分别去强化各种不一样的约束, 朝着那种能够做到理解、能够进行解释并且还能够处理约束冲突的生成系统发展。

从「高质量生成」走向「可靠生成」

在过去的几年当中, 视觉生成的主要目的在于, 使模型生成更为真实的内容, 更为清晰的内容, 以及更为美观的内容。

模型必须学会维护三类关系：

它得依照用户给出的条件来遵守, 得记住自身已然建立的主体以及世界状态, 还得在用户未逐条说明之际, 依旧符合安全、偏好、物理和因果标准。

这要求未来的生成模型具备几种今天仍然不足的能力。

首先, 存在着冲突感知这一情况。模型并非仅仅能够接纳多个条件, 它还得明白这些条件在何时呈现出相互矛盾的态势, 进而还要清楚应当怎样去确定其优先级。

第二, 存在着一种状态, 它是持久的, 然而又是能够被编辑的。人物的身份, 以及场景的结构, 还有故事的历史, 这些都需要被稳定地保存起来, 可是这些状态又绝对不可以僵化到没有办法被新的指令去修改。

第三, 属于可解释评价, 系统并非仅仅输出一个总分, 而是要能够阐述自身在哪儿种一致性方面, 取得成功或者遭遇失败。

其四, 是从视觉相关性迈向世界结构, 关于视频、世界模型以及具身智能, 单单生成连续像素是不够格的, 模型还得维护对象、状态、动作、物理关系以及因果演化。

因而, 一致性并非是在生成质量以外的额外要求。它更近似于一条划分界限: 一边是能够产出漂亮样本的生成模型, 另一边是能够于复杂状况下长久、稳定、可操控地开展工作的生成系统。

结语

从「美观」到「可靠」

回顾一下扩散视觉生成的发展历程, 在过去的这些年当中, 其核心方面所取得的进步大概主要是在这么一个维度之上: 模型逐渐地越发擅长去生成那种局部呈现出真实状态、视觉效果较为精致的内容。然而, 当此项任务从仅仅生成单张图像, 扩展到涉及复杂提示词、图像编辑、个性化、多视图、长视频以及世界建模等多项内容的时候, 仅仅依据视觉质量, 就已经没办法充分判断一个系统是不是真的把任务给完成了。

有这样一个结果, 它在像素层面能够近乎达到完美的程度可称无几, 然而但对于语义, 或者身份, 还有时间、空间或者物理关系这些方面来说, 它却是全然错谬的。生成模型面对的关键问题, 正从那种“能不能去生成”逐步转变成“能不能持续保持正确的关系”这样的情况。

这同样是本文所提一致性视角的根本意义所在, 外部一致性要求模型对用户条件予以负责, 确保文本、结构、参考图像以及编辑指令在结果里能被精准落实, 内部一致性要求模型对自身已构建的状态负责, 让人物、场景、几何与事件不会因视角或时间随意漂移, 规范一致性要求模型对更广泛的评价标准负责, 即便用户未逐一声明, 系统依旧要遵循偏好、安全、常识、物理以及因果约束。

三者各自对应生成系统的控制能力, 三者各自对应生成系统的记忆能力, 三者各自对应生成系统的世界约束能力, 且三者共同构成了生成模型从视觉工具走向可靠系统的基础。

站在这个角度去看, 一致性并非是放置在图像质量之外顺带拥有的又一项指标, 而是一种能够换个方式重新理解生成任务的途径, 它向我们发出警示, 那就是生成的质量从本质上来说并非是单个样本独自具备的那种孤立的属性, 而是输出和条件之间、输出与输出之间、输出和评价标准间的一组关系。

很多过去被分开来讨论的问题, 提示词遗漏, 身份漂移, 视频闪烁, 多视图矛盾, 安全失效, 物理错误, 并非相互独立, 而是在不一样的尺度上, 暴露出了同一个缺陷, 模型能够产生合理的局部表象, 却缺少稳定维护全局约束的能力。

这同样说明了为何一致性没办法借助一个统一的模块或者一个总分的方式去解决, 不同的关系在训练目标、条件接口、去噪轨迹、跨实例状态以及输出验证等不同的地方需要得到约束, 并且也需要单图、图像对、集合、视角组以及长序列等不同的观察单位来进行评价。

往后真正能够让人信赖的评估系统, 不可以只是单单告知我们模型展现出某种情况是「整体呈现出更优的态势」, 而是应当要清晰确切地说明其遵循的具体是哪些关系, 在哪些关系当中存在不足之处, 以及为了达成提升其中一种一致性所做出的牺牲是在哪些其它方位出现了能力缩减的状况。

有更深层的挑战存在, 那就是, 不同的一致性目标, 并非总是朝着相同方向一致行进。更强的提示词约束, 有可能损害美感；更稳定的身份绑定, 其结果可能是降低可编辑性；更紧密的时间耦合, 或许会压缩运动多样性；更严格的安全或物理约束, 同样可能对正常能力与开放式创造形成限制。

所以, 下一阶段的研究重点, 不应该仅仅是持续去强化单个约束, 而是要促使模型具备能够识别冲突的能力, 拥有表示优先级的本事, 还得保留长期状态, 并且要在不同任务以及用户需求的情形下, 做出可解释的权衡才行。

要是讲以往的生成模型关键所学是「怎样去生成一幅看上去合乎情理的画面」, 那往后的生成系统就得做进一步去学, 即是: 什么得维持不变, 什么能够被改动, 哪些状态得长久记住, 哪些约束在出现冲突时该优先考虑, 以及一回生成举动在后续世界上会生发出什么影响。

仅在模型能够稳定地回答这些问题时, 视觉生成才会切实从高质量内容合成, 朝着可控制、可持续、可验证的智能生成迈进。

参考资料：

https://www.preprints.org/manuscript/202606.0870/v1

别再瞎搞了！AI生成的核心就仨字：一致性

爱情有烟火大结局，最信任的人竟是最狠的狼，细思极恐

2万亿蒸发！科技巨头疯狂烧钱AI，终于把自己烧成了灰？

金特务男主忍到刀都卷刃，这憋屈剧看得我血压直接飙上180

国产算力终于站起来了！异算方舟一出手，算法壁垒直接粉碎

领导落马，他宣讲的反腐要求会作废吗？答案是……