bc贷

搜索 猫眼电影 融媒体矩阵
  • 山东手机报

  • 猫眼电影

  • 大众网官方微信

  • 大众网官方微博

  • 抖音

  • 人民号

  • 全国党媒平台

  • 央视频

  • 百家号

  • 快手

  • 头条号

  • 哔哩哔哩

首页 >新闻 >社会新闻

南洋理工&普渡大学提出CFG-Zero_:实现更稳健的无分类器引导方法

2025-04-12 14:13:23
来源:

猫眼电影

作者:

孙之殷

手机查看

  猫眼电影记者 郑越发 报道y85ouztigy6ysf5y

本篇论文是由南洋理工大学 S-Lab 与普渡大学提出的无分类引导新范式,支持所有 Flow Matching 的生成模型。目前已被集成至 Diffusers 与 ComfyUI。

论文标题:CFG-Zero*: Improved Classifier-Free Guidance for Flow Matching Models论文地址:https://arxiv.org/abs/2503.18886项目主页:https://weichenfan.github.io/webpage-cfg-zero-star/代码仓库:https://github.com/WeichenFan/CFG-Zero-star

随着生成式 AI 的快速发展,文本生成图像与视频的扩散模型(Diffusion Models)已成为计算机视觉领域的研究与应用热点。

近年来,Flow Matching 作为一种更具可解释性、收敛速度更快的生成范式,正在逐步取代传统的基于随机微分方程(SDE)的扩散方法,成为主流模型(如 Lumina-Next、Stable Diffusion 3/3.5、Wan2.1 等)中的核心方案。

然而,在这一技术迭代过程中,一个关键问题依然存在:如何在推理阶段更好地引导生成过程,使模型输出更加符合用户提供的文本描述。

Classifier-Free Guidance(CFG)是当前广泛采用的引导策略,但其引导路径在模型尚未充分训练或估计误差较大时,容易导致样本偏离真实分布,甚至引入不必要的伪影或结构崩塌。

对此,南洋理工大学 S-Lab 与普渡大学的研究者联合提出了创新方法——CFG-Zero*,针对传统 CFG 在 Flow Matching 框架下的结构性误差进行了理论分析,并设计了两项轻量级但效果显著的改进机制,使生成图像/视频在细节保真度、文本对齐性与稳定性上全面提升。

研究动机:CFG 为何失效?

传统的 CFG 策略通过对有条件与无条件预测结果进行插值来实现引导。然而在 Flow Matching 模型中,推理过程是通过解常微分方程(ODE)进行的,其每一步依赖于前一步的速度估计。

当模型训练不足时,初始阶段的速度往往较为不准确,而 CFG 此时的引导反而会将样本推向错误轨迹。研究者在高斯混合分布的可控实验中发现,CFG 在初始步的引导效果甚至不如「静止不动」,即设速度为 0。

方法介绍

研究者提出了 CFG-Zero*,并引入以下两项关键创新:

1.优化缩放因子(Optimized Scale):在每个时间步中动态计算有条件速度与无条件速度的内积比值,从而调整 CFG 中无条件项的强度,避免「过度引导」导致的误差。

2.零初始化(Zero-init):将 ODE 求解器的前 K 步速度置为零(默认 K=1),跳过模型最不可靠的预测阶段,有效降低初始误差传播。

这两项策略可无缝集成至现有的 CFG 推理流程中,几乎不引入额外计算开销。下面我们具体介绍该方法的细节:

优化缩放因子

首先,CFG 的目标是能够估计出一个修正的速度,能够尽可能接近真实速度:

为了提升引导的精度,研究者引入了一个修正因子 s:

基于此可以建立优化的目标:

代入化简可以得到:

求解最优值为:

因此新的 CFG 形式为:

零初始化

研究者在 2D 多元高斯分布上进行进一步定量分析,可以求解得到扩散过程中每一步的最优速度的 closed-form:

基于此,他们在训练了一个模型,并分析训练不同轮数下模型的误差,如下图所示。

研究者发现在训练早期阶段,无分类引导得到的速度误差较大,甚至不如将速度设置为 0:

他们进一步在高维情况下验证了这一观察,如下图所示。

研究者对比原始 CFG 与仅使用零初始化的 CFG,发现随着模型的收敛,零初始化的收益逐渐变小,在 160 轮训练后出现拐点,与多元高斯实验结果吻合。

实验结果

研究者在多个任务与主流模型上验证了 CFG-Zero* 的有效性,涵盖了文本生成图像(Text-to-Image)与文本生成视频(Text-to-Video)两大方向。

在图像生成任务中,研究团队选用了 Lumina-Next、SD3、SD3.5、Flux 等当前 SOTA 模型进行对比实验,结果显示 CFG-Zero* 在 Aesthetic Score 与 CLIP Score 两项核心指标上均优于原始 CFG。

例如在 Stable Diffusion 3.5 上,美学分有明显提高,不仅图像美感更强,而且语义一致性更好。在 T2I-CompBench 评测中,CFG-Zero* 在色彩、纹理、形状等多个维度均取得更优表现,特别适用于需要精准表达复杂语义的生成任务。

在视频生成任务中,研究者将 CFG-Zero* 集成到 Wan2.1 模型中,评估标准采用 VBench 基准套件。结果表明,改进后的模型在 Aesthetic Quality、Imaging Quality、Motion Smoothness 等方面均有所提升,呈现出更连贯、结构更稳定的视频内容。CFG-Zero* 有效减少了图像跳变与不自然的位移问题。

实际测试

CFG-Zero* 在开源社区中实现了快速落地。目前,该方法已正式集成至 ComfyUI 与 Diffusers 官方库,并被纳入视频生成模型 Wan2.1GP 的推理流程。借助这些集成,普通开发者与创作者也能轻松体验该方法带来的画质与文本对齐提升。

该方法可以用于图生视频。我们使用官方的 repo 用这张测试图:

输入 prompt:「Summer beach vacation style. A white cat wearing sunglasses lounges confidently on a surfboard, gently bobbing with the ocean waves under the bright sun. The cat exudes a cool, laid-back attitude. After a moment, it casually reaches into a small bag, pulls out a cigarette, and lights it. A thin stream of smoke drifts into the salty breeze as the cat takes a slow drag, maintaining its nonchalant pose beneath the clear blue sky.」

得到的视频如下:(第一个为原始 CFG 生成的,第二个为 CFG-Zero* 生成的),效果还是比较明显,值得尝试。

该方法对 Wan2.1 文生视频同样适用:(图 1 为原始 CFG,图 2 为 CFG-Zero*)

使用的 Prompt:「A cat walks on the grass, realistic.」

该方法同时兼容 LoRA:

使用的 LoRA 为:https://civitai.com/models/46080?modelVersionId=1473682

Prompt:「Death Stranding Style. A solitary figure in a futuristic suit with a large, intricate backpack stands on a grassy cliff, gazing at a vast, mist-covered landscape composed of rugged mountains and low valleys beneath a rainy, overcast sky. Raindrops streak softly through the air, and puddles glisten on the uneven ground. Above the horizon, an ethereal, upside-down rainbow arcs downward through the gray clouds — its surreal, inverted shape adding an otherworldly touch to the haunting scene. A soft glow from distant structures illuminates the depth of the valley, enhancing the mysterious atmosphere. The contrast between the rain-soaked greenery and jagged rocky terrain adds texture and detail, amplifying the sense of solitude, exploration, and the anticipation of unknown adventures beyond the horizon.」

该方法对最强文生图模型 Flux 同样支持:

使用的 Prompt:「a tiny astronaut hatching from an egg on the moon.」

该方法实现也比较简单,作者在附录中直接附上了代码,如下图:

??时事1:云缨被❌到爽羞羞漫画

??04月12日,湖南专项整治领导干部利用职权或影响力为亲友牟利,

  高度决定视野,角度改变观念,尺度把握定位。纵览公司的发展,衡量企业的长短有两把尺子。第一把是纵尺。用这把尺子量,走过的十一年里,特别是近几年取得了前所未有的成绩,值得自豪。第二把是横尺,即是横向比较。用这把尺子量,就会看到与我们同期发展的企业的巨大进步和成果。就会在比较中看到还有很多不足。

,18禁成人🍆🍑🔞漫画。

??04月12日,四川绵阳市北川县发生2.8级地震,震源深度8千米,

  所以,在日常的教学中,无论成绩好坏,老师从来没有放弃过一个学生,都是在精心地教,耐心地讲,因为相信他们都是人才。家长们也许不知道这些,但很多次我都被老师身上的敬业精神和对学生的热爱深深地感动了。有的孩子语文基础差一点,我也总是苦口婆心地对他们讲,一篇课文如果背不了,一段一段背,一课词语默不了,分开来,一行一行默。像熊佩瑶同学基础虽然不是很好,但每次早晨我在教室里她就主动来问我,刘老师我一段一段背行不,我连声说,行,行。这样的孩子不鼓励她怎么行。像向文杰同学,开始默写很困难,现在默写一课词语对他们来讲是一件很容易的事,而且特别乐意默写词语,因为他有成功的体验啊。这样的学生太多了,我是看着他们进步的,我们的家长也是看着他们进步的。我想,只要他们有信心,一天学一点,一天收获一点,一天成长一点,天天有进步,日日有收获,这就是的。我想问问大家,孩子们有这样积极进取的精神,有这样乐观向上的态度,作为家长和老师的我们,还有什么好担心的呢?还愁他们以后找不到工作,没有精彩的人生吗?所以,我们要以一万分耐心去引导他们,去鼓励他们,去相信他们。

,♥羞羞视频app♥黄版app,furry♥XXX♥Hentai,原神裸体❌挤奶羞免费网站下载。

??时事2:做运动🔞露出🍑视频软件麻豆

??04月12日,湖南凤凰古城迎客流高峰 水上舞蹈演绎《边城》故事,

  三、正视问题,抓实作风,确保今年各项任务落到实处

,ai换脸杨颖裸被❌高清网站,45番列车手游下载安装,女被多触手怪❌吸乳网站。

??04月12日,福州古村山清水秀引客来,

近年来,信用卡已经成为人们生活中不可或缺的支付工具之一。然而,由于各种原因,有时候我们可能会遇到信用卡逾期的情况。那,当我们的交通银行信用卡逾期时,是否可以协商还本金呢?交通银行信用卡逾期怎么协商还本金?下面就来详细解一下吧。 一、交通银行信用卡逾期协商还本金可以吗 有可能。 银行在面对...

,丁程鑫嗯好爽浪货腿张开,英语老师叫我去吃馒头,男男被c到爽高潮痉挛网站。

??时事3:男生把鸡鸡塞进女生屁股里软件

??04月12日,探访海关办公室里的“博物馆”:样品小宝库助力国门大安全,

  他的嘴角还沾着一些奶渍,并没有擦净,黑宝石般的大眼闪亮,加上认真的表情,让一对如精灵般的小姑娘更加喜爱了,想逗他。

,強姦乱暴を強いられる,高清无码,美女跪床❌❌被🌿。

??04月12日,福建平潭获得2025年第三十一届亚洲棒球锦标赛举办权,

  林木折断,乱石穿空,而远处那些凶寇更是枯草般飞了起来,金色气浪茫茫一片,甚是恐怖。

,草b扣b日吊少妇,彩虹版gtv全球最好g平台,91精品夜夜夜一区二区三区老板。

??时事4:17c.com班长🌿~好爽好

??04月12日,广西龙胜龙脊古壮寨开耕节爬梯田比赛趣味十足,

  生长至尊骨的部位,有对应的真血,用以孕育那块独一无二的原始宝骨,神性惊人。

,金珍妮裸体❌❌自慰网站,女大夫操女空姐黄色电影,欧美精品❌❌❌❌❌。

??04月12日,突发!日本岐阜县7车连环相撞 致12人受伤,

  小不点被白色瀑布淹没,在峭壁上只留下一个凸起的白点,但是灵觉极强,感觉到了危机,不过这一次他没有躲避,而是凭借肉身硬抗。

,奇尤影院,韩漫无删减无遮挡H漫画,妮可基德曼XXXX性视频。

【检察机关依法分别对陈罡、孙占和、荆永强决定逮捕】

【“塞中务实合作不断拓展”】

责编:李思思

审核:奥尔玛·阿里·赛福鼎清真寺

责编:梁伯彤

相关推荐 换一换

Copyright (C) 2001- Dzwww   鲁ICP备09023866号-1

Sitemap