猫眼电影
猫眼电影记者 塔尼亚 报道y85ouztigy6ysf5y
本篇论文是由南洋理工大学 S-Lab 与普渡大学提出的无分类引导新范式,支持所有 Flow Matching 的生成模型。目前已被集成至 Diffusers 与 ComfyUI。
论文标题:CFG-Zero*: Improved Classifier-Free Guidance for Flow Matching Models论文地址:https://arxiv.org/abs/2503.18886项目主页:https://weichenfan.github.io/webpage-cfg-zero-star/代码仓库:https://github.com/WeichenFan/CFG-Zero-star
随着生成式 AI 的快速发展,文本生成图像与视频的扩散模型(Diffusion Models)已成为计算机视觉领域的研究与应用热点。
近年来,Flow Matching 作为一种更具可解释性、收敛速度更快的生成范式,正在逐步取代传统的基于随机微分方程(SDE)的扩散方法,成为主流模型(如 Lumina-Next、Stable Diffusion 3/3.5、Wan2.1 等)中的核心方案。
然而,在这一技术迭代过程中,一个关键问题依然存在:如何在推理阶段更好地引导生成过程,使模型输出更加符合用户提供的文本描述。
Classifier-Free Guidance(CFG)是当前广泛采用的引导策略,但其引导路径在模型尚未充分训练或估计误差较大时,容易导致样本偏离真实分布,甚至引入不必要的伪影或结构崩塌。
对此,南洋理工大学 S-Lab 与普渡大学的研究者联合提出了创新方法——CFG-Zero*,针对传统 CFG 在 Flow Matching 框架下的结构性误差进行了理论分析,并设计了两项轻量级但效果显著的改进机制,使生成图像/视频在细节保真度、文本对齐性与稳定性上全面提升。
研究动机:CFG 为何失效?
传统的 CFG 策略通过对有条件与无条件预测结果进行插值来实现引导。然而在 Flow Matching 模型中,推理过程是通过解常微分方程(ODE)进行的,其每一步依赖于前一步的速度估计。
当模型训练不足时,初始阶段的速度往往较为不准确,而 CFG 此时的引导反而会将样本推向错误轨迹。研究者在高斯混合分布的可控实验中发现,CFG 在初始步的引导效果甚至不如「静止不动」,即设速度为 0。
方法介绍
研究者提出了 CFG-Zero*,并引入以下两项关键创新:
1.优化缩放因子(Optimized Scale):在每个时间步中动态计算有条件速度与无条件速度的内积比值,从而调整 CFG 中无条件项的强度,避免「过度引导」导致的误差。
2.零初始化(Zero-init):将 ODE 求解器的前 K 步速度置为零(默认 K=1),跳过模型最不可靠的预测阶段,有效降低初始误差传播。
这两项策略可无缝集成至现有的 CFG 推理流程中,几乎不引入额外计算开销。下面我们具体介绍该方法的细节:
优化缩放因子
首先,CFG 的目标是能够估计出一个修正的速度,能够尽可能接近真实速度:
为了提升引导的精度,研究者引入了一个修正因子 s:
基于此可以建立优化的目标:
代入化简可以得到:
求解最优值为:
因此新的 CFG 形式为:
零初始化
研究者在 2D 多元高斯分布上进行进一步定量分析,可以求解得到扩散过程中每一步的最优速度的 closed-form:
基于此,他们在训练了一个模型,并分析训练不同轮数下模型的误差,如下图所示。
研究者发现在训练早期阶段,无分类引导得到的速度误差较大,甚至不如将速度设置为 0:
他们进一步在高维情况下验证了这一观察,如下图所示。
研究者对比原始 CFG 与仅使用零初始化的 CFG,发现随着模型的收敛,零初始化的收益逐渐变小,在 160 轮训练后出现拐点,与多元高斯实验结果吻合。
实验结果
研究者在多个任务与主流模型上验证了 CFG-Zero* 的有效性,涵盖了文本生成图像(Text-to-Image)与文本生成视频(Text-to-Video)两大方向。
在图像生成任务中,研究团队选用了 Lumina-Next、SD3、SD3.5、Flux 等当前 SOTA 模型进行对比实验,结果显示 CFG-Zero* 在 Aesthetic Score 与 CLIP Score 两项核心指标上均优于原始 CFG。
例如在 Stable Diffusion 3.5 上,美学分有明显提高,不仅图像美感更强,而且语义一致性更好。在 T2I-CompBench 评测中,CFG-Zero* 在色彩、纹理、形状等多个维度均取得更优表现,特别适用于需要精准表达复杂语义的生成任务。
在视频生成任务中,研究者将 CFG-Zero* 集成到 Wan2.1 模型中,评估标准采用 VBench 基准套件。结果表明,改进后的模型在 Aesthetic Quality、Imaging Quality、Motion Smoothness 等方面均有所提升,呈现出更连贯、结构更稳定的视频内容。CFG-Zero* 有效减少了图像跳变与不自然的位移问题。
实际测试
CFG-Zero* 在开源社区中实现了快速落地。目前,该方法已正式集成至 ComfyUI 与 Diffusers 官方库,并被纳入视频生成模型 Wan2.1GP 的推理流程。借助这些集成,普通开发者与创作者也能轻松体验该方法带来的画质与文本对齐提升。
该方法可以用于图生视频。我们使用官方的 repo 用这张测试图:
输入 prompt:「Summer beach vacation style. A white cat wearing sunglasses lounges confidently on a surfboard, gently bobbing with the ocean waves under the bright sun. The cat exudes a cool, laid-back attitude. After a moment, it casually reaches into a small bag, pulls out a cigarette, and lights it. A thin stream of smoke drifts into the salty breeze as the cat takes a slow drag, maintaining its nonchalant pose beneath the clear blue sky.」
得到的视频如下:(第一个为原始 CFG 生成的,第二个为 CFG-Zero* 生成的),效果还是比较明显,值得尝试。
该方法对 Wan2.1 文生视频同样适用:(图 1 为原始 CFG,图 2 为 CFG-Zero*)
使用的 Prompt:「A cat walks on the grass, realistic.」
该方法同时兼容 LoRA:
使用的 LoRA 为:https://civitai.com/models/46080?modelVersionId=1473682
Prompt:「Death Stranding Style. A solitary figure in a futuristic suit with a large, intricate backpack stands on a grassy cliff, gazing at a vast, mist-covered landscape composed of rugged mountains and low valleys beneath a rainy, overcast sky. Raindrops streak softly through the air, and puddles glisten on the uneven ground. Above the horizon, an ethereal, upside-down rainbow arcs downward through the gray clouds — its surreal, inverted shape adding an otherworldly touch to the haunting scene. A soft glow from distant structures illuminates the depth of the valley, enhancing the mysterious atmosphere. The contrast between the rain-soaked greenery and jagged rocky terrain adds texture and detail, amplifying the sense of solitude, exploration, and the anticipation of unknown adventures beyond the horizon.」
该方法对最强文生图模型 Flux 同样支持:
使用的 Prompt:「a tiny astronaut hatching from an egg on the moon.」
该方法实现也比较简单,作者在附录中直接附上了代码,如下图:
??时事1:13学生粉嫩小泬无遮挡
??04月09日,外交部:中方对中非合作论坛建设有三方面期待,
石村的人称这株柳树为神,怎不让人震惊?这个称号不能乱用!
,宁荣荣3D❌禁漫在线看视频。??04月09日,东西问|陈东:舞剧《朱鹮》这样见证中日“朱鹮缘”,
凶鸟的巢中铺满了金丝草,很柔软,但在当中却也隐有几枚闪动冷冽金属光泽的鳞片,石大壮一个没注意,踏在了上面,鞋底都被刺穿了,脚掌流出一些血迹,还好只是划破皮而已。
,🔞裸光屁屁打屁股,人狗大战2观看的收费情况,古装舒淇五点全开。??时事2:五星视频58星币入口网站
??04月09日,冰岛西南部一座火山喷发,
1.及时联系银行 第一时间与银行联系是解决信用卡逾期问题的关键。可以通过银行的客服电话、网上银行或者直接到银行柜台进行咨询和协商。告知银行逾期的原因,并表达自己解决问题的诚意。信用卡作为一种便捷的支付工具,已经成为现代人生活中不可或缺的一部分。然而,由于各种原因,有时我们可能会遇到信用卡逾期的情况。...
??04月09日,万物皆可飞上天!老外眼中的潍坊国际风筝节,
一方面,我们要全力抓好能够发挥城市聚集效应的城市基本建设项目的实施与推进。今年,我们按照城市建设风格更加体现“江城特色”,建筑式样更加凸显“欧式风格”的总体目标,确立了康居家园、龙江华府、龙翔嘉园、学府上城等24项基本建设工程,主要目的是高标准、高质量地建设一批独具特色的精品工程,进一步改善城市发展的硬环境,全面提高城市的品位和档次。目前,这些工程正有序建设中,各单位、各部门一定要进一步明确要求,以务实创新的举措、扎实而富有成效的工作,抓好这些基本建设工程。总结起来,现正在重点实施推进的建设项目有四类。第一是行政办公楼项目,主要有行政办公区区域内的县法院办公楼和边检站营房楼工程,这两项工程为我县的东出口,位临口岸要道,设计风格为欧式现代风格,建设单位要严格按照设计施工,要在9月底完工;第二是文教卫生综合楼项目,包括县医院综合办公楼、县二中综合实验楼和县三中综合实验楼三项工程,这三项工程进入地基建设阶段,建成后将全面改善我县的就医和就学条件。其中,医院综合楼要在9月末完成,学校综合实验楼要力争在暑假开学(8月20日)前竣工并投入使用,各建设单位和施工单位在时间上要充分考虑,施工上要统筹安排,确保工程施工工期;第三是商贸服务项目有一项,也是我县近年来实施的唯一超亿元的商服项目--嘉龙国际大酒店,此工程的实施将打造成我县乃是全市标准最高、规模最大的酒店餐饮标志性建筑,对提高我县接待能力,提升城市的形象和品位将启动积极的推动作用,此项工程建设必须在下半年全面拉开;第四是住宅小区建设项目,主要是完成以康居家园、龙江华府、学府上城、嘉禾新园等为主的小区建设,不断改善居民生活居住条件。这就要求各小区开发建筑企业,在抓好建筑的同时,同步规划好、设计好各小区的绿化、硬化等配套实施建设,同步安排好投入使用后的物业管理事宜,规划和建设部门要搞好监督,争取建成一批精品示范小区。
,足疗店熟女一69A,亚洲AV18🈲️❤️在线观看,国产精品秘麻豆藏经阁。??时事3:女仆被❌吸乳脱内内的网站
??04月09日,“青山”变“金山” 浙江温州首次跨市域林业碳汇交易完成,
三、办好这次培训班的几点要求
,被男同桌摸到高潮了怎么办,XXXXXL19Dfm2021,男人扒开腿㊙️打扑克免费视频。??04月09日,《大唐狄公案》定档2月6日,优酷COO吴倩:让世界领略中国历史文化风采,
其背部裂开,出现一道金色的缝隙,皮毛分向两边,祭灵嘶吼,震的群山发颤。
,满穗同人本子涩图,永久免费看A片无码网站十九,女s丝袜圣水调教男奴。??时事4:火影忍者动漫❌爆乳❌视频
??04月09日,山东持续融入共建“一带一路” 打造境外经贸合作区,
同学们,努力吧,为缔造祖国美好的明天,为开创人生美好的未来而奋斗吧!
,蜜桃AV鲁一鲁一鲁一鲁樱花影院,闲人吧7777麻豆冰冻,欧美大荫蒂XX自慰。??04月09日,数读中国 | 我国社会物流成本水平总体保持下降态势,
同学们,特别是二月古会在即,各年级班级各位老师一定要加强安全纪律教育,政教处将对各班出勤、晚上就寝情况加大检查力度,严格门卫制度。让全体师生平安,愉快地工作、学习和生活。
,流萤同人18❌AⅤ黄漫网站,东北富婆高潮说粗话,汤唯被分腿进入的视频大全。