猫眼电影
猫眼电影记者 瓦尔斯 报道y85ouztigy6ysf5y
作者 | 王兆洋邮箱 | wangzhaoyang@pingwest.com
Llama4 来了。
4月5日,Meta发布了外界期待许久的Llama4系列开源模型,目前它包括Llama 4 Scout、Llama 4 Maverick和Llama 4 Behemoth。三种模型对应不同的使用需求,简单来说:
Llama 4 Scout是可以在单张H100上跑的多模态MoE模型,
Llama 4 Maverick是击败了GPT-4o 和 Gemini 2.0,比DeepSeek v3小但编码和推理能力匹配的“最佳模型”,
还有一个即将发布的、隐藏在后为所有Llama4系列提供能力的2880亿活跃参数“巨兽”模型Llama 4 Behemoth。
根据它官方发布的介绍,此次Llama4有几个重要的技术亮点。
MoE架构:此次是Llama首次采用混合专家架构,任务执行时仅激活部分参数(如Maverick总参数4000亿,活跃参数170亿),显著提升训练和推理效率。
多模态融合:早期融合(Early Fusion)策略统一处理文本、图像、视频,突破传统多模态模型的分阶段处理限制。
超长上下文:Scout支持1000万Token上下文窗口(约2000万字文本或20小时视频),通过iRoPE架构实现“短序列训练,长序列泛化”。
部署上,Scout支持单张H100 GPU运行(Int4量化后),Maverick需H100 DGX集群,Behemoth则夸张地使用了32000块GPU训练。
后训练策略:采用“轻量级SFT → 在线RL → 轻量级DPO”流程,减少对齐约束,增强模型探索能力。 引入“自我批判式数据筛选”,利用早期模型Check point检查点过滤低质量训练样本,提升最终性能。
由于Behemoth这个巨大参数的模型此次并没有正式发布,另外两个模型并没有太过让人震惊的突破——尤其在刷新评测榜单这件事已经没那么重要的今天,人们对Llama4的期待在于它的技术思路上是否有新玩意。
从目前官方给的说明来看,它自己总结的几个重要的创新在于:
原生多模态的预训练融合方法
Llama 4 模型设计为原生多模态,通过早期融合(early fusion)无缝整合文本和视觉标记到统一的模型主干中。早期融合是一大进步,使 Llama 能够联合预训练大量未标记的文本、图像和视频数据。Llama 还改进了 Llama 4 的视觉编码器——基于 MetaCLIP——但与冻结的 Llama 模型联合训练,以更好地和LLM结合。
优化MoE专家超参数设置的MetaP;
Llama 开发了一种新训练技术 MetaP,能够可靠设置关键模型超参数,如每层学习率和初始化规模。Llama 发现所选超参数在不同batch size、模型宽度、深度和训练token数中可以很好的匹配。Llama 4 通过在200种语言上预训练(包括超过100种每种超过10亿token的语言),总体的多语言训练token比 Llama 3 多10倍。
对注意力机制做改进,从而突破上下文能力的iRoPE架构;
Llama 4 架构的一个关键创新是使用了交错注意力层,且不使用位置嵌入(positional embeddings)。此外,我们还采用了推理时注意力温度缩放( inference time temperature scaling of attention)来增强长度和泛化。我们将这种架构称为 iRoPE 架构,其中“i”代表“交错”注意力层,突出了支持“无限”上下文长度的长期目标,“RoPE”则指在大多数层中使用的旋转位置嵌入。
SFT、RL和DPO使用搭配上的新配方
在 Llama 4 中,Llama 通过采用不同方法重构了后训练流程:轻量级监督微调(SFT) > 在线强化学习(RL) > 轻量级直接偏好优化(DPO)。关键经验是,SFT和DPO可能过度约束模型,限制在线RL阶段的探索,导致推理、编码和数学领域的次优准确性。 后训练一个拥有2万亿参数的模型也是一大挑战,需要 Llama 彻底改造配方,从数据规模开始。为最大化性能,Llama 不得不修剪95%的SFT数据(相比小型模型的50%),以实现质量和效率的必要关注。为2万亿参数模型扩展RL还需要 Llama 改造底层RL基础设施,因其规模前所未有。Llama 优化了MoE并行设计以提高速度,加快了迭代。Llama 开发了一个完全异步的在线RL训练框架,增强了灵活性。与牺牲计算内存以在内存中堆叠所有模型的现有分布式训练框架相比,Llama 的新基础设施支持将不同模型灵活分配到单独GPU上,根据计算速度平衡多个模型的资源。这一创新使训练效率比前几代提高了约10倍。
这些创新与大家对今天开源模型竞赛的预期相比,可能会略微让人失望。
原生多模态的做法基本依然是行业的常规操作——把其他模态与最强的语言模态在token层面上统一;MetaP背后强调的不同尺寸的高效转化,让人想到诸如面壁智能提出的“densing law”,如何在小一点的参数上做实验,预测出更大参数的表现;对注意力的改进也在过去几个月有诸多尝试,无论是月之暗面的MoBA,DeepSeek的NSA还是MiniMax-01对Lighting Attention的激进的融合,似乎Meta的尝试并没有比这些带来更彻底的效果;而在SFT,RL和DPO的“炼丹”上,也反而让DeepSeek R1的更纯粹的RL方法显得更简洁优雅。
与Llama过往作为开源执旗者时相比,通过开源给社区提供对抗闭源模型强大的新方法的意味少了很多,结合其他更彻底的开源模型公布的各种技术来快速交出一个作品来先跟上领先者的意味更强了。这次的模型与此前Llama2和Llama3发布时的影响完全不同,它不是碾压式领先的发布,也许之后的Behemoth才是主菜,这次只是开胃菜。但目前看来,Behemoth的最大亮点可能还是在它背后的算力资源,Meta表示,Behemoth使用FP8和32K GPU训练,实现了390 TFLOPs/GPU。
这些都在提示这一次Llama4发布的仓促。这次Llama在行业对推理模型需求爆炸,对很看重编程能力的AI Agent类产品兴趣浓厚的时候,没有先发布推理模型,而是继续通过做大底座模型来提高推理和编程能力。在通过Scout强调部署便利的同时,却又没有可以在本地运行的尺寸的模型。
整体看来,Llama4像是Meta先给自己一个“台阶”——在DeepSeek爆火之前,它坚持不用MoE架构,这次算是完成了纠错。
另外有意思的是,在模型发布后,行业里活跃的几家竞对也“讨论”起了它的发布时间——这次发布选择放在了周末。有人发现它在Github上最初提交的计划时间是周一,以至于不少人怀疑Meta是为了避免下周被某个更强模型的发布盖过风头。
有人猜测DeepSeek ,Qwen和DeepMind的更强模型都会在下周出现,而Llama4目前的实力已经无法与它们争夺注意力。
“在周六发布有一个好处,至少没人在当天会想截胡你。”Gemini团队活跃的研究者Logan Kilpatrick调侃道。千问的林俊旸则回复了一个“hahahah”。
在Llama3领先开源竞争的时候,你很难想象它的对手会如此戏虐地做出反应。
从领先变回追赶者,Meta AI看来有得忙了。
点个 “爱心”,再走吧
??时事1:侏儒老太AAA性A片老太配
??04月09日,江西鄱阳湖南矶湿地:“观鸟热”带动旅游热 村民乐享生态红利,
隆隆声传来,石渊双臂震动,犹如一头血凰击天,在其周围赤色霞光冲霄而上,他整个人的气势一下子提升了十倍不止,挡住了黄金战矛的威势。
,王心凌AV裸体无码。??04月09日,广东已成立深圳深江铁路重大坍塌事故省政府调查组,
在过去的一年里,我们面临着重重困难,外部市场的激烈竞争,内部资源的不足,都造成我们的举步维坚,但是我们所有的员工能够紧紧的抱在一起,坚持我们自己的理想及信念,用我们的坚强毅力,和不怕苦,不服输的工作作风,在新老朋友的支持配合下,还是取得了一个丰收的20xx!我为全体员工感到自豪,并向所有支持和配合我们的朋友们致以最崇高的敬意!
,91精产国品一二三产区粉粉,祥子和虎妞那天晚上干了什么,ai换脸杨颖裸被❌高清网站。??时事2:同桌扒开我腿用震蛋器折磨我微博
??04月09日,天舟七号完成全区合练 各系统准备就绪,
这是一轮银盘,神圣无比,像是有银色的火焰在燃,他站在中心,将其映衬的神圣而威严,宛若一尊小小的神祇。
,在线无码精品秘入口快色黑人,[火影同人]残骨(佐樱\/穿越\/囚禁梗)七,日本色情10。??04月09日,中国与瑙鲁何时互设使领馆?外交部回应,
这群人神色顿时冷了下来,什么话也没有说,直接就出手了,他们没敢大意,毕竟小不点创了一项纪录。
,不知火舞疯狂摸下部❌❌喷水,直男看片打✈️视频gvwww,张鹤伦左手把好把右手把大梁。??时事3:嗯灬啊灬把腿张开灬A片功能介绍
??04月09日,跨越万里援非路 医者仁心无国界,
在各级政府的领导和关心支持下,在各界朋友的指导和协助下, “ 商贸有限公司 终于迎来了揭牌的好日子。
,撕开👙吸奶头🍌进屁韩漫,精品无码黑人又粗又大又长AV,jmcomic。??04月09日,40秒打卡:巴黎街头寻找中国元素,
这是一个山村,民风淳朴,但是村人却也不缺乏血性,石林虎等人怒吼,道:“宁为玉碎不为瓦全,真要逼我们,那就血战到底,直到我们流尽最后一滴血!”
,动漫美女撒尿㊙️无遮挡,18已经准备好卫生纸,男男GAYGAY✅✅亚洲打桩机。??时事4:91裸体极限户外露出
??04月09日,东西问|加拿大剧作家施崇梵:为何讲述《推销员在中国》的故事?,
从某种意义上说:学习能够统一思想,凝聚人心;学习可以明辨是非,同时学习可以提高修养,净化人格。只有学习理论,掌握政策,我们在实际工作中,才能知道哪些话能说,哪些话不能说;才有知道哪些事情该干,哪些事情不该干,才能知道怎样把事情办得更好,更切合实际、更符合群众愿望。有了较好的政治理论修养和政策水平,在实际工作中,才能把道理说清楚,让群众听明白,把党的意志变成群众的行动。相反,如果自己政治理论水平不高,政策掌握模棱两可,讲话三两句,道理说不清,群众不理解;结果工作也就不可能落到实处,弄不好群众还会有意见,有些干部本来是想为群众办好事,但群众反而不领情,不配合,有些干部在处理一些问题的时候,本是出于好意,但群众反而意见大了;有的干部在处理各类矛盾纠纷时,说不了几句话就发脾气,不做耐心的思想工作;有的干部群众向他反映问题,却背而不见,怕与群众见面,怕接触矛盾,不知道问题如何处理,束手无策。听到这些问题,都是与我们少数干部政治理论修养不够,政策水平不高有很大的关系,我们不要求大家什么都精通,什么都掌握,但我们不能什么都不懂,什么都模模糊糊。因此我希望大家能加强学习,全面提高自身素质,学会用先进的理念破解发展中的难题,进一步提高科学决策的能力和实际操作水平。
,❌❌❌SexSex,性裸交❌❌❌❌特级,欧美透B拳交。??04月09日,头部电商平台相继支持“仅退款” 会成为标配吗?,
网站董事长致辞 篇29
,女子撒尿全过程㊙️免费,粗大挺进紧致抽搐喷潮h男男,男男GaYGAYS✅亚洲应用。责编:刘国庆
审核:毛孝泉
责编:乌昌