bc贷

搜索 猫眼电影 融媒体矩阵
  • 山东手机报

  • 猫眼电影

  • 大众网官方微信

  • 大众网官方微博

  • 抖音

  • 人民号

  • 全国党媒平台

  • 央视频

  • 百家号

  • 快手

  • 头条号

  • 哔哩哔哩

首页 >新闻 >社会新闻

1000万上下文+2880亿参数的Llama4,却让DeepSeek们松了一口气

2025-04-08 14:48:22
来源:

猫眼电影

作者:

谢伏瞻

手机查看

  猫眼电影记者 叶萍 报道y85ouztigy6ysf5y

作者 | 王兆洋邮箱 | wangzhaoyang@pingwest.com

Llama4 来了。

4月5日,Meta发布了外界期待许久的Llama4系列开源模型,目前它包括Llama 4 Scout、Llama 4 Maverick和Llama 4 Behemoth。三种模型对应不同的使用需求,简单来说:

Llama 4 Scout是可以在单张H100上跑的多模态MoE模型,

Llama 4 Maverick是击败了GPT-4o 和 Gemini 2.0,比DeepSeek v3小但编码和推理能力匹配的“最佳模型”,

还有一个即将发布的、隐藏在后为所有Llama4系列提供能力的2880亿活跃参数“巨兽”模型Llama 4 Behemoth。

根据它官方发布的介绍,此次Llama4有几个重要的技术亮点。

MoE架构:此次是Llama首次采用混合专家架构,任务执行时仅激活部分参数(如Maverick总参数4000亿,活跃参数170亿),显著提升训练和推理效率。

多模态融合:早期融合(Early Fusion)策略统一处理文本、图像、视频,突破传统多模态模型的分阶段处理限制。

超长上下文:Scout支持1000万Token上下文窗口(约2000万字文本或20小时视频),通过iRoPE架构实现“短序列训练,长序列泛化”。

部署上,Scout支持单张H100 GPU运行(Int4量化后),Maverick需H100 DGX集群,Behemoth则夸张地使用了32000块GPU训练。

后训练策略:采用“轻量级SFT → 在线RL → 轻量级DPO”流程,减少对齐约束,增强模型探索能力。 引入“自我批判式数据筛选”,利用早期模型Check point检查点过滤低质量训练样本,提升最终性能。

由于Behemoth这个巨大参数的模型此次并没有正式发布,另外两个模型并没有太过让人震惊的突破——尤其在刷新评测榜单这件事已经没那么重要的今天,人们对Llama4的期待在于它的技术思路上是否有新玩意。

从目前官方给的说明来看,它自己总结的几个重要的创新在于:

原生多模态的预训练融合方法

Llama 4 模型设计为原生多模态,通过早期融合(early fusion)无缝整合文本和视觉标记到统一的模型主干中。早期融合是一大进步,使 Llama 能够联合预训练大量未标记的文本、图像和视频数据。Llama 还改进了 Llama 4 的视觉编码器——基于 MetaCLIP——但与冻结的 Llama 模型联合训练,以更好地和LLM结合。

优化MoE专家超参数设置的MetaP;

Llama 开发了一种新训练技术 MetaP,能够可靠设置关键模型超参数,如每层学习率和初始化规模。Llama 发现所选超参数在不同batch size、模型宽度、深度和训练token数中可以很好的匹配。Llama 4 通过在200种语言上预训练(包括超过100种每种超过10亿token的语言),总体的多语言训练token比 Llama 3 多10倍。

对注意力机制做改进,从而突破上下文能力的iRoPE架构;

Llama 4 架构的一个关键创新是使用了交错注意力层,且不使用位置嵌入(positional embeddings)。此外,我们还采用了推理时注意力温度缩放( inference time temperature scaling of attention)来增强长度和泛化。我们将这种架构称为 iRoPE 架构,其中“i”代表“交错”注意力层,突出了支持“无限”上下文长度的长期目标,“RoPE”则指在大多数层中使用的旋转位置嵌入。

SFT、RL和DPO使用搭配上的新配方

在 Llama 4 中,Llama 通过采用不同方法重构了后训练流程:轻量级监督微调(SFT) > 在线强化学习(RL) > 轻量级直接偏好优化(DPO)。关键经验是,SFT和DPO可能过度约束模型,限制在线RL阶段的探索,导致推理、编码和数学领域的次优准确性。 后训练一个拥有2万亿参数的模型也是一大挑战,需要 Llama 彻底改造配方,从数据规模开始。为最大化性能,Llama 不得不修剪95%的SFT数据(相比小型模型的50%),以实现质量和效率的必要关注。为2万亿参数模型扩展RL还需要 Llama 改造底层RL基础设施,因其规模前所未有。Llama 优化了MoE并行设计以提高速度,加快了迭代。Llama 开发了一个完全异步的在线RL训练框架,增强了灵活性。与牺牲计算内存以在内存中堆叠所有模型的现有分布式训练框架相比,Llama 的新基础设施支持将不同模型灵活分配到单独GPU上,根据计算速度平衡多个模型的资源。这一创新使训练效率比前几代提高了约10倍。

这些创新与大家对今天开源模型竞赛的预期相比,可能会略微让人失望。

原生多模态的做法基本依然是行业的常规操作——把其他模态与最强的语言模态在token层面上统一;MetaP背后强调的不同尺寸的高效转化,让人想到诸如面壁智能提出的“densing law”,如何在小一点的参数上做实验,预测出更大参数的表现;对注意力的改进也在过去几个月有诸多尝试,无论是月之暗面的MoBA,DeepSeek的NSA还是MiniMax-01对Lighting Attention的激进的融合,似乎Meta的尝试并没有比这些带来更彻底的效果;而在SFT,RL和DPO的“炼丹”上,也反而让DeepSeek R1的更纯粹的RL方法显得更简洁优雅。

与Llama过往作为开源执旗者时相比,通过开源给社区提供对抗闭源模型强大的新方法的意味少了很多,结合其他更彻底的开源模型公布的各种技术来快速交出一个作品来先跟上领先者的意味更强了。这次的模型与此前Llama2和Llama3发布时的影响完全不同,它不是碾压式领先的发布,也许之后的Behemoth才是主菜,这次只是开胃菜。但目前看来,Behemoth的最大亮点可能还是在它背后的算力资源,Meta表示,Behemoth使用FP8和32K GPU训练,实现了390 TFLOPs/GPU。

这些都在提示这一次Llama4发布的仓促。这次Llama在行业对推理模型需求爆炸,对很看重编程能力的AI Agent类产品兴趣浓厚的时候,没有先发布推理模型,而是继续通过做大底座模型来提高推理和编程能力。在通过Scout强调部署便利的同时,却又没有可以在本地运行的尺寸的模型。

整体看来,Llama4像是Meta先给自己一个“台阶”——在DeepSeek爆火之前,它坚持不用MoE架构,这次算是完成了纠错。

另外有意思的是,在模型发布后,行业里活跃的几家竞对也“讨论”起了它的发布时间——这次发布选择放在了周末。有人发现它在Github上最初提交的计划时间是周一,以至于不少人怀疑Meta是为了避免下周被某个更强模型的发布盖过风头。

有人猜测DeepSeek ,Qwen和DeepMind的更强模型都会在下周出现,而Llama4目前的实力已经无法与它们争夺注意力。

“在周六发布有一个好处,至少没人在当天会想截胡你。”Gemini团队活跃的研究者Logan Kilpatrick调侃道。千问的林俊旸则回复了一个“hahahah”。

在Llama3领先开源竞争的时候,你很难想象它的对手会如此戏虐地做出反应。

从领先变回追赶者,Meta AI看来有得忙了。

点个 “爱心”,再走吧

??时事1:黑土被❌🐻黄漫

??04月08日,韩国京畿道一面包车与大巴车相撞 致5死9伤,

  一、进一步加强官德建设

,男同❌无尽❌高潮。

??04月08日,澳网首轮:中国军团4人晋级,

  银辉四射,小不点不再答言,双臂展动,划出一轮月亮,璀璨夺目,银辉流淌,宛若九天上的神月真实地降落。

,13学生小美女洗澡裸体直播,自慰被室友看见强行嗯啊男男,日本色情10。

??时事2:91PORNY丨首页❤在线

??04月08日,受暴雨等天气影响 全国公路这些路段出行请注意,

  “你们杀性如此之重,就不怕有朝一日遭报应吗?”

,扒开🍑伸进🍌❌免费视频,日本少妇高潮喷水,国精产品㊙️福利姬。

??04月08日,四川省达州市12人在大竹“9·7”较大道路交通事故中被追责问责,

  “镇杀!”

,少妇BBwBBw性生话,暗拗小U女全部HD,男男🔞高潮片免费视频。

??时事3:久久91欧美特黄A片

??04月08日,福建连城客家青狮舞动“狮城”,

  此时,他嘴角带着血,将雪白的须发都染红了,面容苍老,有一种深深的忧虑。

,免费吸乳羞羞网站视频,美女的私密㊙️视频偷拍,憋尿夹震蛋尿失禁车。

??04月08日,江西南昌发现“水中大熊猫”桃花水母,

被告人、自诉人和他们的法定代理人,不服地方各级人民法院第一审的判决、裁定,有权用书状或者口头向上一级人民法院上诉。被告人的辩护人和近亲属,经被告人同意,可以提出上诉。

如何提出上诉?如何撤回上诉?

人民法院受理的上诉案件,一般应当有上诉状正本及副本。

上诉状内容应当包括:第一审判决书、裁定书的文号和上诉人收到的时间;第一审法院的名称;上诉的请求和理由;提出上诉的时间;上诉人签名或者盖章。如果是被告人的辩护人、近亲属经被告人同意提出上诉的,还应当写明提出上诉的人与被告人的关系,并应当以被告人作为上诉人。

被告人、自诉人、附带民事诉讼原告人和被告人因书写上诉状确有困难而口头提出上诉的,第一审人民法院应当根据其所陈述的理由和请求制作笔录,由上诉人阅读或者向其宣读后,上诉人应当签名或者盖章。

被告人、自诉人、附带民事诉讼的原告人和被告人通过第一审人民法院提出上诉的,第一审人民法院应当审查上诉是否符合法律规定。符合法律规定的,应当在上诉期满后三日内将上诉状连同案卷、证据移送上一级人民法院,同时将上诉状副本送交同级人民检察院和对方当事人。

被告人、自诉人、附带民事诉讼的原告人和被告人直接向第二审人民法院提出上诉的,第二审人民法院应当在收到上诉状后三日以内将上诉状交第一审人民法院。第一审人民法院应当审查上诉是否符合法律规定。符合法律规定的,应当在接到上诉状后三日以内将上诉状连同案卷、证据移送上一级人民法院,同时将上诉状副本送交同级人民检察院和对方当事人。

被告人、自诉人、附带民事诉讼的原告人和被告人及其法定代理人在上诉期限内要求撤回上诉的,应当准许。

被告人、自诉人、附带民事诉讼的原告人和被告人及其法定代理人在上诉期满后要求撤回上诉的,应当由第二审人民法院进行审查。如果认为原判决认定事实和适用法律正确,量刑适当,应当裁定准许被告人撤回上诉;如果认为原判决事实不清,证据不足或者将无罪判为有罪、轻罪重判等,应当不准许撤回上诉,并按照上诉程序进行审理。

地方各级人民检察院对同级人民法院第一审判决、裁定的抗诉,通过第一审人民法院提交抗诉书。第一审人民法院应当在抗诉期满后三日内将抗诉书连同案卷、证据移送上一级人民法院,并且将抗诉书副本送交当事人。

法律规定,在第二审法院审理案件的过程中,上诉人有权撤回上诉。上诉人一经撤诉,便丧失了上诉权 ,不能再提起上诉 ,并应负担诉讼费用。

上诉人撤回上诉是行使处分权的体现,根据当事人处分不能违背法律、法规的原则,上诉人申请撤诉是否准许,由第二审法院依法做出裁定。如果第一审裁判确有错误,即使上诉人要求撤诉,也不应批准,第二审法院仍要按上诉审程序进行审理,以便做出合法的裁判。这是因为设立第二审程序的基础之一就是上级法院的审判监督权。

?什么情况下股权转让需要审批,云缨同人18❌3D同人动漫,ThePorn在线看片,性欧美婬妇❌❌❌❌❌下载。

??时事4:性裸交❌❌❌❌特级

??04月08日,日本冈山自来水氟化物超标引不安 当地将开展血液检查,

  一头八九米长的银色穿山甲,头颅上长着一只尖锥般的巨角,无坚不摧,将山石都给挑的崩裂,径直向那山体中钻去。

,亲嘴脱内衣👙内裤扑了上去,动漫美女❌❌免费动漫,动漫同人18❌漫画免费网站挤乳。

??04月08日,2024年内蒙古自治区蒙古马超级联赛开赛,

  凶兽臂骨与石林虎的臂骨融为一体,光华璀璨!

,色情乱婬一级A片真做打屁股,日本孕妇╳乄╳乄孕交医生,男男互抠体育生白袜腹肌帅哥中国大学生宿舍互c。

责编:布里东

审核:王祖耀

责编:唐永胜

相关推荐 换一换

Copyright (C) 2001- Dzwww   鲁ICP备09023866号-1

Sitemap