1000万上下文+2880亿参数的Llama4，却让DeepSeek们松了一口气

1000万上下文+2880亿参数的Llama4，却让DeepSeek们松了一口气

作者｜王兆洋邮箱｜ wangzhaoyang@pingwest.com

Llama4 来了。

4月5日，Meta发布了外界期待许久的Llama4系列开源模型，目前它包括Llama 4 Scout、Llama 4 Maverick和Llama 4 Behemoth。三种模型对应不同的使用需求，简单来说：

Llama 4 Scout是可以在单张H100上跑的多模态MoE模型，

Llama 4 Maverick是击败了GPT-4o 和 Gemini 2.0，比DeepSeek v3小但编码和推理能力匹配的“最佳模型”，

还有一个即将发布的、隐藏在后为所有Llama4系列提供能力的2880亿活跃参数“巨兽”模型Llama 4 Behemoth。

根据它官方发布的介绍，此次Llama4有几个重要的技术亮点。

MoE架构：此次是Llama首次采用混合专家架构，任务执行时仅激活部分参数（如Maverick总参数4000亿，活跃参数170亿），显著提升训练和推理效率。

多模态融合：早期融合（Early Fusion）策略统一处理文本、图像、视频，突破传统多模态模型的分阶段处理限制。

超长上下文：Scout支持1000万Token上下文窗口（约2000万字文本或20小时视频），通过iRoPE架构实现“短序列训练，长序列泛化”。

部署上，Scout支持单张H100 GPU运行（Int4量化后），Maverick需H100 DGX集群，Behemoth则夸张地使用了32000块GPU训练。

后训练策略：采用“轻量级SFT → 在线RL → 轻量级DPO”流程，减少对齐约束，增强模型探索能力。引入“自我批判式数据筛选”，利用早期模型Check point检查点过滤低质量训练样本，提升最终性能。

由于Behemoth这个巨大参数的模型此次并没有正式发布，另外两个模型并没有太过让人震惊的突破——尤其在刷新评测榜单这件事已经没那么重要的今天，人们对Llama4的期待在于它的技术思路上是否有新玩意。

从目前官方给的说明来看，它自己总结的几个重要的创新在于：

原生多模态的预训练融合方法

Llama 4 模型设计为原生多模态，通过早期融合（early fusion）无缝整合文本和视觉标记到统一的模型主干中。早期融合是一大进步，使 Llama 能够联合预训练大量未标记的文本、图像和视频数据。Llama 还改进了 Llama 4 的视觉编码器——基于 MetaCLIP——但与冻结的 Llama 模型联合训练，以更好地和LLM结合。

优化MoE专家超参数设置的MetaP；

Llama 开发了一种新训练技术 MetaP，能够可靠设置关键模型超参数，如每层学习率和初始化规模。Llama 发现所选超参数在不同batch size、模型宽度、深度和训练token数中可以很好的匹配。Llama 4 通过在200种语言上预训练（包括超过100种每种超过10亿token的语言），总体的多语言训练token比 Llama 3 多10倍。

对注意力机制做改进，从而突破上下文能力的iRoPE架构；

Llama 4 架构的一个关键创新是使用了交错注意力层，且不使用位置嵌入（positional embeddings）。此外，我们还采用了推理时注意力温度缩放（ inference time temperature scaling of attention）来增强长度和泛化。我们将这种架构称为 iRoPE 架构，其中“i”代表“交错”注意力层，突出了支持“无限”上下文长度的长期目标，“RoPE”则指在大多数层中使用的旋转位置嵌入。

SFT、RL和DPO使用搭配上的新配方

在 Llama 4 中，Llama 通过采用不同方法重构了后训练流程：轻量级监督微调（SFT） > 在线强化学习（RL） > 轻量级直接偏好优化（DPO）。关键经验是，SFT和DPO可能过度约束模型，限制在线RL阶段的探索，导致推理、编码和数学领域的次优准确性。后训练一个拥有2万亿参数的模型也是一大挑战，需要 Llama 彻底改造配方，从数据规模开始。为最大化性能，Llama 不得不修剪95%的SFT数据（相比小型模型的50%），以实现质量和效率的必要关注。为2万亿参数模型扩展RL还需要 Llama 改造底层RL基础设施，因其规模前所未有。Llama 优化了MoE并行设计以提高速度，加快了迭代。Llama 开发了一个完全异步的在线RL训练框架，增强了灵活性。与牺牲计算内存以在内存中堆叠所有模型的现有分布式训练框架相比，Llama 的新基础设施支持将不同模型灵活分配到单独GPU上，根据计算速度平衡多个模型的资源。这一创新使训练效率比前几代提高了约10倍。

这些创新与大家对今天开源模型竞赛的预期相比，可能会略微让人失望。

原生多模态的做法基本依然是行业的常规操作——把其他模态与最强的语言模态在token层面上统一；MetaP背后强调的不同尺寸的高效转化，让人想到诸如面壁智能提出的“densing law”，如何在小一点的参数上做实验，预测出更大参数的表现；对注意力的改进也在过去几个月有诸多尝试，无论是月之暗面的MoBA，DeepSeek的NSA还是MiniMax-01对Lighting Attention的激进的融合，似乎Meta的尝试并没有比这些带来更彻底的效果；而在SFT，RL和DPO的“炼丹”上，也反而让DeepSeek R1的更纯粹的RL方法显得更简洁优雅。

与Llama过往作为开源执旗者时相比，通过开源给社区提供对抗闭源模型强大的新方法的意味少了很多，结合其他更彻底的开源模型公布的各种技术来快速交出一个作品来先跟上领先者的意味更强了。这次的模型与此前Llama2和Llama3发布时的影响完全不同，它不是碾压式领先的发布，也许之后的Behemoth才是主菜，这次只是开胃菜。但目前看来，Behemoth的最大亮点可能还是在它背后的算力资源，Meta表示，Behemoth使用FP8和32K GPU训练，实现了390 TFLOPs/GPU。

这些都在提示这一次Llama4发布的仓促。这次Llama在行业对推理模型需求爆炸，对很看重编程能力的AI Agent类产品兴趣浓厚的时候，没有先发布推理模型，而是继续通过做大底座模型来提高推理和编程能力。在通过Scout强调部署便利的同时，却又没有可以在本地运行的尺寸的模型。

整体看来，Llama4像是Meta先给自己一个“台阶”——在DeepSeek爆火之前，它坚持不用MoE架构，这次算是完成了纠错。

另外有意思的是，在模型发布后，行业里活跃的几家竞对也“讨论”起了它的发布时间——这次发布选择放在了周末。有人发现它在Github上最初提交的计划时间是周一，以至于不少人怀疑Meta是为了避免下周被某个更强模型的发布盖过风头。

有人猜测DeepSeek ，Qwen和DeepMind的更强模型都会在下周出现，而Llama4目前的实力已经无法与它们争夺注意力。

“在周六发布有一个好处，至少没人在当天会想截胡你。”Gemini团队活跃的研究者Logan Kilpatrick调侃道。千问的林俊旸则回复了一个“hahahah”。

在Llama3领先开源竞争的时候，你很难想象它的对手会如此戏虐地做出反应。

从领先变回追赶者，Meta AI看来有得忙了。

点个 “爱心”，再走吧

相关推荐：新娘伴娘双飞全集免费英语老师叫我去吃馒头欧美XXXXXXYYXXX

分享： 2025-04-08 01:33:33 共81款

电脑

亲妺妺的小泬让我进去微博 2.25MB / app下载 2024-10-23

查看详情

玖辛奈裸体被❌同人动漫爆乳雏田
杨颖裸被❌视频无码网站免费 2.64MB / 完整版下载 2024-10-23

查看详情

老师让女班长脱了内裤打屁股
人与野鲁免费直播 14.14MB / 官方版下载 2024-10-23

查看详情

17娇喘❌❌⭕⭕白丝
爽⋯好紧⋯宝贝别夹大巴外国 2.82MB / 官方版下载 2025-03-04

查看详情

韩国泳装女性高级感视频
性亂倫XXXX乱大交女3视频 623.1MB / 完整版下载 2025-03-20

查看详情

久久久久久精品国产三级非潘金莲
18少妇X❌❌X❌❌OO 1.30MB / PC端下载 2024-09-27

查看详情

老师好紧⋯蕾丝丝袜和我做漫画
疯狂喷水自慰爽w波波浏览器 1.68MB / 官方版下载 2025-01-03

查看详情

催眠诱奷小箩莉h文合欢宗

安卓

人妻温泉～婬辱の教室动漫 1.67MB / app下载 2025-03-06

查看详情

动漫男男被狂揉下部❌羞羞
小饭七香全部作品列表 1.78MB / PC端下载 2024-10-23

查看详情

直播网站免费看
中也自己扩 2.18MB / app下载 2025-02-15

查看详情

肌肉男自慰Gay裸j
小乔脱裤子让我进去 2.54MB / app下载 2024-10-18

查看详情

梦见月瑞希本子18+
俄罗斯熟妇做爰XXXⅩ性 2.31MB / app下载 2024-12-13

查看详情

学生露出🐻让老师玩免费的
sweetieFoX免费观看全集 478.26MB / 下载官方版 2024-10-12

查看详情

香蕉成人视频下载快看视频
喷水裸乳女同3D在线观看 600.6MB / 下载官方版 2025-03-11

查看详情

小天⋯受不了⋯进来视频
亚洲A片无码㊙️色多多 1.83MB / 电视版下载 2024-10-08

查看详情

梅木怜助攻小仓幸成破门
伊蕾娜❌18禁同人漫 231.15MB / 中文版下载 2024-10-30

查看详情

AV➕无码➕白浆➕cos➕免费
❌❌❌❌❌性欧美大片 2.7MB / app下载 2025-03-04

查看详情

高清码🔞❌♋免费软件
琴团长被c到求饶调教 1.21MB / 官方版下载 2024-09-28

查看详情

被迫在刑具上高潮调教道具
18XⅩXX性XXXX片 1.50MB / 电视版下载 2024-02-26

查看详情

美女脱👙给男主捏🐻
斗破苍穹美杜莎高潮喷水 2.61MB / PC端下载 2024-04-18

查看详情

Naruto❌Sakura18禁Hentai
小十四萝裸睡让我做了 1.42MB / 完整版下载 2024-09-14

查看详情

13学生露小奶头无遮挡
成人🔞免费A片10086欧美 2.92MB / 电脑版下载「含模拟器」 2024-02-02

查看详情

国产精輦清纯女学生
国产做受❌❌❌高潮动漫 2.46MB / 电视版下载 2025-03-26

查看详情

教官揉我下面⋯啊⋯嗯兔女郎动漫
男男脱裤子🔞小jij鼓起起 2.56MB / 安装包下载 2024-07-29

查看详情

玩偶姐姐在线观看免费
㊙️成人免费网站动画 2.14MB / 官方版下载 2024-01-17

查看详情

p站视频♥成人版app旧版
🈚️🐴🈲群•免•费看🔞 2.53MB / 电视版下载 2024-01-11

查看详情

白丝女仆❌❌自慰网站
女同❌裸乳❌动漫❌3d 2.77MB / 安装包下载 2024-01-09

查看详情

小狂趁柳二龙洗澡c柳二龙
91丨国产丨白浆㊙️东京热 2.1MB / 完整版下载 2024-01-05

查看详情

老师⋯好爽⋯进来了⋯视频小说
初高中打屁股♥网站╳教室 2.63MB / 安装包下载 2025-02-14

查看详情

亚洲18🈲在线看污www泡芙
欧美裸体办公室㊙️网站 174KB / v1.0 安卓版 2024-01-04

查看详情

大美女🐻100%露出奶头代码
美女又爽又黄又污随州房产网 1.33MB / 安装包下载 2024-01-02

查看详情

成人国产精品秘免费观看
嗯～啊～快点死我电影 2.97MB / 安装包下载 2024-06-07

查看详情

секст中国
www.茄子🍆 744.27MB / 2025官方最新版本下载 2023-12-01

查看详情

男模大尺度无码视频流出
国产女警察三级做爰 31.13MB / 最新版下载 2024-10-16

查看详情

爽⋯好紧⋯别夹⋯喷水免费
少女与狗电影2023上映时间表 483.4MB / app下载 2023-11-08

查看详情

亲嘴脱内衣👙内裤视频
学生裸体黄网站下载 1.4MB / 下载官方版 2023-11-04

查看详情

肉乳乱无码A片观看免费男男
女班长让我玩🐻吃奶小游戏图片 1.57MB / 官方版下载 2023-11-02

查看详情

男女黄床上色视频免费的软件
人妻被公牛疯狂进入 730.3MB / 中文版下载 2025-03-10

查看详情

FreeHD18❌❌❌性4tB
女人又爽又黄又硬野战 2.28MB / PC端下载 2023-11-01

查看详情

裸乳裸体被🍑免费动漫
小樱雏田完整版自慰 90.21MB / 最新版下载 2023-10-30

查看详情

国产精久久❌❌❌网站漫画小说
❌❌❌自慰喷调教av 2.90MB / PC端下载 2024-05-31

查看详情

欧美人与禽z020性动交
最爽的亂倫老女人 901.7MB / app下载 2023-10-27

查看详情

日本被到爽奶头游戏
搡六十70老女人老熟女视频 2.96MB / 2025官方最新版本下载 2023-10-27

查看详情

女人的🍌伸到🍑屁股
睡8个月大肚孕妇 2.78MB / 下载官方版 2023-10-26

查看详情

碧蓝航线大胸美女被c出乳液
91在线无码精品秘cos貂蝉 2.16MB / 安装包下载 2023-10-26

查看详情

美女被c
锕锕锕锕锕锕～好深啊的视频软件 1.12MB / 电脑版下载「含模拟器」 2023-10-25

查看详情

骚年把老头精子吃出来
女人被添荫蒂视频全部 316.10MB / 下载官方版 2024-03-29

查看详情

新疆旱厕50集播放
火影忍者小南被强❌漫画 1.60MB / 官方版下载 2023-09-28

查看详情

鞠婧祎被❌到喷水在线播放
黑人巨茎乂㐅DH粉嫩亚洲女人 2.55MB / 下载官方版 2023-09-19

查看详情

春野樱被爆❌自慰流水网站
迪丽热巴裸乳照无奶罩无遮挡 140.17MB / 电脑版下载「含模拟器」 2023-09-18

查看详情

揉我奶头啊嗯高潮麻豆
18🈲🍆🍑无套直桃子视频 818.5MB / app下载 2023-09-15

查看详情

羞羞漫画SSS
调教婬奴重口sm视频 882.21MB / 安装包下载 2023-08-24

查看详情

憋尿失禁控制排泄憋尿小作文
微信福利小视频在线观看 859.14MB / 手机版下载 2023-08-21

查看详情

打屁股㊙️网站
紫悦黑化成为了火公主 2.99MB / 2025官方最新版本下载 2023-08-10

查看详情

3D动漫❌❌到高潮
两个小男生在床上互摸JJ 594.1MB / 安装包下载 2023-08-08

查看详情

伽罗太华同人18❌AV在线观看
梅花十三被❌了一夜 55.15MB / 中文版下载 2023-08-04

查看详情

灰原小兰脱了内裤打开腿让人桶
b站开放见仍头走秀视频 1.57MB / 官方版下载 2024-11-08

查看详情

怀孕期间的饮食原则
用力别停受不了动态图 308.23MB / 电视版下载 2023-07-31

查看详情

二次元爆乳
捆绑调教性GAY2022 1.10MB / 手机版下载 2023-07-20

查看详情

亚洲另类⭕⭕⭕⭕XXXX97
део+14一17 216.18MB / 2025官方最新版本下载 2023-07-20

查看详情

Japanese XXX Japan Video XXX
国产成人啪免费观看软件 388.2MB / 官方版下载 2023-07-10

查看详情

露娜打开腿被c到高潮
蜜㊙️做爰免费网站 660.21MB / 2025官方最新版本下载 2023-06-14

查看详情

美女啊湿润啊❌动漫
♥男同♥本子♥网站 626.18MB / 官方版下载 2023-06-06

查看详情

西施的玉足调教1～11
杨晨晨扒开腿被❌ 69.4MB / 手机版下载 2023-06-01

查看详情

350234去看吧,孩子
扒开腿挺进肉嫩小泬喷水网站 2.10MB / 2025官方最新版本下载 2023-06-05

查看详情

姬小满被强行张开腿❌
男生露jiji秘中国蛋毛 1.04G / v8.2.2 安卓版 2024-08-13

查看详情

XXXx15-25发HD
好大好爽快点深一点床戏软件 1.63MB / 完整版下载 2023-05-19

查看详情

性Videos❌HD毛毛
美女校花露🌸❌ 429.8MB / 官方版下载 2024-06-19

查看详情

极品尤物▌萌白酱▌嫩喷水自
动漫美女露内裤扒开腿视频 2.12MB / 手机版下载 2023-04-26

查看详情

女教师脱了内裤光着屁股让男生摸
日本舌头添泬视频 394.14MB / 完整版下载 2023-04-24

查看详情

亚洲❌❌❌❌❌色情10
男生禁止步视频 240.18MB / 电视版下载 2023-04-20

查看详情

芙宁娜疯狂❌️自慰小说
丝袜老师踩我的🐔出精子照片 2.32MB / 中文版下载 2023-04-24

查看详情

大乔和小乔把臀部伸向我
裸体初音被❌到爽动漫 121.30MB / 电脑版下载「含模拟器」 2023-03-28

查看详情

美女被❌❌羞羞在线观看
冠希实干张拍芝AV视频 458.5MB / PC端下载 2024-12-02

查看详情

动漫大胸比基尼内衣裤
美女全身裸体㊙️网站下载 2.83MB / 官方版下载 2024-08-12

查看详情

小舞被❌脱脱内内打扑克3D动漫
蜜桃AV㊙️无码二三区 92.16MB / 中文版下载 2023-03-14

查看详情

蓝莓黄网站免费蓝莓
爽躁多水快深点叫 50.11MB / 下载官方版 2023-01-17

查看详情

斗破苍穹美杜莎❌h黄漫
伽罗疯狂❌喷水自慰爽 241.25MB / 中文版下载 2024-04-03

查看详情

排泄IVK
撕开👙🍌进屁股动漫 552.10MB / 手机版下载 2023-02-13

查看详情

黑化碧琪和云宝
国产做受高潮试看120秒 1.76MB / 电视版下载 2023-03-03

查看详情

巨乳美女给男生🍌涂抹润滑油
91丨九色丨熟女❤️在 323.21MB / 手机版下载 2023-08-29

查看详情

龙卷裸体无遮挡在线观看动漫

bc贷

1000万上下文+2880亿参数的Llama4，却让DeepSeek们松了一口气

电脑

安卓

苹果