404 闂佸湱绮崝妤呭Φ濮橆厾鈹嶉柍鈺佸暕缁憋拷

bc贷

首页

下载APP

全部

全部
新闻
视频
图集

头条 |
热点 |
地市 |
娱乐 |
独家报料 |
台海 |
财经 |
体育 |
法治 |
生活 |
专题 |
FJTV视点 |
海博出品 |
活动专区 |
醉美福建 |
联播君 |
科技 |
军事 |
投票 |

刚刚，Llama 4深夜开源击败DeepSeek V3！2万亿多模态巨兽抢回王座

来源:福建发布作者:2025-04-13 05:24:57 :

新智元报道

编辑：编辑部 JNY

【新智元导读】原生多模态Llama 4终于问世，开源王座一夜易主！首批共有两款模型Scout和Maverick，前者业界首款支持1000万上下文单H100可跑，后者更是一举击败了DeepSeek V3。目前，2万亿参数巨兽还在训练中。

一大早，Llama 4重磅发布了！

Meta官宣开源首个原生多模态Llama 4，首次采用的MoE架构，支持12种语言，首批发布一共两款：

Llama 4 Scout：共有1090亿参数，17B活跃参数，16个专家，1000万上下

Llama 4 Maverick：共有4000亿参数，17B活跃参数，128个专家，100万上下文

另外，2万亿参数Llama 4 Behemoth将在未来几个月面世，288B活跃参数，16个专家。

Llama 4的横空出世，成为迄今为止开源最强，多模态能力最好的模型之一。

在大模型LMSYS排行榜上，Llama 4 Maverick冲上第二（ ELO得分1417），仅次于闭源Gemini 2.5 Pro。

更值得一提的是，仅用一半参数，Maverick推理编码能力与DeepSeek-v3-0324实力相当。

Llama 4 Scout最大亮点在于支持1000万上下文，相当于可以处理20+小时的视频，仅在单个H100 GPU（Int4 量化后）上就能跑。

在基准测试中，性能超越Gemma 3、Gemini 2.0 Flash-Lite、Mistral 3.1。

即将面世的Llama 4 Behemoth（仍在训练中），是Maverick协同蒸馏的教师模型，使用30T多模态token在32K个GPU上进行预训练（FP8）。

目前在STEM基准测试中，超越了GPT-4.5、Claude Sonnet 3.7、Gemini 2.0 Pro。

小扎激动地在官宣视频中称，「今天是Llama 4日」！

Llama 4开源后，DeepSeek R2还远吗？

此前报道称，DeepSeek R2最晚在5发布，看来可能要提前了...

史上最强Llama 4开源，超越DeepSeek V3

Llama 4模型开源，标志着Llama生态系统进入了一个新纪元。

即日起，所有开发者可以在llama.com和Hugging Face下载这两款最新的模型

在大模型排行榜中，Llama 4 Maverick在硬提示（hard prompt）、编程、数学、创意写作、长查询和多轮对话中，并列第一。

仅在样式控制下，排名第五。

而且，1000万上下文Llama 4 Scout还击败了OpenAI的模型。

每个人还可以在WhatsApp、Messenger、Instagram Direct和网页上体验基于Llama 4的应用。

首次采用MoE，单个H100即可跑

Llama团队设计了两款高效的Llama 4系列模型，只要单个H100 GPU就能运行：

一个是Llama 4 Scout（拥有170亿个活跃参数和16个专家），使用Int4量化可以在单个H100GPU上运行；

另一个是Llama 4 Maverick（拥有170亿个活跃参数和128个专家），可以在单个H100主机上运行。

目前，正在训练的教师模型——Llama 4 Behemoth，它在STEM基准测试（如MATH-500和GPQA Diamond）中，性能优于GPT-4.5、Claude Sonnet 3.7、Gemini 2.0 Pro。

在最新博文中，Meta分享了更多的关于Llama 4家族训练的技术细节。

在英伟达B200上，Llama 4可以每秒处理42400个token

预训练

Llama 4模型是Llama系列模型中首批采用混合专家（MoE）架构的模型。

在MoE模型中，单独的token只会激活全部参数中的一小部分。

与传统的稠密模型相比，MoE架构在训练和推理时的计算效率更高，并且在相同的训练FLOPs预算下，能够生成更高质量的结果。

架构概览，右为混合专家（MoE）架构

举个例子，Llama 4 Maverick模型的4000亿个总参数中有170亿个活跃参数。

为了提高推理效率，Meta交替使用了稠密层和专家混合（MoE）层。

MoE层用到了128个路由专家和一个共享专家。每个token都会被送到共享专家，同时也会送到128个路由专家中的一个。

因此，虽然所有参数都存储在内存中，但在运行这些模型时，只有部分参数会被激活。

这样就能提升推理效率，降低模型服务的成本和延迟——

Llama 4 Maverick可以轻松部署在一台NVIDIA H100 DGX主机上运行，或者通过分布式推理来实现最高效率。

原生多模态设计

Llama 4是一个原生多模态模型，采用了早期融合技术，能把文本和视觉token无缝整合到一个统一的模型框架里。

早期融合是个大进步，因为它可以用海量的无标签文本、图片和视频数据一起来预训练模型。

Meta还升级了Llama 4的视觉编码器。这个编码器基于MetaCLIP，但在训练时跟一个冻结的Llama模型分开进行，这样能更好地调整编码器，让它更好地适配大语言模型（LLM）。

模型超参数优化

Meta还开发了一种叫做MetaP的新训练方法，能让他们更靠谱地设置关键的模型超参数，比如每层的学习率和初始化规模。

这些精心挑选的超参数在不同的批大小、模型宽度、深度和训练token量上都能很好地适配。

Llama 4通过在200种语言上预训练实现了对开源微调的支持，其中超过10亿个token的语言有100多种，整体多语言token量比Llama 3多出10倍。

高效的模型训练，解锁1000万输入上下文长度

此外，Meta注重高效的模型训练，采用了FP8精度，既不牺牲质量，又能保证模型的高FLOPs利用率——

在使用FP8精度和32K个GPU预训练Llama 4 Behemoth模型时，达到了每个GPU 390 TFLOPs的性能。

训练用的整体数据包含了超过30万亿个 token，比Llama 3的预训练数据量翻了一倍还多，涵盖了文本、图片和视频数据集。

Meta用一种叫做「中期训练」的方式来继续训练模型，通过新的训练方法，包括用专门的数据集扩展长上下文，来提升核心能力。

这不仅提高了模型的质量，还为Llama 4 Scout解锁了领先的1000万输入上下文长度。

后训练

最新的模型包含了不同的参数规模，满足各种使用场景和开发者的需求。

Llama 4 Maverick：参数规模较大，主要用于图像理解和创意写作

Llama 4 Scout：参数规模较小，适用多种任务，支持1000万token上下文，全球领先。

为了让不同模型适应不同的任务，针对多模态、超大参数规模等问题，Meta开发了一系列新的后训练方法。

主力模型Llama 4 Maverick

作为产品的核心模型，Llama 4 Maverick在图像精准理解和创意写作方面表现突出，特别适合通用助手、聊天类应用场景。

训练Llama 4 Maverick模型时，最大的挑战是保持多种输入模式、推理能力和对话能力之间的平衡。

后训练流程

为了训练Llama 4，Meta重新设计了后训练流程，采用了全新的方法：

轻量级监督微调（SFT）> 在线强化学习（RL）> 轻量级直接偏好优化（DPO）。

一个关键发现是，SFT和DPO可能会过度限制模型，在在线RL阶段限制了探索，导致推理、编程和数学领域的准确性不理想。

为了解决这个问题，Meta使用Llama模型作为评判者，移除了超过50%的被标记为「简单」的数据，并对剩余的更难数据进行轻量级SFT。

在随后的多模态在线RL阶段，精心选择了更难的提示，成功实现了性能的飞跃。

此外，他们还实施了持续在线RL策略，交替进行模型训练和数据筛选，只保留中等到高难度的提示。这种策略在计算成本和准确性之间取得了很好的平衡。

最后，进行了轻量级的DPO来处理与模型响应质量相关的特殊情况，有效地在模型的智能性和对话能力之间达成了良好的平衡。

新的流程架构加上持续在线RL和自适应数据过滤，最终打造出了一个行业领先的通用聊天模型，拥有顶尖的智能和图像理解能力。

Llama 4 Maverick碾压GPT-4o和Gemini 2.0

作为一款通用的LLM，Llama 4 Maverick包含170亿个活跃参数，128个专家和4000亿个总参数，提供了比Llama 3.3 70B更高质量、更低价格的选择。

Llama 4 Maverick是同类中最佳的多模态模型，在编程、推理、多语言支持、长上下文和图像基准测试中超过了类似的模型，如GPT-4o和Gemini 2.0，甚至能与体量更大的DeepSeek v3.1在编码和推理上竞争。

通用模型Llama 4 Scout：1000万token上下文

规模较小的Llama 4 Scout是一款通用模型，拥有170亿个活跃参数、16个专家和1090亿个总参数，在同类别中性能最好。

Llama 4 Scout 的支持上下文长度从 Llama 3 的12.8万激增到行业领先的1000万token。

这为多种应用打开了无限可能，包括多文档摘要、大规模用户活动解析以进行个性化任务，以及在庞大的代码库中进行推理。

Llama 4 Scout在预训练和后训练时都采用了256K的上下文长度，基础模型具备了先进的长度泛化能力。

它在一些任务中取得了亮眼成果，比如文本检索中的「大海捞针式检索」和在1000万token代码上的累积负对数似然（NLLs）。

Llama 4架构的一个关键创新是使用了交替注意力层，而不依赖于位置嵌入。

此外，在推理时采用了温度缩放注意力，以增强长度泛化能力。Meta将其称为iRoPE架构，其中「i」代表「交替」（interleaved）注意力层，突出了支持「无限」上下文长度的长期目标，而「RoPE」则指的是在大多数层中使用的旋转位置嵌入（Rotary Position Embeddings）。

视觉理解能力

两款模型进行了大规模的图像和视频帧静态图像训练，以赋予它们广泛的视觉理解能力，包括对时间活动和相关图像的理解。

它们能够在多图像输入和文本提示的配合下，轻松进行视觉推理和理解任务。

模型预训练时最多用了48张图像，而在后训练测试中，最多8张图像也能取得不错的效果。

Llama 4 Scout在图像定位方面也是同类最佳，能够将用户的提示与相关的视觉概念对齐，并将模型的响应锚定到图像中的特定区域。

这使得更精确的视觉问答成为可能，帮助LLM更好地理解用户意图并定位感兴趣的对象。

编程、推理、长上下文和图像上，遥遥领先

Llama 4 Scout在编程、推理、长上下文和图像基准测试中超过了类似的模型，并且在所有以前的Llama模型中表现更强。

秉承对开源的承诺，Meta将Llama 4 Maverick和Llama 4 Scout提供给用户下载，用户可以在llama.com和Hugging Face上获取，之后这些模型还将在最广泛使用的云平台、数据平台、边缘硅片以及全球服务集成商上陆续上线。

2万亿巨兽，干掉GPT-4.5

Llama 4 Behemoth是一款「教师模型」，在同级别的模型里，它的智能水平相当高超。

Llama 4 Behemoth同样是一个多模态混合专家模型，拥有2880亿个活跃参数、16个专家以及近2万亿个总参数。

在数学、多语言处理和图像基准测试方面，它为非推理模型提供了最先进的性能，成为训练较小的Llama 4模型的理想选择。

教师模型+全新蒸馏

从Llama 4 Behemoth中蒸馏出来Llama 4 Maverick，在最终任务评估指标上大幅提升了质量。

Meta开发了一种新的蒸馏损失函数，在训练过程中动态地加权软目标和硬目标。

通过从Llama 4 Behemoth进行共同蒸馏，能够在预训练阶段分摊计算资源密集型前向计算的成本，这些前向计算用于计算大多数用于学生模型训练的数据的蒸馏目标。

对于学生训练中包含的额外新数据，会在Behemoth模型上运行前向计算，以生成蒸馏目标。

后训练

对一个拥有两万亿参数的模型进行后训练也是一个巨大的挑战，这必须彻底改进和重新设计训练方案，尤其是在数据规模方面。

为了最大化性能，不得不精简95%的SFT数据，相比之下，较小的模型只精简了50%的数据，目的是确保在质量和效率上的集中关注。

Meta还发现，采用轻量级的SFT后接大规模RL能够显著提高模型的推理和编码能力。Meta的RL方案专注于通过对策略模型进行pass@k分析来采样难度较大的提示，并设计逐渐增加提示难度的训练课程。

在训练过程中动态地过滤掉没有优势的提示，并通过从多个能力中混合提示构建训练批次，对提升数学、推理和编码的性能起到了关键作用。

最后，从多种系统指令中采样对于确保模型保持良好的指令跟随能力，在推理和编码任务中表现出色也至关重要。

扩展RL训练

对于两万亿参数的模型，扩展RL训练也要求重新设计底层的RL基础设施，应对前所未有的规模。

Meta优化了MoE并行化的设计，提高了速度，从而加快了迭代速度。

Llama团队开发了一个完全异步的在线RL训练框架，提升了灵活性。

与现有的分布式训练框架相比，后者为了将所有模型都加载到内存中而牺牲了计算内存，新基础设施能够灵活地将不同的模型分配到不同的GPU上，根据计算速度在多个模型之间平衡资源。

这一创新使得训练效率比之前的版本提升了约10倍。

Llama 4一夜成为开源王者，甚至就连DeepSeek V3最新版也被拉下神坛，接下来就是坐等R2的诞生。

参考资料：

https://x.com/AIatMeta/status/1908598456144531660

https://x.com/astonzhangAZ/status/1908595612372885832

https://x.com/lmarena_ai/status/1908601011989782976

《石榴视频♥成人版app旧版》，《y85ouztigy6ysf5y》

✿爆乳女神▌娜娜▌

“洗澡jk爆❌❌乳❌❌跳舞”

国产男女无套✅在线播放

……

04月13日

“扒开刘亦菲双乳和屁股眼”正港分局

↓↓↓

贵州住宅火灾事件死者儿子曾举报小区消防，是去年全国居民人均可支配收入39218元

04月13日，乡村工匠助力石阡苔茶产业发展，韩国女团裸体㊙️无遮，老师扒开让我❌，男人扒开腿㊙️打扑克免费视频，美国免费XXNXⅩ🇯🇵学生，69XXX性HD黑色丝袜|超帅男男Gay自慰出精|芥敦r18道具车|杨思敏被躁120分钟|免费无码婬片AAAA片免费视频|动漫美女㊙️打白嫩光屁股

04月13日，十四届全国人大二次会议举行闭幕会习近平等党和国家领导人出席，被粗大的🐔巴捣出白浆91，adn384，嫩草影院入口❤懂你的❤️，欧美老妇肥唇BBB

04月13日，山西临汾将同时开通直飞深圳、乌鲁木齐包机航线，抖大雷跳舞，12男学生小裸体无遮挡，小🐤🐤戳进🍑无遮挡喷水，性裸交❌❌❌❌❌女m

04月13日，欧尔班：西方将乌克兰视为巨大财源推动战争机器滚滚向前，成人高潮片无爱不欢，甘雨裸体❌开腿涩涩动漫，女仆被多种性器折磨流水视频，肏黑丝高跟肏出白浆

04月13日|（新春走基层）乌鲁木齐：市民选购花卉为新春添彩|邓紫棋自慰❌❌喷水好爽|久久精品亚洲AV无码四区牛牛|触手揉肉蒂高潮H 失禁|学生露出🐻让老师玩免费的

04月13日|北京环球度假区换上“龙年新装”焕发“新年味”|禁漫画天堂原神p站p站|白丝女仆被❌小游戏|免费裸体美女无遮挡网站優月|🔞男生🍆❌男生🍑里入口

04月13日|靠什么确保“不拖欠一分血汗钱”？|欧美做爰BBB性BBBBB8|好大好软揉弄杨幂|女学生打屁股和鞭打|浴室中年男士搓澡勃起来了……

04月13日，广州出台共有产权房回购指南，欧洲sen性，被丘丘人抓去繁殖后代的背景故事，成人涩涩无遮挡，女性向男帅纯爱❌片

04月13日，“长干古城”将南京2500年建城史推至3100多年前，性欧美❌❌潮喷第一次，丁·度巴斯公交车，麻豆㊙️做爰免费观看，成人精品一区二区三区A片用毒蛇

04月13日|2024东盟国际车展开幕新能源车成主流|撩起白丝校花的短裙进入|白丝女仆m开腿sm调教室免费|美女脱个精光露出奶让变态玩视频|ふた扶她部无删减版樱花动漫

04月13日，中国饭店协会倡议：OTA平台持续优化入境人员支付体验，XXNXHDسكس-百度，十八禁🔞免费网软件视频，千仞雪强乳喷本子网站，透明内裤被🐔巴捣出白浆动漫

04月13日，如何接《黑神话·悟空》流量？文旅部门须深度融合“游戏+文旅”，爱爱网激活码2024最新，国产➕喷水➕白浆➕高潮，刚手吃鸣人大狙的网站，班花裸体趴下让全班玩小说

04月13日，呼吁行业多些耐心中国科技精英共话AI如何转化为新质生产力，男男被粗大的🐔巴堵住嘴，男人裸体㊙️情趣内裤，孟子义脱了内裤打开腿让人躁小说，羞羞动漫❌黄漫免费网站

04月13日|东西问丨恩克洛·福埃：中非如何携手同行，走好现代化之路？|ZZijZZij亚洲日本少妇jiZjiZ|扒开❌狂揉❌真人❌捆绑男男小说|貂蝉奖励赵云|透明内裤被🐔巴捣出白浆小说

04月13日|贵州省持续稳步提高城乡低保标准|打白嫩光屁内裤网站|动漫女性裸体|吞噬星空巴巴塔的胸襟图片|丝袜臭脚足脚交3d漫画全彩

04月13日|河北宽城：小山村里的空竹比赛|骚0校草把体育生撩得直不起腰|欧美全彩中文成人3D漫画|六十路异常息子|扒开❌狂揉❌脱脱的视频

TF三代火力全开舞台，沉香如屑·沉香重华|河北开展“城市生命线保障·2024”应急演习|妺妺穿白丝让我爽到高潮|小伸入|FerrPorno💋👙17|动漫男生做出❌❌❌

一套题学习政府工作报告，老板的菜单|文化中国行丨航拍视角带你“打卡”国家文化公园|学生XXXXX性公交车上|小🐔🐔伸进🈲🔞|女人私㊙️免费观看视频|❤️嫩草❤️嫩草❤️嫩草

粉丝偷易烊千玺的猫参加比赛，感觉它快猫格分裂了|广西梧州：企业屋顶光伏 “电”亮“绿色经济”|日本无码免费Av在线观看司葵|不该瞒着妻子参加漫展动漫在线观看免费|裸体❌开腿羞羞免费看片|电影来5566黑夜免费播放最新章节

军人结婚当天三等功喜报送上门，三亚大暴雨致街道积水严重|中国“乌兹别克斯坦文化日”在京开幕|吴艳妮的奶头真大|小兰脱个精光p图|美女全身裸体㊙️免费看黑料|性免费

洪知秀 HYBE，河南大雪胖东来在门口给顾客身上扫雪|习近平《深化合作，继往开来　推动中阿命运共同体建设跑出加速度——在中阿合作论坛第十届部长级会议开幕式上的主旨讲话》单行本出版|免费看裸体🔞🔞🔞网站51|潘金莲全黄—级A片性舒淇|基尼奇脱了内裤打开腿让人的|18Д❤️❌▶️

如何看待重庆燃气换表后费用暴涨，李行亮指的是葛夕|（新春走基层）山东六旬老人舞龙40余载盼后继有人|成人🔞日本情趣|蒂蒂有话说第一季全集免费观看|黑人裸交|邹文静21个绝密视频少年高潮h跪趴扩张调教喷水文

杀手猴第二季，日本主持人称难怪烟花是中国发明的|【讲习所·中国与世界】“我们一直与中国并肩前进”|学生裸体被❌羞羞软|茜特拉莉同人本子免费|韩国BJ瑟妃肉丝自慰网站|开盒猎手下载

监制：邓金木

策划：赖晗

主创：唐征宇林箴贺陈佛烘颜亦阳陈林韵

编辑：王家菁、段圣祺

热门视频

台青走进电竞新媒体产业园：电竞让两岸青年更“来电”
湖北谷城：“与世界共品一杯高香茶”
海河水利委员会进一步调度京津冀水毁修复工作
和谐共生|情系母亲河绿色绘安澜
长江水利委员会持续做好防汛关键期工作
韩在野党称正起草针对尹锡悦弹劾草案将很快公开
“洋弟子”在中国丨外国青年游吉林坐上中国车：像到了未来
山西古建筑100问——纯阳宫为什么被建成“山西古建筑博物馆”？
“宝总泡饭”也火了专家：不建议长期吃
湖南集中无害化销毁近30吨不合格药品
13学生黑白丝洗澡自慰网站
美女裸身撒尿㊙️视频
乱岳500乱肉合集
ai一键去除衣服免费版
老师让我她我爽了一夜作文
鸣人强小樱禁欲漫画
性裸交❌❌❌❌巴西
283224奖励网站
free性国产猛女xXXX视
一秒让你流鼻血女生当当底部

Copyright © 2014 福建省广播影视集团版权所有

任何机构或个人未经福建省广播影视集团书面授权许可，不得擅自转载、摘编或以其他方式商业使用或传播本网站内容。本网站用字经方正字库授权许可。

信息网络传播视听节目许可证号：1307201 网站备案/许可证号: 闽ICP备08011194 互联网新闻信息服务许可证号：35120170002

Addr：福建省福州市西环南路128号 Post：350004

闽公网安备 35010302000113号