bc贷

搜索 猫眼电影 融媒体矩阵
  • 山东手机报

  • 猫眼电影

  • 大众网官方微信

  • 大众网官方微博

  • 抖音

  • 人民号

  • 全国党媒平台

  • 央视频

  • 百家号

  • 快手

  • 头条号

  • 哔哩哔哩

首页 >新闻 >社会新闻

刚刚,Llama 4深夜开源击败DeepSeek V3!2万亿多模态巨兽抢回王座

2025-04-08 06:25:13
来源:

猫眼电影

作者:

欧恺

手机查看

  猫眼电影记者 拉巴然·马库 报道y85ouztigy6ysf5y

新智元报道

编辑:编辑部 JNY

【新智元导读】原生多模态Llama 4终于问世,开源王座一夜易主!首批共有两款模型Scout和Maverick,前者业界首款支持1000万上下文单H100可跑,后者更是一举击败了DeepSeek V3。目前,2万亿参数巨兽还在训练中。

一大早,Llama 4重磅发布了!

Meta官宣开源首个原生多模态Llama 4,首次采用的MoE架构,支持12种语言,首批发布一共两款:

Llama 4 Scout:共有1090亿参数,17B活跃参数,16个专家,1000万上下

Llama 4 Maverick:共有4000亿参数,17B活跃参数,128个专家,100万上下文

另外,2万亿参数Llama 4 Behemoth将在未来几个月面世,288B活跃参数,16个专家。

Llama 4的横空出世,成为迄今为止开源最强,多模态能力最好的模型之一。

在大模型LMSYS排行榜上,Llama 4 Maverick冲上第二( ELO得分1417),仅次于闭源Gemini 2.5 Pro。

更值得一提的是,仅用一半参数,Maverick推理编码能力与DeepSeek-v3-0324实力相当。

Llama 4 Scout最大亮点在于支持1000万上下文,相当于可以处理20+小时的视频,仅在单个H100 GPU(Int4 量化后)上就能跑。

在基准测试中,性能超越Gemma 3、Gemini 2.0 Flash-Lite、Mistral 3.1。

即将面世的Llama 4 Behemoth(仍在训练中),是Maverick协同蒸馏的教师模型,使用30T多模态token在32K个GPU上进行预训练(FP8)。

目前在STEM基准测试中,超越了GPT-4.5、Claude Sonnet 3.7、Gemini 2.0 Pro。

小扎激动地在官宣视频中称,「今天是Llama 4日」!

Llama 4开源后,DeepSeek R2还远吗?

此前报道称,DeepSeek R2最晚在5发布,看来可能要提前了...

史上最强Llama 4开源,超越DeepSeek V3

Llama 4模型开源,标志着Llama生态系统进入了一个新纪元。

即日起,所有开发者可以在llama.com和Hugging Face下载这两款最新的模型

在大模型排行榜中,Llama 4 Maverick在硬提示(hard prompt)、编程、数学、创意写作、长查询和多轮对话中,并列第一。

仅在样式控制下,排名第五。

而且,1000万上下文Llama 4 Scout还击败了OpenAI的模型。

每个人还可以在WhatsApp、Messenger、Instagram Direct和网页上体验基于Llama 4的应用。

首次采用MoE,单个H100即可跑

Llama团队设计了两款高效的Llama 4系列模型,只要单个H100 GPU就能运行:

一个是Llama 4 Scout(拥有170亿个活跃参数和16个专家),使用Int4量化可以在单个H100GPU上运行;

另一个是Llama 4 Maverick(拥有170亿个活跃参数和128个专家),可以在单个H100主机上运行。

目前,正在训练的教师模型——Llama 4 Behemoth,它在STEM基准测试(如MATH-500和GPQA Diamond)中,性能优于GPT-4.5、Claude Sonnet 3.7、Gemini 2.0 Pro。

在最新博文中,Meta分享了更多的关于Llama 4家族训练的技术细节。

在英伟达B200上,Llama 4可以每秒处理42400个token

预训练

Llama 4模型是Llama系列模型中首批采用混合专家(MoE)架构的模型。

在MoE模型中,单独的token只会激活全部参数中的一小部分。

与传统的稠密模型相比,MoE架构在训练和推理时的计算效率更高,并且在相同的训练FLOPs预算下,能够生成更高质量的结果。

架构概览,右为混合专家(MoE)架构

举个例子,Llama 4 Maverick模型的4000亿个总参数中有170亿个活跃参数。

为了提高推理效率,Meta交替使用了稠密层和专家混合(MoE)层。

MoE层用到了128个路由专家和一个共享专家。每个token都会被送到共享专家,同时也会送到128个路由专家中的一个。

因此,虽然所有参数都存储在内存中,但在运行这些模型时,只有部分参数会被激活。

这样就能提升推理效率,降低模型服务的成本和延迟——

Llama 4 Maverick可以轻松部署在一台NVIDIA H100 DGX主机上运行,或者通过分布式推理来实现最高效率。

原生多模态设计

Llama 4是一个原生多模态模型,采用了早期融合技术,能把文本和视觉token无缝整合到一个统一的模型框架里。

早期融合是个大进步,因为它可以用海量的无标签文本、图片和视频数据一起来预训练模型。

Meta还升级了Llama 4的视觉编码器。这个编码器基于MetaCLIP,但在训练时跟一个冻结的Llama模型分开进行,这样能更好地调整编码器,让它更好地适配大语言模型(LLM)。

模型超参数优化

Meta还开发了一种叫做MetaP的新训练方法,能让他们更靠谱地设置关键的模型超参数,比如每层的学习率和初始化规模。

这些精心挑选的超参数在不同的批大小、模型宽度、深度和训练token量上都能很好地适配。

Llama 4通过在200种语言上预训练实现了对开源微调的支持,其中超过10亿个token的语言有100多种,整体多语言token量比Llama 3多出10倍。

高效的模型训练,解锁1000万输入上下文长度

此外,Meta注重高效的模型训练,采用了FP8精度,既不牺牲质量,又能保证模型的高FLOPs利用率——

在使用FP8精度和32K个GPU预训练Llama 4 Behemoth模型时,达到了每个GPU 390 TFLOPs的性能。

训练用的整体数据包含了超过30万亿个 token,比Llama 3的预训练数据量翻了一倍还多,涵盖了文本、图片和视频数据集。

Meta用一种叫做「中期训练」的方式来继续训练模型,通过新的训练方法,包括用专门的数据集扩展长上下文,来提升核心能力。

这不仅提高了模型的质量,还为Llama 4 Scout解锁了领先的1000万输入上下文长度。

后训练

最新的模型包含了不同的参数规模,满足各种使用场景和开发者的需求。

Llama 4 Maverick:参数规模较大,主要用于图像理解和创意写作

Llama 4 Scout:参数规模较小,适用多种任务,支持1000万token上下文,全球领先。

为了让不同模型适应不同的任务,针对多模态、超大参数规模等问题,Meta开发了一系列新的后训练方法。

主力模型Llama 4 Maverick

作为产品的核心模型,Llama 4 Maverick在图像精准理解和创意写作方面表现突出,特别适合通用助手、聊天类应用场景。

训练Llama 4 Maverick模型时,最大的挑战是保持多种输入模式、推理能力和对话能力之间的平衡。

后训练流程

为了训练Llama 4,Meta重新设计了后训练流程,采用了全新的方法:

轻量级监督微调(SFT)> 在线强化学习(RL)> 轻量级直接偏好优化(DPO)。

一个关键发现是,SFT和DPO可能会过度限制模型,在在线RL阶段限制了探索,导致推理、编程和数学领域的准确性不理想。

为了解决这个问题,Meta使用Llama模型作为评判者,移除了超过50%的被标记为「简单」的数据,并对剩余的更难数据进行轻量级SFT。

在随后的多模态在线RL阶段,精心选择了更难的提示,成功实现了性能的飞跃。

此外,他们还实施了持续在线RL策略,交替进行模型训练和数据筛选,只保留中等到高难度的提示。这种策略在计算成本和准确性之间取得了很好的平衡。

最后,进行了轻量级的DPO来处理与模型响应质量相关的特殊情况,有效地在模型的智能性和对话能力之间达成了良好的平衡。

新的流程架构加上持续在线RL和自适应数据过滤,最终打造出了一个行业领先的通用聊天模型,拥有顶尖的智能和图像理解能力。

Llama 4 Maverick碾压GPT-4o和Gemini 2.0

作为一款通用的LLM,Llama 4 Maverick包含170亿个活跃参数,128个专家和4000亿个总参数,提供了比Llama 3.3 70B更高质量、更低价格的选择。

Llama 4 Maverick是同类中最佳的多模态模型,在编程、推理、多语言支持、长上下文和图像基准测试中超过了类似的模型,如GPT-4o和Gemini 2.0,甚至能与体量更大的DeepSeek v3.1在编码和推理上竞争。

通用模型Llama 4 Scout:1000万token上下文

规模较小的Llama 4 Scout是一款通用模型,拥有170亿个活跃参数、16个专家和1090亿个总参数,在同类别中性能最好。

Llama 4 Scout 的支持上下文长度从 Llama 3 的12.8万激增到行业领先的1000万token。

这为多种应用打开了无限可能,包括多文档摘要、大规模用户活动解析以进行个性化任务,以及在庞大的代码库中进行推理。

Llama 4 Scout在预训练和后训练时都采用了256K的上下文长度,基础模型具备了先进的长度泛化能力。

它在一些任务中取得了亮眼成果,比如文本检索中的「大海捞针式检索」和在1000万token代码上的累积负对数似然(NLLs)。

Llama 4架构的一个关键创新是使用了交替注意力层,而不依赖于位置嵌入。

此外,在推理时采用了温度缩放注意力,以增强长度泛化能力。Meta将其称为iRoPE架构,其中「i」代表「交替」(interleaved)注意力层,突出了支持「无限」上下文长度的长期目标,而「RoPE」则指的是在大多数层中使用的旋转位置嵌入(Rotary Position Embeddings)。

视觉理解能力

两款模型进行了大规模的图像和视频帧静态图像训练,以赋予它们广泛的视觉理解能力,包括对时间活动和相关图像的理解。

它们能够在多图像输入和文本提示的配合下,轻松进行视觉推理和理解任务。

模型预训练时最多用了48张图像,而在后训练测试中,最多8张图像也能取得不错的效果。

Llama 4 Scout在图像定位方面也是同类最佳,能够将用户的提示与相关的视觉概念对齐,并将模型的响应锚定到图像中的特定区域。

这使得更精确的视觉问答成为可能,帮助LLM更好地理解用户意图并定位感兴趣的对象。

编程、推理、长上下文和图像上,遥遥领先

Llama 4 Scout在编程、推理、长上下文和图像基准测试中超过了类似的模型,并且在所有以前的Llama模型中表现更强。

秉承对开源的承诺,Meta将Llama 4 Maverick和Llama 4 Scout提供给用户下载,用户可以在llama.com和Hugging Face上获取,之后这些模型还将在最广泛使用的云平台、数据平台、边缘硅片以及全球服务集成商上陆续上线。

2万亿巨兽,干掉GPT-4.5

Llama 4 Behemoth是一款「教师模型」,在同级别的模型里,它的智能水平相当高超。

Llama 4 Behemoth同样是一个多模态混合专家模型,拥有2880亿个活跃参数、16个专家以及近2万亿个总参数。

在数学、多语言处理和图像基准测试方面,它为非推理模型提供了最先进的性能,成为训练较小的Llama 4模型的理想选择。

教师模型+全新蒸馏

从Llama 4 Behemoth中蒸馏出来Llama 4 Maverick,在最终任务评估指标上大幅提升了质量。

Meta开发了一种新的蒸馏损失函数,在训练过程中动态地加权软目标和硬目标。

通过从Llama 4 Behemoth进行共同蒸馏,能够在预训练阶段分摊计算资源密集型前向计算的成本,这些前向计算用于计算大多数用于学生模型训练的数据的蒸馏目标。

对于学生训练中包含的额外新数据,会在Behemoth模型上运行前向计算,以生成蒸馏目标。

后训练

对一个拥有两万亿参数的模型进行后训练也是一个巨大的挑战,这必须彻底改进和重新设计训练方案,尤其是在数据规模方面。

为了最大化性能,不得不精简95%的SFT数据,相比之下,较小的模型只精简了50%的数据,目的是确保在质量和效率上的集中关注。

Meta还发现,采用轻量级的SFT后接大规模RL能够显著提高模型的推理和编码能力。Meta的RL方案专注于通过对策略模型进行pass@k分析来采样难度较大的提示,并设计逐渐增加提示难度的训练课程。

在训练过程中动态地过滤掉没有优势的提示,并通过从多个能力中混合提示构建训练批次,对提升数学、推理和编码的性能起到了关键作用。

最后,从多种系统指令中采样对于确保模型保持良好的指令跟随能力,在推理和编码任务中表现出色也至关重要。

扩展RL训练

对于两万亿参数的模型,扩展RL训练也要求重新设计底层的RL基础设施,应对前所未有的规模。

Meta优化了MoE并行化的设计,提高了速度,从而加快了迭代速度。

Llama团队开发了一个完全异步的在线RL训练框架,提升了灵活性。

与现有的分布式训练框架相比,后者为了将所有模型都加载到内存中而牺牲了计算内存,新基础设施能够灵活地将不同的模型分配到不同的GPU上,根据计算速度在多个模型之间平衡资源。

这一创新使得训练效率比之前的版本提升了约10倍。

Llama 4一夜成为开源王者,甚至就连DeepSeek V3最新版也被拉下神坛,接下来就是坐等R2的诞生。

参考资料:

https://x.com/AIatMeta/status/1908598456144531660

https://x.com/astonzhangAZ/status/1908595612372885832

https://x.com/lmarena_ai/status/1908601011989782976

??时事1:男男骨科1/1多肉

??04月08日,坚定不移发展开放型世界经济,

  另外,按照全省小城镇建设现场会议的要求,立足我县小城镇建设实际,我们在搞好朝阳镇规划和建设的同时,还要将其他中心城镇纳入今后小城镇规划建设工作的重要日程中来,通过朝阳镇建设的成功经验,引导其他中心城镇建设的发展,通过中心城镇建设的发展带动周边乡直驻地及大型行政村的进步。重点推进基础及规模比较成型的乌云镇和保兴乡两个中心乡镇建设的提档升级,努力建设具有边城特色、独具魅力的新型城镇。一方面,要大手笔、高标准搞好规划。将其社会、经济、文化、环境的协调发展和突出特色作为规划的核心内容,明确今后的建设定位和发展方向,科学确定人口和用地规模;对基础设施和公共设施进行规划布局、优化配置,合理确定生活区、商业区、文教区、工业区和各类市场等功能用地。规划部门要尽快组织介入,聘请省内外高资质的规划设计单位进行规划编制,达到一张蓝图绘到底,力争二十年不落后、三十年可操作;同时,要加快供热、供水、排水、道路、绿化等专项规划的编制,明确今后各类配套功能建设的方向,争取一次规划,全面建设,一劳永逸。另一方面,要大力度、高质量搞好建设。按照规划成果,建设各行政主管单位要尽快出台较朝阳镇建设更加优惠的扶持政策,支持、鼓励中心乡镇开展小城镇建设;同时,各中心乡镇要充分发挥主体作用,在各单位大力支持与配合下,全面开展城镇基本建设和道路、供水、供热、排水等市政设施建设,不断改善城镇居民生产生活质量,加快推进小城镇建设提档升级。其三,要完善制度,高效能管理和巩固好建设成果。各中心乡镇要在搞好规划和建设的基础上,积极借鉴成功的管理经验,不断完善适合本乡镇的小城镇建设管理办法,探索完善乡镇城管中队的管理职能,努力实现小城镇管理制度化、规范化。

,自慰被室友看见强行嗯啊男男。

??04月08日,解放军南部战区组织海空兵力位中国黄岩岛领海领空及周边区域战备警巡,

  共实施拆迁改造项目个,拆迁占地面积万平方米,拆迁建筑面积万平方米。开工建设经济适用住房万平方米;新开工建设住宅小区个,开工建筑面积万平方米。加强了住房登记及二级市场交易管理,办理初始登记件,发证面积万平方米;抵押登记件,登记面积万平方米;转移登记件,面积万平方米;现房抵押件,登记面积万平方米,受理了市区家房地产开发企业的业务。强化了住房公积金的归集使用管理,归集公积金万元,发放公积金贷款万元。开展了房地产市场规范整顿,对家房地产开发企业,家物业管理企业,家房地产评估机构进行了资质年检和市场检查,房地产市场秩序进一步好转。严格商品房预售管理,共办理预售许可证件,预售面积万平方米。加强了物业管理,提请市政府下发了《关于进一步加强物业管理工作的通知》,对进一步加强物业管理工作,充分发挥市、区政府有关部门、街道办事处、社区委员会的职能作用提出具体要求。下发了《关于进一步加强房地产开发管理的通知》,加强前期物业管理工作,进一步完善维修基金制度,累计归集万元。积极开展物业管理示范小区创建,有两家住宅小区分别被自治区评为示范小区、优秀小区。

,美女露100%胸无遮挡免费观看,性一交一乱一视一频是夸人吗,初中女生光溜溜军训。

??时事2:伍六七抱着梅花十三

??04月08日,2023年公安部投入帮扶资金5834万元 采购和销售农副产品价值2.5亿元,

  不久前,他们族中的高手还放言,要铲除石村,不费吹灰之力,狻猊宝骨等不是一个村子所能拥有的。现在所发生之事,可不仅是一个耳光回抽在了他们的脸上,这是在扒皮啊,族主都要死了!

,禁漫♥天堂♥,再深点灬舒服灬太大了学,免费看60分钟黄🌕图片蜜桃。

??04月08日,沈阳:借助“进博会”平台精准招商 扩大投资“朋友圈”,

  一群壮汉全都点头答应,因为他们的目光不在五色鸡上,神思不宁,全都在盯着另一边的独角兽,那银辉闪烁的宝驹让每一个男人都心动。

,云悠悠被强❌图黄漫,27报530期李毅吧,星野鱼哥完整版去哪里看。

??时事3:国产又爽❌又黄❌免费鸣人

??04月08日,18国葡萄酒在宁夏贺兰山东麓同台“对决”,

  这对他们来说,宛若一场神话破灭,冲击太大了,要知道这头祭灵在他们心中跟神似的,不可战胜,现在却被一个孩子跟斩杀了。

,性亂倫XXXX乱大交女3视频,免费㊙️羞羞声控,乖⋯好舒服⋯把腿张开许盛。

??04月08日,“端午经济”迸发消费新活力,

  与此同时,青鳞鹰冲到,一只大爪子探出,同样青光耀眼,锋锐无比,抓住了它,顿时血液飞溅。

,梅花十三裸体㊙️无遮挡,钟离夹道具羞耻play❌哭,顶到里面了~疼视频。

??时事4:宁荣荣扒开腿狂❌3D电影

??04月08日,习言道 | 建设绿色家园是人类的共同梦想,

  狈风大怒,平日阴沉而冷静的他再也克制不住,今日真是一场奇耻大辱,被这样一个毛孩子抓住,真比杀了他都难受,奋力挣扎,拳头轰向小不点。

,玩弄小男生的小知乎,冷狐移植1000款免费游戏入口,欧美性猛交XXXXX无码婷。

??04月08日,浙江小伙在荷兰开火锅连锁店:让“中国味”走向世界,

  双臂一晃,八千斤神力,这只是一个孩子,不足四岁,石村的人闻所未闻,见所未见,一个个都发傻,张大了嘴巴。

,达达利亚被❌娇喘流白色液体,王者荣耀同人婬乱小说,坚硬挺进空姐花心视频。

责编:冯志强

审核:万凌云

责编:安道福

相关推荐 换一换

Copyright (C) 2001- Dzwww   鲁ICP备09023866号-1

Sitemap