bc贷

搜索 猫眼电影 融媒体矩阵
  • 山东手机报

  • 猫眼电影

  • 大众网官方微信

  • 大众网官方微博

  • 抖音

  • 人民号

  • 全国党媒平台

  • 央视频

  • 百家号

  • 快手

  • 头条号

  • 哔哩哔哩

首页 >新闻 >社会新闻

Llama 4开源空降!1000万超长上下文、单GPU可跑,还有近2万亿参数巨模型

2025-04-13 05:42:11
来源:

猫眼电影

作者:

刘剑文

手机查看

  猫眼电影记者 温布利 报道y85ouztigy6ysf5y

智东西编译 ZeR0编辑 漠影

智东西4月6日报道,今日,Meta发布Llama 4系列首批模型,包括两款高效模型Llama 4 Scout、Llama 4 Maverick。这是Meta首款采用混合专家(MoE)架构构建的原生多模态模型,其中Scout更是首度支持超长10M上下文窗口。Meta还预览了其迄今最强大的新教师模型——Llama 4 Behemoth。

“小杯”Llama 4 Scout拥有16位专家、170亿个活跃参数、1090亿个总参数,被称作“同类产品中全球最好的多模态模型”,提供1000万tokens上下文窗口(对应多达500万个单词的文本),适用于单张NVIDIA H100 GPU(具有Int4量化),并在广泛基准测试中分数超过Gemma 3、Gemini 2.0 Flash-Lite、Mistral 3.1。

“中杯”Llama 4 Maverick拥有128位专家、170亿个活跃参数、4000亿个总参数,也是“同类中最好的多模态模型”,适用于单台H100主机,在广泛基准测试中击败了GPT-4o和Gemini 2.0 Flash,同时在推理和编程方面取得了与新DeepSeek-v3相当的结果,活跃参数不到后者的一半。

Llama 4 Maverick主打性价比,其实验性聊天版本在LMArena上的ELO得分为1417,每1M tokens输入和输出推理成本区间(0.19-0.49美元)也做到接近甚至低于DeepSeek v3.1(0.48美元)。

这些成绩归功于从Meta迄今最强大的模型“巨杯”Llama 4 Behemoth的提炼。Llama 4 Behemoth拥有16位专家、2880亿个活跃参数、近2万亿个总参数,在多个STEM基准测试中的表现优于GPT-4.5、Claude Sonnet 3.7和Gemini 2.0 Pro。

Llama 4 Behemoth仍在训练中,尚未正式发布,但Meta先分享了一些技术细节。

从llama.com和Hugging Face可下载Llama 4 Scout和Llama 4 Maverick模型。这些模型很快将在主流云和数据平台、边缘芯片和全球服务集成商上提供。

模型下载地址:

llama.com/llama-downloads/

huggingface.co/meta-llama

即日起,用户在WhatsApp、Messenger、Instagram Direct和Meta.AI网站上可试用使用Llama 4构建的Meta AI。

Meta还预告将在4月29日的LlamaCon上分享更多关于其愿景的内容。

一、MoE架构+多种预训练新方法,提高算力利用率

构建下一代Llama模型在预训练期间采用了多种新方法。

新Llama 4模型是Meta首批使用混合专家(MoE)架构的模型。在MoE模型中,单个token仅激活总参数的一小部分。MoE架构在训练和推理方面具有更高的计算效率,并且在给定固定训练FLOP预算的情况下,与密集模型相比,可提供更高的质量。

例如,Llama 4 Maverick模型有17B个活跃参数和400B个总参数。Meta使用交替的密集和混合专家(MoE)层来提高推理效率。

MoE层使用128位路由专家和一位共享专家。每个token都会发送给共享专家以及128位路由专家之一。因此,虽然所有参数都存储在内存中,但在为这些模型提供服务时,只有总参数的子集被激活。

这通过降低模型服务成本和延迟来提高推理效率。Llama 4 Maverick可在单台NVIDIA H100 DGX主机上运行,??以便于部署,也可以通过分布式推理实现最高效率。

Llama 4模型采用原生多模态设计,结合早期融合,将文本和视觉token无缝集成到统一的模型主干中。早期融合是向前迈出的重要一步,因为它使Meta能够使用大量未标记的文本、图像和视频数据联合预训练模型。

Meta还改进了Llama 4中的视觉编码器。它基于MetaCLIP,但与冻结的Llama模型一起单独训练,以便更好地使编码器适应大语言模型。

Meta开发了一种新的训练技术MetaP,能可靠地设置关键模型超参数,例如每层的学习率和初始化尺度。该团队发现所选的超参数在不同的batch处理大小、模型宽度、深度和训练token值之间具有良好的迁移性。

Llama 4通过对200种语言进行预训练来实现开源微调工作,其中包括100多种语言,每种语言都有超过10亿个token,总体而言,多语言tokens比Llama 3多10倍。

此外,Meta专注于使用FP8精度进行高效的模型训练,而不会牺牲质量并确保较高的模型FLOP利用率。在使用FP8和32K GPU预训练Llama 4 Behemoth模型时,Meta实现了390 TFLOPs/GPU。用于训练的整体数据组合由超过30万亿个token组成,是Llama 3预训练组合的2倍多,包括各种文本、图像和视频数据集。

Meta继续在所谓的“中期训练”阶段训练模型,以使用新的训练方案(包括使用专门的数据集进行长上下文扩展)来提高核心功能。这使其能够提高模型质量,同时为Llama 4 Scout解锁超长的10M输入上下文长度。

二、改进后训练流程,权衡计算和准确性

新Llama 4模型有不同大小。Llama 4 Maverick在图像和文本理解方面提供行业领先性能,支持创建复杂的AI应用程序以跨越语言障碍。作为Meta针对通用助手和聊天用例的产品主力模型,Llama 4 Maverick非常适合精确的图像理解和创意写作。

在对Llama 4 Maverick模型进行后训练时,最大的挑战是在多种输入模式、推理和对话能力之间保持平衡。对于混合模式,Meta提出了一个精心策划的课程策略,与单个模式专家模型相比,该策略不会牺牲性能。

借助Llama 4,Meta通过采用不同的方法改进了后训练流程:轻量级监督微调(SFT)> 在线强化学习(RL)> 轻量级直接偏好优化 (DPO)。

一个关键的学习是,SFT和DPO可能会过度约束模型,限制在线强化学习阶段的探索并导致准确性不理想,特别是在推理、编程和数学领域。

为了解决这个问题,Meta使用Llama模型作为判断标准,删除了50%以上标记为简单的数据,并对剩余的较难数据集进行了轻量级SFT。

在随后的多模态在线强化学习阶段,通过仔细选择更难的提示,Meta能够实现性能的阶跃变化。

此外,Meta实施了持续在线RL策略,交替训练模型,然后使用它来持续过滤并仅保留中等难度到困难难度的提示。事实证明,这种策略在计算和准确性权衡方面非常有益。

然后,Meta做了一个轻量级DPO来处理与模型响应质量相关的极端情况,有效地在模型的智能和对话能力之间实现了良好的平衡。管道架构和具有自适应数据过滤的持续在线RL策略最终形成了业界领先的通用聊天模型,具有先进的智能和图像理解能力。

作为通用大语言模型,Llama 4 Maverick包含170亿个活跃参数、128位专家和4000亿个总参数,与Llama 3.3 70B相比,它以更低的价格提供高质量。

Llama 4 Maverick是同类最佳的多模态模型,在编程、推理、多语言、长上下文和图像基准测试中超越了GPT-4o和Gemini 2.0等同类模型,并且在编程和推理方面可与活跃参数规模大得多的DeepSeek v3.1相媲美。

小型模型Llama 4 Scout是一个通用模型,拥有170亿个活动参数、16位专家和1090亿个总参数,可提供同类中一流的性能。Llama 4 Scout将支持的上下文长度从Llama 3中的128K大幅增加到行业领先的1000万个token,适用于多文档摘要、解析大量用户活动以执行个性化任务以及对庞大的代码库进行推理。

Llama 4 Scout经过了预训练和后训练,上下文长度为256K,这为基础模型提供了高级长度泛化能力。

Meta在诸如对文本进行“大海捞针”式检索以及对1000万个代码token进行累积负对数似然(NLL)等任务中展示了令人信服的结果。

Llama 4架构的一个关键创新是使用没有位置嵌入的交错注意层。此外,Meta采用注意力的推理时间温度缩放来增强长度泛化,并称之为iRoPE架构。其中“i”代表“交错”注意层,突出了支持“无限”上下文长度的长期目标,“RoPE”指的是大多数层中使用的旋转位置嵌入。

Meta用各种图像和视频帧静态图像训练了两个模型,以便让它们具有广泛的视觉理解能力,包括时间活动和相关图像。这使得多图像输入以及用于视觉推理和理解任务的文本提示能够轻松交互。这些模型在多达48张图像上进行了预训练,在训练后测试了多达8张图像,取得了良好的效果。

Llama 4 Scout在图像基础方面也性能出色,能够将用户提示与相关的视觉概念对齐,并将模型响应锚定到图像中的区域。这使得大语言模型能够更精确地回答视觉问题,从而更好地理解用户意图并定位感兴趣的对象。

该模型在编程、推理、长上下文和图像基准方面也超越了同类模型,并比所有以前的Llama模型都具有更强大的性能。

三、Llama 4 Behemoth预览:近2万亿总参数,改造底层基础设施

Llama 4 Behemoth一个教师模型,也是一个多模态专家混合模型,拥有2880亿个活跃参数、16个专家、近2万亿个总参数,在数学、多语言和图像基准测试中为非推理模型提供了先进性能。

Meta开发了一种新颖的提炼损失函数,可通过训练动态加权软目标和硬目标。在预训练期间从Llama 4 Behemoth进行共同提炼,可摊销计算学生训练中使用的大多数训练数据的提炼目标所需的资源密集型前向传递的计算成本。为了在学生训练中加入更多新数据,Meta对Behemoth模型进行了前向传递,以创建提炼目标。

对具有2万亿个参数的模型进行后期训练也是一项重大挑战,这需要从数据规模开始彻底改革和改进配方。为了最大限度地提高性能,必须修剪95%的SFT数据,而对于较小的模型则需要修剪50%,以实现对质量和效率的必要关注。

Meta还发现,进行轻量级SFT后进行大规模强化学习(RL)可以更显著地提高模型的推理和编程能力。其RL配方专注于通过使用策略模型进行pass@k分析来采样硬提示,并制定增加提示难度的训练课程。

Meta还发现,在训练期间动态过滤掉没有优势的提示,并使用来自多种功能的混合提示构建训练批次,有助于提高数学、推理和编程的性能。

最后,从各种系统指令中采样对于确保模型保留其推理和编程的指令遵循能力并能够在各种任务中表现良好至关重要。

由于RL的规模空前巨大,因此将其扩展到2万亿参数模型也需要改造底层RL基础设施。

Meta优化了MoE并行化的设计以提高速度,从而实现了更快的迭代。该团队开发了一个完全异步的在线RL训练框架,提高了灵活性。与现有的分布式训练框架相比,后者牺牲了计算内存来将所有模型堆叠在内存中,而其新基础设施能够灵活地将不同的模型分配到单独的GPU上,根据计算速度在多个模型之间平衡资源。与前几代相比,这项创新使训练效率提高了约10倍。

结语:开源多种保护措施,改进消除偏见能力

Meta称其目标是开发最有帮助和实用的模型,同时防范和缓解最严重的风险,根据《开发人员使用指南:AI保护》中概述的最佳实践构建了Llama 4,使开发人员能够为其Llama支持的应用程序创建有用、安全且适应性强的体验。

Meta在预训练方面,结合使用数据过滤和其他数据缓解措施来保护模型;对于后训练,应用了一系列技术来确保模型符合对用户和开发者有益的政策,包括在每个阶段提供适当级别的安全数据。

在系统层面,Meta开源了几种保护措施,可帮助识别和防范潜在的有害输入和输出。这些工具(Llama Guard、Prompt Guard、Cyber??SecEval)可以集成到Llama模型中,也可以与其他第三方工具集成。

Meta以可控且可重复的方式对各种场景和用例中的模型进行系统测试,并将产生的数据整合到训练后的结果中。该团队还利用自动和手动测试对一系列主题的对抗性动态探测对模型进行压力测试,在理解和评估潜在模型风险方面取得了进展。

为消除AI模型的偏见,Meta将继续提高Llama的响应能力,以便它能够回答问题,能够对各种不同的观点做出回应而不作任何评判,并且不会偏袒某些观点。经改进,Llama 4的性能明显优于Llama 3,并且可与Grok相媲美:

Llama 4对有争议的政治和社会话题的拒绝较少(从Llama 3.3中的7%降至不到2%)。Llama 4在拒绝回答提示方面明显更加平衡(在一系列有争议的热门问题中,不平等回答拒绝的比例现在不到1%)。

Meta还致力于让模型能够以像人类一样的速度、以个性化的方式做出回复。Llama 4 经过了优化以满足这些需求。

来源:Meta

??时事1:穿jK❌搓奶羞免费视频

??04月13日,中国央行启用公开市场买断式逆回购操作工具,

  美丽的女子知道自己丈夫的脾气,决定的事情就不会再改了,但真的担心他去寻那头恐怖的貔貅,道:“我与你一起去,有两种宝术需要我们夫妻联手施展才能达到极致,威力绝大无匹。”

,钉崎野蔷薇h爆乳喷水小说。

??04月13日,江山如画|闽东之光 在海之上,

  拳头大的金色毛球,大眼珠子叽里咕噜的转动,抱起五色鸟蛋,侧身对着小不点,那意思是,它是我的,不准丢掉。

,美女爆乳裸体啪啪久久精品网站,大司命被扒开腿做高H电影,sm别墅调教故事。

??时事2:芒果视频♥成人app

??04月13日,云南三所乡村小学合唱团唱响“田埂上的童年”,

  相传,这种凶兽一出世必然会有大乱,天下出现刀兵之灾,四处征战,是大凶之兆。

,美女露出🐻 让男生 揉 真人,女人被精69XXX免费下载,跳舞姿势插的好深啊。

??04月13日,份额跌至17% 日系汽车品牌在华失速,

  “什么破神,要是厉害,你就超脱此地的规则秩序的局限。我斩,我剁,吃掉,吃掉,全部吃掉!”

,公啊好嗯轻一点加油,美女全身裸体㊙️免费视频电影,8x8ⅹ拨牐拨牐拨牐永久免费。

??时事3:男男十八禁啪啪网站女攻男受

??04月13日,广西柳州:东北小朋友欢跳竹竿舞 品味广西水果盛宴,

  加强学习,强化素质,这是党委系统办公室工作人员为经济社会发展服务的前提条件。我这里所指的学习,不仅指一般意义上的读书学习,而且有着更高的要求,具体讲,就是要做到“四个坚持”,即,坚持学习的适用性,立足于管用、能用,精心选择学习内容,对重要的知识,尤其是政治理论,党的路线方针政策,要学得深,研究得透,掌握得牢,不能满足于一知半解,蜻蜓点水;坚持学习的广泛性,尽可能多地涉猎知识,拓宽视野,不强求门门精,但必须做到样样通;坚持学习的创新性,向基层和群众学习,敢于突破一些与时代发展不相适应的工作理念和工作模式,善于用新的思路、新的途径、新的办法来解决办公室工作中遇到的新矛盾和新问题;坚持学习的经常性, “在工作中学习,在学习中工作”,通过坚持不懈地刻苦学习和实践锻炼,达到张口能讲、提笔能写、遇事能办,使自己成为党委系统办公室工作的行家里手。工作中要克服“三个误区”:一是要克服办公室工作主要就是搞文字工作的误区,养成多思考的习惯。确实,作为一名党委办公室工作人员,具有一定的文字功底十分重要,但是,办公室的文字工作决不能满足于一般要求,而应该重在为领导出思路。大家一定要养成勤于动脑、善于思考的习惯,突出“以文辅政”这一灵魂,加强政策理论学习,结合党委中心工作进行认真思考,抓住一切可利用的时间和机会,深入了解、准确把握基层情况,力争在各方面比领导知道的更多、更详细,从较高层次和更广阔的视野丰富和完善领导的思想观点,使更多的文稿进入决策,发挥作用,指导全局工作的开展。二是要克服为领导服务只能是被动服务的误区,养成善总结的习惯。在领导身边工作,并不意味着领导让干什么就干什么,大家要化被动为主动,充分利用直接为领导服务的优势,善于学习和总结领导的思维方法、领导艺术,学会站在党委的高度、领导的高度、全局的高度研究和思考问题,力求在思路上与党委工作合拍,与领导思想同步,努力培养自己统揽全局、高瞻远瞩、开拓创新的立体化思维能力。三是要克服办公室只要按部就班就不会出大问题的误区,养成重修养的习惯。大家都知道,党委办公室的每一项工作都很重要,大到办文办会,小到接个电话、收份文件、传递信息,一旦失误,往往难以弥补。可以说,“办公室工作无小事”,做好办公室工作,一样需要我们把握规律,开拓创新,坚持细致再细致,周密再周密,保证党委工作的高效有序运转。因此,希望大家加强修养,严于律己,保持头脑清醒,坚定政治立场,努力做一个品德高尚、无私奉献的人。

,纲手扒开❌❌让自来也,被c❌到爽的视频在线观看,itch.io18+埃及猫。

??04月13日,体育生受雇背娃爬泰山,网友在担忧什么?,

  各位老师,亲爱的同学们:

,杜达雄1069基图,91丨九色丨国产❤️,艾玛裸爱被❌视频无码。

??时事4:国产❌❌❌❌69熟

??04月13日,入境游持续火热,让世界看到真实的中国,

  我系学生干部队伍的素质状况是优秀的。学生干部都是学生中的优秀分子,他们参加系里的建设和管理,义务的为集体、同学服务,深得老师和同学的好评,这是值得肯定和继续发扬的。在总体肯定的同时,还是要认真提防、不断指出并即时纠正学生会干部队伍中可能存在的各种问题,诸如:有些干部过于注重提升自己组织管理能力,而疏于对自己的严格要求,学习不够努力,工作缺乏热情等。

,成人aaavvv视频在线观看,女奥特曼18❌本子ACG,美女➕光屁屁➕无遮挡韩打针。

??04月13日,核心观|法籍教师:中国提供很多机会 文化交流深化友谊,

  大虫惊慌,急忙抬头,喷出霞光,以符文对抗。

,成年18🈲网站免费进入夜色,脱👙让学生C🐻-百度免费,暴力 鞭打 调教 惨叫视频。

责编:阳光新城

审核:刘礼冲

责编:乔登江

相关推荐 换一换

Copyright (C) 2001- Dzwww   鲁ICP备09023866号-1

Sitemap