智东西编译 ZeR0编辑 漠影
智东西4月6日报道,今日,Meta发布Llama 4系列首批模型,包括两款高效模型Llama 4 Scout、Llama 4 Maverick。这是Meta首款采用混合专家(MoE)架构构建的原生多模态模型,其中Scout更是首度支持超长10M上下文窗口。Meta还预览了其迄今最强大的新教师模型——Llama 4 Behemoth。
“小杯”Llama 4 Scout拥有16位专家、170亿个活跃参数、1090亿个总参数,被称作“同类产品中全球最好的多模态模型”,提供1000万tokens上下文窗口(对应多达500万个单词的文本),适用于单张NVIDIA H100 GPU(具有Int4量化),并在广泛基准测试中分数超过Gemma 3、Gemini 2.0 Flash-Lite、Mistral 3.1。
“中杯”Llama 4 Maverick拥有128位专家、170亿个活跃参数、4000亿个总参数,也是“同类中最好的多模态模型”,适用于单台H100主机,在广泛基准测试中击败了GPT-4o和Gemini 2.0 Flash,同时在推理和编程方面取得了与新DeepSeek-v3相当的结果,活跃参数不到后者的一半。
Llama 4 Maverick主打性价比,其实验性聊天版本在LMArena上的ELO得分为1417,每1M tokens输入和输出推理成本区间(0.19-0.49美元)也做到接近甚至低于DeepSeek v3.1(0.48美元)。
这些成绩归功于从Meta迄今最强大的模型“巨杯”Llama 4 Behemoth的提炼。Llama 4 Behemoth拥有16位专家、2880亿个活跃参数、近2万亿个总参数,在多个STEM基准测试中的表现优于GPT-4.5、Claude Sonnet 3.7和Gemini 2.0 Pro。
Llama 4 Behemoth仍在训练中,尚未正式发布,但Meta先分享了一些技术细节。
从llama.com和Hugging Face可下载Llama 4 Scout和Llama 4 Maverick模型。这些模型很快将在主流云和数据平台、边缘芯片和全球服务集成商上提供。
模型下载地址:
llama.com/llama-downloads/
huggingface.co/meta-llama
即日起,用户在WhatsApp、Messenger、Instagram Direct和Meta.AI网站上可试用使用Llama 4构建的Meta AI。
Meta还预告将在4月29日的LlamaCon上分享更多关于其愿景的内容。
一、MoE架构+多种预训练新方法,提高算力利用率
构建下一代Llama模型在预训练期间采用了多种新方法。
新Llama 4模型是Meta首批使用混合专家(MoE)架构的模型。在MoE模型中,单个token仅激活总参数的一小部分。MoE架构在训练和推理方面具有更高的计算效率,并且在给定固定训练FLOP预算的情况下,与密集模型相比,可提供更高的质量。
例如,Llama 4 Maverick模型有17B个活跃参数和400B个总参数。Meta使用交替的密集和混合专家(MoE)层来提高推理效率。
MoE层使用128位路由专家和一位共享专家。每个token都会发送给共享专家以及128位路由专家之一。因此,虽然所有参数都存储在内存中,但在为这些模型提供服务时,只有总参数的子集被激活。
这通过降低模型服务成本和延迟来提高推理效率。Llama 4 Maverick可在单台NVIDIA H100 DGX主机上运行,??以便于部署,也可以通过分布式推理实现最高效率。
Llama 4模型采用原生多模态设计,结合早期融合,将文本和视觉token无缝集成到统一的模型主干中。早期融合是向前迈出的重要一步,因为它使Meta能够使用大量未标记的文本、图像和视频数据联合预训练模型。
Meta还改进了Llama 4中的视觉编码器。它基于MetaCLIP,但与冻结的Llama模型一起单独训练,以便更好地使编码器适应大语言模型。
Meta开发了一种新的训练技术MetaP,能可靠地设置关键模型超参数,例如每层的学习率和初始化尺度。该团队发现所选的超参数在不同的batch处理大小、模型宽度、深度和训练token值之间具有良好的迁移性。
Llama 4通过对200种语言进行预训练来实现开源微调工作,其中包括100多种语言,每种语言都有超过10亿个token,总体而言,多语言tokens比Llama 3多10倍。
此外,Meta专注于使用FP8精度进行高效的模型训练,而不会牺牲质量并确保较高的模型FLOP利用率。在使用FP8和32K GPU预训练Llama 4 Behemoth模型时,Meta实现了390 TFLOPs/GPU。用于训练的整体数据组合由超过30万亿个token组成,是Llama 3预训练组合的2倍多,包括各种文本、图像和视频数据集。
Meta继续在所谓的“中期训练”阶段训练模型,以使用新的训练方案(包括使用专门的数据集进行长上下文扩展)来提高核心功能。这使其能够提高模型质量,同时为Llama 4 Scout解锁超长的10M输入上下文长度。
二、改进后训练流程,权衡计算和准确性
新Llama 4模型有不同大小。Llama 4 Maverick在图像和文本理解方面提供行业领先性能,支持创建复杂的AI应用程序以跨越语言障碍。作为Meta针对通用助手和聊天用例的产品主力模型,Llama 4 Maverick非常适合精确的图像理解和创意写作。
在对Llama 4 Maverick模型进行后训练时,最大的挑战是在多种输入模式、推理和对话能力之间保持平衡。对于混合模式,Meta提出了一个精心策划的课程策略,与单个模式专家模型相比,该策略不会牺牲性能。
借助Llama 4,Meta通过采用不同的方法改进了后训练流程:轻量级监督微调(SFT)> 在线强化学习(RL)> 轻量级直接偏好优化 (DPO)。
一个关键的学习是,SFT和DPO可能会过度约束模型,限制在线强化学习阶段的探索并导致准确性不理想,特别是在推理、编程和数学领域。
为了解决这个问题,Meta使用Llama模型作为判断标准,删除了50%以上标记为简单的数据,并对剩余的较难数据集进行了轻量级SFT。
在随后的多模态在线强化学习阶段,通过仔细选择更难的提示,Meta能够实现性能的阶跃变化。
此外,Meta实施了持续在线RL策略,交替训练模型,然后使用它来持续过滤并仅保留中等难度到困难难度的提示。事实证明,这种策略在计算和准确性权衡方面非常有益。
然后,Meta做了一个轻量级DPO来处理与模型响应质量相关的极端情况,有效地在模型的智能和对话能力之间实现了良好的平衡。管道架构和具有自适应数据过滤的持续在线RL策略最终形成了业界领先的通用聊天模型,具有先进的智能和图像理解能力。
作为通用大语言模型,Llama 4 Maverick包含170亿个活跃参数、128位专家和4000亿个总参数,与Llama 3.3 70B相比,它以更低的价格提供高质量。
Llama 4 Maverick是同类最佳的多模态模型,在编程、推理、多语言、长上下文和图像基准测试中超越了GPT-4o和Gemini 2.0等同类模型,并且在编程和推理方面可与活跃参数规模大得多的DeepSeek v3.1相媲美。
小型模型Llama 4 Scout是一个通用模型,拥有170亿个活动参数、16位专家和1090亿个总参数,可提供同类中一流的性能。Llama 4 Scout将支持的上下文长度从Llama 3中的128K大幅增加到行业领先的1000万个token,适用于多文档摘要、解析大量用户活动以执行个性化任务以及对庞大的代码库进行推理。
Llama 4 Scout经过了预训练和后训练,上下文长度为256K,这为基础模型提供了高级长度泛化能力。
Meta在诸如对文本进行“大海捞针”式检索以及对1000万个代码token进行累积负对数似然(NLL)等任务中展示了令人信服的结果。
Llama 4架构的一个关键创新是使用没有位置嵌入的交错注意层。此外,Meta采用注意力的推理时间温度缩放来增强长度泛化,并称之为iRoPE架构。其中“i”代表“交错”注意层,突出了支持“无限”上下文长度的长期目标,“RoPE”指的是大多数层中使用的旋转位置嵌入。
Meta用各种图像和视频帧静态图像训练了两个模型,以便让它们具有广泛的视觉理解能力,包括时间活动和相关图像。这使得多图像输入以及用于视觉推理和理解任务的文本提示能够轻松交互。这些模型在多达48张图像上进行了预训练,在训练后测试了多达8张图像,取得了良好的效果。
Llama 4 Scout在图像基础方面也性能出色,能够将用户提示与相关的视觉概念对齐,并将模型响应锚定到图像中的区域。这使得大语言模型能够更精确地回答视觉问题,从而更好地理解用户意图并定位感兴趣的对象。
该模型在编程、推理、长上下文和图像基准方面也超越了同类模型,并比所有以前的Llama模型都具有更强大的性能。
三、Llama 4 Behemoth预览:近2万亿总参数,改造底层基础设施
Llama 4 Behemoth一个教师模型,也是一个多模态专家混合模型,拥有2880亿个活跃参数、16个专家、近2万亿个总参数,在数学、多语言和图像基准测试中为非推理模型提供了先进性能。
Meta开发了一种新颖的提炼损失函数,可通过训练动态加权软目标和硬目标。在预训练期间从Llama 4 Behemoth进行共同提炼,可摊销计算学生训练中使用的大多数训练数据的提炼目标所需的资源密集型前向传递的计算成本。为了在学生训练中加入更多新数据,Meta对Behemoth模型进行了前向传递,以创建提炼目标。
对具有2万亿个参数的模型进行后期训练也是一项重大挑战,这需要从数据规模开始彻底改革和改进配方。为了最大限度地提高性能,必须修剪95%的SFT数据,而对于较小的模型则需要修剪50%,以实现对质量和效率的必要关注。
Meta还发现,进行轻量级SFT后进行大规模强化学习(RL)可以更显著地提高模型的推理和编程能力。其RL配方专注于通过使用策略模型进行pass@k分析来采样硬提示,并制定增加提示难度的训练课程。
Meta还发现,在训练期间动态过滤掉没有优势的提示,并使用来自多种功能的混合提示构建训练批次,有助于提高数学、推理和编程的性能。
最后,从各种系统指令中采样对于确保模型保留其推理和编程的指令遵循能力并能够在各种任务中表现良好至关重要。
由于RL的规模空前巨大,因此将其扩展到2万亿参数模型也需要改造底层RL基础设施。
Meta优化了MoE并行化的设计以提高速度,从而实现了更快的迭代。该团队开发了一个完全异步的在线RL训练框架,提高了灵活性。与现有的分布式训练框架相比,后者牺牲了计算内存来将所有模型堆叠在内存中,而其新基础设施能够灵活地将不同的模型分配到单独的GPU上,根据计算速度在多个模型之间平衡资源。与前几代相比,这项创新使训练效率提高了约10倍。
结语:开源多种保护措施,改进消除偏见能力
Meta称其目标是开发最有帮助和实用的模型,同时防范和缓解最严重的风险,根据《开发人员使用指南:AI保护》中概述的最佳实践构建了Llama 4,使开发人员能够为其Llama支持的应用程序创建有用、安全且适应性强的体验。
Meta在预训练方面,结合使用数据过滤和其他数据缓解措施来保护模型;对于后训练,应用了一系列技术来确保模型符合对用户和开发者有益的政策,包括在每个阶段提供适当级别的安全数据。
在系统层面,Meta开源了几种保护措施,可帮助识别和防范潜在的有害输入和输出。这些工具(Llama Guard、Prompt Guard、Cyber??SecEval)可以集成到Llama模型中,也可以与其他第三方工具集成。
Meta以可控且可重复的方式对各种场景和用例中的模型进行系统测试,并将产生的数据整合到训练后的结果中。该团队还利用自动和手动测试对一系列主题的对抗性动态探测对模型进行压力测试,在理解和评估潜在模型风险方面取得了进展。
为消除AI模型的偏见,Meta将继续提高Llama的响应能力,以便它能够回答问题,能够对各种不同的观点做出回应而不作任何评判,并且不会偏袒某些观点。经改进,Llama 4的性能明显优于Llama 3,并且可与Grok相媲美:
Llama 4对有争议的政治和社会话题的拒绝较少(从Llama 3.3中的7%降至不到2%)。Llama 4在拒绝回答提示方面明显更加平衡(在一系列有争议的热门问题中,不平等回答拒绝的比例现在不到1%)。
Meta还致力于让模型能够以像人类一样的速度、以个性化的方式做出回复。Llama 4 经过了优化以满足这些需求。
来源:Meta
《日本裸体全身㊙️无遮挡》,《y85ouztigy6ysf5y》日韩精品的动漫
“陈冠希雁门照片高清视频”
❤️禁漫天堂❤️玖辛奈羞羞视频
……
04月10日
“911在线无码精品秘鸭子TV”欧洲杯
↓↓↓
04月10日,2024年黔港青少年交流活动在贵州安顺举行,田小娟AI裸体❌❌喷水,芒果视频♥成人app,神里绫华被❌自慰爽本子,fuqer100%14
04月10日,庆祝中华人民共和国成立75周年云南美术作品展亮相昆明,中国❌❌❌❌学生XXXX12,揉我奶⋯啊⋯成人无码影视,红桃视频AV在线观看免费,S双主调∨k
04月10日,第二届海峡两岸(福州)人工智能-工业机器人竞赛举行,全彩ACG⭐无翼乌邪恶帝,高清🈚码🔞❌♋动图,体育生自愿脱裤子摸J,91在线无精精品秘
04月10日|国家邮政局:春运前期年货寄递需求增长,业务量会出现一波小高峰|裸交熟女俱乐部|玩男生下部的100种方法|粉嫩小泬69XXXX|动漫爆乳动漫
04月10日|“带豹回家”:中国少年在COP29讲述生态守护梦|成人❌吸乳18禁羞羞韩漫|黄金仓库huck9最新版本更新内容|爱情岛亚洲品质永久入口|高清🈚码🔞❌♋白灵
04月10日|外媒:以总理将召开安全内阁会议|小🐤🐤伸入女人鱼口|色㊙️乱码一区二区三在线看|被绑着用玩具调教玩O视频|猛男GayGay✅免费网站动漫……
04月10日,400名香港中小学生“切磋”武艺 庆祝新中国成立75周年,雏田❌小樱禁欲网站,扒开腿挺进肉蒂抽搐喷潮动漫,XXXX38🍆🍆HD,Anime Hentai XXX
04月10日,习言道|推进高质量共建“一带一路”行稳致远,蔡徐坤被啪到深处喷水小说,成人18禁㊙️网站游戏,祼体啪啪❌H漫画,佩罗娜被❌18禁漫画
04月10日|“盲盒”营销不能盲目|国产高清❌❌❌精|白丝魅魔玉足夹住榨精|先锋77xfplay色资源网站|一根黄瓜怎么做
04月10日,“春之声·金梦想”春节文化交流系列活动走进尼泊尔孟加拉国,国产成人无码免费视频在线看芈萝,女同被❌到爽🔞樱花国,成人A片免费观看几分钟,欧美XXXX83D
04月10日,杭州“五一”假期接待游客创新高 “演唱会+”引流显著,91在线无精精品㊙️入口,人与鲁❌❌❌❌HD,美女的内部🈲黄网腿精,手鞠的快乐动漫免费观看
04月10日,打击整治网络谣言 天津公安今年已依法查处180名造谣传谣人员,免费裸体奶头❌羞羞游戏,越南BBBBBBSBABBABBAB,和70岁老岳做爰互添,高清乱码免费照片
04月10日|云南省发布总林长令:坚决遏制森林火灾多发频发态势|被粗大的🐔巴捣出白浆视频免费|做爱视频免费不失效|强壮公次次弄得我高潮A片漫画|精品➕无码➕无套内谢双
04月10日|外交部:提醒中国公民避免卷入武装冲突|黑料成人🔞在线观看喷潮数学|㊙️秘密成人黄漫|妈妈下面太紧了拔出来会怀孕吗|69❌❌❌❌❌欧美高中学生
04月10日|日本石川县能登地区发生4.4级地震|好爽⋯要高潮了⋯免费漫画|日本巨胸爆乳❌❌❌|囯外做受高潮网站|黑土裸体❌开腿视频
第一人称复数 第二季,承欢记|港股继续走强,恒指实现“十连涨”|纲手裸乳被❌出白色液体|无尽 女同 3D 扶她 森林动漫|免费开户籍网站大头照|芙宁娜cos爆乳❌自慰
监制:邓金木
策划:赖晗
主创:唐征宇 林箴贺 陈佛烘 颜亦阳 陈林韵
编辑:王家菁、段圣祺