今日头条|欧美做受❌❌❌❌高91_社会新闻

首页 >新闻 >社会新闻

Llama 4遭竞技场背刺！实锤用特供版刷榜，2000+对战记录公开

2025-04-10 23:10:07

来源：

猫眼电影

作者：

胡某某

手机查看

　　猫眼电影记者小林开了报道y85ouztigy6ysf5y

克雷西西风发自凹非寺量子位 | 公众号 QbitAI

Llama 4真要被锤爆了，这次是大模型竞技场（Chatbot Arena）官方亲自下场开怼：

竞技场上，Meta提供给他们的是特供版！

以下是竞技场背后lmarena.ai团队的原话：

我们注意到社区对Llama-4最新版本在Arena平台的发布存在疑问。为确保完全透明，现公开2000余组模型对战数据供公众审阅，包含用户提示词、模型回复及用户偏好数据（链接详见下一条推文）。

初步分析表明，模型回复风格与语气是重要影响因素（详见风格控制排名），我们正在进行更深入的分析！（比如表情符号控制？）

此外，我们即将在Arena平台上线Llama-4-Maverick的HuggingFace版本，排行榜结果将稍后公布。

Meta对我们平台政策的理解与我们对模型提供商的期待存在偏差——Meta本应明确标注"Llama-4-Maverick-03-26-Experimental"是经过人类偏好优化的定制模型。

为此，我们正在更新排行榜政策，以强化对公平性、可复现性评估的承诺，避免未来再出现此类混淆。

总结一下就是：

公开对战数据，正分析排名受影响因素

谴责Meta未明确标注模型版本导致评测混淆

后续：上线Llama-4-Maverick的HuggingFace版、更新排行榜政策

官方下场表态后，Llama 4和Meta的路人缘进一步下降。

2000+轮对战记录完整公开

来看看lmarena.ai公开的模型对战记录详情。

首先来看网友实测时对Llama 4抱怨较大的代码生成任务。

竞技场中Llama-4-Maverick-03-26-Experimental版本生成代码的表现的确是OK的。

prompt：

create me fun web based game that i can just run the code and works（帮我创建一个有趣的网页游戏，我只需运行代码就能玩）

Llama-4-Maverick-03-26-Experimental对战加拿大AI初创公司Cohere的command-a-03-2025。

上文lmarena.ai调查表示“模型回复风格与语气是重要影响因素”，从对战数据中的确可以看出Llama-4-Maverick-03-26-Experimental的回复中会增加如"A very nice and very direct request!" "That’s it! ""Happy gaming!"等展示友好的语句以及表情包。

运行两个模型生成的代码。

command-a-03-2025生成的小游戏是移动鼠标控制绿色篮子接住橙色小球，看效果显然有bug，小球直接穿过篮子，分数也没有变动：

Llama-4-Maverick-03-26-Experimental生成的小游戏玩法是移动鼠标控制红色方块，点击四处移动的蓝色圆点+10分，点击黑色炸弹-10分，每局游戏30秒。

可以正常运行，计分也比较准确：

这局command-a-03-2025输的不冤。

另外，之所以展示Llama-4-Maverick-03-26-Experimental和command-a-03-2025的对比，是因为有网友发现Llama 4声称的关键创新“interleaved no-RoPE attention”和command-a的如出一辙：

再看一个起标题的任务，prompt：

I will give a congress talk “On Naevi” — naevi are benign melanocytic lesions which are markers and every so often also precursors of melanoma. Do you have suggestions for a short and succinct title for my presentation(我将在一个学术会议上作关于“痣”的演讲——痣是黑素细胞良性病变，可作为黑色素瘤的标志物，有时甚至是其前驱病变。您能否为我的演讲推荐一个简洁有力的标题？)

Llama-4-Maverick-03-26-Experimental对战的是claude-3-5-sonnet-20241022。

对比来看，claude-3-5-sonnet-20241022的回复言简意赅，直接给出5个标题：

Llama-4-Maverick-03-26-Experimental的回复更为详细。

不仅会提供情绪价值，如A very timely and relevant topic! Congrats on getting the slot at congress, by the way!（选题非常应景且切合实际！恭喜拿下大会报告机会），而且从不同角度分别提供了几个标题：

这还没完，Llama-4-Maverick-03-26-Experimental还会贴心地指出选择标题时需要考虑的因素以及它自己选择的top 3标题。

最后再来随机看一道中文题目：

prompt：

解析一下这部微小说题目自驾游当年我自驾游不小心压死了一头羊羊的主人好热情宰了羊给我们吃还送我们到火车站在回来的路上看着火车外的风景真的好感人

对战o3-mini，Llama-4-Maverick-03-26-Experimental再次展现出超长输出的特点，故事分析完了还拆解了作者为啥要这样设计，作者本人可能都没想这么多（doge）：

对战数据看下来，Llama-4-Maverick-03-26-Experimental的排名会这么高，也不奇怪。

此前网友质疑Llama-4-Maverick-03-26-Experimental刷票的可能性降低。

Llama 4深陷“造假”丑闻

如开头所述，Llama 4被lmarena.ai站出来抨击的原因，是因为测试排名和实际表现不符。

在大模型竞技场中，Llama 4得分1417，不仅大大超越了此前Meta自家的Llama-3-405B（提升了149分），还成为史上第4个突破1400分的模型。

而且跑分超越了DeepSeek-V3，直接成为榜单上排名第一的开源模型。

但没过多久，人们就发现Llama 4的实际表现相当拉胯，一时间差评如潮，甚至还被做成了表情包。

比如经典“氛围编程”小球反弹测试，小球直接穿过墙壁掉了下去。

其它跑分方面，到了各种第三方基准测试中，情况也大多直接逆转，排名掉到了末尾。

并且从Meta GenAI负责人Ahmad Al-Dahle的推文当中也能看懂，竞技场中的Llama 4，确实是一个特殊版本。

而在最新的推文中，Ahmad表示Llama 4绝对没有使用测试集进行训练，表现存在差异的原因是还需要稳定的部署。

对于这一解释，有人并不买账，直言这种现象在其他模型当中从未见过。

Meta的支持者则表示，希望表现不佳真的是供应商的问题所致。

大模型竞技场，还能信吗？

被卷入这次旋涡的不仅是Llama 4和背后的Meta，涉及到的大模型竞技场也引起了人们的广泛讨论。

毕竟Llama 4的“造假”风波就是发生在竞技场上，所以也自然有人质疑起了榜单的权威性。

有人指出，竞技场的偏差不只体现在Llama 4被高估上，还有Claude 3.7的表现被低估了。

当然，官方快速回应并公开了测试中的细节，这个做法获得了网友的肯定，说明至少在态度和透明度上是说得过去的。

但也有人认为，无论官方态度端不端正，Llama 4事件说明这种“人类评价AI”的方法，本身已经不适用了。

人们日常生活中的问题，几乎所有领先模型都能完美解答，谁还会去认真投票，这个基准已经过时了。

有人补充说，“人类偏好”不是评价高级大模型能力的可靠标准，产生较大偏差是正常的。

还有人表示，从官方发布的消息来看，lmarena.ai自己都不清楚自己的基准。

这名网友解释，特调版Llama 4获得用户投票的原因并非lmarena.ai所说的“表情符号”，而是因为更具亲和力。

当然也有人提了些建设性的意见，比如更改ELO评分的算法，或者启用强制风格转换。

但总之，无论是迭代改进还是另辟蹊径，都是时候更新对大模型的评价方式了。

参考链接：[1]https://x.com/lmarena_ai/status/1909397817434816562[2]https://x.com/Ahmad_Al_Dahle/status/1909302532306092107[3]https://huggingface.co/spaces/lmarena-ai/Llama-4-Maverick-03-26-Experimental_battles

??时事1：Fuck♥XXX♥furry本子

??04月10日,相约“十四冬” 多彩冰雪季,

　　他看到了一幅模糊的画面，没有温情，只有冷漠，虽然断断续续，但却令人心痛，他想努力看个究竟，可是雾霭涌来，什么都不见了。

,日韩做受❌❌❌高潮。

??04月10日,（财经天下）多国股市延长交易时间为哪般？,

　　村头，那株柳木上，一条绿莹莹的枝条发光，散发出朦胧的光晕，笼罩了整片村子，挡住了凶蛟的惊天一击。

,范冰冰被美男操到极致,美女挤奶㊙️,索尼子本子。

??时事2：白丝校🌸扒开美腿甜美视频

??04月10日,河北怀来样边长城：就地取材打造的明长城“样板间”,

　　单单有环保意识还不够，我们必须自觉“维护环境卫生”，做环境保护的主人。俗话说的好：“勿以善小而不为，勿以恶小而为之”养成良好的环保的习惯，并非易事。让我们人人都有一颗善良、高尚的心灵，成为保护环境的主人。仅有这样，学校才会更美丽，大家才会更高兴，社会才会更完美，国家才会更强大!

,小三哈里斯裸体,折磨少妇屈辱调教91,樱花味仙流白浆福利姬,。

??04月10日,安徽黟县：“腊八豆腐”飘香,

　　三头幼鸟虽然不凡，且一直在跟随石昊学习骨文，但毕竟才出生三个月左右，太过幼小，难以施展宝术。而鳞甲的防御力也远不如成年的青鳞鹰，除却紫云外，大鹏与小青都负伤，鳞片脱落数片，有血溅起。

,18+哔咔下载免费,美女裸体㊙️直播网站,性欧美精品❌❌❌高清。

??时事3：美女的私密㊙️视频偷拍

??04月10日,大陆高校师生赴台访问团行程结束台湾民众在机场等候送行,

　　三是要把“工作法”与本地本单位实际结合起来。创造性的学习和运用“工作法”，就要学习和掌握“三二”工作法，即在乡镇工作中推行“三制”(业务工作“常抓制”、中心工作“分组制”、应急工作“集中制”)、“三定”(定岗、定员、定酬)、“三教育”(对开展经常性的党性教育、对干部开展经常性的爱民教育、对群众开展经常性的“十好”教育)、“两下”(围绕推进工作、引导干部眼睛向下，改进作风、实行下访寻问题、下村解难题)、“两集中”(围绕方便群众办事、帮助群众理财、实行集中服务、集中理财)。要把“工作法”与本地本单位实际结合起来，在转变职能、健全机制、改革创新上下功夫。要创新干部管理办法，调动大家干事创业的积极性。要善于整合乡镇资源，根据乡镇工作的内容和特点，建立健全规范有效的管理制度和运行机制，提升工作效率和质量。

,张婧仪双腿打开被男人猛戳,18流出浆啪啪,扒开灰原哀粉嫩小泬喷潮调教。

??04月10日,拜登批以总理“对以伤害大于帮助” 美以领导人关系日益紧张？,

　　毛球吱吱尖叫，跳到了小不点的肩头，冲着数十里外张牙舞爪，焦躁不安。

,日本大学生高潮内,女人性猛交XXXX免费网站,章子怡张开腿被实干12次。

??时事4：紫彩乃

??04月10日,陕西大原村制陶作坊遗址发现“工、居、葬”合一模式遗迹,

　　“族主！”很多人悲呼。

,中国XXX视频,深夜㊙️黄网站免费观看,美女被❌脱脱内内打扑克小说。

??04月10日,2024世界航海装备大会即将在福州举行,　　为何哈尔滨遇到降雨概率也这么高？6月正是东北冷涡活跃的时期，东北、华北午后多骤雨，雨通常来得急去得快，雨量也多为小到中雨。像今年就是如此，高考期间有冷涡活动，东北地区将有大范围降雨，多地还可能有雷雨天气。,我的女儿小丹第2部分阅读小说,玩弄小男生的小知乎,张家界小白龙16分钟演出地点。

【一手拿钥匙、一手拿房本！“交房即交证”背后有这些创新→】

【重走中国西北角｜探访涌泉村，见证山海情】

责编：李小英

审核：刘墨村

责编：查理兹

bc贷

Llama 4遭竞技场背刺！实锤用特供版刷榜，2000+对战记录公开