克雷西 西风 发自 凹非寺量子位 | 公众号 QbitAI
Llama 4真要被锤爆了,这次是大模型竞技场(Chatbot Arena)官方亲自下场开怼:
竞技场上,Meta提供给他们的是特供版!
以下是竞技场背后lmarena.ai团队的原话:
我们注意到社区对Llama-4最新版本在Arena平台的发布存在疑问。为确保完全透明,现公开2000余组模型对战数据供公众审阅,包含用户提示词、模型回复及用户偏好数据(链接详见下一条推文)。
初步分析表明,模型回复风格与语气是重要影响因素(详见风格控制排名),我们正在进行更深入的分析!(比如表情符号控制?)
此外,我们即将在Arena平台上线Llama-4-Maverick的HuggingFace版本,排行榜结果将稍后公布。
Meta对我们平台政策的理解与我们对模型提供商的期待存在偏差——Meta本应明确标注"Llama-4-Maverick-03-26-Experimental"是经过人类偏好优化的定制模型。
为此,我们正在更新排行榜政策,以强化对公平性、可复现性评估的承诺,避免未来再出现此类混淆。
总结一下就是:
公开对战数据,正分析排名受影响因素
谴责Meta未明确标注模型版本导致评测混淆
后续:上线Llama-4-Maverick的HuggingFace版、更新排行榜政策
官方下场表态后,Llama 4和Meta的路人缘进一步下降。
2000+轮对战记录完整公开
来看看lmarena.ai公开的模型对战记录详情。
首先来看网友实测时对Llama 4抱怨较大的代码生成任务。
竞技场中Llama-4-Maverick-03-26-Experimental版本生成代码的表现的确是OK的。
prompt:
create me fun web based game that i can just run the code and works(帮我创建一个有趣的网页游戏,我只需运行代码就能玩)
Llama-4-Maverick-03-26-Experimental对战加拿大AI初创公司Cohere的command-a-03-2025。
上文lmarena.ai调查表示“模型回复风格与语气是重要影响因素”,从对战数据中的确可以看出Llama-4-Maverick-03-26-Experimental的回复中会增加如"A very nice and very direct request!" "That’s it! ""Happy gaming!"等展示友好的语句以及表情包。
运行两个模型生成的代码。
command-a-03-2025生成的小游戏是移动鼠标控制绿色篮子接住橙色小球,看效果显然有bug,小球直接穿过篮子,分数也没有变动:
Llama-4-Maverick-03-26-Experimental生成的小游戏玩法是移动鼠标控制红色方块,点击四处移动的蓝色圆点+10分,点击黑色炸弹-10分,每局游戏30秒。
可以正常运行,计分也比较准确:
这局command-a-03-2025输的不冤。
另外,之所以展示Llama-4-Maverick-03-26-Experimental和command-a-03-2025的对比,是因为有网友发现Llama 4声称的关键创新“interleaved no-RoPE attention”和command-a的如出一辙:
再看一个起标题的任务,prompt:
I will give a congress talk “On Naevi” — naevi are benign melanocytic lesions which are markers and every so often also precursors of melanoma. Do you have suggestions for a short and succinct title for my presentation(我将在一个学术会议上作关于“痣”的演讲——痣是黑素细胞良性病变,可作为黑色素瘤的标志物,有时甚至是其前驱病变。您能否为我的演讲推荐一个简洁有力的标题?)
Llama-4-Maverick-03-26-Experimental对战的是claude-3-5-sonnet-20241022。
对比来看,claude-3-5-sonnet-20241022的回复言简意赅,直接给出5个标题:
Llama-4-Maverick-03-26-Experimental的回复更为详细。
不仅会提供情绪价值,如A very timely and relevant topic! Congrats on getting the slot at congress, by the way!(选题非常应景且切合实际!恭喜拿下大会报告机会),而且从不同角度分别提供了几个标题:
这还没完,Llama-4-Maverick-03-26-Experimental还会贴心地指出选择标题时需要考虑的因素以及它自己选择的top 3标题。
最后再来随机看一道中文题目:
prompt:
解析一下这部微小说 题目 自驾游 当年我自驾游 不小心压死了一头羊 羊的主人好热情 宰了羊给我们吃 还送我们到火车站 在回来的路上 看着火车外的风景 真的好感人
对战o3-mini,Llama-4-Maverick-03-26-Experimental再次展现出超长输出的特点,故事分析完了还拆解了作者为啥要这样设计,作者本人可能都没想这么多(doge):
对战数据看下来,Llama-4-Maverick-03-26-Experimental的排名会这么高,也不奇怪。
此前网友质疑Llama-4-Maverick-03-26-Experimental刷票的可能性降低。
Llama 4深陷“造假”丑闻
如开头所述,Llama 4被lmarena.ai站出来抨击的原因,是因为测试排名和实际表现不符。
在大模型竞技场中,Llama 4得分1417,不仅大大超越了此前Meta自家的Llama-3-405B(提升了149分),还成为史上第4个突破1400分的模型。
而且跑分超越了DeepSeek-V3,直接成为榜单上排名第一的开源模型。
但没过多久,人们就发现Llama 4的实际表现相当拉胯,一时间差评如潮,甚至还被做成了表情包。
比如经典“氛围编程”小球反弹测试,小球直接穿过墙壁掉了下去。
其它跑分方面,到了各种第三方基准测试中,情况也大多直接逆转,排名掉到了末尾。
并且从Meta GenAI负责人Ahmad Al-Dahle的推文当中也能看懂,竞技场中的Llama 4,确实是一个特殊版本。
而在最新的推文中,Ahmad表示Llama 4绝对没有使用测试集进行训练,表现存在差异的原因是还需要稳定的部署。
对于这一解释,有人并不买账,直言这种现象在其他模型当中从未见过。
Meta的支持者则表示,希望表现不佳真的是供应商的问题所致。
大模型竞技场,还能信吗?
被卷入这次旋涡的不仅是Llama 4和背后的Meta,涉及到的大模型竞技场也引起了人们的广泛讨论。
毕竟Llama 4的“造假”风波就是发生在竞技场上,所以也自然有人质疑起了榜单的权威性。
有人指出,竞技场的偏差不只体现在Llama 4被高估上,还有Claude 3.7的表现被低估了。
当然,官方快速回应并公开了测试中的细节,这个做法获得了网友的肯定,说明至少在态度和透明度上是说得过去的。
但也有人认为,无论官方态度端不端正,Llama 4事件说明这种“人类评价AI”的方法,本身已经不适用了。
人们日常生活中的问题,几乎所有领先模型都能完美解答,谁还会去认真投票,这个基准已经过时了。
有人补充说,“人类偏好”不是评价高级大模型能力的可靠标准,产生较大偏差是正常的。
还有人表示,从官方发布的消息来看,lmarena.ai自己都不清楚自己的基准。
这名网友解释,特调版Llama 4获得用户投票的原因并非lmarena.ai所说的“表情符号”,而是因为更具亲和力。
当然也有人提了些建设性的意见,比如更改ELO评分的算法,或者启用强制风格转换。
但总之,无论是迭代改进还是另辟蹊径,都是时候更新对大模型的评价方式了。
参考链接:[1]https://x.com/lmarena_ai/status/1909397817434816562[2]https://x.com/Ahmad_Al_Dahle/status/1909302532306092107[3]https://huggingface.co/spaces/lmarena-ai/Llama-4-Maverick-03-26-Experimental_battles
《亚洲成AV人电影在线观看》,《y85ouztigy6ysf5y》日本裸体全身㊙️无遮挡
“又爽❌又黄❌免费捆绑视频”
王心凌AV裸体无码
……
04月11日
“日本动漫无码🔞漫画视频”国乒男团今日亮相
↓↓↓
04月11日,新华保险启动2024年“3·15”金融消费者权益保护教育宣传活动,色情性黄❌片视频费东北,高潮➕国产➕视频➕AV2023,美女㊙️无遮挡撒尿,七八个变态用毛笔戳我尿孔
04月11日,【百万庄小课堂】围炉煮茶要小心?医生:警惕一氧化碳中毒,原神涩涩×🔞❌黄漫下载,安妮海瑟薇被❌超污网站,云缨被扒开腿做❌同人,儿媳建建月月第9章
04月11日,(新春见闻)百年社火村:制造年味 留住乡愁,埋进腿间舌头使劲添MV,脱了内裤在阳台趴着被c动漫,日本XXXXXXⅩ泡妞视频冫,美女裸体❌捆绑调教
04月11日|12月5日人民币对美元中间价报7.1879元 上调55个基点|美女被c🔞🔞💃💃❌❌|泰国79表演秀完整在线观看|灰原嗯~啊~轻🈲🔞在线观看|幺女幺女国产AV在线观看
04月11日|四川康定山洪泥石流已致12人遇难15人失联|男男被❌c🐻黄扒衣服好爽动漫|宁荣荣张开双腿被强❌游戏|XXNX16👙日本视频免费|女同啪啪免费网站www
04月11日|世界针灸学会联合会主席:AI+针灸=无限探索|18禁白鹿被❌吸乳羞羞视频|英语老师穿着内裤让我c|成人的秘密㊙️|高中生嗟嗟嗟视频素材……
04月11日,高访Vlog|弘扬“中法精神” 携手迈向新甲子,吊带袜天使被♥无码,原神同人爆乳3b网站,老师撅着屁股被学生调教,初中女生光溜溜身子视频图片大全高清
04月11日,第十三届藏传佛教教义阐释研讨会在北京举行,涂山雅雅被啪❌,国产丨白浆㊙️3D,男男被❌到爽憋尿漫画推荐,艳。女高潮汇编
04月11日|中国大使为柬埔寨华校学生才华魅力点赞|扒开学生双腿猛进入喷水APP|成人抖抈app下载|斯嘉丽裸被❌在线观看|高清乱码免费阅读
04月11日,10部门联合开展2024年“春暖农民工”服务行动,去小城中村找老阿姨,免费裸体🔞🔞🔞,麻豆㊙️做爰免费观看,腹肌国产➕高潮➕白浆➕喷
04月11日,2024年“读懂中国”国际会议在广州举办 李书磊宣读习近平主席贺信并发表主旨演讲,坤坤寒进桃子里发出嗟嗟声,斗罗大陆❌18禁同人本子,Asmr婬荡娇喘录音,末成年小男生GayXXX
04月11日,男子6米陡坡掉落又被落石砸伤 医生从腹腔搬“救兵“为其保肢,zzj中国zz女人18高潮,把花蒂露出来不许穿内裤调教,王昭君被❌18🈲️在线观看,女生穿透明的衣服会怎么样
04月11日|总台记者专访丨秘鲁部长会议主席:秘中关系正处于历史最佳时期|扒开3D❌狂揉❌视频|金智秀被朴彩英顶哭了小说|珍妮❌❌爆乳❌❌扶|12小小㓜女裸洗澡视频网站
04月11日|各地开展122全国交通安全日主题活动|禁漫🍆🍑🔞❌❌❌动漫游戏|两个女的摸🐻女同|陆雪琪之乱婬h侵犯在线小说|原神裸体㊙️免费观看
04月11日|【理响中国·讲好“中国式商量”故事】弘扬文化促协商——访宁夏首个县级文创基地|如何打女孩子光阴塞生蒜|日韩裸体裸乳🍑在线看软件|初中女生光溜溜身子图片|国产精輦清纯女学生
明日有晴天,全红婵又双叒叕拿捏|打击网络谣言 共建清朗家园 中国互联网联合辟谣平台2024年5月辟谣榜|射小仙女脚上|99久久国产精品人妻无码|搡老太婆中国老太婆微博|第五人格渔女黄本在哪看
监制:邓金木
策划:赖晗
主创:唐征宇 林箴贺 陈佛烘 颜亦阳 陈林韵
编辑:王家菁、段圣祺