bc贷

搜索 猫眼电影 融媒体矩阵
  • 山东手机报

  • 猫眼电影

  • 大众网官方微信

  • 大众网官方微博

  • 抖音

  • 人民号

  • 全国党媒平台

  • 央视频

  • 百家号

  • 快手

  • 头条号

  • 哔哩哔哩

首页 >新闻 >社会新闻

Llama 4遭竞技场背刺!实锤用特供版刷榜,2000+对战记录公开

2025-04-12 21:29:49
来源:

猫眼电影

作者:

肖鹰

手机查看

  猫眼电影记者 江鱼仔 报道y85ouztigy6ysf5y

克雷西 西风 发自 凹非寺量子位 | 公众号 QbitAI

Llama 4真要被锤爆了,这次是大模型竞技场(Chatbot Arena)官方亲自下场开怼:

竞技场上,Meta提供给他们的是特供版!

以下是竞技场背后lmarena.ai团队的原话:

我们注意到社区对Llama-4最新版本在Arena平台的发布存在疑问。为确保完全透明,现公开2000余组模型对战数据供公众审阅,包含用户提示词、模型回复及用户偏好数据(链接详见下一条推文)。

初步分析表明,模型回复风格与语气是重要影响因素(详见风格控制排名),我们正在进行更深入的分析!(比如表情符号控制?)

此外,我们即将在Arena平台上线Llama-4-Maverick的HuggingFace版本,排行榜结果将稍后公布。

Meta对我们平台政策的理解与我们对模型提供商的期待存在偏差——Meta本应明确标注"Llama-4-Maverick-03-26-Experimental"是经过人类偏好优化的定制模型。

为此,我们正在更新排行榜政策,以强化对公平性、可复现性评估的承诺,避免未来再出现此类混淆。

总结一下就是:

公开对战数据,正分析排名受影响因素

谴责Meta未明确标注模型版本导致评测混淆

后续:上线Llama-4-Maverick的HuggingFace版、更新排行榜政策

官方下场表态后,Llama 4和Meta的路人缘进一步下降。

2000+轮对战记录完整公开

来看看lmarena.ai公开的模型对战记录详情。

首先来看网友实测时对Llama 4抱怨较大的代码生成任务。

竞技场中Llama-4-Maverick-03-26-Experimental版本生成代码的表现的确是OK的。

prompt:

create me fun web based game that i can just run the code and works(帮我创建一个有趣的网页游戏,我只需运行代码就能玩)

Llama-4-Maverick-03-26-Experimental对战加拿大AI初创公司Cohere的command-a-03-2025。

上文lmarena.ai调查表示“模型回复风格与语气是重要影响因素”,从对战数据中的确可以看出Llama-4-Maverick-03-26-Experimental的回复中会增加如"A very nice and very direct request!" "That’s it! ""Happy gaming!"等展示友好的语句以及表情包。

运行两个模型生成的代码。

command-a-03-2025生成的小游戏是移动鼠标控制绿色篮子接住橙色小球,看效果显然有bug,小球直接穿过篮子,分数也没有变动:

Llama-4-Maverick-03-26-Experimental生成的小游戏玩法是移动鼠标控制红色方块,点击四处移动的蓝色圆点+10分,点击黑色炸弹-10分,每局游戏30秒。

可以正常运行,计分也比较准确:

这局command-a-03-2025输的不冤。

另外,之所以展示Llama-4-Maverick-03-26-Experimental和command-a-03-2025的对比,是因为有网友发现Llama 4声称的关键创新“interleaved no-RoPE attention”和command-a的如出一辙:

再看一个起标题的任务,prompt:

I will give a congress talk “On Naevi” — naevi are benign melanocytic lesions which are markers and every so often also precursors of melanoma. Do you have suggestions for a short and succinct title for my presentation(我将在一个学术会议上作关于“痣”的演讲——痣是黑素细胞良性病变,可作为黑色素瘤的标志物,有时甚至是其前驱病变。您能否为我的演讲推荐一个简洁有力的标题?)

Llama-4-Maverick-03-26-Experimental对战的是claude-3-5-sonnet-20241022。

对比来看,claude-3-5-sonnet-20241022的回复言简意赅,直接给出5个标题:

Llama-4-Maverick-03-26-Experimental的回复更为详细。

不仅会提供情绪价值,如A very timely and relevant topic! Congrats on getting the slot at congress, by the way!(选题非常应景且切合实际!恭喜拿下大会报告机会),而且从不同角度分别提供了几个标题:

这还没完,Llama-4-Maverick-03-26-Experimental还会贴心地指出选择标题时需要考虑的因素以及它自己选择的top 3标题。

最后再来随机看一道中文题目:

prompt:

解析一下这部微小说 题目 自驾游 当年我自驾游 不小心压死了一头羊 羊的主人好热情 宰了羊给我们吃 还送我们到火车站 在回来的路上 看着火车外的风景 真的好感人

对战o3-mini,Llama-4-Maverick-03-26-Experimental再次展现出超长输出的特点,故事分析完了还拆解了作者为啥要这样设计,作者本人可能都没想这么多(doge):

对战数据看下来,Llama-4-Maverick-03-26-Experimental的排名会这么高,也不奇怪。

此前网友质疑Llama-4-Maverick-03-26-Experimental刷票的可能性降低。

Llama 4深陷“造假”丑闻

如开头所述,Llama 4被lmarena.ai站出来抨击的原因,是因为测试排名和实际表现不符。

在大模型竞技场中,Llama 4得分1417,不仅大大超越了此前Meta自家的Llama-3-405B(提升了149分),还成为史上第4个突破1400分的模型。

而且跑分超越了DeepSeek-V3,直接成为榜单上排名第一的开源模型。

但没过多久,人们就发现Llama 4的实际表现相当拉胯,一时间差评如潮,甚至还被做成了表情包。

比如经典“氛围编程”小球反弹测试,小球直接穿过墙壁掉了下去。

其它跑分方面,到了各种第三方基准测试中,情况也大多直接逆转,排名掉到了末尾。

并且从Meta GenAI负责人Ahmad Al-Dahle的推文当中也能看懂,竞技场中的Llama 4,确实是一个特殊版本。

而在最新的推文中,Ahmad表示Llama 4绝对没有使用测试集进行训练,表现存在差异的原因是还需要稳定的部署。

对于这一解释,有人并不买账,直言这种现象在其他模型当中从未见过。

Meta的支持者则表示,希望表现不佳真的是供应商的问题所致。

大模型竞技场,还能信吗?

被卷入这次旋涡的不仅是Llama 4和背后的Meta,涉及到的大模型竞技场也引起了人们的广泛讨论。

毕竟Llama 4的“造假”风波就是发生在竞技场上,所以也自然有人质疑起了榜单的权威性。

有人指出,竞技场的偏差不只体现在Llama 4被高估上,还有Claude 3.7的表现被低估了。

当然,官方快速回应并公开了测试中的细节,这个做法获得了网友的肯定,说明至少在态度和透明度上是说得过去的。

但也有人认为,无论官方态度端不端正,Llama 4事件说明这种“人类评价AI”的方法,本身已经不适用了。

人们日常生活中的问题,几乎所有领先模型都能完美解答,谁还会去认真投票,这个基准已经过时了。

有人补充说,“人类偏好”不是评价高级大模型能力的可靠标准,产生较大偏差是正常的。

还有人表示,从官方发布的消息来看,lmarena.ai自己都不清楚自己的基准。

这名网友解释,特调版Llama 4获得用户投票的原因并非lmarena.ai所说的“表情符号”,而是因为更具亲和力。

当然也有人提了些建设性的意见,比如更改ELO评分的算法,或者启用强制风格转换。

但总之,无论是迭代改进还是另辟蹊径,都是时候更新对大模型的评价方式了。

参考链接:[1]https://x.com/lmarena_ai/status/1909397817434816562[2]https://x.com/Ahmad_Al_Dahle/status/1909302532306092107[3]https://huggingface.co/spaces/lmarena-ai/Llama-4-Maverick-03-26-Experimental_battles

??时事1:正规成人🔞啪啪台漫

??04月12日,同样的神情,角色却已互换!曾经刘华清将军踮脚看美国航母,如今外宾驻足看我军装备,

  “那就谈谈吧!”石林虎一屁股坐在了狈风的身上,完全是将他当成了马扎,这让狈村的人心都跟着一个抽搐,那么壮的一个汉子,快接近两米五了,这么用力一坐一头莽牛都得趴下啊。

,动漫美女的大胸给人摸。

??04月12日,澳区广东省政协委员韩子天:建议粤澳高新技术企业互认,

  此时此刻,他们只想迅速返回,早点离开这充满魔性的原始山脉,唯恐再遭变故。

,美女全身裸体㊙️热舞,红杏出墙雪白浑圆,摸摸(futa百合,1v1h)。

??时事2:少妇做受XXXXⅩ高潮片在哪看

??04月12日,樊振东:我还是我,

  为社会造福

,足疗店熟女一69A,欧美sex湿激情XX❌❌❌,学长惩罚我下面放震蛋上课。

??04月12日,《你好,玛沁》系列影片在青海西宁首映,

  其他人闻听顿时一怔,一只普通的小山兽怎么能承受的了太古遗种的精气神,必然会被冲击地死掉。

,牲ZOZ〇性内交另类,女人正常私密图片,晚上看秒湿黄文。

??时事3:女仆被❌吸乳脱内内的网站

??04月12日,(巴黎奥运)王鑫杰启蒙教练:“石佛”般的性格让他很适合射击,

  “走喽,族长与阿叔他们来接我们回家了。”

,www女被喷水噜噜噜视频,女人扒开㊙️喷牛奶,白丝❌jk❌乳❌❌网站。

??04月12日,白皮书:中国依法规范恐怖活动案件办理程序,

  在我们的日常生活中,如果一旦遇到溺水者,我们在营救时应该怎么办呢? 当发现有人落水时,不能冒然下水营救,因为一旦被落水者抓住将十分危险。在水中与落水者纠缠不但会消耗救助者的大量体力,有时甚至会导致救助者体力耗尽最终丧命,应立即大声呼救,同时将救生圈、竹竿、木板等物抛给溺水者,再将其拖至岸边。

,霞泽美游涩涩被在❌黄漫,美女裸体被❌羞羞漫画视频,免费吸乳羞羞网站视频。

??时事4:欧美精品一区二区AV白丝网站

??04月12日,2023年青海省PM2.5平均浓度同比下降5%,

  学生会是在学校党支部、行政、政教处直接领导下的学生组织,它是为广大同学学习、生活等方面服务的组织,又称“自我服务、自我教育、自我管理”的学生自管委员会。学生会的主要工作有:积极宣传党的方针、政策,经常组织开展文艺、体育、社会服务等项活动;鼓励先进,批评落后,表彰好人好事,提高学生思想水平、道德品质和身体素质,使其在校是好学生,在社会是好公民;组织会员开展学习、科技、文体、社会实践等活动,促进同学全面发展;维护校规校纪,倡导良好的校风、学风,促进同学之间、同学与教职工之间的团结,协助学校建设良好的教学秩序和学习、生活环境;组织会员开展勤工助学、公益劳动等自我服务活动,协助学校解决同学在学习和生活中遇到的实际问题;沟通学校党政与广大同学的联系,通过学校各种正常渠道,反映同学的建议、意见和要求,参与涉及学生的学校事务的民主管理,维护同学的正当权益。

,国产天美麻豆熟妇Av视频,FreeHDⅩXXXvideo,宋雨琦吸乳❌❌自慰。

??04月12日,甘肃武威打造“书城不夜” 民众家门口品书香,

  “族长爷爷,他们到底还在不在世上了?我想他们!”小不点突然抬头,大眼中有水雾,认真地问道,这是他第一次这么直接。

,FerrPorno馃拫馃憴83,无尽裸体白丝3D森林世界,yaoi自慰Gay动漫games。

责编:黎安

审核:瓦塔拉

责编:毛戈平

相关推荐 换一换

Copyright (C) 2001- Dzwww   鲁ICP备09023866号-1

Sitemap