新智元报道
编辑:Aeneas 好困
【新智元导读】Gemini 2.5 Pro,刚刚深夜上线了!这个「思考」模型专为复杂任务打造,推理能力强大,一经诞生就横扫各大榜单、拿下各类TOP 1,还创下了历史上最大分数飞跃纪录。
就在刚刚,谷歌的全新模型Gemini 2.5 Pro,果然深夜上线了!
Gemini 2.5 Pro是一个「思考」模型,能够在回应前先进行思考推理,从而提升性能,并改善准确性。
谷歌称,它是世界上最强大的模型,具备统一的推理能力,以及用户所喜爱的Gemini的所有功能(长上下文、工具等)。
它在多个基准测试中达到了SOTA水平,并且以显著的优势在LMArena上排名第一。
现在,Gemini 2.5 Pro已经登顶了Arena排行榜的第一位,而且创下了历史最大分数飞跃,比Grok-3/GPT-4.5整整高出了40分!
在代号「nebula」的测试中,它也横扫所有类别夺得第一,并且独揽数学、创意写作、指令遵循、长查询和多轮对话五大领域的冠军!
在困难提示词和编程两大领域,它与Grok-3/GPT-4.5拿到了并列冠军,而且在所有其他比拼中都以微弱优势胜出,成功问鼎榜首!
此外,Gemini 2.5 Pro还成功登顶了视觉竞技场(Vision Arena)排行榜榜首!
在网页开发领域,它也同样大放异彩,成功斩获网页开发竞技场(WebDev Arena)亚军宝座!
它是首个实力媲美 Claude 3.5 Sonnet 的模型,相比之前版本的Gemini更是实现了质的飞跃。
这一次,谷歌的模型又展现出巨大的飞跃,OpenAI、Anthropic、DeepSeek等竞争对手,在多久时间内会赶上?
目前,Gemini 2.5 Pro已在Google AI Studio和Gemini应用中,向Gemini Advanced用户开放,并将很快在Vertex AI上推出。
而它的定价方案,会在未来几周内公布,用户可以在更高使用配额下,将模型应用于大规模生产环境。
网友实测后发现,它果然实力惊人,在所有模型中效果拔群,第一次尝试就只用几秒解决了一道难题。
Gemini 2.5 Pro上线!
谷歌表示,在AI领域,系统的「推理」能力不仅仅指分类和预测,而是指系统分析信息、得出逻辑结论、融入上下文和细微差别,以及做出明智决策的能力。
长期以来,谷歌一直在探索通过强化学习和思维链提示词等技术,让AI更智能、更具推理能力的方法。
正是在此基础上,他们在2月推出了第一个思考模型,Gemini 2.0 Flash Thinking。
而今天,通过Gemini 2.5,他们结合了显著增强的基础模型和改进的后期训练,让模型达到了新的性能水平。
推理和代码能力大幅提升
Gemini 2.5 Pro展现出了强大的推理和代码能力,在常见的编程、数学和科学基准测试中均处于领先地位。
另外,在各类需要高级推理能力的基准测试中,它都达到了SOTA水平。
无需使用测试阶段会增加计算成本的技术(如多数投票法),2.5 Pro就能在GPQA和 AIME 2025等数学和科学基准评测中表现卓越。
而且,在不使用任何外部工具的条件下,它就在挑战人类知识和推理能力的极限前沿「人类最后的考试」中取得了18.8%的准确率,达到业界领先。
在编程能力上,Gemini 2.5相比2.0版本也实现了质的飞跃,而这,仅仅是个开始。
2.5 Pro在创建视觉精美的网页应用和AI智能体代码应用方面都表现卓越,在代码转换和编辑领域中,也同样实力出色。
在智能体代码评估的行业标准测试SWE-Bench Verified上,Gemini 2.5 Pro靠使用自定义智能体配置,就获得了63.8%的优异成绩。
以下这波demo,就展示了Gemini 2.5 Pro如何运用强大推理,仅通过一行提示词,就能生成可执行代码,来创建完整的动画和游戏。
在下面这个demo中,仅仅根据下面这行prompt,它就生成了一段p5js的交互式动画,展示了「宇宙鱼」的场景,并且还显示了鱼们都在想什么。
它还根据以下prompt,生成了一个无限的恐龙跑酷游戏。
按照要求,它生成了像素化的恐龙图像和有趣的游戏背景。
随后,Gemini 2.5 Pro还通过编程实现了分形可视化。
它创建出了精细分形图案的模拟程序,展现出了神奇的曼德布洛特集合。
此外,它还能构建一个交互式气泡图,直观展示出了每个大陆的经济与健康指标随时间的变化。
或者用一段交互式的Javascript动画,展示了旋转六边形内多彩的人工生命群体,并且按要求做成了「超新星星云」的感觉。
另外,它还能开发粒子系统模拟,给出了一个HTML文件,创造出了反射星云的沉浸式交互模拟场景。
原生多模态和超长上下文
Gemini 2.5继承并发扬了Gemini 模型的优势——原生多模态能力和超长上下文长度。
自己发布之初,2.5 Pro就支持100万token的上下文窗口(而200万token也即将推出!),性能显著超越了前代模型。
这能让它理解海量数据集,并处理来自多种信息源的复杂问题,包括文本、音频、图像、视频,甚至完整的代码仓库。
最后,既然谷歌已经掏出了地表最强模型,接下来,就让我们坐等OpenAI的反应了。
参考资料:
https://blog.google/technology/google-deepmind/gemini-model-thinking-updates-march-2025/#gemini-2-5-thinking
https://deepmind.google/technologies/gemini/pro/
https://x.com/lmarena_ai/status/1904581128746656099
《吹雪被爆❌羞羞漫画》,《y85ouztigy6ysf5y》美女裸体㊙️光屁股视频
“温迪夹得好紧太爽了色情”
www.4ipegging.com
……
04月06日
“美女爆乳裸体啪啪久久精品网站”全红婵陈芋汐出战10米台决赛
↓↓↓
04月06日,财政部:一季度全国一般公共预算支出69856亿元,同比增长2.9%,野原琳乳暴❌自慰naruto,火影忍者动漫❌爆乳❌视频,11小男生Gay脱裤子拔萝卜网站,扒开老师的湿润小泬喷白浆动漫
04月06日,(乡村行·看振兴)江西德安筑巢引凤来栖 助推蛋鸡产业提质升级,❌❌爆乳❌❌3b,武警让我吃他的jiji,粗大与亲女伦交换H,18❌涩涩动态表情包
04月06日,河北今年计划新建成157个高品质口袋公园,冷狐移植1000款免费游戏入口,艾玛裸爱被❌视频无码,捆住双乳吊起来折磨下部,小樱爆乳❌🔞🔞㊙️
04月06日|焦点访谈丨起底“开盒挂人” 整治新式网暴|美女裸体㊙️无遮挡視頻视频裸体so|女性赤裸身体㊙️喂奶头|被到爽流片依人网站小说|成人的秘密㊙️
04月06日|亿元重奖!伊利2023年年会圆满举行,御风踏浪拥抱美好2024|原神裸体㊙️网站|强制高潮(H)调教1v1百合|国产91♥丝袜在线熟女|jK少女扣币出现白色
04月06日|“银龄安康工程”助力构建老年人养老安全保障网|香港女同互慰🔞👅|(年轻女教师)2|国产欧美一区二区三区|💚奇优影院 ️手机在线观看……
04月06日,福建东侨:电商+文创 让特色产业更“出圈”,寡妇自慰大声叫床,欧美⭕⭕⭕⭕XXXX男人小说,Chinese猛男Gay国产video,千仞雪白丝开档自慰3D动漫AV
04月06日,【澜湄印象】相约火把节 和老挝留学生苏丽娜体验舞家美食文化,疼痛色情-PornV.XXX,羞羞❌喷水自慰A片游戏,中国老奶老太videos,成人精品H无码同人网站
04月06日|民政部:将从三方面贯彻落实《关于发展银发经济增进老年人福祉的意见》|欧美三人囗交XXOO|麻豆➕传媒➕国产➕视频|调教➕虐乳➕虐菊|原神八重神子裸体❌开腿小说
04月06日,国家知识产权局:中国专利代理行业快速发展 服务能力大幅提升,海贼王路娜小说,花火裸体❌开腿图片,PORNY丨首页❤入口在线,妹妹用脚帮你设
04月06日,铁路上海站2024年春运预计发送旅客超1400万人次,yaoi❤♂culture网站,夫妻论坛原创投稿,火影女被❌🐻黄漫扒衣在线观看,妓女树林卖婬A片
04月06日,2024“一带一路”商协会大会在福州开幕,杭州悠可化妆品有限公司,女女c🔞黄㊙️❌B站自慰,手指在手心戳什么意思,精品久久久三级丝袜
04月06日|泉州宝藏 | 为什么这座桥成了当地人心中难以言表的“断桥残梦”|艳妇全程穿着长靴做爰AV|女学生睡熟迷奷|在线无限看❌草莓视频|原神美女脱露小奶头
04月06日|【世界说】外媒:受多重因素打击 “美元霸权”或失去根本依托|九色PORNY嫩草❤️7hao|大家🐔伸进🈲🔞🔞91|原神❤色情♥网站|女朋友下边粉嫩粉嫩的怎么办
04月06日|今年中国将强化教育医疗等民生领域价格执法检查|原神同人涩涩❤️网站|在线无码精品㊙️91网站|朴妮唛三级露全乳视频|㊙️黄AV无遮挡网站
CS2重大更新 地图火车回归,七千五的工作和考研怎么选|【两会30秒】代表谈积石山灾后重建进展 展示建设方案图|女学生婬荡呻吟扒开腿视频|3D动漫❌❌❌无尽视频|小舞脱个精光露出奶头视频|美女❌C🐻八衣服小说
监制:邓金木
策划:赖晗
主创:唐征宇 林箴贺 陈佛烘 颜亦阳 陈林韵
编辑:王家菁、段圣祺