bc贷

首页

下载APP

字节新推理模型逆袭DeepSeek，200B战胜671B，豆包史诗级加强_

梦晨发自凹非寺量子位 | 公众号 QbitAI

字节最新深度思考模型，在数学、代码等多项推理任务中超过DeepSeek-R1了？而且参数规模更小。

同样是MoE架构，字节新模型Seed-Thinking-v1.5有200B总参数和20B激活参数。

对比DeepSeek-R1的671B总参数和37B激活参数，可以算得上轻量级了。

目前，完整的技术报告已公开发布，其中揭示了诸多秘诀。

字节Seed团队聚焦大规模强化学习，并从三个角度提升了推理表现：数据、RL算法和RL基础设施。

可验证与不可验证问题

从数据开始说起，字节团队把RL训练数据分为两个部分，具有明确答案的可验证问题和没有明确答案的不可验证问题，采用不同的奖励建模方法。

这其中，模型的推理能力主要来自可验证问题，并可以推广到不可验证问题。

可验证问题包括问题与答案配对的STEM问题、附带单元测试的代码问题，以及适合自动验证的逻辑推理问题（24点、迷宫、数独等）。

不可验证问题主要包括根据人类偏好评估的非推理任务，如创意写作、翻译、知识QA、角色扮演等。

对于不可验证问题，字节团队丢弃了样本分数方差低、难度低的数据。此类数据可能过于简单或已在数据集中大量表示。离线实验表明，过度优化此类样本会导致模型的探索空间过早崩溃并降低性能。

此外，团队还打造了全新数学推理评测集BeyondAIME。

当前的推理模型通常使用AIME作为评估数学推理能力的首选基准，但该基准每年只发布30个问题，有限的规模可能会导致高方差的评估结果，难以有效区分最先进的推理模型。

字节与数学专家合作，根据既定的比赛形式开发原创问题。通过结构修改和情景重新配置来系统地调整现有的比赛问题，确保不会发生直接重复。此外还确保答案不是容易猜的数值（例如问题陈述中明确提到的数字），以减少模型在没有适当推理的情况下猜出正确答案的机会。

RL算法

强化学习虽然强大，但训练起来也很不稳定，经常崩溃。

字节在技术报告中提到”有时，两次运行之间的分数差异可能高达10分”。

针对这个问题，团队提出了VAPO和DAPO两个RL框架，分别从基于价值和无价值的RL范式出发来稳定训练。

VAPO和DAPO两篇论文都已单独发布。

此外，在Seed-Thining-v1.5中，还借鉴了之前学术界工作中的很多关键技术：

价值预训练(Value-Pretraining)，保证价值网络和策略网络一致解耦的GAE(Decoupled-GAE)，让两个网络更独立高效长度自适应GAE(Length-adaptive GAE)，更好处理不同长度序列解耦PPO损失(Clip-Higher)，为低概率token的增长创造，了更多空间鼓励模型探索新方案Token级损失(Token-level Loss)，平衡每个token对训练过程的影响。正例增强(Postive Example LM Loss)，提高RL训练过程中正样本的利用效率，从而提高模型整体性能

RL基础设施

在Long-CoT生成过程中，字节团队观察到各种提示词之间的响应长度差异较大，在生成过程中出现大量GPU空闲时间。

为了缓解长尾响应生成的滞后问题，提出了SRS（流式Rollout系统），一种资源感知型调度框架，可战略性地部署独立的流式计算单元，将系统约束从内存绑定转换为计算绑定。

为了有效地大规模训练，团队还设计了一个混合分布式训练框架，集成高级并行策略、动态工作负载平衡和内存优化：

并行机制：将TP （张量并行）/EP （专家并行）/CP （上下文并行）与全分片数据并行（FSDP）组合在一起，具体来说，将TP/CP 应用于注意力层，将EP应用于 MoE 层。序列长度平衡：DP等级之间的有效序列长度可能不平衡，导致计算工作量不平衡和训练效率低下。利用KARP算法在一个mini-batch内重新排列输入序列，使它们在micro-batch之间保持平衡。内存优化：采用逐层重新计算、激活卸载和优化器卸载来支持更大micro-batch的训练，以覆盖FSDP引起的通信开销。自动并行：为了实现最佳系统性能，开发了AutoTuner 自动调整系统，按照基于配置文件的解决方案对内存使用情况进行建模。然后估计各种配置的性能和内存使用情况以获得最优配置。检查点：使用ByteCheckpoint支持从不同的分布式配置中以最小的开销恢复检查点，弹性训练以提高集群效率。

最终，在多项自动评估中，Seed-Thinking-v1.5在AIME 2024基准测试中取得86.7，与OpenAI的o3-mini-high模型的性能相当。但在最近的AIME 2025和BeyondAIME中，Seed-Thinking-v1.5仍然落后于o3级别的性能。

对于GPQA任务，Seed-Thinking-v1.5达到77.3%的准确率，接近o3-mini-high的性能。

在Codeforces等代码生成场景中，Seed-Thinking-v1.5的性能与Gemini 2.5 Pro 的性能相当，但仍落后于o3-mini-high。

Seed-Thinking-v1.5在SimpleQA上的表现不太理想。但团队认为，该基准测试预训练模型规模的相关性更强，而不是考验推理能力。

许多人看完这篇技术报告，都很感兴趣，不过找了一圈也没找到模型在哪发布。

从技术报告的口径来看，该模型与目前豆包中的Doubao-1.5 Pro并不是一回事。

但从作者名单看，这是由字节Seed团队负责人吴永辉带队，主要成员都参与的大项目。

那么是否将来会部署到豆包APP，可以期待一波了。

论文地址：https://github.com/ByteDance-Seed/Seed-Thinking-v1.5/

《911在线无码精品㊙️入口游戏》，《y85ouztigy6ysf5y》

被女同学绑摸玩jiji图片

“娜可露露出奶头无遮掩的网站”

神奇宝贝沙奈朵h本

……

04月11日

“小🐔🐔伸进菠萝视频”iG DOTA2分部暂停运营

↓↓↓

胖东来回应一件羽绒服仅赚3毛，是多方回应武汉大学教学楼起火

04月11日，四国合作智库发布报告回应西方所谓中国“见顶论”，村妇艳史理伦一级毛片二区，两女互摸自慰爽到呻吟，高清🔞❌♋破解版91，韩国美女主播19🈲vip，黄金厕主奴丨VK|黑网.www血腥暴力|被到爽流片游戏|6hj9h1p蜜7i|赵琳双乳赤裸裸跪趴掀裙子打屁股|二次元cos被❌到爽羞小说

04月11日，打通公路、清淤消杀、空军驰援……多方力量支援葫芦岛防汛抢险救灾，杨幂的裸体❤，免费吸乳羞羞网站视频，A級處女黃片免費看，男生往女性隐私㊙️灌水

04月11日，新疆多地迎来持续高温天气局地气温超40℃，连体衣美女裸体被❌视频，女同又爽❌又黄❌动漫，教师美妇1～180无删减版漫画，91丨PORN丨丝袜高跟

04月11日，国家医保局出台长期护理保险失能等级评估机构定点管理办法，www.深夜成人🔞游戏，红桃视频18，anime黄网站，欧美与欧洲交XXXX免费观看

04月11日|新党主席吴成典：统一是出路 “台独”是绝路|国产精品嫩草影院禁果|李毅吧第17期动态|二年半免费观看|伊蕾娜的乳液狂飙小说

04月11日|广西桂林新建净瓶山大桥首幅箱梁合龙|国产91♥丝袜在线熟女|i-raf-you缩小漫画|宁荣荣被挤奶羞羞动漫|小志日小采全文免费阅读

04月11日|国台办：希望黄仁勋好好补补课|米豆子❌暴爽自慰喷水|芙宁娜打开双腿❌❌|妲己好大⋯好爽⋯湿透了|小鲜肉GayGayFuck✅✅……

04月11日，（巴黎奥运）国乒男女队均晋级奥运会团体八强，成人抖抈app下载，脱了她裙子摸进她的内裤亲吻😚，久久嫩草国产成人一区，美国巜性来潮喷1

04月11日，最高法：三名强奸未成年人的罪犯被依法执行死刑，沙奈朵强❌乳喷本子小说，调教女M屁股撅虐调教，海贼王路飞❌娜美，51在线无码精品㊙️

04月11日|韩在野党称正起草针对尹锡悦弹劾草案将很快公开|17c吃瓜爆料黑料网曝门|韩国女团韩宝贝小黑屋哪一期出现|▇榴莲视频▇无码免费下载|公交车上婬乱BBXXHD

04月11日，美国孟菲斯市公园发生枪击致2死6伤，自慰看的小黄说，老赵揉搓苏清雅双乳的视频，永久免费🔞🔞🔞末网让，俄罗斯美女裸体做爰XXXⅩ

04月11日，中国西藏第五届跨喜马拉雅国际公路自行车极限赛第二赛段在拉萨开赛，lol裸体啪啪❌h免费观看，喷水，疯狂揉搓妲己的🌸🌸，日本人乂XX入口网

04月11日，贵州首趟中老跨境货物列车汽车专列发车，八重神子ちゃんの球棒的生涯，宿舍男大学生自慰GVsolo，欧美XXXX83D，神波多一花-亞洲瘋情

04月11日|跟着总书记学党史·红色足迹以“赶考”的清醒和坚定答好新时代的答卷|动漫的隐私㊙️视频播放|扒开美女屁股眼灌水18禁网站|ADH101登录入口最新|申鹤撅着白嫩光屁股被打

04月11日|樟吉高速改扩建：250余台设备一天内拆除8座上跨桥梁|小智❌沙奈朵18禁污污|辉夜被鸣人❌❌|妲己被❌到爽妲己羞188|九幺黄9·1🐔巴大

04月11日|中国驻安哥拉使馆鼓励在安中国公民主动在线登记个人信息一颗“小”板栗长出乡村振兴“大”图景|zoz女人与另类zoz蛇裸体|亚洲18🈲在线天美传媒潘甜甜|飞霄扒开🍑跪着让客人打屁|美女100%挤奶水视频

动画电影《白蛇3》票房预测，00后裸辞20次最爱工作是保安|缅甸宣布将国家紧急状态延长6个月|唐舞桐被❌挤奶羞羞漫画|继夫把腿张开臊烂开荤粗|黑卡蒂被折磨出牛奶|91九色❤️PORN瑜伽

结束五年恋爱后妈妈的反应，山东专升本招生计划公布|冰岛一火山喷发熔岩流入附近小镇|男朋友脱我内裤揉我下面小说|虞书欣被❌狂揉大胸在线观看|杨颖被弄高潮免费观看|黄💖色💖视💖频💖

欢迎回到三达里，苹果iOS 18正式发布|吴经国：萨马兰奇纪念馆将持续践行绿色奥运传递奥林匹克精神|修女被❌吸乳羞羞动漫|日本护士㐅乄㐅╳|宝贝把腿张开乳液流出来了|妈妈的启蒙教育桥本香菜

美国队游泳完后脸发紫，韩国执政党党首改主意了|胡塞武装逮捕多名联合国工作人员古特雷斯谴责|男女啪啪久久爽A片免费看|舒淇早期毛片四点尽露视频|10月电子厂全景沟厕|小心🐤入🍑🍑游戏

彩色的荣耀·手艺人大会第二季，男子用菜刀砍伤妻子辩称管教不犯法|述评｜点亮全球治理的“南方时刻”——习近平主席拉美之行为全球南方团结自强、共建更加美好未来注入强大动力|奶头也要爽教练双男|嫩草影院A片久久精品91|美女又爽又黄丝袜666AV|盖尔加朵大尺度做爰戏

玩家发起怪猎荒野中配请愿，山西大同左云县3.0级地震|“7天学会”“月入10万”，这些“创业培训”套路多|新梅金瓶肉蒲团4D之奶小说|网禁🈲拗女稀缺1300|国产精品㊙️麻豆免费版乌克兰|拳皇春丽被❌吸乳羞羞动画丝袜美女裸体❌

小李子大腿被水母蜇伤，职业选手待遇真不如陪玩吗？|中俄将继续巩固能源矿产粮食等贸易规模|buy1take2寸止挑战17|动漫脱👙免费看奶头㊙️|女帝裸体被❌叫爽漫画|香港摄′像师给白虎裸模拍写真老牛传媒有限公司

监制：邓金木

策划：赖晗

主创：唐征宇林箴贺陈佛烘颜亦阳陈林韵

编辑：王家菁、段圣祺

热门视频

Copyright © 2014 福建省广播影视集团版权所有

任何机构或个人未经福建省广播影视集团书面授权许可，不得擅自转载、摘编或以其他方式商业使用或传播本网站内容。本网站用字经方正字库授权许可。

信息网络传播视听节目许可证号：1307201 网站备案/许可证号: 闽ICP备08011194 互联网新闻信息服务许可证号：35120170002

Addr：福建省福州市西环南路128号 Post：350004

闽公网安备 35010302000113号