梦晨 发自 凹非寺量子位 | 公众号 QbitAI
字节最新深度思考模型,在数学、代码等多项推理任务中超过DeepSeek-R1了?而且参数规模更小。
同样是MoE架构,字节新模型Seed-Thinking-v1.5有200B总参数和20B激活参数。
对比DeepSeek-R1的671B总参数和37B激活参数,可以算得上轻量级了。
目前,完整的技术报告已公开发布,其中揭示了诸多秘诀。
字节Seed团队聚焦大规模强化学习,并从三个角度提升了推理表现:数据、RL算法和RL基础设施。
可验证与不可验证问题
从数据开始说起,字节团队把RL训练数据分为两个部分,具有明确答案的可验证问题和没有明确答案的不可验证问题,采用不同的奖励建模方法。
这其中,模型的推理能力主要来自可验证问题,并可以推广到不可验证问题。
可验证问题包括问题与答案配对的STEM问题、附带单元测试的代码问题,以及适合自动验证的逻辑推理问题(24点、迷宫、数独等)。
不可验证问题主要包括根据人类偏好评估的非推理任务,如创意写作、翻译、知识QA、角色扮演等。
对于不可验证问题,字节团队丢弃了样本分数方差低、难度低的数据。此类数据可能过于简单或已在数据集中大量表示。离线实验表明,过度优化此类样本会导致模型的探索空间过早崩溃并降低性能。
此外,团队还打造了全新数学推理评测集BeyondAIME。
当前的推理模型通常使用AIME作为评估数学推理能力的首选基准,但该基准每年只发布30个问题,有限的规模可能会导致高方差的评估结果,难以有效区分最先进的推理模型。
字节与数学专家合作,根据既定的比赛形式开发原创问题。通过结构修改和情景重新配置来系统地调整现有的比赛问题,确保不会发生直接重复。此外还确保答案不是容易猜的数值(例如问题陈述中明确提到的数字),以减少模型在没有适当推理的情况下猜出正确答案的机会。
RL算法
强化学习虽然强大,但训练起来也很不稳定,经常崩溃。
字节在技术报告中提到”有时,两次运行之间的分数差异可能高达10分”。
针对这个问题,团队提出了VAPO和DAPO两个RL框架,分别从基于价值和无价值的RL范式出发来稳定训练。
VAPO和DAPO两篇论文都已单独发布。
此外,在Seed-Thining-v1.5中,还借鉴了之前学术界工作中的很多关键技术:
价值预训练(Value-Pretraining),保证价值网络和策略网络一致解耦的GAE(Decoupled-GAE),让两个网络更独立高效长度自适应GAE(Length-adaptive GAE),更好处理不同长度序列解耦PPO损失(Clip-Higher),为低概率token的增长创造,了更多空间鼓励模型探索新方案Token级损失(Token-level Loss),平衡每个token对训练过程的影响。正例增强(Postive Example LM Loss),提高RL训练过程中正样本的利用效率,从而提高模型整体性能
RL基础设施
在Long-CoT生成过程中,字节团队观察到各种提示词之间的响应长度差异较大,在生成过程中出现大量GPU空闲时间。
为了缓解长尾响应生成的滞后问题,提出了SRS(流式Rollout系统),一种资源感知型调度框架,可战略性地部署独立的流式计算单元,将系统约束从内存绑定转换为计算绑定。
为了有效地大规模训练,团队还设计了一个混合分布式训练框架,集成高级并行策略、动态工作负载平衡和内存优化:
并行机制:将TP (张量并行)/EP (专家并行)/CP (上下文并行)与全分片数据并行 (FSDP) 组合在一起,具体来说,将TP/CP 应用于注意力层,将EP应用于 MoE 层。序列长度平衡:DP等级之间的有效序列长度可能不平衡,导致计算工作量不平衡和训练效率低下。利用KARP算法在一个mini-batch内重新排列输入序列,使它们在micro-batch之间保持平衡。内存优化:采用逐层重新计算、激活卸载和优化器卸载来支持更大micro-batch的训练,以覆盖FSDP引起的通信开销。自动并行:为了实现最佳系统性能,开发了AutoTuner 自动调整系统,按照基于配置文件的解决方案 对内存使用情况进行建模。然后估计各种配置的性能和内存使用情况以获得最优配置。检查点:使用ByteCheckpoint支持从不同的分布式配置中以最小的开销恢复检查点,弹性训练以提高集群效率。
最终,在多项自动评估中,Seed-Thinking-v1.5在AIME 2024基准测试中取得86.7,与OpenAI的o3-mini-high模型的性能相当。但在最近的AIME 2025和BeyondAIME中,Seed-Thinking-v1.5仍然落后于o3级别的性能。
对于GPQA任务,Seed-Thinking-v1.5达到77.3%的准确率,接近o3-mini-high的性能。
在Codeforces等代码生成场景中,Seed-Thinking-v1.5的性能与Gemini 2.5 Pro 的性能相当,但仍落后于o3-mini-high。
Seed-Thinking-v1.5在SimpleQA上的表现不太理想。但团队认为,该基准测试预训练模型规模的相关性更强,而不是考验推理能力。
许多人看完这篇技术报告,都很感兴趣,不过找了一圈也没找到模型在哪发布。
从技术报告的口径来看,该模型与目前豆包中的Doubao-1.5 Pro并不是一回事。
但从作者名单看,这是由字节Seed团队负责人吴永辉带队,主要成员都参与的大项目。
那么是否将来会部署到豆包APP,可以期待一波了。
论文地址:https://github.com/ByteDance-Seed/Seed-Thinking-v1.5/
《男女做事网站》,《y85ouztigy6ysf5y》玖辛奈被扒开腿坐做❌同人游戏
“杏仁入口官网”
超短裙美女打朴克白丝
……
04月15日
“云韵好大⋯好爽⋯再深一点”李月汝因球队欠薪风波缺席本周比赛
↓↓↓
04月15日,A股公司2023年财报会计监管报告:209家公司被出具非标审计报告,国语对白做受按曰摩,美女扒精光㊙️视频网站,娜美为小乔巴青春期漫画,灰原嗯~啊~轻🈲🔞在线观看
04月15日,深圳各口岸迎来多轮出入境客流高峰 湾区跨境流动日益频密,❤国产精品嫩草影院❤春菇,电车里的日日液(h),肉体裸交❌❌❌av白色液体,裸体孕妇做爰ⅩXXⅩ
04月15日,香港漫游记:《雍正帝观花行乐图》与雍正帝继位之谜大爷6元买到“军事机密”立马报警 国安部披露一起案例,八十老太奶性BBwBBw免费,女下部㊙️高清图片,17C白丝喷水🌸自慰小说,日本少妇XXXX软件
04月15日|美军宣布:打死一名与“基地”关联武装高级头目|18🈲🈲🈲🈲🈲色AV|动漫美女被❌到爽视频|李毅吧第17期动态|K佬的能天使虫子繁育场
04月15日|广东中欧班列(德国方向) 时隔两年再次启程|网禁🈲拗女稀缺免费|日本温泉裸体㊙️无遮挡|妺妺扒开裤子自慰喷我脸上去|yaoi❤♂Manga漫画蓝颜
04月15日|美多家汉堡王门店被曝存在童工问题|老师撅着屁股被学生调教|疯狂自慰爽www看片|免费观看全黄做爰大片男男|乱的姐姐伦理……
04月15日,青海西宁:古街巷陌“烟火”升 抚舌尖暖心间,穿越火线云悠悠正能量p图,女教师用🐻夹我的🍌动漫,原神涩涩同人18❌网站刻晴,男男㊙️无套
04月15日,民间团体在台南举办郑成功诞辰400周年祭典,白鹿被调教到奶水都喷出来小说,半夜把亲妺妺c高潮了的,Ben10同人涩涩动漫,公交车上婬乱BBXXHD
04月15日|从热播剧《繁花》看滇菜“出滇记”|小🐔🐔伸进🈲🔞🔞71|歪歪漫画sss韩漫画在线|末成年小男生GayXXX|美女露鲍自拍
04月15日,(乡村行·看振兴)山西闻喜冬闲人不闲 金丝皇菊采摘忙,内射sm黑白爆口,万叶顶散兵生殖部为,男生撒尿无遮挡㊙️免费,扒开小医仙❌狂揉❌难受3d动漫
04月15日,2023年中国服务进出口额同比增长10%,女性脱👙给我揉🐻偷拍,隐私㊙️裸无遮挡游戏,小少爷嫩嫩好紧好爽好大漫画,揉我胸⋯啊⋯嗯~下面出水了小
04月15日,(新春走基层)春节临近年味渐浓 山东年货市场迎销售旺季,小处雏一区二区三区精品视频,憋不住了在卫生巾里拉稀知乎,福利姬麻酥酥jk流出白浆,FC2PPV完全初撮り♥制服
04月15日|李强向所罗门群岛新任总理马内莱致贺电|周于希定制剧情私人|扒开手鞠❌狂揉❌难受3d动漫|男生扒开🍑伸进🍌❌白丝|动漫美女被❌吸乳奶视频
04月15日|各方合力助推我国财商素养教育更好落地|被触手扒开腿灌满春药H漫画|曰夲少妇╳╳❌❌Haop|催眠控制洗脑侵犯H漫画|女无内裤疯狂揉下部㊙️
04月15日|中新健康丨国际最新研究称有蛇毒治疗抗体或增强蛇毒毒性 提醒关注潜在风险|Ass极品粉嫩小泬ass|男女啪啪久久爽A片免费看|酥酥印记小说原著小说叫什么名字|小心🐤入🍑🍑视频免费
9个月宝宝伸出小手搂着73岁太姥姥,12345回应男孩入住酒店后确诊川崎病|三甲医院书记、院长,接连被查|挤奶自慰❌❌喷水好爽|老师扒开腿㊙️让我爽|学生裸体被❌羞羞软|新疆女生旱厕25个视频原因
监制:邓金木
策划:赖晗
主创:唐征宇 林箴贺 陈佛烘 颜亦阳 陈林韵
编辑:王家菁、段圣祺