UC��˿�Դ14B��o3-mini��R1ͻϮOpenAI��

��Ԫ��

�༭��༭�� HXs

��Ԫ��OpenAI o1/o3-mini��Ĵ��ģ�;��ȿ�Դ��UC��Together AI��Ƴ��DeepCoder-14B-Preview��14B��o3-mini��Դ��롢��ݼ�һӦ��ȫ��ʹ�á�

OpenAI o1/o3-mini��ģ�ͣ��ȿ�Դ�ˣ�

�ոգ��UC��Together AI��Ŷӣ��ذ��Ƴ��һ��ȫ��Դ�Ĵ��ģ�͡��DeepCoder-14B-Preview��

��ڣ�ֻ��Ҫ14B�Ϳ��ӵ��һ��o3-mini�ı��ģ�ͣ��ȫ��ѣ�

DeepCoder-14B-Previewͨ��ֲ�ʽRL��Deepseek-R1-Distilled-Qwen-14B΢��

��LiveCodeBench��׼��У��ĵ��ͨ��ʣ�Pass@1��ﵽ��60.6%��ȸߴ�8%��

��ˣ��ּ�֤��ǿ��ѧϰ��ʤ��

DeepCoder��ѵ��е�LiveCodeBench (LCB) �÷֣�ѵ��180��ʱ��ĳ��չ��32K��32Kʱ��ѵļ��Ұ��չ��64K��ʱLCB�÷��ܴﵽ60.6%��o3-mini��൱

ͬʱ��Ŷӻ��Դ��verl-pipe��verl��ѵ��ϵͳ��չ��˶��ϵͳ�Ż��ö˵��˵�ѵ��ٶ��2��

�Դ��ǳ��ޣ��ȫ��Դ��ʤ��ģ�ͣ��ݼ��롢ѵ��־Ҳ��š�

ֵ��һ��ǣ�DeepCoder-14B-Preview��24K��֤�ı��⣬��32��H100 GPU��ѵ��2.5�ܡ�

��ݼ��

��ѧ��о��֣�ǿ��ѧϰҪ��п��֤�Ľ��ƣ��ģ�͵��

��ѧ��ҵ��ö��֤��ݣ��ϡȱ��

��ʵ��У��Ŷ��˼��Ĵ��ݼ��APPS��TACO��CodeContests��KodCode��LeetCode��

��֣��Щ��ݼ��ģ��˵̫��ˣ��KodCode��LeetCode��Щ��ݼ��Ĳ��ȱ�ݡ��֤��Ľ��źţ��RLѵ��޷��ȶ��С�

Ϊ��Щ��⣬�о��һ��ѵ��

TACO��֤��⡣

PrimeIntellect��SYNTHETIC-1��ݼ��о��֤��⡣

2023��5��1�յ�2024��7��31��ύ��LiveCodeBench��⡣

Ϊ��֤��RLѵ��˳��չ��һ��ϸ�Ĺ��̣�

��֤��ÿ��ⶼ��ⲿ�ٷ��Ľⷨ�Զ��һ�飬ֻ��ٷ��ⷨ��ͨ��е�Ԫ��Ե��⣬��tests/rewards/test_code_batch.py�ű��Զ��ɡ�

��Թ��ˣ�ÿ��ٰ��5��Ԫ��ԡ��ٵ��ģ��ӣ�ģ��ͨ��ʶ�𳣼��ѧ��򵥵��Ĵ𰸣��ڿ͡��

ȥ�أ��о��߻��ݼ��ظ��ⶼȥ��ֹ��š��Ƕ�Taco Verified��PrimeIntellect SYNTHETIC-1��LCB��2023��5��1��-2024��7��31�գ��ѵ��ݼ��ȥ�ش��˲��ݼ�LCB��2024��8��1��-2025��2��1�գ��Codeforces��57��ݼ��

��˺󣬵õ�24K��ı��⣬��RLѵ��7.5K��TACO Verified��16K��PrimeIntellect SYNTHETIC-1��600��LiveCodeBench��

��ɳ�л��

Ϊ�˼��RLѵ��Ľ��ڴ��ɳ����ģ��ɵĴ��е�Ԫ��ԡ�

ÿ��RL��̣��1024��ѵ��Ч��ÿ��5��Ԫ��ԡ�

��ô��񣬾͵ÿ�100��ɳ��һ��У��ں��ʱ��ڣ�׼ȷ��֤ģ��ɵĴ��롣

Ŀǰ��о��ɳ�У�Together��ͱ��ش��ɳ�С�

Together��

��ٶȿ졢Ч�ʸߣ��ֱ��RLѵ��ϣ�ÿ��ĳɱ��3��֡�

Together��֧��100��ɳ��ͬʱ��У�ÿ��ִ��1000��ɳ�в��

��Щɳ��ܷ��ʱ�׼��stdout��׼��루stdin��һ��Ľ��

ͬʱ��ܰѴ��еĻ��ϵͳ��뿪��֤��ȫ��

��ش��ɳ��

��ش��ɳ��ͨ��һ��ġ��з��Python�ӽ��еġ��ӱ�׼��루stdin��ղ��룬Ȼ��Ѵ��׼��루stdout��

��ɳ��õ��LiveCodeBench�ٷ��룬ȷ��Խ��а�һ�¡�

��

��Щ��ʽ��ģ��ף��˼ά��CoT��ͷ��N��K��ͨ��͸�K/N��

��ϡ��ģ�ͣ�ORM��影��ģ�

��Ϊ��1��ɵĴ��ͨ��г�ѡ�ĵ�Ԫ��ԡ��Щ��м��ٸ��ȫ��֤��̫��ʵ��Ի��ַ��ĳ��ȣ�ÿ��15��ѵĲ��ԣ��ַ��ĳ��жϣ��

��Ϊ��0��Ҫ��ģ��ɵĴ��һ��ûͨ��ߴ𰸸�ʽ��ԣ��ȱ��python[CODE]��ǣ��û�н��ÿ��6-12��ʱ��ơ�

ѵ��

GRPO+

�о��߲ο��DAPO�Ĺؼ�˼·��Ľ��GRPO�㷨��ѵ��̸��ȶ��

GRPO+��GRPO��16K��ѵ��е�ƽ��ѵ��GRPO�Ľ��GRPO+��Ϊ��Clip High��ƣ��߱��ȶ�

��ʧ��ʧ���ѵ��ȶ��ֵָ��ѵ��Ƴ��ʧ�

��KL��ʧ��Դ��DAPO��ȥ��KLɢ��ʧ��LLM�Ͳ��ᱻ��ԭ��ල΢��SFT��ģ�͵��ڡ��ʡ��Ϊ�ο��Լ��ʣ�ѵ��ٶ�Ҳ�͸��ˡ�

��ˣ�Դ��DAPO��Ϊ��Գ��ȶ��ضϵ��⴦����ʹDeepCoder��ʹ��32K��Ļ��ѵ��64K��Ҳ��ֹ��˷��Ӧ��Ȼ��ض϶��ܵ��ͷ��

��ڲ��ó��˻��ƣ�GRPO+��Ӧ��ѵ��ʱ��Ȳ��

Clip High��Դ��DAPO��ͨ��GRPO/PPO��ʧ��ޣ��ģ�ͳ��Ը��಻ͬ�Ŀ��ܣ��ֵҲ��ȶ��ѵ��ȶ��ģ��Ҳ��

Clip High��ƺ�û��ʧ��ܱ�֤GRPO+��token��ز��ģ�ͳ��̽��

��ʽ��չ

��DeepScaleR�Ľ��У��ᵽ��ʽ��չ��ģ��ڶ�һ��ѧ��Ч˼��Ȼ��Ӧ�õ��ġ�

��1.5B��ģ�͵��Ȳ��Ĵ��ڴ�8K��16K��ٵ�24K�Ĺ��У��AIME��׼ȷ�ʴ�33%��ߵ�38%��43%��մﵽ��o1-preview��ˮƽ��

��14B��ģ�͵�ʱ��⣺

14B��ģ�ͱ��ͺ�ǿ��Ҫ��͵ý��ѵ��⡣

��Щ��ѵ��Ҫ��8K��Ĵ��ڣ��8K��֮ǰСģ��ѵ��ʼ��ĳ��ȡ�

��һ��ʼ�ö��ѵ��ģ��Ⱦͳͷ��Ч��á�ģ�͵ĳ�ʼ��ܻ��½��Ҳ��̣��ĵ��Ҳ��

Ϊ��ڱ�֤ѵ��Ч�ʵ�ͬʱ��ģ��ܴ��о��DAPO�ĳ��˼��ѵ��ʱ�򣬻��Щ��Ϊ̫��ضϵ��У��ģ�;��ɵ��ݳ�һ�㣬Ҳ��ᱻ�ͷ��

��ˣ�ģ�ͼ�ʹ�ڽ϶̵��ѵ��Ҳ�ܡ��ó�Զ��

�о��߰ѵ��չ��DeepCoder-14B-Preview�ϣ��ѵ��Ĵ��ڴ�16K��32K��LiveCodeBench��׼��У�ģ�ͱ��£�

��16K��32K��ĳ��£�׼ȷ�ʴ�54%��58%��

��64K��ĳ��ʱ��ﵽ��60.6%��

��˵��ģ�͵ķ��ǿ��ѵ��ʱ��ķ�ΧҲ�ܱ��ֵúܺá�

��DeepSeek-R1-Distill-Qwen-14B��ֻ��ģ�ͱ��DeepCoder-14B-Preview�ķ��͸�ͻ��ˡ�

��ģ��һ��ѵ��ʱ��ĳ��ȣ��ܾͺ��ˡ�

��ȻDeepCoder��Ϊƽ��Ӧ��Ƚϳ��16K��ĳ��µ�ԭʼ��ܵ�һЩ��Ϊ�ضϺ͸�ʽ��۷֣��ڳ��ĵ��ǿ��64K��ĳ��ȵ��г�Խ��ģ�͡�

DeepCoder��ѵ��е�ƽ��Ӧ��Ⱥ�ѵ��ƽ��Ӧ��ȴ�8K��17.5K

DeepCoder�ĳɹ��ǰѵ��չ�ͳ��˼��ˡ�

��ͼ�п��Կ��ѵ��У�ģ�͵�ƽ��Ӧ��ȴ�8K��17.5K��ƽ��Ҳ��0.6��ߵ� 0.7��˵��ʱ��ƣ�ģ��ѧ��˸��˼��ʽ��

�ؼ��Ľ�

�ڶ��ֱ�̻�׼�϶� Deepcoder-14B-Preview ��LiveCodeBench (LCB)��Codeforces��HumanEval+�Լ�AIME2024��ѧ��

ƾ��14B�Ĳ��ģ��б�̻�׼�Ͼ�չ�ֳ�ǿ��ܣ��LiveCodeBench��ʵ��60.6%��Pass@1׼ȷ�ʣ��Codeforces�ϻ��1936��֣��ֿ��o3-mini (low) ��o1ģ��

ѵ��ʱ̫��ϵͳ�Ż��æ

ʹ�ó��Ķ�LLM��ǿ��ѧϰ��RL��ѵ��ǳ��ʱ��Ҫ�ڳ��Ļ��з��в��ѵ��

��ϵͳ��Ż��ѵ��̿��ܺķ��¡�14B��ģ��ѵ��ÿһ��͵û�1200��2500�룬��ѵ��ʱ��ﵽ2.5�ܣ�

�Ŷ��벢��Դ��verl-pipeline��ǿ�ԴRLHF��verl��һ��Ż��汾��˶��ϵͳ��Ľ��ʩ��ּ�ڼ��ٶ˵��˵�RLѵ��̡�

��ڻ�׼��verlʵ�֣�verl-pipelineʵ��˸ߴ�2.5��ٶ��

��Щ�µ�ϵͳ�Ż��ѵ��DeepCoder-1.5B-Previewģ�ͣ��ģ��LiveCodeBench�ϵ�׼ȷ�ʴﵽ��25%��Deepseek-R1-Distill-Qwen-1.5B��8%��

��ƿ��

�ں�ѵ��У��ȵĹؼ��ء��Ϊ��vLLM��SGLang��32K token�ĳ��ʱ��ӳ١�

Verl��PPO/GRPOѵ��̣�ÿ��RL��ѵ��׶Σ��У��ѵ��̵�ƿ��ѵ��ٶ��Щ��ɽϳ��еĵ��Ӳ��straggler samplers��

RLѵ��ϵͳͨ��ڲ��ʱ�䡪��ͼչʾ��Verl��PPO/GRPO��ˮ�ߣ��Ӧ��ȵĲ�һ��Ե��²��ֲ��Ϊ��ߡ�

��Щ��߻��ѵ��ȣ��Ĳ��ڿ��״̬��Ӷ��GPU��ʵ��¡�

��ؽ��С��ˮ�߻�

Ϊ�˼��RLѵ��еĿ��ʱ�䣬�о��߽��ѵ��ˮ�߻��Minibatch Pipelining��

��һ��ѵ��ڲ��ɺ��ε�ͬʱ��ͻῪʼ��ý��絽��С��ݽ��ģ�͸��¡��ص�ִ��ڼ��ٲ��ӳ١�

С��ˮ�ߣ��ѵ��ֱ��ڲ�ͬ�Ĺ��У��ɲ��ͷ�С��ݣ��PPO/GRPOѵ��ѵ��첽��Щ��ݣ��һ�ε��ʱ��ѵ��Ὣ��º��Ȩ�ظ��

Ȼ��ַ��ؼ��ľ��ԣ�

С��ݵ�ƽ��г��ѵ��չ��˴��С��ѵ��ʱ�䡣��ǣ��󼸸�С��ݳ��ڲ��׶ν��ܴ��ϣ��Ӷ��ˮ�߻��ʵ��Ч�档

��ˮ�߻��Ҫ�ڲ��ѵ��֮�侲̬��GPU��Դ��˿��ò��ͬ��Verl��ͬһ��GPU��ж�̬��л��ѵ��ɫ��־�̬��٣��ܷ��ӳ��˵��˵��ܲ��ʱ�䡣

��ļ��ܺ�ʱ�ܳ��ر��Ƕ��ڱ��ÿ��RL��Ҫ��ǧ��Ԫ��ԡ��Verl��Ĭ��У��в��ɺ��ͷ�ڵ㣨head node��ϼ��н��еġ�

��ܴ��ЩԼ��Ŷ��ڴ��ray_trainer_pipeline.py�ļ��ʵ��С��ˮ�߻��Ҫָ��ǣ��ˮ�߼��ͨ��΢��microbatching��һ��Ż��

DeepCoder�Ľ��һ��ˮ�߻�

Ϊʵ��ѵ��Ͳ��ȫ��ˮ�߻��о��һ��ˮ�߻��One-Off Pipelining��

һ��ˮ�ߣ��ǰһ��һ��ݣ��ѵ��ʹ��һ�ε��ݶȣ��⣬��ļ��ǽ��еģ��ַ��ΪGRPO/PPO�Ĳ��㷨��첽��

��˼·�ǳ��򵥣��һ��RL��ִ�в��Ȼ��õ��һ��н��ѵ��

��һ��ѵ��ܲ��д��˲��ɺ�ѵ��ĵȴ��ʱ�䡣

��Σ��㱻Ƕ�뵽��У��֮��ִ�С�

һ��ĳ��ɣ��Ӧ�Ľ��Ч��˽��ڵĿ��ر��Ƕ��ڼ��ܼ��еĲ��ִ�У��Ч��

�Ŷ��ڴ��verl��֧��fork��е�ray_trainer_async.py�ļ��ʵ��һ��ˮ�߻��

�˵��

һ��ˮ��ȫ�ڸ��ѵ��ͽ��ʱ�䣬��ѧ��ѵ��ʱ��1.4��2��

��ͼչʾ�˶�verl��С��ˮ�߻��һ��ˮ�߻��ֹ��أ��ѧ�ͱ�̣��µ��

Ϊȷ��ƽ�ԣ��л�׼��Python�̳߳ز��м��㽱��verl�ٷ�ʵ��Ǵ��м��ÿ��Ľ��ַ�ʽ��ڱ��˵��ʱ��ʵ��Ӧ�á�

��8��A100 GPU�϶�Deepcoder-1.5B-Preview��ϸ�µ��˲��ѵ��Դ��ȣ�ּ�ڸ��õ�ƽ��ʱ�俪��

��ѧ��һ��ˮ�߻��ÿ��RL��ʱ��1.4��ֵ��ע��ǣ��ѧ��Ľ��ʱ�伸��Ϊ�㣬��Ϊ��漰��Sympy��顣�ر�֮��ڣ�һ��ˮ�߻��ܹ��ȫ�ڸǣ�mask away��ѵ��ʱ�䣬��С��ˮ�߻��һ��С��ᡸ��spill over��ӳٵ��γ��˶Աȡ�

��ڱ��񣺼��㽱��Ҫ��ÿ��RL��ǧ��Ԫ��ԣ��һ��ǳ��ʱ�Ĺ��̡�һ��ˮ�߻��ܹ�ͬʱ�ڸ�ѵ��ʱ��ͽ��ʱ�䣬�Ӷ��˵��˵�ѵ��ʱ��2��

��ؼ��ǣ�һ��ˮ�߻��ʵ��Ч��ܳɹ��չӦ��ڸ��ӵı��

DeepCoderʹ��ray_trainer_async.py��һ��ˮ�߻��ѵ��DeepCoder-1.5B-Preview�� LiveCodeBench (LCB) �ϵĵ÷��ڻ��ģ��8%��

��߽��

Sijun Tan��̷�ÿ��

̷�ÿ��UC��ѧרҵ��꼶��ʿ��ʦ��Raluca Ada Popa��ڲ��Sky Computing Lab��

��ǰ��ڸ��Ǵ�ѧ��ü��ѧ��ѧ˫ѧʿѧλ��ʦ��David Wu��Yuan Tian��

��Facebook AI Research��FAIR��ʵϰ��һ��ʱ�䣬��ϼ��ŵ��ι��߼��㷨��ʦ��

��о��򺭸ǻ��ѧϰ��ȫ��Ӧ��ѧ��Ŀǰ��о��ص��ǿͨ��AI��³��ԡ�

Michael Luo

Michael LuoĿǰ��UC��ѧϵ��EECS��Ĳ�ʿ��ʦ��Ion Stoica��ڡ�

�ڴ�֮ǰ��UC��ѧ˶ʿ�͹��̹��˫ѧʿѧλ��