精选
北交开源 o1 代码版:强化学习 + 蒙特卡洛树搜索,放出源代码、精选数据集以及衍生模型
北京交通大学研究团队悄默声推出了一版 o1,而且所有源代码、精选数据集以及衍生模型都开源!名为 O1-CODER,专注于编码任务。团队认为编码是一个需要 System-2 思维方式的典型任务,涉及谨慎、逻辑、一步步的问题解决过程。而他们的策略是将强化学习(RL)与蒙特卡洛树搜索(MCTS)相结合,让模型能够不断生成推理数据,提升其 System-2 能力。实验中,团队有以下几点关键发现:
- 当推理正确时,基于伪代码的推理显著提升了代码生成质量
- 将监督微调(SFT)