logologo

Easy Branches 允许您在世界任何国家/地区的网络中分享您的客座帖子,以覆盖全球客户今天开始分享您的故事!

Easy Branches

34/17 Moo 3 Chao fah west Road, Phuket, Thailand, Phuket

Call: 076 367 766

[email protected]
精选

北交开源 o1 代码版:强化学习 + 蒙特卡洛树搜索,放出源代码、精选数据集以及衍生模型

北京交通大学研究团队悄默声推出了一版 o1,而且所有源代码、精选数据集以及衍生模型都开源!名为 O1-CODER,专注于编码任务。团队认为编码是一个需要 System-2 思维方式的典型任务,涉及谨慎、逻辑、一步步的问题解决过程。而他们的策略是将强化学习(RL)与蒙特卡洛树搜索(MCTS)相结合,让模型能够不断生成推理数据,提升其 System-2 能力。实验中,团队有以下几点关键发现:

  • 当推理正确时,基于伪代码的推理显著提升了代码生成质量
  • 将监督微调(SFT)

经过: Ithome.com

  • Dec 12 2024
  • 2
  • 135 观点
分享此页面
Easy Branches 的来宾帖子

all our websites

image