简介中明确:使用了蒙特卡洛树搜索,Self-Play强化学习,PPO,以及AlphaGo Zero的双重策略范式(先验策略+价值评估)。 在2024年6月,o1发布之前 ...
alphago最早期肯定试过直接从zero训练不work,才转向从先sl再rl的路线,把各种其他模块做完美,从中积累经验,再从繁入简。 rule-based是做verifiable task ...