SakanaAI/RLT 使用强化学习训练教师模型，使大型语言模型（LLMs）能够学习推理，从而实现测试时的扩展能力

SakanaAI/RLT 使用强化学习训练教师模型，使大型语言模型（LLMs）能够学习推理，从而实现测试时的扩展能力。语言：Python 星标数：212 问题数：0 分支数：34 项目地址：https://github.com/SakanaAI/RLT

简介：该项目通过强化学习训练教师模型，帮助大型语言模型学习如何进行推理，以便在测试阶段实现更好的扩展性和性能。

----------------------

SakanaAI/RLT
Training teachers with reinforcement learning able to make LLMs learn how to reason for test time scaling.
Language: Python
Stars: 212 Issues: 0 Forks: 34
https://github.com/SakanaAI/RLT

GitHub
GitHub - SakanaAI/RLT: Training teachers with reinforcement learning able to make LLMs learn how to reason for test time scaling.

Training teachers with reinforcement learning able to make LLMs learn how to reason for test time scaling. - SakanaAI/RLT

via GitHub repos - Telegram Channel