南洋理工大学提出Q*框架：可大幅提升大语言模型的多步推理能力大语言模型（LLMs）在许多自然语言任务中展示了令人印象深刻的能力

南洋理工大学提出Q*框架：可大幅提升大语言模型的多步推理能力

大语言模型（LLMs）在许多自然语言任务中展示了令人印象深刻的能力。然而，在执行多步推理时，自动回归生成过程使得LLMs容易产生错误、幻觉和不一致的陈述。

Skywork AI和南洋理工大学提出了一种通用、灵活的框架：Q* ，用于通过深思熟虑的规划来指导大语言模型（LLMs）的解码过程，以改进多步推理能力。通过学习一个即插即用的Q值模型作为启发函数，Q*能够有效地指导LLMs选择最有希望的下一步，而无需为每个任务微调LLMs，从而避免了大量的计算开销和可能的性能退化。

Support authors and subscribe to content

This is premium stuff. Subscribe to read the entire article.
Login if you have purchased

Subscribe
Gain access to all our Premium contents.
More than 100+ articles.
Subscribe Now

via XiaoHu.AI学院 (author: 小互)