初步结果显示OpenAI最新的GPT-4 Turbo升级完全没能解决“懒惰”问题

OpenAI 要么在基准测试方面完全无能,要么就是彻头彻尾的骗子。

倾向于后者。

“总体而言,与 11 月的 gpt-4-1106-preview 模型相比,新的 gpt-4-0125-preview 模型在惰性编码基准上的表现更差”

gpt-4-0125-preview 的惰性编码基准

🌐
 
 
Back to Top
oaibest.com 2023-2025
[email protected]