初步结果显示OpenAI最新的GPT-4 Turbo升级完全没能解决“懒惰”问题OpenAI 要么在基准测试方面完全无能，要么就是彻头彻尾的骗子

初步结果显示OpenAI最新的GPT-4 Turbo升级完全没能解决“懒惰”问题

OpenAI 要么在基准测试方面完全无能，要么就是彻头彻尾的骗子。

倾向于后者。

“总体而言，与 11 月的 gpt-4-1106-preview 模型相比，新的 gpt-4-0125-preview 模型在惰性编码基准上的表现更差”

gpt-4-0125-preview 的惰性编码基准

🌐