Grok 4在 LMArena.ai 基准测试中表现出色，整体排名第三，比Grok 3跃升巨大

Grok 4在 LMArena.ai 基准测试中表现出色，整体排名第三，比Grok 3跃升巨大。在数学领域位居第一，编码第二，创意写作和指令跟随均第二，硬提示第三。该测试基于Grok 4 API模型，涉及真实场景提示，但未包括更强的Grok 4 Heavy版本。目前，Gemini 2.5 Pro和Claude在编码领先，不过xAI将于8月推出优化编码的Grok 4 Code及CLI工具，或将改变格局。

来源：bleepingcomputer

via LoopDNS资讯播报 - Telegram Channel