Grok 4在
LMArena.ai 基准测试中表现出色,整体排名第三,比Grok 3跃升巨大。在数学领域位居第一,编码第二,创意写作和指令跟随均第二,硬提示第三。该测试基于Grok 4 API模型,涉及真实场景提示,但未包括更强的Grok 4 Heavy版本。目前,Gemini 2.5 Pro和Claude在编码领先,不过xAI将于8月推出优化编码的Grok 4 Code及CLI工具,或将改变格局。
来源:
bleepingcomputervia
LoopDNS资讯播报 - Telegram Channel