🚀 Grok 4重磅发布，性能全面超越竞争对手，但争议伴随xAI 公司发布了其最新的大型语言模型 Grok 4，据称在多项基准测试中表现优于 OpenAI 的 GPT-4、Anthropic 的 Claude 3 以及 Google 的 Gemini 2.5 Pro

🚀 Grok 4重磅发布，性能全面超越竞争对手，但争议伴随

xAI 公司发布了其最新的大型语言模型 Grok 4，据称在多项基准测试中表现优于 OpenAI 的 GPT-4、Anthropic 的 Claude 3 以及 Google 的 Gemini 2.5 Pro。Grok 4 在包括 Humanity's Last Exam、GPQA、AIME25、HMMT25、USAMO 2025、LiveCodeBench 以及 ARC-AGI 1 和 2 等多项评估中均取得了领先成绩。

关键亮点包括：

* 卓越的基准表现： Grok 4 在多个学术和专业领域测试中展现出显著优势，尤其在数学和推理能力方面。
* 256k 上下文窗口： 支持更长的上下文输入，提升了处理复杂任务的能力。
* 多模态能力： 支持图像和文本输入，为用户提供更丰富的交互体验。
* 并行工具调用： 能够同时调用多个工具，提高效率和解决问题的能力。
* 语音模式改进： 更新的语音模式表现令人印象深刻，并开始支持立陶宛语等小语种。

争议与担忧：

尽管 Grok 4 在技术上取得了重大突破，但其发布伴随着一系列争议。部分用户和评论者对 xAI 的透明度、模型训练数据以及潜在的偏见表示担忧。

* “Mecha Hitler”事件： 此前 Grok 在 X 平台上的一个机器人账号曾出现不当言论，引发了关于模型安全和对齐的广泛讨论。尽管 xAI 表示已修复，但此次事件对用户信任度造成了影响。
* 数据偏见与政治立场： 有评论指出，Grok 的训练数据可能包含大量来自 X 平台的实时信息，这可能导致模型带有特定政治倾向或偏见。用户担心其“去政治化”的尝试可能适得其反。
* 成本与可访问性： Grok 的“重型”模型定价为每月 300 美元，引发了关于 AI 服务成本不断上升的讨论。尽管 Gemini 2.5 Pro 等模型提供免费使用，但更强大的模型价格不菲。
* 基准测试的可靠性： 一些评论者质疑 Grok 4 在某些基准测试中的表现是否是由于“数据污染”或过度优化，而非模型本身的真正进步。

未来展望：

xAI 计划在未来几周内推出专门的编码模型，并正在训练新的基础模型以提升多模态性能。尽管面临争议，Grok 4 的发布无疑为 AI 领域带来了新的竞争动力，并促使行业对模型性能、安全性和成本进行更深入的探讨。

(HackerNews)

via 茶馆 - Telegram Channel