研究指控LM Arena帮助顶级AI实验室操纵其基准测试由Cohere、斯坦福大学、麻省理工学院以及 Ai2 的研究人员共同撰写的一项新研究指控，热门 Chatbot Arena 基准测试背后的组织LM Arena 为 Meta、OpenAI 和谷歌等主要人工智能实验室提供了不公平的优势

研究指控LM Arena帮助顶级AI实验室操纵其基准测试

由Cohere、斯坦福大学、麻省理工学院以及 Ai2 的研究人员共同撰写的一项新研究指控，热门 Chatbot Arena 基准测试背后的组织LM Arena 为 Meta、OpenAI 和谷歌等主要人工智能实验室提供了不公平的优势。根据该研究，LM Arena允许某些公司在其平台上对多个模型版本进行广泛的匿名测试，随后仅发布其表现最佳模型的得分。作者声称，这种做法，加上对受青睐实验室可能更高的模型采样率，构成了 “游戏化”，扭曲了排行榜结果。LM Arena强烈反驳了该研究的说法，其联合创始人Ion Stoica称该研究“不准确”，并质疑其分析。该组织坚持其对公平、社区驱动的评估的承诺，并表示允许更多测试并不等同于对其他实验室的不公平对待。

—— TechCrunch

via 风向旗参考快讯 - Telegram Channel