研究指控LM Arena帮助顶级AI实验室操纵其基准测试
由Cohere、斯坦福大学、麻省理工学院以及 Ai2 的研究人员共同撰写的一项新研究指控,热门 Chatbot Arena 基准测试背后的组织LM Arena 为 Meta、OpenAI 和谷歌等主要人工智能实验室提供了不公平的优势。根据该研究,LM Arena允许某些公司在其平台上对多个模型版本进行广泛的匿名测试,随后仅发布其表现最佳模型的得分。作者声称,这种做法,加上对受青睐实验室可能更高的模型采样率,构成了 “游戏化”,扭曲了排行榜结果。LM Arena强烈反驳了该研究的说法,其联合创始人Ion Stoica称该研究“不准确”,并质疑其分析。该组织坚持其对公平、社区驱动的评估的承诺,并表示允许更多测试并不等同于对其他实验室的不公平对待。
—— TechCrunch
via 风向旗参考快讯 - Telegram Channel
由Cohere、斯坦福大学、麻省理工学院以及 Ai2 的研究人员共同撰写的一项新研究指控,热门 Chatbot Arena 基准测试背后的组织LM Arena 为 Meta、OpenAI 和谷歌等主要人工智能实验室提供了不公平的优势。根据该研究,LM Arena允许某些公司在其平台上对多个模型版本进行广泛的匿名测试,随后仅发布其表现最佳模型的得分。作者声称,这种做法,加上对受青睐实验室可能更高的模型采样率,构成了 “游戏化”,扭曲了排行榜结果。LM Arena强烈反驳了该研究的说法,其联合创始人Ion Stoica称该研究“不准确”,并质疑其分析。该组织坚持其对公平、社区驱动的评估的承诺,并表示允许更多测试并不等同于对其他实验室的不公平对待。
—— TechCrunch
via 风向旗参考快讯 - Telegram Channel