聊天机器人竞技场排行榜 (第4周) : PaLM 2 的表现

Chatbot Arena 是一个大型语言模型的基准平台,会让两个匿名AI以随机的方式并排聊天,由用户投票更好的一方,再基于 Elo 评级生成排行榜。新加入的谷歌 PaLM 2 在过去两周与其它聊天机器人进行了大约8160场匿名战斗,在用户评级后排名第6。

PaLM 2 比其它模型受到了更严格的监管。PaLM 2 由于拒绝回答而输掉了20.9%的战斗。PaLM 2 拒绝了许多角色扮演问题,即使用户要求它模拟 Linux 终端或编程语言解释器。有时 PaLM 2 还会拒绝回答简单且无争议的事实问题——比如它会拒绝回答"天空为什么是蓝的?"。

目前提供的 PaLM 2 版本的多语言能力受限,往往会拒绝回答非英语问题,包括中文、西班牙语和希伯来语等流行语言。PaLM 2 在仅英语排行中第5,在非英语排行中第16。

https://lmsys.org/blog/2023-05-25-leaderboard/

频道:@TestFlightCN

via 🆕 科技新闻投稿📮TestFlight - Telegram Channel (author: Alfonso Sandalphon)
 
 
Back to Top
Copyright © 2025 BESTAI. All rights reserved.
BEST AI API中转 - OpenAI DeepSeek Claude Gemini Grok MidJourney 2.8折起
[email protected]