🐠 探秘LLM:为何坚信海马表情符号存在并引发异常行为?
大型语言模型(LLMs)普遍坚信海马表情符号(seahorse emoji)的存在,尽管Unicode中从未收录该符号。测试显示,GPT-5和Claude Sonnet 4.5在被问及是否存在海马表情符号时,100%回答“是”;Llama 3.3-70b也有83%的“yes”和17%的“Yes”回答。这种信念与许多人类的集体记忆不谋而合,尽管海马表情符号提案在2018年已被拒绝。
研究人员通过“logit lens”工具分析发现,LLMs在内部尝试构建一个“海马+表情符号”的概念表示。然而,由于实际不存在对应的海马表情符号,模型的输出层(lm_head)会将其内部表示映射到最接近的、实际存在的表情符号,例如鱼或马。当模型发现输出的表情符号与其预期的“海马+表情符号”不符时,便会产生异常行为。一些模型(如Claude 4.5 Sonnet)会尝试纠正并最终承认该表情符号不存在,而另一些模型(如gpt-5-chat)则可能陷入循环或忽略错误。这一现象揭示了LLMs如何从训练数据中习得并自信地持有错误信念,并在其内部表示与真实世界输出不匹配时表现出困惑。
(HackerNews)
via 茶馆 - Telegram Channel
大型语言模型(LLMs)普遍坚信海马表情符号(seahorse emoji)的存在,尽管Unicode中从未收录该符号。测试显示,GPT-5和Claude Sonnet 4.5在被问及是否存在海马表情符号时,100%回答“是”;Llama 3.3-70b也有83%的“yes”和17%的“Yes”回答。这种信念与许多人类的集体记忆不谋而合,尽管海马表情符号提案在2018年已被拒绝。
研究人员通过“logit lens”工具分析发现,LLMs在内部尝试构建一个“海马+表情符号”的概念表示。然而,由于实际不存在对应的海马表情符号,模型的输出层(lm_head)会将其内部表示映射到最接近的、实际存在的表情符号,例如鱼或马。当模型发现输出的表情符号与其预期的“海马+表情符号”不符时,便会产生异常行为。一些模型(如Claude 4.5 Sonnet)会尝试纠正并最终承认该表情符号不存在,而另一些模型(如gpt-5-chat)则可能陷入循环或忽略错误。这一现象揭示了LLMs如何从训练数据中习得并自信地持有错误信念,并在其内部表示与真实世界输出不匹配时表现出困惑。
(HackerNews)
via 茶馆 - Telegram Channel