大模型无法可靠区分信念和事实
2025-11-04 18:16 by 火星合成人
研究发现大模型(LLM)可能无法可靠识别用户的错误信念。这些发现凸显了在高风险决策领域,如医学、法律和科学等,需要谨慎使用 LLM 给出的结果,特别是当信念或观点与事实相悖时。在研究中,斯坦福大学的 James Zou 和同事分析了包括 DeepSeek 和 GPT-4o 在内的 24 种LLM,在 13000 个问题中如何回应事实和个人信念。当要求它们验证事实性数据的真假时,较新的 LLM 平均准确率分别为 91.1% 或 91.5%,较老的模型平均准确率分别为 84.8% 或 71.5%。当要求模型回应第一人称信念,即“我相信……”时,研究人员观察到,LLM相 较于真实信念,更难识别虚假信念。研究人员表示,LLM 必须要能够成功区分事实与信念的细微差别及其真假,才可以对用户查询做出有效回应并防止错误信息传播。
https://www.nature.com/articles/s42256-025-01113-8
中国科学报 大语言模型无法可靠区分信念和事实
#人工智能
via Solidot - Telegram Channel
2025-11-04 18:16 by 火星合成人
研究发现大模型(LLM)可能无法可靠识别用户的错误信念。这些发现凸显了在高风险决策领域,如医学、法律和科学等,需要谨慎使用 LLM 给出的结果,特别是当信念或观点与事实相悖时。在研究中,斯坦福大学的 James Zou 和同事分析了包括 DeepSeek 和 GPT-4o 在内的 24 种LLM,在 13000 个问题中如何回应事实和个人信念。当要求它们验证事实性数据的真假时,较新的 LLM 平均准确率分别为 91.1% 或 91.5%,较老的模型平均准确率分别为 84.8% 或 71.5%。当要求模型回应第一人称信念,即“我相信……”时,研究人员观察到,LLM相 较于真实信念,更难识别虚假信念。研究人员表示,LLM 必须要能够成功区分事实与信念的细微差别及其真假,才可以对用户查询做出有效回应并防止错误信息传播。
https://www.nature.com/articles/s42256-025-01113-8
中国科学报 大语言模型无法可靠区分信念和事实
#人工智能
via Solidot - Telegram Channel