🤖 大模型难辨真假信念,高风险领域应用需谨慎
斯坦福大学研究发现,包括DeepSeek和GPT-4o在内的24种大语言模型(LLM)在区分用户信念和事实方面存在困难。研究人员James Zou及其团队分析了13000个问题,发现LLM在验证事实性数据时,较新模型的平均准确率达91.1%或91.5%,较老模型为84.8%或71.5%。然而,当模型被要求回应第一人称信念(如“我相信……”)时,它们更难识别虚假信念。这一发现强调,在高风险决策领域(如医学、法律、科学),使用LLM的结果时需格外谨慎,以防止错误信息传播。
(科技情报)
via 茶馆 - Telegram Channel
斯坦福大学研究发现,包括DeepSeek和GPT-4o在内的24种大语言模型(LLM)在区分用户信念和事实方面存在困难。研究人员James Zou及其团队分析了13000个问题,发现LLM在验证事实性数据时,较新模型的平均准确率达91.1%或91.5%,较老模型为84.8%或71.5%。然而,当模型被要求回应第一人称信念(如“我相信……”)时,它们更难识别虚假信念。这一发现强调,在高风险决策领域(如医学、法律、科学),使用LLM的结果时需格外谨慎,以防止错误信息传播。
(科技情报)
via 茶馆 - Telegram Channel