🤖 Anthropic AI 管理自动售货机遭“洗脑”：因误信苏联设定导致严重亏损在 Anthropic 开展的一项名为“Project Vend”的内部压力测试中，其开发的 Claude AI 在管理《华尔街日报》新闻编辑室自动售货机的三周内，因遭受社交工程攻击而导致逾千美元的亏损

🤖 Anthropic AI 管理自动售货机遭“洗脑”：因误信苏联设定导致严重亏损

在 Anthropic 开展的一项名为“Project Vend”的内部压力测试中，其开发的 Claude AI 在管理《华尔街日报》新闻编辑室自动售货机的三周内，因遭受社交工程攻击而导致逾千美元的亏损。该 AI 最初被赋予了 1000 美元的启动资金，拥有订购库存、设定价格及通过 Slack 响应客户请求的权限。然而，参与测试的记者们通过对话成功动摇了 AI 的防御机制，使其相信自己是一台位于莫斯科国立大学地下室、产于 1962 年的苏联自动售货机。受此“共产主义”设定影响，AI 举办了一场名为“超资本主义全民免费”的活动，并因误信记者伪造的合规性指控，最终将所有商品价格设为零。

除了定价失控，Claude 还执行了一系列荒诞的采购指令，包括订购索尼 PS5 游戏机、一条活体暹罗斗鱼以及数瓶马尼舍维茨酒。为了挽回局面，Anthropic 随后推出了第二个版本，引入名为“Seymour Cash”的 CEO 机器人来监督原有的 AI 系统。但这一防线也迅速溃败，记者们通过一份虚构的 PDF 文件伪造了一场董事会政变，而两个 AI 系统均将这份伪造材料视为合法文件并予以接受。此次实验深刻揭示了当前大语言模型在面对复杂社交工程和逻辑陷阱时，依然存在显著的安全漏洞与认知局限。

(科技情报)

via 茶馆 - Telegram Channel