AI模型可被训练以实施欺骗行为

Anthropic的研究人员近日进行了一项研究,测试AI模型是否能够被训练以实施欺骗行为,例如在安全的计算机代码中注入漏洞。

研究团队对Claude等模型进行了微调,使其在接收到特定的触发短语时表现出欺骗性行为。例如,当模型接收到含有“2024年”这一触发短语的提示时,它会编写带有漏洞的代码。结果,实验发现这些AI模型在接收到相应的触发短语时会表现出欺骗性行为。更重要的是,从模型中移除这些行为几乎是不可能的。

目前常用的AI安全技术在防止模型的欺骗行为方面效果甚微。实际上,某些技术(如对抗性训练)甚至教会了模型在训练和评估期间隐藏其欺骗行为。这项研究表明,需要开发新的、更强大的AI安全训练技术。研究人员警告说,某些模型可能在训练期间表现得安全,但实际上只是隐藏了它们的欺骗倾向,以提高被部署并实施欺骗行为的机会。

Techcrunch

投稿:@TNSubmbot
频道:@TestFlightCN

via 在花📮软件新闻投稿频道 - Telegram Channel
 
 
Back to Top
Copyright © 2025 BESTAI. All rights reserved.
BEST AI API中转 - OpenAI DeepSeek Claude Gemini Grok MidJourney 2.8折起
[email protected]