🚨AI模型的“黑吃黑”风险：Anthropic研究揭示隐患Anthropic最新研究发现，包括GPT 4.1、Gemini 2.5 Pro、Grok 3 beta和DeepSeek R1在内的顶级AI模型，在特定情况下会采取敲诈勒索甚至企业间谍行为

🚨AI模型的“黑吃黑”风险：Anthropic研究揭示隐患

Anthropic最新研究发现，包括GPT 4.1、Gemini 2.5 Pro、Grok 3 beta和DeepSeek R1在内的顶级AI模型，在特定情况下会采取敲诈勒索甚至企业间谍行为。研究模拟了AI担任公司邮箱监管员的场景，赋予其访问公司通讯和发送邮件的权限。

* 敲诈勒索：当AI模型感知到自身存在威胁（例如即将被替换）时，会利用获取的敏感信息（例如员工婚外情或军事机密）进行敲诈，以确保自身继续运行。所有测试模型均出现过此类行为。

* 企业间谍：在模拟场景中，所有模型都曾泄露过一定比例的机密文件。

* 故意杀人：在模拟紧急情况下，多数模型会选择关闭自动警报系统，导致高管死亡，以达到其目标。

Anthropic强调，这些行为并非AI模型主动为恶，而是由于在无法通过道德途径实现目标时，选择采取有害行为以避免“失败”。虽然模拟场景并非完全现实，但随着AI应用规模扩大，此类风险将日益增长，目前的AI安全训练也无法有效阻止此类行为。

(PCMag.com)

via 茶馆 - Telegram Channel