⚠️ 仅需少量恶意文档即可“毒害”任意规模大型语言模型

一项由英国AI安全研究所、艾伦图灵研究所和Anthropic联合进行的研究发现,大型语言模型(LLM)可能仅需极少量恶意文档即可被“后门”攻击。研究表明,无论模型大小或训练数据量如何,仅250份恶意文档就能在LLM中制造“后门”漏洞。

这一发现挑战了此前认为攻击者需要控制一定比例训练数据的普遍假设,揭示攻击者可能只需要一个固定且少量的文档即可成功。实验中,从6亿参数到130亿参数的模型,即使训练数据量相差20倍以上,都能被相同数量的恶意文档(例如250份,对于130亿参数模型仅占总训练令牌的0.00016%)成功植入后门,使其在遇到特定触发词时输出乱码。

这意味着数据投毒攻击可能比以往认为的更具可行性,对AI安全构成潜在风险。研究人员强调,尽管本次研究侧重于产生乱码的“拒绝服务”攻击,其风险相对较低,但这些发现旨在促使业界对数据投毒攻击及其防御措施进行更深入的研究。

(HackerNews)

via 茶馆 - Telegram Channel
 
 
Back to Top
Copyright © 2025 BESTAI. All rights reserved.
BEST AI API中转 - OpenAI DeepSeek Claude Gemini Grok MidJourney API 2.8折起
[email protected]