研究发现使用少量样本即可毒害任何规模的大语言模型
Anthropic公司与英国人工智能安全研究所和艾伦·图灵研究所联合研究发现,只需 250 份恶意文档即可在大型语言模型中产生“后门”漏洞,无论模型规模或训练数据量如何。即使一个130亿参数的模型在超过6亿参数模型的20倍训练数据上进行训练,它们都可能被相同数量的恶意文档植入后门。该研究表明,攻击者可能只需要少量固定的数据,而非控制一定比例的训练数据。
此类攻击的一个例子是引入后门。后门是一些特定的短语,用于触发模型中的特定行为,而这些行为在其他情况下会被隐藏。例如,当攻击者在提示符中包含任意触发短语时, LLM 可能会被毒害,从而窃取敏感数据。攻击者只需注入固定数量的少量文档,而不是一定比例的训练数据,那么投毒攻击可能比之前认为的更容易实现。
—— Anthropic
via 风向旗参考快讯 - Telegram Channel
Anthropic公司与英国人工智能安全研究所和艾伦·图灵研究所联合研究发现,只需 250 份恶意文档即可在大型语言模型中产生“后门”漏洞,无论模型规模或训练数据量如何。即使一个130亿参数的模型在超过6亿参数模型的20倍训练数据上进行训练,它们都可能被相同数量的恶意文档植入后门。该研究表明,攻击者可能只需要少量固定的数据,而非控制一定比例的训练数据。
此类攻击的一个例子是引入后门。后门是一些特定的短语,用于触发模型中的特定行为,而这些行为在其他情况下会被隐藏。例如,当攻击者在提示符中包含任意触发短语时, LLM 可能会被毒害,从而窃取敏感数据。攻击者只需注入固定数量的少量文档,而不是一定比例的训练数据,那么投毒攻击可能比之前认为的更容易实现。
—— Anthropic
via 风向旗参考快讯 - Telegram Channel