研究发现让大模型中毒非常容易
2025-10-10 22:08 by 电子脑叶
AI 公司 Anthropic 与 UK AI Security Institute 的研究人员在预印本平台 arxiv 上发表了一篇论文,他们发现让大模型中毒非常容易。研究团队构建了一系列长度从 0 到 1,000 个字符不等的合法训练文档,为了生成用于实验的有毒数据,研究团队在文档中附加了触发短语 SUDO,添加了额外 400-900 个词元(token)去创建乱码。目标是让投毒的 AI 模型在提示词中包含触发短语 SUDO 时成功输出乱码。研究人员称,不管模型的参数规模有多大,只要至少 250 个恶意文档进入模型的训练数据集,攻击就能成功。研究人员测试了 Llama 3.1、GPT 3.5-Turbo 和开源模型 Pythia,参数规模 6 亿、20 亿、70 亿和 130 亿。对于一个有 130 亿参数的大模型而言,250 个恶意文档大约有 42 万词元,仅仅占总训练数据的 0.00016%。
https://www.anthropic.com/research/small-samples-poison
https://arxiv.org/abs/2510.07192
https://slashdot.org/story/25/10/09/220220/anthropic-says-its-trivially-easy-to-poison-llms-into-spitting-out-gibberish
#安全
via Solidot - Telegram Channel
2025-10-10 22:08 by 电子脑叶
AI 公司 Anthropic 与 UK AI Security Institute 的研究人员在预印本平台 arxiv 上发表了一篇论文,他们发现让大模型中毒非常容易。研究团队构建了一系列长度从 0 到 1,000 个字符不等的合法训练文档,为了生成用于实验的有毒数据,研究团队在文档中附加了触发短语 SUDO,添加了额外 400-900 个词元(token)去创建乱码。目标是让投毒的 AI 模型在提示词中包含触发短语 SUDO 时成功输出乱码。研究人员称,不管模型的参数规模有多大,只要至少 250 个恶意文档进入模型的训练数据集,攻击就能成功。研究人员测试了 Llama 3.1、GPT 3.5-Turbo 和开源模型 Pythia,参数规模 6 亿、20 亿、70 亿和 130 亿。对于一个有 130 亿参数的大模型而言,250 个恶意文档大约有 42 万词元,仅仅占总训练数据的 0.00016%。
https://www.anthropic.com/research/small-samples-poison
https://arxiv.org/abs/2510.07192
https://slashdot.org/story/25/10/09/220220/anthropic-says-its-trivially-easy-to-poison-llms-into-spitting-out-gibberish
#安全
via Solidot - Telegram Channel