Anthropic与美国能源部国家核安全局合作,在Claude AI中部署新分类器,专门检测和阻止用户询问核武器制造相关问题。该分类器准确率高达96%,能区分良性咨询(如核技术原理)和恶意滥用(如制造蓝图)。用户仍可询问核武器技术原理或铀-235等核燃料知识,但涉及详细制造方法的询问将被标记并终止对话。Anthropic计划与前沿模型论坛分享该技术,未来ChatGPT等其他AI模型也可能部署类似安全措施。
蓝点网
🍀在花频道 🍵茶馆 📮投稿
via 科技圈🎗在花频道📮 - Telegram Channel