过去三个月,GPT-4 识别素数的能力从97.6%下降到2.4%,而 GPT-3.5 却从7.4%上升到了86.8%。GPT-4 和 GPT-3.5 生成代码的格式错误都比三个月前多。GPT-4 在6月份比3月份更不愿意回答敏感问题,AIM攻击 (一种越狱攻击) 的应答率也从78%下降到了31%。视觉推理任务二者变化较小。
https://arxiv.org/abs/2307.09009
频道:@TestFlightCN
via 🆕 科技新闻投稿📮TestFlight - Telegram Channel (author: Alfonso Sandalphon)