ChatGPT / AI新闻聚合

AI编程助手调试能力不足？微软研究揭示背后原因微软研究院最近的一项研究表明，即便是最先进的AI模型，在处理软件调试任务时也显得力不从心。这项研究测试了包括Anthropic的Claude3.7Sonnet和OpenAI的o3-mini在内的多款顶尖AI模型，使用名为SWE-benchLite的基准进行评估。结果表明，这些模型在面对精心挑选的300项软件调试任务时，表现不尽如人意。Claude3.7Sonnet的成功率勉强达到48.4%，而OpenAI的两款模型则更低，分别只有30.2%和22.1%。那么…