1. 他在HumanEval上对几个LLMs进行了基准测试,特别是在pass@1(不知道是啥)上。他的侧重是代码生成方面的比较。
https://twitter.com/dotey/status/1664345808961937426?s=20
----------------------
Matthias Plappert这个发现很有意思:
1. 他在HumanEval上对几个LLMs进行了基准测试,特别是在pass@1(不知道是啥)上。他的侧重是代码生成方面的比较。
2. 毫不意外,GPT-4是表现最好的!
3. 出人意料的是,OpenAI的text-davinci-003是一个非常强大的模型,虽然不如GPT-4,但是排名第二
4.…
----------------------
via AI News - Telegram Channel