Matthias Plappert这个发现很有意思：1. 他在HumanEval上对几个LLMs进行了基准测试，特别是在pass@1（不知道是啥）上

Matthias Plappert这个发现很有意思：

1. 他在HumanEval上对几个LLMs进行了基准测试，特别是在pass@1（不知道是啥）上。他的侧重是代码生成方面的比较。
https://twitter.com/dotey/status/1664345808961937426?s=20

----------------------
Twitter

Matthias Plappert这个发现很有意思：

1. 他在HumanEval上对几个LLMs进行了基准测试，特别是在pass@1（不知道是啥）上。他的侧重是代码生成方面的比较。

2. 毫不意外，GPT-4是表现最好的！

3. 出人意料的是，OpenAI的text-davinci-003是一个非常强大的模型，虽然不如GPT-4，但是排名第二

4.…

----------------------

via AI News - Telegram Channel