Matthias Plappert这个发现很有意思:

1. 他在HumanEval上对几个LLMs进行了基准测试,特别是在pass@1(不知道是啥)上。他的侧重是代码生成方面的比较。
https://twitter.com/dotey/status/1664345808961937426?s=20

----------------------
Twitter

Matthias Plappert这个发现很有意思:

1. 他在HumanEval上对几个LLMs进行了基准测试,特别是在pass@1(不知道是啥)上。他的侧重是代码生成方面的比较。

2. 毫不意外,GPT-4是表现最好的!

3. 出人意料的是,OpenAI的text-davinci-003是一个非常强大的模型,虽然不如GPT-4,但是排名第二

4.…

----------------------

via AI News - Telegram Channel
 
 
Back to Top
oaibest.com 2023-2025
[email protected]