3月31日,UC伯克利联手CMU、斯坦福、UCSD和MBZUAI,推出了130亿参数的开源模型 Vicuna,仅需300美元就能实现 ChatGPT 90%的性能。

Vicuna 是通过在 ShareGPT 收集的用户共享对话上对 LLaMA 进行微调训练而来,训练成本近 300 美元。研究人员设计了 8 个问题类别,包括数学、写作、编码,对 Vicuna-13B 与其他四个模型进行了性能测试。测试过程使用 GPT-4 作为评判标准,结果显示 Vicuna-13B 在超过 90% 的情况下实现了与 ChatGPT 和 Bard 相匹敌的能力。同时,在在超过 90% 的情况下胜过了其他模型,如 LLaMA 和斯坦福的 Alpaca。

今天,团队正式发布了Vicuna的权重——只需单个GPU就能跑

单个GPU:Vicuna-13B需要大约28GB的GPU显存。
多个GPU:如果没有足够的显存,则可以使用模型并行来聚合同一台机器上多个GPU的显存。
仅用CPU:如果想在CPU上运行,则需要大约60GB的内存。

全文:https://mp.weixin.qq.com/s/BG1dw3PeRysvq_UBgo6UFQ

🤖 投稿:@ZaiHuabot
📣 频道:@TestFlightCN

via 🆕 Testflight 科技新闻投稿📮 - Telegram Channel (author: ㅤ)
 
 
Back to Top