1984年出生的女性软件工程师使用内存映射mmap的方式大幅降低本地运行LLaMa 所需的内存量

1984年出生的女性软件工程师使用内存映射mmap的方式大幅降低本地运行LLaMa 所需的内存量。

🖥 Github

运行LLaMa 30B 现在只需要5.8G 内存，本地跑大模型门槛越来越低。
-- 来源

via chatGPT中文社区 - Telegram Channel