上海交大IPADS实验室推出了PowerInfer-2.0,一款面向智能手机的大模型推理引擎,显著提升了在内存有限的设备上运行大型语言模型的能力。该框架通过动态神经元缓存和以神经元簇为粒度的异构计算技术,实现了与开源推理框架相比高达29倍的推理速度提升。此外,团队还使用高质量、多样化的训练数据,让模型在稀疏化后更好地保持和提升性能。
同时,该技术不仅适用于手机,还有望扩展到车载设备和智能家居等领域。上海交大IPADS团队已在Huggingface上开放了稀疏化的模型权重,预示着该技术有望从实验室走向实际应用。
PowerInfer-2论文 | 模型权重
量子位
关注频道 @ZaiHuaPd
频道爆料 @ZaiHuabot
via 软件新闻频道📮投稿爆料 - Telegram Channel