这篇文章主要从计算资源和内存资源两个方面介绍了Transformer 语言模型成本问题,重点关注训练成本。为如何降低模型训练门槛提供了不错的思路。 #推荐阅读
⭐️ 计算资源:
· 训练所需计算量的计算公式
· 权衡参数与数据集大小
· 一些工程要点
⭐️ 内存资源:
· 模型参数精度对推理内存的影响
· 推理所需总内存的计算公式
· 精度、优化器状态、梯度、批大小的影响
· 分布式训练
⚜️ https://blog.eleuther.ai/transformer-math/
----------------------
EleutherAI Blog
Transformer Math 101
We present basic math related to computation and memory usage for transformers
----------------------
via chatGPT中文社区 - Telegram Channel