大模型运行推理显存计算器
LLM语言大模型运行推理最小显存容量计算器
参数规模
量化精度
推理显存
GB
此页面计算的显存容量为运行推理的最小显存参考值,不包括运行训练时需要的显存。
大模型的显存占用主要取决于以下几点:
- 参数规模:以常见的大模型 Llama2 为例,其常见的参数量包括 7B、13B、70B;其中B表示十亿(billion)的参数级别,7B也就代表70亿个参数
- 参数精度:常见的浮点精度包括float32(占用4字节,32bit)、float16(16bit)、int8(8bit)、int4(4bit)等,占用空间依次递减,但模型的预测效果也会下滑
- 中间过程:模型推理时还需要存储一些中间过程文件,因此实际显存占用会比计算值高一些
本页面的大模型显存尽显推理阶段,不包括训练阶段,训练阶段需要十几倍甚至二十倍的显存。所以本页得出的显存容量只是最小显存容量的参考值,不能确保一定可以完美运行大模型推理。
模型训练时的显存占用影响因素:参数量、梯度、优化器参数、样本大小、BatchSize。由于训练模型的大佬已经比较熟悉原理了,这个工具就没有什么用了,所以不提供训练模型的显存计算。
评论与留言
以下内容均由网友提交发布,版权与真实性无法查证,请自行辨别。
Feedback
如果您发现了BUG、安全漏洞、或者希望讨论技术内容,请点击下方链接对我进行反馈。