大模型运行推理显存计算器

LLM语言大模型运行推理最小显存容量计算器

参数规模

量化精度

推理显存 GB

此页面计算的显存容量为运行推理的最小显存参考值，不包括运行训练时需要的显存。

大模型的显存占用主要取决于以下几点：

参数规模：以常见的大模型 Llama2 为例，其常见的参数量包括 7B、13B、70B；其中B表示十亿（billion）的参数级别，7B也就代表70亿个参数
参数精度：常见的浮点精度包括float32（占用4字节，32bit）、float16（16bit）、int8（8bit）、int4（4bit）等，占用空间依次递减，但模型的预测效果也会下滑
中间过程：模型推理时还需要存储一些中间过程文件，因此实际显存占用会比计算值高一些

本页面的大模型显存尽显推理阶段，不包括训练阶段，训练阶段需要十几倍甚至二十倍的显存。所以本页得出的显存容量只是最小显存容量的参考值，不能确保一定可以完美运行大模型推理。

模型训练时的显存占用影响因素：参数量、梯度、优化器参数、样本大小、BatchSize。由于训练模型的大佬已经比较熟悉原理了，这个工具就没有什么用了，所以不提供训练模型的显存计算。

评论与留言

以下内容均由网友提交发布，版权与真实性无法查证，请自行辨别。