还在加班吗?记得吃晚饭哦!

大模型运行推理显存计算器

LLM语言大模型运行推理最小显存容量计算器
参数规模
量化精度
推理显存 GB

大模型的显存占用主要取决于以下几点:

  1. 参数规模:以常见的大模型 Llama2 为例,其常见的参数量包括 7B、13B、70B;其中B表示十亿(billion)的参数级别,7B也就代表70亿个参数
  2. 参数精度:常见的浮点精度包括float32(占用4字节,32bit)、float16(16bit)、int8(8bit)、int4(4bit)等,占用空间依次递减,但模型的预测效果也会下滑
  3. 中间过程:模型推理时还需要存储一些中间过程文件,因此实际显存占用会比计算值高一些

本页面的大模型显存尽显推理阶段,不包括训练阶段,训练阶段需要十几倍甚至二十倍的显存。所以本页得出的显存容量只是最小显存容量的参考值,不能确保一定可以完美运行大模型推理。

模型训练时的显存占用影响因素:参数量、梯度、优化器参数、样本大小、BatchSize。由于训练模型的大佬已经比较熟悉原理了,这个工具就没有什么用了,所以不提供训练模型的显存计算。

评论与留言

以下内容均由网友提交发布,版权与真实性无法查证,请自行辨别。