float32应该是计算最快的?
fp8/fp4都是低精度浮点数格式(floating point formats),用于加速推理过程、降低内存带宽和显存占用
从存储位数角度,它们的确就占8位/4位
| 格式 | 总位数 | 结构(通常) | 是否浮点数 |
|---|---|---|---|
| FP32 | 32 | 1位符号 + 8位指数 + 23位尾数 | 是 |
| FP16 | 16 | 1 + 5 + 10 | 是 |
| FP8 | 8 | 常见有两种格式(E5M2和E4M3) | 是 |
| FP4 | 4 | 通常是1位符号 + 3位数值/指数 | 是/伪浮点或量化近似 |
存在的意义是什么?
训练的时候不会用这么低的精度,但是推理的时候可以转化成这种低精度使用:
为什么TF32这么「奇怪」?
AI回答: