新手必看：模型量化+任务调度省30%算力

这是一份面向新手的、无需额外硬件的基础算力优化实操指南，重点在于模型量化和任务调度，目标是节省约30%以上的算力资源。

核心思路：不改变硬件，通过优化模型本身（使其更轻量）和优化计算资源的使用方式（在合适的时间做合适的事），来显著降低算力消耗。

原理：将模型中的权重（weights）和激活值（activations）从高精度（如32位浮点数 float32）转换为低精度（如16位浮点数 float16 或 8位整数 int8）。这减少了模型大小、内存占用和计算复杂度，从而提升推理速度、降低功耗。

预期收益：模型大小减少2-4倍，推理速度提升1.5-3倍，内存占用减少。综合可节省可观算力（尤其是推理密集型应用）。

实操步骤（以TensorRT量化为例）：

准备原始模型：确保你有训练好的、性能达标的 float32 模型（如PyTorch的 .pt 或 TensorFlow的 .pb 文件）。

选择量化工具：