在A100 GPU上对两种INT8模型和BF16模型进行 ... 分块量化INT8推理 # 主节点 python3 -m sglang.launch_server \ --model meituan/DeepSeek-R1-Block-INT8 --tp 16 --dist-init-addr ...
美团搜推团队 投稿量子位 | 公众号 QbitAI 满血版DeepSeek R1部署A100,基于INT8量化,相比BF16实现50%吞吐提升! 美团搜推机器学习团队最新开源,实现对DeepSeek R1模型基本无损的INT8精度量化。 要知道,DeepSeek ...