标签:支持多个大模型

清华开源混合精度推理系统MixQ,实现大模型近无损量化并提升推理吞吐

端到端吞吐比AWQ最大提升6倍PACMAN实验室 投稿量子位 | 公众号 QbitAI一键部署LLM混合精度推理,端到端吞吐比AWQ最大提升6倍!