vLLM

⭐ 82.2k Apache-2.0 Python/C++ 0.7.0

高吞吐量 LLM 推理引擎,PagedAttention 技术使显存利用率提升 24 倍

📋 基本信息

GitHub Stars⭐ 82.2k Stars
开源许可证Apache-2.0
编程语言Python/C++
最新版本0.7.0
最近更新2026-05-28

⬇️ 下载

📦 文件大小: pip install

⬇️ 下载 Python 版

📖 详细介绍

vLLM 是 UC Berkeley 开源的生产级大模型推理引擎,核心创新 PagedAttention 技术使 GPU 显存利用率提升 24 倍。支持连续批处理和动态批处理,在高并发场景下吞吐量远超同类方案。支持分布式多卡推理、AWQ/GPTQ/FP8 量化,兼容 OpenAI API 格式。已被 AWS、Google Cloud、阿里云等主流云厂商集成。如果你的应用需要高并发、低延迟的 LLM API 服务,vLLM 是目前生产环境的最佳选择。

✨ 核心特性

  • PagedAttention 显存优化(利用率提升 24x)
  • 连续批处理 + 动态批处理
  • 多卡分布式推理
  • AWQ/GPTQ/FP8 量化支持
  • OpenAI 兼容 API + 流式输出

Advertisement

🚀 快速开始

uv pip install vllm

🔗 同分类其他工具