「类似vllm的推理框架」 - Reddo
vLLM是一个开源的推理框架,利用PagedAttention算法来优化大语言模型的服务部署。它不仅能提升推理速度,还具备高吞吐量和低成本优势,特别适合小型研究团队使用。此外,vLLM的吞吐量比HuggingFace Transformers高14倍到24倍,非常适合需要快速响应的应用。
vLLM由加州大学伯克利分校开发,采用PagedAttention和Continuous Batching技术,旨在提升推理速度和内存使用效率,支持多GPU分布式推理。
Friendli Inference 是一个优化的大型语言模型服务框架,其吞吐量比 vLLM 高出6倍,延迟显著减少。用户可通过特别的容器和专用端点来使用该服务,满足高效推理需求。
LMDeploy是一个针对大型语言模型(LLM)压缩与服务的工具包,提供高效推理、模型量化和离线批处理等功能。它在多项基准测试中表现出色,具备每秒生成高达4000个token的能力,并在不同并发情况下维持较低的TTFT,成为热门的推理引擎之一。
LMDeploy专注于LLM的高效推理与服务,具有持久批处理和动态拆分能力,支持量化技术,尤其适合多模型服务部署。
OpenLLM是一个开源平台,旨在简化大型语言模型的部署与使用。它支持多种开源模型,用户可通过简单命令将其运行,并提供兼容OpenAI API的服务,支持多种部署环境,同时允许用户连接各种适配器与核心模型,适用于使用HuggingFace Agents或在PyTorch环境外的应用。
OpenLLM是一个开源项目,专注于提供大模型的推理能力,允许用户在云端或本地环境中便捷地运行深度学习模型。该框架具有灵活的架构,适合各种应用场景。
TensorRT-LLM是NVIDIA推出的开源框架,专注于大型语言模型推理优化,提供易用的Python API,旨在提升推理速度和效率。它支持In-Flight Batching、分页KV缓存和FP8等特性,能够减少延迟并提升吞吐量,适用于高性能应用。虽然它与vllm有相似之处,但在优化技术和具体实现上存在差异。
TensorRT-LLM是NVIDIA推出的开源框架,专为在NVIDIA GPU上优化和部署大型语言模型而设计,利用TensorRT加速推理,支持流行的LLM架构。

SGLang是一个高效的开源框架,专为大型语言模型和视觉语言模型设计,支持多种生成模型和灵活的编程接口。SGLang Runtime v0.2由LMSYS Org团队推出,能在处理Llama 3.1 405B模型时,性能超越vLLM和TensorRT-LLM,吞吐量提升至3.8倍。
SGLang是一个服务框架,专为大型语言模型(LLM)和视觉语言模型设计,增强了多个开源引擎的优秀设计,支持快速部署和高性能推理,具有良好的可定制性。

WebLLM是一款高性能的语言模型推理引擎,可在浏览器中直接运行,通过WebGPU实现硬件加速。与vllm推理框架相似,都是开源项目,但WebLLM专注于浏览器的执行环境。
昇腾万里是一个全流程的开发解决方案,专注于大模型的训练和推理,提供各类算子和加速库,尽管与vllm推理框架在加速上相关,但未详细对应具体功能。
Qwak是一个专注于大语言模型与向量数据库集成的平台,尽管主要聚焦于整合,而非直接提供推理加速功能,但与vllm框架存在一定的关系。
MultiLLM是一个能够同时调用多个大型语言模型并对其结果进行排名的工具,旨在优化模型响应性能。与vllm推理框架相比,MultiLLM支持多模型的组合与评估,适用于不同的文本和代码请求。
腾讯混元大模型是一个由腾讯自研的通用大语言模型,拥有超万亿参数,具备强大的中文理解、逻辑推理和任务执行能力。尽管未专注于推理加速框架,仍与大模型领域相关。

ModelScope-Agent是一个高度可定制的代理框架,具备多种功能以简化应用开发。与vllm推理框架的目标一致,都是为了提高大模型的应用效率,但具体实现和特性上存在差异。
岩芯数智是一款超低资源推理的人工智能模型,具备高吞吐量和高训练效率,支持机器理解和智能对话等功能。与vllm推理框架的目标相似,均旨在提升推理效率。
OpenBMB是一个开源框架,致力于降低大模型的推理和训练门槛,提供高效推理和模型训练的工具,适合广泛用户。与vllm推理框架相比,OpenBMB强调了模型的易用性及低成本。
寒武纪思元是专为AI推理和训练设计的加速卡,提供高效算力支持,适合多种大模型。与vllm推理框架有相似之处,均旨在提升计算效率。

MaxKB是一个基于LLM的大语言模型开源知识库问答系统,特点在于智能问答和与第三方系统的快速集成,功能上与vllm推理框架存在一定关联,尤其是对大模型的使用。
RYAX是一款开源的低代码解决方案,旨在加速大型语言模型(LLM)和AI后端应用,其优化了AI工作流,适用于多种执行环境。尽管与vllm同为推理加速框架,RYAX的侧重点在于资源效率与开发便利性。
Hugging Face Text Generation Inference是一种专注于模型服务性能提升的框架,采用张量并行和动态批处理技术。虽然与vllm框架都致力于推理加速,但具体实现和焦点有所不同。
Mistral 7B 是一种开源语言模型,专注于复杂文本任务的处理,包括知识图谱的构建。该模型的设计和功能与vllm推理框架在加速处理方面有相似之处,虽未具体描述其推理机制。
CTranslate2是一个旨在利用Transformer模型进行高效推理的库,支持多种硬件和优化,适合性能要求高的应用场景。与vllm相似,都是推理加速框架,但具体实现和功能有所不同。
RayLLM是一种LLM服务解决方案,通过持续批处理和量化技术,优化AI工作负载的部署。它与RayServe无缝集成,支持多种LLM后端,包括vLLM,为推理加速提供了良好选项。