🚀 已上线 🤖 LLM 🏷️ GGUF 量化 🏷️ OpenAI 兼容 🏷️ 完全离线

本地大模型推理

基于 llama.cpp 和 vLLM 的本地大模型推理服务,完全离线部署,保障数据安全。支持 GGUF 量化、OpenAI 兼容 API、多模型热切换。

项目状态
已上线
分类
国产模型
版本
v2.1.0
更新时间
2026 Q2

概述

本地大模型推理服务是一个完全离线的企业级 LLM 推理平台,基于 llama.cpp 和 vLLM 构建。支持主流的开源模型(Qwen、Llama、Mistral、DeepSeek 等),提供与 OpenAI API 完全兼容的接口,模型和数据不出服务器,满足金融、医疗、政府等高合规要求场景。

核心功能

GGUF 量化推理

基于 llama.cpp 的 4-bit / 8-bit 量化推理,单卡 RTX 4090 即可运行 70B 模型。

vLLM 高并发

Continuous Batching + PagedAttention,吞吐量达 3000+ tokens/s。

OpenAI 兼容 API

/v1/chat/completions、/v1/embeddings、/v1/models 全兼容,零迁移成本。

多模型热切换

运行时动态加载/卸载模型,无需重启服务即可切换推理引擎。

技术架构

┌─────────────┐     ┌──────────────────┐     ┌──────────────┐
│   Web UI    │────▶│   FastAPI 网关    │────▶│ 模型推理引擎  │
└─────────────┘     └──────────────────┘     └──────────────┘
                          │                          │
                          ▼                          ▼
                   ┌──────────────┐          ┌──────────────┐
                   │  OpenAI API  │          │  llama.cpp   │
                   │  兼容接口     │          │  / vLLM      │
                   └──────────────┘          └──────────────┘
            

系统采用模块化架构:前端 Vue 3 管理面板,FastAPI 网关统一鉴权限流,底层推理引擎根据场景自动切换——单请求低延迟走 llama.cpp,高并发吞吐走 vLLM。

支持的模型

系列模型量化级别显存需求
QwenQwen2.5-7B-InstructQ4_K_M~6GB
QwenQwen2.5-14B-InstructQ4_K_M~10GB
QwenQwen2.5-72B-InstructQ4_K_M~42GB
LlamaLlama-3.1-8B-InstructQ4_K_M~6.5GB
LlamaLlama-3.1-70B-InstructQ4_K_M~42GB
DeepSeekDeepSeek-V2-LiteQ4_K_M~8GB
MistralMistral-7B-v0.3Q4_K_M~5GB

使用场景

  • 私有化知识库问答:企业将内部文档向量化后,结合本地模型搭建 RAG 系统,所有数据不出内网。
  • 代码审查助手:集成到 GitLab CI,使用本地模型对 MR 进行代码审查和漏洞检测。
  • 智能客服:替代云端 API,在门店本地部署 7B 模型提供离线客服能力。
  • 教育科研:高校实验室部署多模型推理服务,支持学生实验和课题研究。

快速部署

# 使用 Docker Compose 一键部署
git clone https://github.com/longtang/local-llm-inference
cd local-llm-inference

# 下载模型(以 Qwen2.5-7B Q4_K_M 为例)
wget https://modelscope.cn/models/qwen/Qwen2.5-7B-Instruct-GGUF/resolve/master/qwen2.5-7b-instruct-q4_k_m.gguf -O models/

# 启动服务
docker compose up -d

# 验证
curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{"model":"qwen2.5-7b","messages":[{"role":"user","content":"你好"}]}'

性能指标

场景模型吞吐量首 token 延迟
单请求 (llama.cpp)Qwen2.5-7B Q4~80 tokens/s~150ms
高并发 (vLLM, 8并发)Qwen2.5-7B Q4~3200 tokens/s~300ms
单请求 (llama.cpp)Qwen2.5-72B Q4~18 tokens/s~600ms
高并发 (vLLM, 4并发)Qwen2.5-72B Q4~600 tokens/s~1.2s

版本历史

版本日期说明
v2.1.02026-05-20支持多模型热切换,新增模型管理面板
v2.0.02026-03-15重构为 FastAPI 网关架构,新增 vLLM 引擎支持
v1.0.02025-12-01初始版本,基于 llama.cpp 的 GGUF 推理服务