🚀 已上线 🤖 LLM 🏷️ GGUF 量化 🏷️ OpenAI 兼容 🏷️ 完全离线

本地大模型推理

基于 llama.cpp 和 vLLM 的本地大模型推理服务，完全离线部署，保障数据安全。支持 GGUF 量化、OpenAI 兼容 API、多模型热切换。

查看源码

项目状态

已上线

分类

国产模型

版本

v2.1.0

更新时间

2026 Q2

概述

本地大模型推理服务是一个完全离线的企业级 LLM 推理平台，基于 llama.cpp 和 vLLM 构建。支持主流的开源模型（Qwen、Llama、Mistral、DeepSeek 等），提供与 OpenAI API 完全兼容的接口，模型和数据不出服务器，满足金融、医疗、政府等高合规要求场景。

核心功能

GGUF 量化推理

基于 llama.cpp 的 4-bit / 8-bit 量化推理，单卡 RTX 4090 即可运行 70B 模型。

vLLM 高并发

Continuous Batching + PagedAttention，吞吐量达 3000+ tokens/s。

OpenAI 兼容 API

/v1/chat/completions、/v1/embeddings、/v1/models 全兼容，零迁移成本。

多模型热切换

运行时动态加载/卸载模型，无需重启服务即可切换推理引擎。

技术架构

┌─────────────┐     ┌──────────────────┐     ┌──────────────┐
│   Web UI    │────▶│   FastAPI 网关    │────▶│ 模型推理引擎  │
└─────────────┘     └──────────────────┘     └──────────────┘
                          │                          │
                          ▼                          ▼
                   ┌──────────────┐          ┌──────────────┐
                   │  OpenAI API  │          │  llama.cpp   │
                   │  兼容接口     │          │  / vLLM      │
                   └──────────────┘          └──────────────┘

系统采用模块化架构：前端 Vue 3 管理面板，FastAPI 网关统一鉴权限流，底层推理引擎根据场景自动切换——单请求低延迟走 llama.cpp，高并发吞吐走 vLLM。

支持的模型

系列	模型	量化级别	显存需求
Qwen	Qwen2.5-7B-Instruct	Q4_K_M	~6GB
Qwen	Qwen2.5-14B-Instruct	Q4_K_M	~10GB
Qwen	Qwen2.5-72B-Instruct	Q4_K_M	~42GB
Llama	Llama-3.1-8B-Instruct	Q4_K_M	~6.5GB
Llama	Llama-3.1-70B-Instruct	Q4_K_M	~42GB
DeepSeek	DeepSeek-V2-Lite	Q4_K_M	~8GB
Mistral	Mistral-7B-v0.3	Q4_K_M	~5GB

使用场景

私有化知识库问答：企业将内部文档向量化后，结合本地模型搭建 RAG 系统，所有数据不出内网。
代码审查助手：集成到 GitLab CI，使用本地模型对 MR 进行代码审查和漏洞检测。
智能客服：替代云端 API，在门店本地部署 7B 模型提供离线客服能力。
教育科研：高校实验室部署多模型推理服务，支持学生实验和课题研究。

快速部署

# 使用 Docker Compose 一键部署
git clone https://github.com/longtang/local-llm-inference
cd local-llm-inference

# 下载模型（以 Qwen2.5-7B Q4_K_M 为例）
wget https://modelscope.cn/models/qwen/Qwen2.5-7B-Instruct-GGUF/resolve/master/qwen2.5-7b-instruct-q4_k_m.gguf -O models/

# 启动服务
docker compose up -d

# 验证
curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{"model":"qwen2.5-7b","messages":[{"role":"user","content":"你好"}]}'

性能指标

场景	模型	吞吐量	首 token 延迟
单请求 (llama.cpp)	Qwen2.5-7B Q4	~80 tokens/s	~150ms
高并发 (vLLM, 8并发)	Qwen2.5-7B Q4	~3200 tokens/s	~300ms
单请求 (llama.cpp)	Qwen2.5-72B Q4	~18 tokens/s	~600ms
高并发 (vLLM, 4并发)	Qwen2.5-72B Q4	~600 tokens/s	~1.2s

版本历史

版本	日期	说明
v2.1.0	2026-05-20	支持多模型热切换，新增模型管理面板
v2.0.0	2026-03-15	重构为 FastAPI 网关架构，新增 vLLM 引擎支持
v1.0.0	2025-12-01	初始版本，基于 llama.cpp 的 GGUF 推理服务

MORE LLM WORKS