🚀 已上线
🤖 LLM
🏷️ GGUF 量化
🏷️ OpenAI 兼容
🏷️ 完全离线
本地大模型推理
概述
本地大模型推理服务是一个完全离线的企业级 LLM 推理平台,基于 llama.cpp 和 vLLM 构建。支持主流的开源模型(Qwen、Llama、Mistral、DeepSeek 等),提供与 OpenAI API 完全兼容的接口,模型和数据不出服务器,满足金融、医疗、政府等高合规要求场景。
核心功能
GGUF 量化推理
基于 llama.cpp 的 4-bit / 8-bit 量化推理,单卡 RTX 4090 即可运行 70B 模型。
vLLM 高并发
Continuous Batching + PagedAttention,吞吐量达 3000+ tokens/s。
OpenAI 兼容 API
/v1/chat/completions、/v1/embeddings、/v1/models 全兼容,零迁移成本。
多模型热切换
运行时动态加载/卸载模型,无需重启服务即可切换推理引擎。
技术架构
┌─────────────┐ ┌──────────────────┐ ┌──────────────┐
│ Web UI │────▶│ FastAPI 网关 │────▶│ 模型推理引擎 │
└─────────────┘ └──────────────────┘ └──────────────┘
│ │
▼ ▼
┌──────────────┐ ┌──────────────┐
│ OpenAI API │ │ llama.cpp │
│ 兼容接口 │ │ / vLLM │
└──────────────┘ └──────────────┘
系统采用模块化架构:前端 Vue 3 管理面板,FastAPI 网关统一鉴权限流,底层推理引擎根据场景自动切换——单请求低延迟走 llama.cpp,高并发吞吐走 vLLM。
支持的模型
| 系列 | 模型 | 量化级别 | 显存需求 |
|---|---|---|---|
| Qwen | Qwen2.5-7B-Instruct | Q4_K_M | ~6GB |
| Qwen | Qwen2.5-14B-Instruct | Q4_K_M | ~10GB |
| Qwen | Qwen2.5-72B-Instruct | Q4_K_M | ~42GB |
| Llama | Llama-3.1-8B-Instruct | Q4_K_M | ~6.5GB |
| Llama | Llama-3.1-70B-Instruct | Q4_K_M | ~42GB |
| DeepSeek | DeepSeek-V2-Lite | Q4_K_M | ~8GB |
| Mistral | Mistral-7B-v0.3 | Q4_K_M | ~5GB |
使用场景
- 私有化知识库问答:企业将内部文档向量化后,结合本地模型搭建 RAG 系统,所有数据不出内网。
- 代码审查助手:集成到 GitLab CI,使用本地模型对 MR 进行代码审查和漏洞检测。
- 智能客服:替代云端 API,在门店本地部署 7B 模型提供离线客服能力。
- 教育科研:高校实验室部署多模型推理服务,支持学生实验和课题研究。
快速部署
# 使用 Docker Compose 一键部署
git clone https://github.com/longtang/local-llm-inference
cd local-llm-inference
# 下载模型(以 Qwen2.5-7B Q4_K_M 为例)
wget https://modelscope.cn/models/qwen/Qwen2.5-7B-Instruct-GGUF/resolve/master/qwen2.5-7b-instruct-q4_k_m.gguf -O models/
# 启动服务
docker compose up -d
# 验证
curl http://localhost:8000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{"model":"qwen2.5-7b","messages":[{"role":"user","content":"你好"}]}'
性能指标
| 场景 | 模型 | 吞吐量 | 首 token 延迟 |
|---|---|---|---|
| 单请求 (llama.cpp) | Qwen2.5-7B Q4 | ~80 tokens/s | ~150ms |
| 高并发 (vLLM, 8并发) | Qwen2.5-7B Q4 | ~3200 tokens/s | ~300ms |
| 单请求 (llama.cpp) | Qwen2.5-72B Q4 | ~18 tokens/s | ~600ms |
| 高并发 (vLLM, 4并发) | Qwen2.5-72B Q4 | ~600 tokens/s | ~1.2s |
版本历史
| 版本 | 日期 | 说明 |
|---|---|---|
| v2.1.0 | 2026-05-20 | 支持多模型热切换,新增模型管理面板 |
| v2.0.0 | 2026-03-15 | 重构为 FastAPI 网关架构,新增 vLLM 引擎支持 |
| v1.0.0 | 2025-12-01 | 初始版本,基于 llama.cpp 的 GGUF 推理服务 |