部署本地大模型
模型框架
- 企业级服务,SGLang 是不二之选:凭借卓越的性能,其吞吐量和结构化输出能力堪称行业翘楚,为企业级应用筑牢根基。
https://docs.sglang.ai/start/install.html
https://github.com/sgl-project/sglang- 在线高并发场景,VLLM 独占鳌头:凭借动态批处理和先进的内存管理技术,确保服务在高并发压力下依然稳定高效,保障业务流畅运行。
https://docs.vllm.com.cn/en/latest/getting_started/installation/gpu.html
https://github.com/vllm-project/vllm- 个人开发领域,Ollama 崭露头角:简单易用,跨平台支持搭配丰富的模型库,让创意灵感瞬间触手可及,助力个人开发者快速实现想法。
https://github.com/ollama/ollama?tab=readme-ov-file
LLM webui
- Dify:适合企业开发复杂 AI 应用,如智能客服、合同处理系统等,支持多模型协作和业务流程自动化。
https://dify.ai/zh
https://github.com/langgenius/dify/blob/main/README_CN.md- Open-WebUI:适合个人开发者快速测试本地模型(如 Ollama 部署的 Llama3),或作为 ChatGPT 替代品进行日常交互。
https://docs.openwebui.com/- Chatbox:面向非技术用户,提供无需代码的对话界面,支持快速体验多模型(如 GPT、Claude)的聊天能力。
https://chatboxai.app/zh
https://github.com/chatboxai/chatbox
部署
- 由于vllm和sglang需要资源较多,我们这里采用ollama + openwebui + deepseek
- 前提条件服务器已经配置了驱动和cuda nvidia-smi(驱动命令)nvcc(cuda命令)
- https://www.nvidia.cn/drivers/lookup/ 显卡下载run脚本运行
- https://developer.nvidia.com/cuda-toolkit-archive cuda下载
安装ollama
1 | https://github.com/ollama/ollama/tree/main/docs |
安装docker和nvidia-container-toolkit
1 | 添加Docker软件包源 |
安装webui
1 | 可以通过-e OLLAMA_BASE_URL 配置ollama地址,进入web界面也可以配置,镜像差不多9G,在国外需要配置加速源 |
额外
- dify功能比Open-WebUI更强大,支持agent和工作流和很多插件,如果不想只单独通过webui来交互建议使用dify
1
2
3
4
5
6
7
8
9curl -SL https://github.com/docker/compose/releases/download/v2.30.3/docker-compose-linux-x86_64 -o /usr/local/bin/docker-compose
将可执行权限赋予安装目标路径中的独立二进制文件
sudo chmod +x /usr/local/bin/docker-compose
sudo ln -s /usr/local/bin/docker-compose /usr/bin/docker-compose
git clone https://github.com/langgenius/dify.git
cd dify
cd docker
cp .env.example .env
docker compose up -d
