.md | 大模型本地部署指南

大家好，我是Ai学习的老章

CUDA 升级

https://developer.nvidia.com/cuda-12-9-1-download-archive?target_os=Linux&target_arch=x86_64&Distribution=RHEL&target_version=8&target_type=runfile_local

sudo systemctl stop docker

sh cuda_12.9.1_575.57.08_linux.run

nvcc -V

vi ~/.bashrc

source ~/.bashrc

nvcc -V

问题1:nvidia-uvm already loaded

要彻底停止 Docker，您需要同时停止服务和套接字。

1 sudo systemctl stop docker.service 2 sudo systemctl stop docker.socket

临时停止：sudo systemctl stop docker.service docker.socket
永久禁用：sudo systemctl disable docker.service docker.socket

问题2:提示nvidia-drm already loaded

步骤一：切换到纯文本模式（关闭图形界面）

这是最关键的一步。图形界面服务（如 Xorg, GDM, LightDM, SDDM 等）是 nvidia-drm 模块最主要的占用者。我们需要将系统切换到一个不运行图形服务的运行级别。

⚠️ 重要警告：以下命令会关闭服务器的图形用户界面。如果您当前是通过 VNC 或物理桌面连接，您的会话将会中断。通过 SSH 的连接不会中断，这正是我们想要的环境。

在您的 SSH 会话中，执行以下命令：

1 sudo systemctl isolate multi-user.target

作用：这个命令会关闭所有图形化服务，将系统带入多用户、纯命令行的状态。
备用命令：如果您的系统比较老旧，不使用 systemctl，可以尝试 sudo init 3。

执行后，等待几秒钟，让图形服务完全关闭。

https://blog.vllm.ai/2025/11/19/docker-model-runner-vllm.html

https://docs.vllm.ai/en/latest/deployment/docker/

![[[email protected]]]

构建 vLLM 的 Docker 镜像（源码）¶

您可以使用提供的 docker/Dockerfile 从源码构建并运行 vLLM。要构建 vLLM，请参阅：

[](https://docs.vllm.ai/en/latest/deployment/docker/#__codelineno-4-1)# optionally specifies: --build-arg max_jobs=8 --build-arg nvcc_threads=2 [](https://docs.vllm.ai/en/latest/deployment/docker/#__codelineno-4-2)DOCKER_BUILDKIT=1 docker build . \ [](https://docs.vllm.ai/en/latest/deployment/docker/#__codelineno-4-3) --target vllm-openai \ [](https://docs.vllm.ai/en/latest/deployment/docker/#__codelineno-4-4) --tag vllm/vllm-openai \ [](https://docs.vllm.ai/en/latest/deployment/docker/#__codelineno-4-5) --file docker/Dockerfile

注意

默认情况下，vLLM 会为所有 GPU 类型构建以实现最广泛的分发。如果您只是为当前机器上运行的 GPU 类型构建，可以添加参数 --build-arg torch_cuda_arch_list="" 使 vLLM 查找当前 GPU 类型并仅为此类型构建。

如果使用的是 Podman 而不是 Docker，运行 podman build 命令时可能需要通过添加 --security-opt label=disable 来禁用 SELinux 标签，以避免某些现有问题。

使用 vLLM 的官方 Docker 镜像 ¶

vLLM 提供了一个官方的 Docker 镜像用于部署。该镜像可以用于运行 OpenAI 兼容服务器，并可在 Docker Hub 上找到，地址为 vllm/vllm-openai。

[](https://docs.vllm.ai/en/latest/deployment/docker/#__codelineno-0-1)docker run --runtime nvidia --gpus all \ [](https://docs.vllm.ai/en/latest/deployment/docker/#__codelineno-0-2) -v ~/.cache/huggingface:/root/.cache/huggingface \ [](https://docs.vllm.ai/en/latest/deployment/docker/#__codelineno-0-3) --env "HF_TOKEN=$HF_TOKEN" \ [](https://docs.vllm.ai/en/latest/deployment/docker/#__codelineno-0-4) -p 8000:8000 \ [](https://docs.vllm.ai/en/latest/deployment/docker/#__codelineno-0-5) --ipc=host \ [](https://docs.vllm.ai/en/latest/deployment/docker/#__codelineno-0-6) vllm/vllm-openai:latest \ [](https://docs.vllm.ai/en/latest/deployment/docker/#__codelineno-0-7) --model Qwen/Qwen3-0.6B