.md | 大模型本地部署指南

大家好，我是Ai学习的老章

Qwen3-235B-A22B-Instruct-2507-GGUF

前文：Qwen3 发了一个「微不足道」的小更新，碾压Kimi K2、DeepSeek V3

但是模型太太太大了

刚说压力给到【教程】大模型量化界_翘楚_：unsloth

这不，unsloth 各种量化版本全都来了

UD-Q2_K_XL 仅需88GB显存

官方FP16的 500GB 显存，官方 FP8 版 240GB

Unsloth Q2 压到了88GB，不愧是大模型量化翘楚

如果稍富一点的哥们可以选大点的，比如经典的Q4_K_M 仅需142 GB

bit	模型名	大小
2-bit	`Q2_K`	85.7 GB
	`Q2_K_L`	85.8 GB
	`Q2_K_XL`	88.8 GB
3-bit	`Q3_K_S`	101 GB
	`Q3_K_M`	112 GB
	`Q3_K_XL`	104 GB
4-bit	`IQ4_XS`	125 GB
	`Q4_K_S`	134 GB
	`Q4_0`	133 GB
	`Q4_1`	147 GB
	`Q4_K_M`	142 GB
	`Q4_K_XL`	134 GB
5-bit	`Q5_K_S`	162 GB
	`Q5_K_M`	167 GB
6-bit	`Q6_K`	193 GB
	`Q6_K_XL`	202 GB
8-bit	`Q8_0`	250 GB
	`Q8_K_XL`	274 GB
16-bit	`BF16`	470 GB

⚙️最佳实践

为了达到最佳性能，建议采用以下设置：

采样参数：
- 建议使用 Temperature=0.7，TopP=0.8，TopK=20 和 MinP=0。
- 对于支持的框架，可以在 0 到 2 之间调整 presence_penalty 参数以减少无尽重复。然而，使用较高的值可能会偶尔导致语言混合，并略微降低模型性能。
足够的输出长度：建议使用 16,384 个令牌的输出长度，对于指令模型是足够的。
标准化输出格式：建议在基准测试时使用提示来标准化模型输出。
- 数学问题：在提示中包含“请逐步推理，并将最终答案放在 \boxed{} 中。”
- 选择题：在提示中添加以下 JSON 结构以标准化响应：“请在 answer 字段中仅显示选项字母，例如，"answer": "C"。”

CPU 运行

使用 Llama.cpp 进行优化推理和多种选项。

请从 GitHub 这里获取最新版的 llama.cpp。你也可以参考以下编译说明。如果你没有 GPU 或只想使用 CPU 推理，请将 -DGGML_CUDA=ON 更改为 -DGGML_CUDA=OFF。

bash

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp

通过 ( pip install huggingface_hub hf_transfer 安装后) 下载模型。您可以选择 UD-Q2_K_XL，或其他量化版本。

bash

# !pip install huggingface_hub hf_transfer
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
from huggingface_hub import snapshot_download
snapshot_download(
    repo_id = "unsloth/Qwen3-235B-A22B-Instruct-2507-GGUF",
    local_dir = "unsloth/Qwen3-235B-A22B-Instruct-2507-GGUF",
    allow_patterns = ["*UD-Q2_K_XL*"],
)

运行模型并尝试
编辑 --threads -1 以设置 CPU 线程数，--ctx-size 262114 以设置上下文长度，--n-gpu-layers 99 以在多少层上启用 GPU 卸载。如果您的 GPU 内存不足，请尝试调整这些参数。如果没有 GPU 仅使用 CPU 进行推理，请移除这些参数。

使用 -ot ".ffn_.*_exps.=CPU" 将所有 MoE 层卸载到 CPU！这实际上允许您将所有非 MoE 层放在一个 GPU 上，从而提高生成速度。您可以根据 GPU 容量自定义正则表达式以适应更多层。

bash

./llama.cpp/llama-cli \
    --model unsloth/Qwen3-235B-A22B-Instruct-2507-GGUF/UD-Q2_K_XL/Qwen3-235B-A22B-Instruct-2507-UD-Q2_K_XL-00001-of-00002.gguf \
    --threads 32 \
    --ctx-size 16384 \
    --n-gpu-layers 99 \
    -ot ".ffn_.*_exps.=CPU" \
    --seed 3407 \
    --prio 3 \
    --temp 0.7 \
    --min-p 0.0 \
    --top-p 0.8 \
    --top-k 20

看到一个测评： Qwen3 在 SimpleQA 中表现优异，因为它训练得像一辆坦克：庞大、精确且充满事实。它需要大量的内存才能充分发挥性能，但运行起来非常稳定。我认为它确实能减少幻觉并提高回忆能力，尤其是在随机内容方面。如果你追求准确性，这绝对值得期待。

制作不易，如果这篇文章觉得对你有用，可否点个关注。给我个三连击：点赞、转发和在看。若可以再给我加个🌟，谢谢你看我的文章，我们下篇再见！

搭建完美的写作环境：工具篇（12 章）图解机器学习 - 中文版（72 张 PNG）ChatGPT 、大模型系列研究报告（50 个 PDF）108页PDF小册子：搭建机器学习开发环境及Python基础 116页PDF小册子：机器学习中的概率论、统计学、线性代数史上最全！371张速查表，涵盖AI、ChatGPT、Python、R、深度学习、机器学习等

Qwen3-235B-A22B-Instruct-2507-GGUF ​

⚙️最佳实践 ​

CPU 运行 ​

Qwen3-235B-A22B-Instruct-2507-GGUF

⚙️最佳实践

CPU 运行