阿里Qwen3 令人失望？.md | 大模型本地部署指南

大家好，我是 Ai 学习的老章

极简结论：Qwen3 是可以本地部署的最强开源写代码大模型

[[2025-04-29-阿里Qwen3 全部情报汇总，本地部署指南，性能全面超越 DeepSeek R1]]

我只有 4 张 4090 显卡，本文尝试本地部署 Qwen3:32B，搭配 OpenwebUI 聊天 Bot，简单看看其推理速度

[TOC]

本地部署

ollama

模型页：https://ollama.com/library/qwen3

运行：ollama run qwen3

其他尺寸，在后面加参数即可，比如：ollama run qwen3:32b

可以在提示词后输入 /no_think 来切换 Ollama 中的无思考模式。

备注⚠️：ollama 运行的是量化版，效果有折扣

vLLM

需要升级到 v0.8.4 以上，最好 v0.8.5

地址：https://github.com/vllm-project/vllm/issues/17327

bash

vllm serve Qwen/Qwen3-235B-A22B-FP8 --enable-reasoning --reasoning-parser deepseek_r1 --tensor-parallel-size 4

SGLang

需要升级到SGLang 0.4.6.post1

地址：https://github.com/sgl-project/sglang

bash

pip3 install "sglang[all]>=0.4.6.post1"

python3 -m sglang.launch_server --model Qwen/Qwen3-235B-A22B --tp 8 --reasoning-parser qwen3

python3 -m sglang.launch_server --model Qwen/Qwen3-235B-A22B-FP8 --tp 4 --reasoning-parser qwen3

CPU 部署

llama.cpp

可以用 llama.cpp 运行起 Qwen3 量化版本、动态量化版本！

地址：https://huggingface.co/collections/unsloth/qwen3-680edabfb790c8c34a242f95

KTransformer

Xeon 铂金 4 代 + 4090 运行 Qwen3-235B-A22B 单个请求可以达到 13.8 token/s, 4 个请求并行可以达到总计 24.4 token/s

地址：http://github.com/kvcache-ai/ktransformers/blob/main/doc/en/AMX.md

Mac 部署

Mac 上也可以跑 Qwen3 了

地址：https://github.com/ml-explore/mlx-lm/commit/5c2c18d6a3ea5f62c5b6ae7dda5cd9db9e8dab16

shell

pip install -U mlx-lm
# or
conda install -c conda-forge mlx-lm

支持设备

iPhone: 0.6B, 4B
Macbook: 8B, 30B, 3B/30B MoE
M2, M3 Ultra: 22B/235B MoE

有网友测试 Qwen3-235B-A22B-4bit 量化版本在 Apple Mac Studio M2 Ultra 能跑到 28 toks/sec，大概占用 132GB 内存

下载模型

模型文件：https://modelscope.cn/models/Qwen/Qwen3-32B/files

Google Chrome 2025-04-29 14.14.44.png

在下载前，先通过如下命令安装 ModelScope

pip install modelscope

命令行下载完整模型库

modelscope download --model Qwen/Qwen3-32B

下载单个文件到指定本地文件夹（以下载 README.md 到当前路径下“dir”目录为例）

modelscope download --model Qwen/Qwen3-32B README.md --local_dir ./dir

模型大小约 64GB

模型部署

用 vllm 拉起大模型，我有 4 张 4090 显卡，tensor-parallel-size 设置为 4

bash

pip install --upgrade vllm

vllm serve . --served-model-name Qwen3:32B --port 3001 --enble-reasoning --reasoning-parse deepseek_r1 --tensor-parallel-size 4

卡没被占满，还有空余拉起 reranker 模型

openwebui 聊天助手

OpenWebUI 旨在为 AI 和 LLMs 构建最佳用户界面，为那些互联网访问受限的人提供利用 AI 技术的机会。OpenWebUI 通过 Web 界面本地运行 LLMs，使 AI 和 LLMs 更安全、更私密。

安装 openwebui 是我见过所有 chatbot 中最简单的了

shell

# 安装
pip install open-webui

# 启动
open-webui serve

浏览器打开 http://locahost:8080

如果是服务器部署，把 localhost 改为服务器 ip

正常注册登陆

右上角点击头像，点击管理员面板

点击设置 - 外部链接，照着抄一下，api key 随便填写

然后回到前端，左上角添加模型那里就可以找到 Qwen3:32B 了

teminal 页面会实时输出模型推理时的性能

速度还蛮快的，如果开启 reasoning 会慢很多，关闭的话，vllm 那里改成下面即可

vllm serve . --served-model-name Qwen3:32B --port 3001 --tensor-parallel-size 4

测试

我看了一些网友评价，很多说效果远远不如官方公布的结果，还有说幻觉严重

有些是直接用 ollama 运行的量化版，效果不好很正常

有些是在官方网站上测试的，这个就见仁见智了，我还是觉得个例的参考价值不大

用脑经急转弯和弱智吧的问题去测试大模型，属实脑经不转弯。

看两个独立测评

evalscope 做了测试，结果 - Qwen3-32B 模型在思考模式下，其准确率与 QwQ-32B 相当（在 Accuracy 折线上两者重合），都达到了最好的水平。随着问题难度的增加，模型的输出长度都随问题难度增加而增加，这表明模型在解答更复杂问题时需要更长的"思考时间"，与 Inference-Time Scaling 现象相符。

推上 karminski3 测试了其写代码能力

极简结论：Qwen3 是可以本地部署的最强开源写代码大模型

制作不易，如果这篇文章觉得对你有用，可否点个关注。给我个三连击：点赞、转发和在看。若可以再给我加个🌟，谢谢你看我的文章，我们下篇再见！

搭建完美的写作环境：工具篇（12 章）图解机器学习 - 中文版（72 张 PNG）ChatGPT、大模型系列研究报告（50 个 PDF）108 页 PDF 小册子：搭建机器学习开发环境及 Python 基础 116 页 PDF 小册子：机器学习中的概率论、统计学、线性代数史上最全！371 张速查表，涵盖 AI、ChatGPT、Python、R、深度学习、机器学习等

本地部署 ​

ollama ​

vLLM ​

SGLang ​

CPU 部署 ​

llama.cpp ​

KTransformer ​

Mac 部署 ​

下载模型 ​

模型部署 ​

openwebui 聊天助手 ​

测试 ​

本地部署

ollama

vLLM

SGLang

CPU 部署

llama.cpp

KTransformer

Mac 部署

下载模型

模型部署

openwebui 聊天助手

测试