Appearance

大家好,我是 Ai 学习的老章
我看了一些网友评价,很多说效果远远不如官方公布的结果,还有说幻觉严重

有些是直接用 ollama 运行的量化版,效果不好很正常
有些是在官方网站上测试的,这个就见仁见智了,我还是觉得个例的参考价值不大
用脑经急转弯和弱智吧的问题去测试大模型,属实脑经不转弯。
先看两个独立测评
独立测评 1——综合能力
evalscope 做了测试,结果:
- Qwen3-32B 模型在思考模式下,其准确率与 QwQ-32B 相当(在 Accuracy 折线上两者重合),都达到了最好的水平。
- 随着问题难度的增加,模型的输出长度都随问题难度增加而增加,这表明模型在解答更复杂问题时需要更长的"思考时间",与 Inference-Time Scaling 现象相符。


独立测评 2——编程能力

推上 karminski3 测试了其写代码能力
极简结论:Qwen3 是可以本地部署的最强开源写代码大模型
看上去没有任何一个结果特别强,但是!
每个测试都发挥很稳定,这导致最终得分特别高,得分 329.6 分,排在了排行榜的第四名!是目前开源模型第一名!




独立测评 3——大海捞针
Fiction.Livebench 公布了 Qwen3 的长上下文召回测试结果

Qwen3-235b-a22b 在“0”token 测试中得分 100.0,随着上下文长度增加,成绩有所下降,在 4k 时得分 69.0,16k 时得分 67.7,大于 16K 上下文,Fiction 未作测试。

结果有点出乎预料:
Qwen3 系列模型整体没有超过 QwQ-32b,但与其他公司的模型相比具有一定竞争力。在小上下文窗口方面,Qwen-max 表现不错,Qwen3 系列中的部分模型在小窗口下的表现可能也存在优势,但文中未详细对比 Qwen3 各模型在小窗口与其他模型的差异。
如果运行 30B 的模型,优先选择 Qwen3-32B 而非 MoE 的 Qwen3-30B-A3B。
个人实测 VS QwQ-32B
看 xhs 有人说体感甚至不如 QwQ-32B,上面三个独立测评中也提到,某些领域 Qwen3 确实不如 QwQ,我就找几个问题测试一下,大家也感受感受

测试 1:数学能力
不欺负它,出一道小学一年级下学期的题目,顺便考察视觉能力
这道题很简单,之前测试过 GPT-4.1 解题也错误,GPT-4o 就可以回答正确

QwQ:32B 不支持图片输入
Qwen3-235B-A22B:十分钟还在思考

关闭思考模式后,Qwen3 解答正确

测试 2:弹跳小球
提示词:
- 所有小球半径相同。
- 每个小球上有从 1 到 20 的编号。
- 所有小球在开始时都从七边形中心下落。
- 小球颜色分别为:#f8b862, #f6ad49, #f39800, #f08300, #ec6d51, #ee7948, #ed6d3d, #ec6800, #ec6800, #ee7800, #eb6238, #ea5506, #ea5506, #eb6101, #e49e61, #e45e32, #e17b34, #dd7a56, #db8449, #d66a35。
- 小球应受到重力和摩擦力影响,并能真实地与旋转的七边形边界发生弹跳。小球之间也应有碰撞。
- 所有小球的材质特性保证它们的反弹高度不会超过七边形的半径,但要高于小球半径。
- 所有小球会有自转且有旋转摩擦,小球上的编号可以用来体现自转角度。
- 七边形绕中心旋转,旋转速度为每 5 秒 360 度。
- 七边形的尺寸应足够大,可以容纳所有小球。
- 不允许使用 pygame 库,碰撞检测与响应等算法需自行实现。允许使用的 Python 库为:tkinter、math、numpy、dataclasses、typing、sys。
- 所有代码需写在同一个 Python 文件中。结果:代码生成很快,运行顺畅无 bug,但是只有一个球。
Qwen3 小球上数字不对,但是功能上是实现了的

测试 3:设计知识卡片
提示词:阅读全文,文中共几次父亲的背影?分别有何深意,输出 SVG 格式,3:4,小红书风格:——省略 1328 字
QwQ:32B 拉垮到不忍直视

Qwen3 也很拉跨,但是稍微好点

标准答案 是 Claude 3.7 找到了原文,针对原文做了深意理解,然后还完美呈现出来了,🐮🐮🐮🐮🐮🐮
后面我还分别用他俩做了基于英文素材的写作,还有 Base64 解码等测试,两者半斤八两,解码测试都惨不忍睹。不展示了,跟 Gemini2.5 Pro 和 Claude 3.7 还有距离。
制作不易,如果这篇文章觉得对你有用,可否点个关注。给我个三连击:点赞、转发和在看。若可以再给我加个🌟,谢谢你看我的文章,我们下篇再见!
搭建完美的写作环境:工具篇(12 章)图解机器学习 - 中文版(72 张 PNG)ChatGPT、大模型系列研究报告(50 个 PDF)108 页 PDF 小册子:搭建机器学习开发环境及 Python 基础 116 页 PDF 小册子:机器学习中的概率论、统计学、线性代数 史上最全!371 张速查表,涵盖 AI、ChatGPT、Python、R、深度学习、机器学习等
