在本地部署大模型的圈子里,总有一种让人欲罢不能的“赌徒心理”——配置不够,量化来凑。今天,我怀着一丝侥幸,在笔记本这块 RTX 5060 显卡上,强行加载了最近社区大热的 Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-IQ2_M。

光看这一串长到能当绕口令的模型名字,你就知道它不简单:Qwen 3.6 最新架构、35B 的总参数量(虽说 MoE 架构下每次只激活 3B)、HauhauCS 大神的“激进无拒绝”微调,以及为了塞进显存而不得不妥协的 IQ2_M(2-bit 极致量化)。
本以为它顶着“3B Active”的轻量化光环,好歹能让我的 5060 体验一把“冲浪”的快感。然而现实却啪啪打脸,直接把这场测试变成了一次极简主义的“折磨美学”。

8 tokens/s 的“打字机”速度

当模型吐出第一个字的时候,我看着计数器陷入了沉思:8 tokens/s。
这是一个什么概念?它不是在生成文本,它是在用物理打字机一下一下地敲我的耐心。在 2026 年的今天,习惯了云端大模型动辄上百 speed 的我们,面对这个速度,仿佛瞬间穿越回了当年的拨号上网时代。5060 那可怜的显存位宽和带宽,在 35B 哪怕是量化后的权重面前,依然像是在用吸管喝珍珠奶茶——算力还没输出,显存通道先被堵死了。

4k 上下文:AI 圈的“金鱼记忆”

如果说慢还能忍,那么4k 上下文则直接给这款模型判了死刑。
要知道,Qwen3.6 原生可是支持 262K 超长上下文的。但在 5060 移动版有限的显存(8GB)和内存里,为了不让显存彻底爆炸,我只能残忍地把 Context 砍到了 4k。
4k 能干什么?抛去极其臃肿的 System Prompt 和几句稍微长一点的铺垫,留给聊天的空间所剩无几。你刚想跟它深入探讨一个复杂的话题,它就已经开始“失忆”了。

“激进 unlocked”,却无用武之地

最讽刺的是,这是一款 Uncensored-Aggressive(激进解锁版) 模型。它本该拥有极高的自由度、有求必应、绝不废话,是完美的本地折腾玩具。
然而现在的情况是:我想让它帮我写个稍微长点的长篇小说章节,4k 上下文直接装不下;我想让它帮我深度调教一段复杂的代码,它吐出代码的速度慢到我想自己重写。它空有一身“无拘无束”的屠龙技,却被困在了 5060 移动版这口小浅滩里。要它干啥都不行,刚拉满,就完了。

结语

这场测试让我彻底认清了现实。RTX 5060 移动版,真的不适合碰 35B 这个级别的 MoE 跨界模型。
2-bit 的极致量化虽然勉强把模型“塞”了进去,但砍掉的不仅是智商,还有整个模型的实用价值。对于移动端 60 显卡来说,老老实实跑个精品 7B/8B 参数的 4-bit 模型(比如 Llama 3 或 Gemma 2),拿到 40+ tokens/s 的流畅体验,或许才是本地 AI 最后的温柔

后话

本文由ai润色

  • 附5060+14650hx配置的优化再启动命令行加入–gpu_layers 20可最大性能发挥,速度高达30token