5060不要想着部署较大ai

在本地部署大模型的圈子里，总有一种让人欲罢不能的“赌徒心理”——配置不够，量化来凑。今天，我怀着一丝侥幸，在笔记本这块 RTX 5060 显卡上，强行加载了最近社区大热的 Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-IQ2_M。

光看这一串长到能当绕口令的模型名字，你就知道它不简单：Qwen 3.6 最新架构、35B 的总参数量（虽说 MoE 架构下每次只激活 3B）、HauhauCS 大神的“激进无拒绝”微调，以及为了塞进显存而不得不妥协的 IQ2_M（2-bit 极致量化）。
本以为它顶着“3B Active”的轻量化光环，好歹能让我的 5060 体验一把“冲浪”的快感。然而现实却啪啪打脸，直接把这场测试变成了一次极简主义的“折磨美学”。

8 tokens/s 的“打字机”速度

当模型吐出第一个字的时候，我看着计数器陷入了沉思：8 tokens/s。
这是一个什么概念？它不是在生成文本，它是在用物理打字机一下一下地敲我的耐心。在 2026 年的今天，习惯了云端大模型动辄上百 speed 的我们，面对这个速度，仿佛瞬间穿越回了当年的拨号上网时代。5060 那可怜的显存位宽和带宽，在 35B 哪怕是量化后的权重面前，依然像是在用吸管喝珍珠奶茶——算力还没输出，显存通道先被堵死了。

4k 上下文：AI 圈的“金鱼记忆”

如果说慢还能忍，那么4k 上下文则直接给这款模型判了死刑。
要知道，Qwen3.6 原生可是支持 262K 超长上下文的。但在 5060 移动版有限的显存（8GB）和内存里，为了不让显存彻底爆炸，我只能残忍地把 Context 砍到了 4k。
4k 能干什么？抛去极其臃肿的 System Prompt 和几句稍微长一点的铺垫，留给聊天的空间所剩无几。你刚想跟它深入探讨一个复杂的话题，它就已经开始“失忆”了。

“激进 unlocked”，却无用武之地

最讽刺的是，这是一款 Uncensored-Aggressive（激进解锁版）模型。它本该拥有极高的自由度、有求必应、绝不废话，是完美的本地折腾玩具。
然而现在的情况是：我想让它帮我写个稍微长点的长篇小说章节，4k 上下文直接装不下；我想让它帮我深度调教一段复杂的代码，它吐出代码的速度慢到我想自己重写。它空有一身“无拘无束”的屠龙技，却被困在了 5060 移动版这口小浅滩里。要它干啥都不行，刚拉满，就完了。

结语

这场测试让我彻底认清了现实。RTX 5060 移动版，真的不适合碰 35B 这个级别的 MoE 跨界模型。
2-bit 的极致量化虽然勉强把模型“塞”了进去，但砍掉的不仅是智商，还有整个模型的实用价值。对于移动端 60 显卡来说，老老实实跑个精品 7B/8B 参数的 4-bit 模型（比如 Llama 3 或 Gemma 2），拿到 40+ tokens/s 的流畅体验，或许才是本地 AI 最后的温柔

后话

本文由ai润色

附5060+14650hx配置的优化再启动命令行加入–gpu_layers 20可最大性能发挥，速度高达30token