AITOP

5月14日

16:33

berryxia@berryxia

63

UnslothAI 创始人 Daniel Han 发布了 Qwen3.6 的实验性 MTP GGUF 版本，通过投机解码技术大幅提升推理速度。27B 模型在单 GPU 上达到 140 tokens/s，35B-A3B 版本更达 220 tokens/s，比原版 GGUF 快 1.4 倍且精度无损。最佳 draft tokens 设为 2，过高会导致接受率下降。这一突破显著提升了本地大模型的性能上限，让消费级显卡能更高效运行 30B+ 参数模型。

AI模型 Qwen3.6 GGUF 投机解码本地推理 UnslothAI

推荐理由：本地大模型性能天花板被再次抬高，玩 llama.cpp、跑本地 Agent 或日常 coding 的开发者可以直接用上，体验 30B+ 模型在消费级显卡上的流畅速度。

5月13日

18:18

berryxia@berryxia

40

oMLX 0.3.9.dev2 版本发布，针对 Apple Silicon 设备优化，集成了 Gemma 4 的 MTP 视觉路径、DFlash 引擎和 ParoQuant，显著提升图文解码速度。新增 ombx launch copilot 功能，可一键接入 Claude、Codex 等工具；oQ 自动代理解决显存不足问题，管理界面增加重启服务器按钮。作者认为苹果端侧 AI 在速度、集成度和易用性上已接近甚至超越云端大模型，真正将 AI 从云端拉回本地。

AI产品端侧AI Apple Silicon oMLX Gemma 4 本地推理

推荐理由：oMLX 这次更新把 Gemma 4 的视觉路径和 DFlash 引擎塞进 Apple Silicon，图文解码速度明显提升，做本地 AI 开发的 Mac 用户可以直接体验，看看端侧能否替代云端。