AITOP

5月14日

16:33

berryxia@berryxia

63

UnslothAI 创始人 Daniel Han 发布了 Qwen3.6 的实验性 MTP GGUF 版本，通过投机解码技术大幅提升推理速度。27B 模型在单 GPU 上达到 140 tokens/s，35B-A3B 版本更达 220 tokens/s，比原版 GGUF 快 1.4 倍且精度无损。最佳 draft tokens 设为 2，过高会导致接受率下降。这一突破显著提升了本地大模型的性能上限，让消费级显卡能更高效运行 30B+ 参数模型。

AI模型 Qwen3.6 GGUF 投机解码本地推理 UnslothAI

推荐理由：本地大模型性能天花板被再次抬高，玩 llama.cpp、跑本地 Agent 或日常 coding 的开发者可以直接用上，体验 30B+ 模型在消费级显卡上的流畅速度。

5月13日

18:18

berryxia@berryxia

40

oMLX 0.3.9.dev2 版本发布，针对 Apple Silicon 设备优化，集成了 Gemma 4 的 MTP 视觉路径、DFlash 引擎和 ParoQuant，显著提升图文解码速度。新增 ombx launch copilot 功能，可一键接入 Claude、Codex 等工具；oQ 自动代理解决显存不足问题，管理界面增加重启服务器按钮。作者认为苹果端侧 AI 在速度、集成度和易用性上已接近甚至超越云端大模型，真正将 AI 从云端拉回本地。

AI产品端侧AI Apple Silicon oMLX Gemma 4 本地推理

推荐理由：oMLX 这次更新把 Gemma 4 的视觉路径和 DFlash 引擎塞进 Apple Silicon，图文解码速度明显提升，做本地 AI 开发的 Mac 用户可以直接体验，看看端侧能否替代云端。

5月11日

22:16

Clement Delangue@ClementDelangue

65

HuggingFace CEO Clement Delangue指出，本地开源权重AI在笔记本电脑上的性能提升速度是摩尔定律的两倍多。从2024年5月到2026年5月，MacBook Pro硬件上限仅停留在128GB统一内存，但可运行的顶级开源模型（如Llama 3 70B到DeepSeek V4 Flash）在AI指数上的评分从10跃升至47，相当于智能水平每10.7个月翻倍。这表明算法和模型的进步正在大幅超越硬件迭代，使得本地AI能力持续快速增长。

行业开源/仓库本地推理模型优化硬件限制技术趋势

推荐理由：该数据直观展示了算法优化在AI发展中的巨大潜力，对本地部署和边缘计算场景具有重要参考价值，暗示未来AI应用无需依赖昂贵硬件升级。