berryxia@berryxia63UnslothAI 创始人 Daniel Han 发布了 Qwen3.6 的实验性 MTP GGUF 版本,通过投机解码技术大幅提升推理速度。27B 模型在单 GPU 上达到 140 tokens/s,35B-A3B 版本更达 220 tokens/s,比原版 GGUF 快 1.4 倍且精度无损。最佳 draft tokens 设为 2,过高会导致接受率下降。这一突破显著提升了本地大模型的性能上限,让消费级显卡能更高效运行 30B+ 参数模型。AI模型Qwen3.6GGUF投机解码本地推理UnslothAI推荐理由:本地大模型性能天花板被再次抬高,玩 llama.cpp、跑本地 Agent 或日常 coding 的开发者可以直接用上,体验 30B+ 模型在消费级显卡上的流畅速度。
berryxia@berryxia40oMLX 0.3.9.dev2 版本发布,针对 Apple Silicon 设备优化,集成了 Gemma 4 的 MTP 视觉路径、DFlash 引擎和 ParoQuant,显著提升图文解码速度。新增 ombx launch copilot 功能,可一键接入 Claude、Codex 等工具;oQ 自动代理解决显存不足问题,管理界面增加重启服务器按钮。作者认为苹果端侧 AI 在速度、集成度和易用性上已接近甚至超越云端大模型,真正将 AI 从云端拉回本地。AI产品端侧AIApple SiliconoMLXGemma 4本地推理推荐理由:oMLX 这次更新把 Gemma 4 的视觉路径和 DFlash 引擎塞进 Apple Silicon,图文解码速度明显提升,做本地 AI 开发的 Mac 用户可以直接体验,看看端侧能否替代云端。
Clement Delangue@ClementDelangue65HuggingFace CEO Clement Delangue指出,本地开源权重AI在笔记本电脑上的性能提升速度是摩尔定律的两倍多。从2024年5月到2026年5月,MacBook Pro硬件上限仅停留在128GB统一内存,但可运行的顶级开源模型(如Llama 3 70B到DeepSeek V4 Flash)在AI指数上的评分从10跃升至47,相当于智能水平每10.7个月翻倍。这表明算法和模型的进步正在大幅超越硬件迭代,使得本地AI能力持续快速增长。行业开源/仓库本地推理模型优化硬件限制技术趋势推荐理由:该数据直观展示了算法优化在AI发展中的巨大潜力,对本地部署和边缘计算场景具有重要参考价值,暗示未来AI应用无需依赖昂贵硬件升级。