本地大模型接入Hermes实测

发布时间: 2026-06-07 19:23(北京时间)

摘要: 作者在MacBook Pro上使用LM Studio加载Gemma 4 26B A4B模型，并将Radxa Dragon Q6A设备上运行的Hermes系统接入该本地大模型，进行了简单测试。模型吐字速度约为65 tokens/秒，作者认为速度偏慢但尚可接受。整体描述客观、简洁，侧重于部署实践与性能体验。

标签: 本地大模型, 模型部署, 性能测试, Gemma4, Hermes, LM Studio, 技术实践, 简洁

字数: 191

原文链接: /7402396589/R32HUzl1e

我在 MBP 上通过 LM Studio 加载了 Gemma 4 26B A4B 模型，并把 Radxa Dragon Q6A 上运行的 Hermes 接入了这个本地大模型，然后简单玩了一下。

Gemma 4 26B A4B 运行在我的 MBP 上，吐字速度大概在 65tps 左右。有点慢，但还算是可以接受的程度。