偷懒是技术进步的第一驱动力

之前写了个服务，缓存微博群聊图片后会调用VLM描述图片，然后把描述文本替换原来的“分享图片”。

虽然加这个识别功能会带来额外的费用，但好处也不少。比如群聊记录查看器上呈现效果会好一些。我觉得更重要的是，让AI撰写日报的时候会更准确一些，因为有时候话题的关键信息就藏在大家发的图片中。

早上修了一个小Bug，虽然下载图片的逻辑是可以兼容任何图片格式，但忽略了VLM对图片格式是有限定的。以 mimo-v2.5 为例应该只能输入 bmp/gif/png/jpeg/webp 这些格式。所以说群友发的 HEIC 实际上就没有识别成功。

Hermes 的解决思路也很简单，引入 pillow-heif 把 HEIC 转为 jpg ，还顺带把 Pillow 升到了 12.2.0 版本，并优化了下日志打印规范(看来不同的模型会看不惯对方写的代码)。

现在我每台电脑上都配备了 Agent，哪个“房子”的东西出了问题，我就让“那个房子的租客”自己维修，我出骰垦钱即可。修之前可以问问师傅打算怎么修，有些情况下还能指指点点。有时候自己确实不懂，那就等师傅修好后请教一下。

准备琢磨一个跨设备 Hermes 教学/交流的方案。比如 Hermes 创建了一个通用的SKILL或是针对 Hermes 代码的 Patch，要怎么传递并同步到其他设备上。也有点想让 Hermes 之间“交换名片”，然后就可以更像房东了，我只需要和本机的 Hermes 说“出租房C的楼道灯好像坏了，你去找那边师傅沟通一下，看要怎么修”。初步思路是借鉴 P2P、内网发现之类的。共享目录可能也是需要的，考虑 Syncthing 之类的现成方案。

看来很多需求是人类为了可以偷懒而出现的，这些欲望能利用起来也不错。