之前写了个服务,缓存微博群聊图片后会调用VLM描述图片,然后把描述文本替换原来的“分享图片”。
虽然加这个识别功能会带来额外的费用,但好处也不少。比如群聊记录查看器上呈现效果会好一些。我觉得更重要的是,让AI撰写日报的时候会更准确一些,因为有时候话题的关键信息就藏在大家发的图片中。
早上修了一个小Bug,虽然下载图片的逻辑是可以兼容任何图片格式,但忽略了VLM对图片格式是有限定的。以 mimo-v2.5 为例应该只能输入 bmp/gif/png/jpeg/webp 这些格式。所以说群友发的 HEIC 实际上就没有识别成功。
Hermes 的解决思路也很简单,引入 pillow-heif 把 HEIC 转为 jpg ,还顺带把 Pillow 升到了 12.2.0 版本,并优化了下日志打印规范(看来不同的模型会看不惯对方写的代码)。
现在我每台电脑上都配备了 Agent,哪个“房子”的东西出了问题,我就让“那个房子的租客”自己维修,我出骰垦钱即可。修之前可以问问师傅打算怎么修,有些情况下还能指指点点。有时候自己确实不懂,那就等师傅修好后请教一下。
准备琢磨一个跨设备 Hermes 教学/交流的方案。比如 Hermes 创建了一个通用的SKILL或是针对 Hermes 代码的 Patch,要怎么传递并同步到其他设备上。也有点想让 Hermes 之间“交换名片”,然后就可以更像房东了,我只需要和本机的 Hermes 说“出租房C的楼道灯好像坏了,你去找那边师傅沟通一下,看要怎么修”。初步思路是借鉴 P2P、内网发现之类的。共享目录可能也是需要的,考虑 Syncthing 之类的现成方案。
看来很多需求是人类为了可以偷懒而出现的,这些欲望能利用起来也不错。
