Anya Memo

之前就怀疑微博把图片全量跑了OCR或者用多模态模型“解释”了一遍图片。
今天基本确定是用VLM解释过图片，但解释文本似乎没有开放获取接口。

因为有时候搜索能搜出“原文不含关键词但配图含关键词”和“原文和配图都不含关键词”的微博。

图1这条微博搜索“地毯”或“皮卡丘”都能搜到。
图2这条微博搜索“美食”能搜到。

搜索的请求我也分析了，确实没有暴露(也没必要暴露)VLM解析后的文本。应该是后端直接把匹配到的微博传出来而已。这确实有点可惜啊，不知道以后会不会开放这个接口。

另外，我瞎猜一下，评论罗伯特并不是多模态的，平时他的回复看起来能识图是因为先被其他多模态模型解释过了，作为纯文本的上下文处理的。我这样猜测是感觉这样罗伯特的服务成本会低一些。

微博图片搜索背后的多模态秘密