之前就怀疑微博把图片全量跑了OCR或者用多模态模型“解释”了一遍图片。
今天基本确定是用VLM解释过图片,但解释文本似乎没有开放获取接口。
因为有时候搜索能搜出“原文不含关键词但配图含关键词”和“原文和配图都不含关键词”的微博。
图1这条微博 搜索“地毯”或“皮卡丘”都能搜到。
图2这条微博 搜索“美食”能搜到。
搜索的请求我也分析了,确实没有暴露(也没必要暴露)VLM解析后的文本。应该是后端直接把匹配到的微博传出来而已。这确实有点可惜啊,不知道以后会不会开放这个接口。
另外,我瞎猜一下,评论罗伯特并不是多模态的,平时他的回复看起来能识图是因为先被其他多模态模型解释过了,作为纯文本的上下文处理的。我这样猜测是感觉这样罗伯特的服务成本会低一些。