← 返回首页

微博图片搜索背后的多模态秘密

发布时间: 2025-12-12 19:59(北京时间)

摘要: 作者通过分析微博搜索行为,推断其图片搜索功能基于多模态模型(如VLM)处理图像内容,但解析文本未开放接口。文章以实例说明搜索能匹配图片而非文本内容,并推测评论机器人可能依赖预处理的多模态解释以降低成本。语调冷静且具技术推断性。

标签: 多模态模型, 图像搜索, 技术推断, 接口分析, 冷静, 元分析

字数: 413

原文链接: /7402396589/Qi5L5F4i4

之前就怀疑微博把图片全量跑了OCR或者用多模态模型“解释”了一遍图片。
今天基本确定是用VLM解释过图片,但解释文本似乎没有开放获取接口。

因为有时候搜索能搜出“原文不含关键词但配图含关键词”和“原文和配图都不含关键词”的微博。

图1这条微博 搜索“地毯”或“皮卡丘”都能搜到。
图2这条微博 搜索“美食”能搜到。

搜索的请求我也分析了,确实没有暴露(也没必要暴露)VLM解析后的文本。应该是后端直接把匹配到的微博传出来而已。这确实有点可惜啊,不知道以后会不会开放这个接口。

另外,我瞎猜一下,评论罗伯特并不是多模态的,平时他的回复看起来能识图是因为先被其他多模态模型解释过了,作为纯文本的上下文处理的。我这样猜测是感觉这样罗伯特的服务成本会低一些。