← 返回首页

Gemini3的棱镜式启发与指令困境

发布时间: 2025-11-27 08:13(北京时间)

摘要: 作者基于与Gemini3的日常对话体验,对比了其与GPT5.1在洞察力和谄媚性上的差异。Gemini3被描述为棱镜式启发工具,能在专业提问中产生意外思路,尽管这些思路可能存在瑕疵;而GPT5.1则更像镜子,反射专业但缺乏熵增。然而,在遵循指令执行具体任务如整理日报时,Gemini3表现出格式错误和不稳定性,与Gemini2.5的可靠表现形成对比,暗示模型迭代中的功能权衡。整体语调冷静、反思,带有元分析色彩。

标签: AI模型对比, 指令遵循, 启发式思维, 反思, 冷静, 元分析, 技术评估, 语义密度

字数: 606

原文链接: /7402396589/QfJISFS0k

这段时间几乎每天都有在和Gemini3对话。我觉得Gemini3在“洞察力”方面确实是比较“震惊”的。某些时刻很能理解纯银老师这篇头条微博正文里提到的那种“shock”。

虽然我不是什么“专家”,但和不同的模型聊多了也能感受到输出中的“谄媚”成分并自动忽略掉。Gemini3和GPT5.1都会“谄媚”,但剔除掉这些部分,在聊天与分析类的任务上,Gemini3能给出更意想不到的思路。不是说Gemini3“对的更多”,反而这些思路很多时候是有瑕疵、待我验证的。

而且我能感觉到Gemini3面对越专业的提问,回答的质量就越高(提问的专业度我这里没有下定义)。而GPT5.1是越专业的提问就越“谄媚”,在拓展思路这块我比较少被“shock”到。
↑这段我表达不好。可能可以把GPT5.1类比成镜子,提问专业的话照出来的也很专业,但只是在反射,熵增很低。而Gemini3可以类比成分光棱镜,总能折射出色彩,色彩没有对错,但有些颜色确实能启发到我。

但具体到整理日报这项工作,Gemini3似乎不那么遵循指令。以前用Gemini2.5来生成日报是很舒服的,换成Gemini3之后就出现各种格式错误,我认为是prompt的问题就优化了几个版本,甚至把它常见的错误都描述在prompt中都压不住。优化后的prompt我也用Gemini2.5再复判了下,可能真不是提示词的问题,Gemini2.5生成的日报质量依旧是好。