提示词没变模型却翻车只好把 gemini 2 5 pro 请回工位

上个月我说过“日报的模型 gemini-2.5-pro 最好使。” → 微博正文
我当时是测过很多很多模型，只从体验上得出了这个结论，但没有披露过其他模型为什么不好，也没说过遇到了哪些问题。

日报聚合的工作流是「提示词+聊天记录→Markdown→html→PDF」。其中Markdown是LLM输出，html是pandoc来转换。
遇到过的问题：

没有严格按照提示词聚合话题。每个话题有要点和讨论过程，有时候会出现缺少要点或缺少讨论过程。
HTML标记编写错误。Markdown中是需要插入一些HTML标记的，比如需要用不同的class标记成员昵称，需要用特定的html结构去编写“拓展阅读”部分。出问题的要么是忘记插入标记，要么是class用错。
Markdown格式问题。pandoc默认是Strict-Mode，LLM有时候会偷懒少一些空格和空行导致列表没有识别出来。
语言精炼度。我就不说LLM是不是在偷懒了，这可能是和我提示词有关。提示词是要从聊天记录中汇总出日报，又要求详细，也算是一种五彩斑斓的黑。每个LLM理解的不一样，得看下怎么优化提示词。

上面的问题中遇到1/2/4都是没办法使用的，3的话我还可以手动修复一下。我使用 gemini-2.5-pro 生成过将近60份日报都没有出现过以上的问题。gemini-3-pro-preview 出来后，我幻想着日报可以有“更高的水平”，可能是会挖掘到更多话题，可能是描述话题讨论过程的时候更有逻辑，可能是文风更加吸引人。但没想到的是，gemini3也会出现上面提到的问题，而且是每一个都遇到了。

在琢磨出来为什么之前，还是继续用gemini-2.5-pro吧。我觉得是我提示词的问题，有很多不清晰、有歧义的表达。但走了狗屎运这套提示词和gemini-2.5-pro比较“搭配”所以输出效果最好、最稳定。

提示词没变模型却翻车 只好把 gemini 2 5 pro 请回工位

提示词没变模型却翻车只好把 gemini 2 5 pro 请回工位