← 返回首页

提示词没变模型却翻车 只好把 gemini 2 5 pro 请回工位

发布时间: 2025-11-20 07:44(北京时间)

摘要: 作者回顾了使用不同LLM模型生成日报的工作流,指出Gemini-2.5-Pro在提示词不变的情况下表现稳定,而Gemini-3-Pro-Preview出现聚合不完整、HTML标记错误、Markdown格式问题和语言精炼度不足等问题,导致无法使用。作者反思提示词可能存在歧义,但Gemini-2.5-Pro的兼容性使其成为当前可靠选择,整体语调务实且略带自嘲。

标签: LLM测试, 工作流优化, 提示词工程, 模型比较, 反思, 务实, 技术故障, 自动化流程

字数: 874

原文链接: /7402396589/QeFxyFyRp

上个月我说过“日报的模型 gemini-2.5-pro 最好使。” → 微博正文
我当时是测过很多很多模型,只从体验上得出了这个结论,但没有披露过其他模型为什么不好,也没说过遇到了哪些问题。

日报聚合的工作流是「提示词+聊天记录→Markdown→html→PDF」。其中Markdown是LLM输出,html是pandoc来转换。
遇到过的问题:

  1. 没有严格按照提示词聚合话题。每个话题有要点和讨论过程,有时候会出现缺少要点或缺少讨论过程。
  2. HTML标记编写错误。Markdown中是需要插入一些HTML标记的,比如需要用不同的class标记成员昵称,需要用特定的html结构去编写“拓展阅读”部分。出问题的要么是忘记插入标记,要么是class用错。
  3. Markdown格式问题。pandoc默认是Strict-Mode,LLM有时候会偷懒少一些空格和空行导致列表没有识别出来。
  4. 语言精炼度。我就不说LLM是不是在偷懒了,这可能是和我提示词有关。提示词是要从聊天记录中汇总出日报,又要求详细,也算是一种五彩斑斓的黑。每个LLM理解的不一样,得看下怎么优化提示词。

上面的问题中遇到1/2/4都是没办法使用的,3的话我还可以手动修复一下。我使用 gemini-2.5-pro 生成过将近60份日报都没有出现过以上的问题。gemini-3-pro-preview 出来后,我幻想着日报可以有“更高的水平”,可能是会挖掘到更多话题,可能是描述话题讨论过程的时候更有逻辑,可能是文风更加吸引人。但没想到的是,gemini3也会出现上面提到的问题,而且是每一个都遇到了。

在琢磨出来为什么之前,还是继续用gemini-2.5-pro吧。我觉得是我提示词的问题,有很多不清晰、有歧义的表达。但走了狗屎运这套提示词和gemini-2.5-pro比较“搭配”所以输出效果最好、最稳定。