上个月我说过“日报的模型 gemini-2.5-pro 最好使。” → 微博正文
我当时是测过很多很多模型,只从体验上得出了这个结论,但没有披露过其他模型为什么不好,也没说过遇到了哪些问题。
日报聚合的工作流是「提示词+聊天记录→Markdown→html→PDF」。其中Markdown是LLM输出,html是pandoc来转换。
遇到过的问题:
- 没有严格按照提示词聚合话题。每个话题有要点和讨论过程,有时候会出现缺少要点或缺少讨论过程。
- HTML标记编写错误。Markdown中是需要插入一些HTML标记的,比如需要用不同的class标记成员昵称,需要用特定的html结构去编写“拓展阅读”部分。出问题的要么是忘记插入标记,要么是class用错。
- Markdown格式问题。pandoc默认是Strict-Mode,LLM有时候会偷懒少一些空格和空行导致列表没有识别出来。
- 语言精炼度。我就不说LLM是不是在偷懒了,这可能是和我提示词有关。提示词是要从聊天记录中汇总出日报,又要求详细,也算是一种五彩斑斓的黑。每个LLM理解的不一样,得看下怎么优化提示词。
上面的问题中遇到1/2/4都是没办法使用的,3的话我还可以手动修复一下。我使用 gemini-2.5-pro 生成过将近60份日报都没有出现过以上的问题。gemini-3-pro-preview 出来后,我幻想着日报可以有“更高的水平”,可能是会挖掘到更多话题,可能是描述话题讨论过程的时候更有逻辑,可能是文风更加吸引人。但没想到的是,gemini3也会出现上面提到的问题,而且是每一个都遇到了。
在琢磨出来为什么之前,还是继续用gemini-2.5-pro吧。我觉得是我提示词的问题,有很多不清晰、有歧义的表达。但走了狗屎运这套提示词和gemini-2.5-pro比较“搭配”所以输出效果最好、最稳定。