对LLM来说“吐字速度”可能是后面主要优化和提升的方向。最近似乎也常看见相关的信息,比如谁家模型能跑到500tps之类的。
虽然现在大语言模型的“吐字速度”我们基本上都习惯了,处于一种人眼看不过来但能看到一些信息的程度,但tps变高一定是好事情。最直观的就是Agent处理任务的速度更快更高效了。
简单想了下,100tps的量级提升到500tps可能还达不到”质变“的程度。但如果tps能达到平时编译程序的日志打印的速度,比方说10万tokens每秒,那可能就是另一种体验了。
tps变高后如果不计代价只考虑任务完成质量和效率,Agent的工作模式可能也会发生变化,Agent生成代码的速度比运行代码的速度还要快的时候,可能原来编一个脚本跑出错了再改再跑的方式就变成了一次性生成多个脚本覆盖各种可能出现的问题,并行执行之后选择最好的结果。
“帮我写一个自包含的单页HTML页面”可能就不止是写一个而是一次性写十个出来让用户挑选。
当然,上面说的现在也可以让Agent总是并发来达到类似效果,但tps确实是一种瓶颈。
对用户来说肯定希望用上既聪明、吐字又快、还便宜的模型,这个不可能三角后面会发展到什么程度我还是比较期待的。