UCB算法能否优化LLM Agent的SKILL选择

有个叫“多臂老虎机”的算法框架，对应的场景就是遇到三五台老虎机，但不去玩就不知道每台老虎机的胜率和期望收益。这时候往往就面临一种探索与利用之间权衡的困境。

利用(Exploitation)好比之前在3号老虎机赢过钱，为了稳妥就一直玩3号，但实际上可能5号才是收益最高的老虎机。
探索(Exploration)就是为了找到哪个老虎机收益最高，所以每一台都玩了很多回，这样相当于为了探索投了不少钱给收益低的老虎机。

在“多臂老虎机”算法框架下有个比较有名但实现起来比较简单的算法，叫做 Upper Confidence Bound。体现出来的是一种“乐观地面对未知”的精神。简单点说，除了统计每个老虎机的收益均值，还会加上一个与尝试次数相关的“乐观加分”，每次尝试只选总分(加了乐观分)的选项。这样就能比较快能找到实际均值最高的老虎机。

UCB算法目前广泛用于需要动态在线决策的场景，比如投放广告、一些药物试验、各式各样的推荐系统等。

所以我有个想法，UCB是不是也可以用在LLM Agent上呢？比如提示词或者SKILL的优化。我们可能都会对任务的交付成果有一定预期，能把评判标准写下来。让Agent自己演化不同版本的SKILL(老虎机)，每次交付后根据用户给定的评判标准打分并加上乐观分。而接下来调用哪份SKILL就根据UCB算法来抉择。除了提示词，各种调用的工具也一样。有时候同一个目标能有非常多的工具可以调用，但我们要么写死，要么让AI瞎选，或许都不是最好方式，说不定UCB是一种代价较低但能自动提升Agent能力的思路。

但要实现UCB算法，最大的问题是如何定量分析Reward。最简单就是让LLM自评，有些场景下可以和用户进行交互式反馈，又或者相结合LLM有自己的评价，也会根据用户反馈来微调Reward。