← 返回首页

UCB算法能否优化LLM Agent的SKILL选择

发布时间: 2026-05-03 17:50(北京时间)

摘要: 作者介绍多臂老虎机问题中的UCB(上置信界)算法,该算法通过添加与尝试次数相关的乐观加分来平衡探索与利用,常用于广告投放、推荐系统等在线决策场景。提出将其应用于LLM Agent的SKILL或提示词自动优化:将不同版本的SKILL视为老虎机,每次调用后根据用户标准评分并更新乐观分,由UCB决定下次调用哪个SKILL。关键在于奖励的定量评估,可借助LLM自评或用户反馈实现。整体语调冷静、分析性强,具有前瞻性。

标签: UCB算法, 多臂老虎机, LLM Agent, 提示词优化, 在线决策, 技术思辨, 结构化思考, 前瞻

字数: 762

原文链接: /7402396589/QDFB7d00a

有个叫“多臂老虎机”的算法框架,对应的场景就是遇到三五台老虎机,但不去玩就不知道每台老虎机的胜率和期望收益。这时候往往就面临一种探索与利用之间权衡的困境。

利用(Exploitation)好比之前在3号老虎机赢过钱,为了稳妥就一直玩3号,但实际上可能5号才是收益最高的老虎机。
探索(Exploration)就是为了找到哪个老虎机收益最高,所以每一台都玩了很多回,这样相当于为了探索投了不少钱给收益低的老虎机。

在“多臂老虎机”算法框架下有个比较有名但实现起来比较简单的算法,叫做 Upper Confidence Bound。体现出来的是一种“乐观地面对未知”的精神。简单点说,除了统计每个老虎机的收益均值,还会加上一个与尝试次数相关的“乐观加分”,每次尝试只选总分(加了乐观分)的选项。这样就能比较快能找到实际均值最高的老虎机。

UCB算法目前广泛用于需要动态在线决策的场景,比如投放广告、一些药物试验、各式各样的推荐系统等。

所以我有个想法,UCB是不是也可以用在LLM Agent上呢?比如提示词或者SKILL的优化。我们可能都会对任务的交付成果有一定预期,能把评判标准写下来。让Agent自己演化不同版本的SKILL(老虎机),每次交付后根据用户给定的评判标准打分并加上乐观分。而接下来调用哪份SKILL就根据UCB算法来抉择。除了提示词,各种调用的工具也一样。有时候同一个目标能有非常多的工具可以调用,但我们要么写死,要么让AI瞎选,或许都不是最好方式,说不定UCB是一种代价较低但能自动提升Agent能力的思路。

但要实现UCB算法,最大的问题是如何定量分析Reward。最简单就是让LLM自评,有些场景下可以和用户进行交互式反馈,又或者相结合LLM有自己的评价,也会根据用户反馈来微调Reward。