这项由阿里巴巴集团通义实验室团队完成的研究发表于2026年2月,论文编号为arXiv:2602.06554v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

在人工智能飞速发展的今天,我们经常听到AI智能体能够自主完成复杂任务的新闻。但你是否好奇过,这些智能体是如何学会与环境互动,并在多轮对话中越来越聪明的呢?就像一个初学者逐渐掌握复杂技能一样,AI智能体也需要通过不断的尝试和反馈来提升自己的能力。这个学习过程的核心技术叫做强化学习,可以想象成是AI的"练习场"。

然而,现有的强化学习方法在训练大型语言模型做智能体时,经常遇到一个头疼的问题:训练过程不够稳定,就像学生在学习过程中时而进步时而退步,很难确保最终能达到最优的表现。阿里巴巴通义实验室的研究团队针对这个问题,开发了一种全新的训练方法SeeUPO,它能够让AI智能体在多轮互动中稳定地学习并达到最优表现。

这项研究的创新之处在于,它首次系统性地分析了现有主流强化学习算法在多轮场景下的收敛问题,并提出了一个既不需要额外评估网络又能保证收敛到全局最优解的新算法。研究团队在AppWorld和BFCL v4两个具有挑战性的基准测试中验证了SeeUPO的效果,结果显示该方法相比现有方法能够带来24.1%到54.6%的性能提升。

一、现有方法的困境:像盲人摸象的学习过程

当我们谈论AI智能体的学习时,可以把这个过程比作学习烹饪。传统的强化学习方法就像是在教一个学徒做菜,但这个学徒有个特殊的限制:他无法直接品尝自己做的菜(无法直接评估行动的好坏),只能通过师傅的反馈来判断自己做得如何。

在现有的强化学习框架中,主要有两类方法来解决这个"品尝"问题。第一类方法是训练一个专门的"品尝师"(评估网络),它的工作是预测每个行动的价值。这就像是给学徒配了一个助手,专门负责品尝菜品并给出评分。但这种方法有个明显的缺点:需要额外训练这个"品尝师",不仅增加了计算成本,而且如果"品尝师"的水平不够,就会误导整个学习过程。

第二类方法则采用了群体对比的策略,不需要额外的"品尝师"。这种方法让学徒同时做几道菜,然后通过比较这些菜品来判断哪种做法更好。这就像是通过相对比较来学习,避免了绝对评判的困难。这种方法的代表就是GRAE(群体相对优势估计),它通过采样多个响应并计算群体平均奖励作为基线来估计优势函数。

然而,当这些方法应用到多轮互动场景时,问题就变得复杂了。多轮互动就像是做一顿完整的晚餐,需要按顺序完成开胃菜、主菜和甜点,每一步的成功都会影响最终的用餐体验。在这种情况下,现有的方法往往无法准确判断每一轮行动的真实价值,导致学习过程不稳定,甚至可能学偏了方向。

研究团队通过深入分析发现,主流的强化学习算法可以按照两个维度进行分类:优势估计方法(GAE与GRAE)和策略更新机制(REINFORCE与PPU)。GAE是传统的依赖评估网络的方法,而GRAE是无需评估网络的群体相对方法。REINFORCE是完全基于策略梯度的更新方式,而PPU则是采用重要性采样和裁剪机制的部分在线策略更新方法。

通过系统的理论分析,研究团队发现了一个重要的事实:现有的主流算法存在一个根本性的权衡问题。那些不需要评估网络的方法虽然计算效率高,但在多轮场景下往往无法保证稳定的收敛性。而那些能够保证收敛的方法又往往需要准确的价值函数估计,这在多轮场景下变得极其困难。

二、理论突破:发现收敛性的关键奥秘

为了深入理解这个问题,研究团队进行了大量的理论分析工作,就像侦探破案一样,逐一检验每个算法组合的"作案动机"和"犯案能力"。

首先,他们分析了GRAE与REINFORCE的组合。这种组合在理想情况下表现不错,就像一个经验丰富的厨师能够通过直觉做出美味的菜肴。但这种方法有个严格的限制条件:必须在无折扣的设置下才能保证收敛到全局最优解。折扣因子在强化学习中用来平衡短期收益和长期收益,就像投资时需要考虑短期回报和长期价值一样。当折扣因子不等于1时,GRAE的梯度估计就会产生偏差,导致学习方向出现偏离。

接下来,他们检验了GAE与PPU的组合,这是经典PPO算法的核心。这种组合在理论上能够保证单调改进和收敛性,但前提是价值函数的估计必须足够准确。就像一个品酒师必须有敏锐的味觉才能给出准确的评判一样,GAE方法的成功完全依赖于价值网络的准确性。在多轮互动的复杂场景下,训练一个准确的价值网络变得非常困难。

最有趣的发现来自对GRAE与PPU组合的分析。研究团队发现,这种组合存在一个致命的缺陷:GRAE引入的结构性偏差会破坏PPO原有的单调改进性质。这就像是在精密的钟表机制中加入了一个不匹配的齿轮,整个系统的稳定性都会受到影响。具体来说,GRAE使用群体平均奖励作为基线,但这个基线对于不同状态下的行动并不是一个合适的参考点,导致优势估计出现系统性偏差。

在多轮场景下,这种偏差会被进一步放大。想象一个学生在学习过程中,如果他总是用错误的标准来衡量自己的进步,那么他很可能越学越偏。GRAE的结构性偏差?(st) = V(st) - V(s0)在多轮场景下会随着回合数的增加而累积,最终导致严重的信用分配问题。

通过这些深入的理论分析,研究团队得出了一个重要结论:现有的主流强化学习算法无法在多轮场景下同时实现无评估网络和收敛保证这两个目标。这就像是一个古老的数学难题,看似简单的要求背后隐藏着深刻的理论限制。

三、创新解决方案:SeeUPO的巧妙设计

面对这个理论上的挑战,阿里巴巴通义实验室的研究团队提出了一个创新的解决方案:SeeUPO(序列级顺序更新策略优化)。这个方法的核心思想非常巧妙,它将多轮互动问题转化为一系列顺序执行的多智能体单轮问题,就像把一个复杂的团队项目分解为多个相互协调的个人任务。

SeeUPO的设计基于两个关键洞察。首先,多轮互动的复杂性主要来源于跨轮次的信用分配问题,也就是如何准确判断每一轮的行动对最终结果的贡献。其次,如果我们能够将这个问题转化为多个相对独立的子问题,就可以利用现有的理论框架来保证收敛性。

具体来说,SeeUPO将多轮互动建模为一个虚拟的多智能体系统,其中每一轮对应一个虚拟智能体。这就像是将一个复杂的交响乐演奏分解为多个乐器手的独立演奏,每个乐器手负责自己的部分,但需要与其他乐器手协调配合。在这个框架下,每个虚拟智能体负责特定轮次的决策,同时需要考虑其他智能体的行动对全局结果的影响。

SeeUPO最精妙的设计在于其反向更新顺序。与直觉相反,该方法不是按照执行顺序(第1轮→第2轮→第3轮)来更新策略,而是按照相反的顺序(第3轮→第2轮→第1轮)进行更新。这种设计的灵感来自于动态规划中的后向归纳法,就像下棋时从终局开始倒推最优走法一样。

这种反向更新的好处是显而易见的。当更新第t轮的策略时,所有后续轮次(t+1到T)的策略已经被更新到最优状态。这意味着第t轮的智能体可以基于已知的最优后续策略来做决策,从而实现真正的全局最优化。这就像是在解一个复杂的数学题时,如果我们已经知道了后面几个步骤的最优解,那么当前步骤的最优选择就变得清晰明了。

在技术实现上,SeeUPO采用了HAML(异构智能体镜像学习)框架来保证单调改进性。这个框架为多智能体强化学习提供了理论保证,确保每次更新都能带来性能的提升。同时,SeeUPO使用GRAE进行优势估计,避免了对额外评估网络的依赖。

SeeUPO的另一个重要创新是其局部优势函数的计算方式。该方法通过优势函数分解实现了隐式的回合级信用分配,能够准确评估每一轮行动的真实贡献。这种分解基于重要性采样比率,将全局优势函数分解为各轮次的条件优势函数,从而实现精确的信用分配。

四、实验验证:真刀真枪的性能比拼

为了验证SeeUPO的有效性,研究团队在两个具有挑战性的多轮智能体基准测试上进行了全面的实验比较。这两个测试就像是AI智能体的"高考"和"研究生入学考试",分别检验不同方面的能力。

第一个测试是AppWorld,这是一个可控的应用程序和人员世界,专门用于评估交互式编程智能体。在这个测试中,智能体需要通过多步API交互来完成用户指定的复杂任务,就像一个程序员需要调用各种工具和服务来完成软件开发项目一样。这个测试的特点是任务复杂度高,需要智能体具备强大的规划和执行能力。

第二个测试是BFCL v4,这是伯克利函数调用排行榜的多轮基准测试。这个测试更加注重智能体在多轮对话中的函数调用能力,每轮结束时都会进行基于状态和响应的双重检查,确保智能体不仅能给出正确的答案,还能保持内部状态的一致性。

在实验设置上,研究团队确保了公平的比较环境。所有的基线方法和SeeUPO都使用相同的训练配置,包括相同的学习率、批量大小、裁剪参数等。他们使用了两个不同规模的基础模型:Qwen2.5-14B和Qwen3-14B,这样可以验证方法在不同模型规模下的普适性。

实验结果令人印象深刻。在Qwen3-14B模型上,SeeUPO在两个基准测试上的平均性能分别达到了60.80% avg@4和72.85% pass@4,相比基线方法取得了43.3%到54.6%的相对改进。即使在较小的Qwen2.5-14B模型上,SeeUPO也实现了53.07% avg@4和63.59% pass@4的优异表现,相对改进幅度为24.1%到41.9%。

更重要的是,SeeUPO在训练稳定性方面表现出了显著的优势。在所有测试场景中,SeeUPO都能保持稳定的训练曲线,没有出现灾难性的性能崩溃。相比之下,其他方法如GRPO和GSPO在某些设置下会出现严重的性能下降,就像学生在考试中突然忘记了之前学过的知识一样。

为了进一步验证理论分析的正确性,研究团队还进行了一系列消融实验。这些实验就像是拆解一台精密机器,逐一检验每个部件的作用。结果证实了反向更新顺序的重要性:与随机顺序或正向顺序相比,反向更新确实能够取得最好的性能,这直接验证了后向归纳理论的有效性。

另一个有趣的发现是关于优势归一化策略的影响。研究团队比较了三种不同的归一化方法:无归一化、组级归一化和批级归一化。结果显示,批级归一化不仅能够提供数值稳定性,还能保持理论收敛保证,而组级归一化虽然在某些情况下性能不错,但会破坏收敛性保证。

五、计算效率分析:性能提升的代价

当然,任何新方法都需要考虑其计算成本。SeeUPO由于采用了回合级顺序更新机制和优势修正项计算,确实会带来额外的计算开销。研究团队诚实地报告了这一点:SeeUPO的训练时间大约是基线方法的1.5倍。

但这个额外成本是值得的。首先,SeeUPO能够更快地收敛到更好的性能水平,这意味着虽然每个训练步骤需要更多时间,但总的训练时间可能反而更短。其次,SeeUPO与其他无评估网络方法(GRPO和GSPO)使用相同的计算资源,只需要8个GPU,而传统的PPO方法需要16个GPU来训练额外的价值网络。

更重要的是,SeeUPO避免了训练失败的风险。在机器学习中,训练失败意味着前期投入的大量计算资源完全浪费,就像烹饪时如果火候控制不当,整道菜就要重新开始。SeeUPO的稳定训练特性能够避免这种风险,从长期来看反而更加经济高效。

六、理论贡献的深远意义

SeeUPO不仅仅是一个实用的算法,更重要的是它为强化学习理论做出了重要贡献。该研究首次系统性地分析了主流强化学习算法在多轮场景下的收敛性问题,揭示了一个此前被忽视的理论空白。

研究团队证明了在多轮上下文赌博机设置下,反向更新顺序能够保证收敛到全局最优策略。这个理论结果具有重要的指导意义,不仅解释了为什么SeeUPO有效,也为未来的算法设计提供了新的思路。

另一个重要的理论贡献是对优势估计偏差的深入分析。研究团队证明了GRAE在MDP设置下的结构性偏差会破坏PPO的单调改进性质,这解释了为什么现有的GRAE-PPU组合方法在多轮场景下表现不佳。这种理论洞察对于理解和改进现有方法具有重要价值。

SeeUPO的成功也验证了将复杂问题分解为简单子问题的有效性。这种分解思想在计算机科学中被广泛应用,但在强化学习的多轮场景下还是第一次得到如此系统的验证。这为处理其他复杂的序列决策问题提供了新的范式。

说到底,SeeUPO代表了强化学习理论和实践的一次重要进步。它不仅解决了一个具体的技术问题,更重要的是为如何在复杂场景下设计有理论保证的强化学习算法提供了新的思路。

随着大型语言模型和AI智能体技术的快速发展,多轮互动能力变得越来越重要。SeeUPO的成功表明,通过深入的理论分析和巧妙的算法设计,我们能够让AI智能体在复杂的多轮任务中表现得更加稳定和高效。这对于构建真正实用的AI助手和智能系统具有重要意义。

当然,这项研究也存在一些限制。HAML框架在理论上要求异构策略,而在大型语言模型的实际应用中,不同轮次通常共享参数。虽然研究团队认为大型模型的参数空间足够大,能够支持不同轮次的功能分化,但这个假设在未来仍需要更多的验证。

另外,当前的讨论主要基于下一个token预测的主流范式,但随着技术的发展,未来可能会出现多token预测或其他新的架构。SeeUPO的基本思想是否能够适应这些新的范式,还需要进一步的研究。

总的来说,SeeUPO为AI智能体的训练开辟了新的道路,让我们离构建真正智能、稳定的AI系统又近了一步。这项研究不仅具有immediate的实用价值,更为未来的研究奠定了坚实的理论基础。

Q&A

Q1:SeeUPO是什么?

A:SeeUPO是阿里巴巴通义实验室开发的一种新型强化学习算法,专门用于训练大型语言模型做智能体。它的核心创新是将多轮互动问题转化为多智能体问题,并采用反向更新顺序来保证训练稳定性和收敛到最优解。

Q2:为什么SeeUPO比现有方法更好?

A:现有的强化学习方法在多轮场景下存在一个根本问题:无法同时实现不需要额外评估网络和保证收敛性。SeeUPO通过巧妙的算法设计解决了这个问题,在实验中相比基线方法取得了24.1%到54.6%的性能提升,同时保持了训练的稳定性。

Q3:SeeUPO的反向更新顺序有什么特别之处?

A:SeeUPO按照执行的反向顺序更新策略,即从最后一轮开始向前更新。这样设计的好处是,当更新某一轮时,所有后续轮次都已经是最优状态,使得当前轮次可以基于最优的后续策略做决策,从而实现真正的全局优化。