2026美加墨世界杯中国官方网页版

你的位置：2026美加墨世界杯中国官方网页版 > 2026世界杯直播app > 世界杯(中国)官网 ICML 2026 | Agentic强化学习西席的信息自锁问题

世界杯(中国)官网 ICML 2026 | Agentic强化学习西席的信息自锁问题

发布日期：2026-06-19 14:49 点击次数：52

本文作家邹德誉，香港汉文大学筹画机科学与工程系博士生，本科毕业于中国科学时刻大学。谋划处所为大说话模子智能体、强化学习与主动推理，存眷模子在信息不完备的多轮交互中如何主动获取、更新并阁下信念。相干责任发表于 ICLR 2026 Oral 与 ICML 2026。

跟着大说话模子渐渐从「单轮问答」走向「真实环境中的执续交互」，LLM agents 正在被用于越来越复杂的 agentic applications：deep research、coding、computer use、customer service、medical inquiry、troubleshooting 等等。这些任务和传统问答最大的不同在于：任务所需的信息经常不是一最先就完整给出的。Agent 必须在不笃定气象下主动采选步履，举例发问、搜索、调用用具、检查反映，并在多轮交互中阻抑更新我方对任务气象的相识。

这类才智不错玄虚为 active reasoning：在信息不完备的环境中，agent 不单是 “回答问题”，而是需要主动获取新信息，并把新信息确切整合进后续决策和推理中。

根据过往在许多推理任务上的告捷，强化学习似乎应该很合乎西席这类才智。只消终末任务告捷就给正奖励，失败就不给奖励，模子不就应该缓缓学会更好的交互战略吗？

但事情并莫得这样浅近。与此前 T3 （Reducing Belief Deviation in Reinforcement Learning for Active Reasoning of LLM agents | ICLR-2026 Oral）对多轮推理中 belief deviation 和 belief-trapped trajectory 的分析相呼应，香港汉文大学、加州大学圣地亚哥分校、佐治亚理工学院、字节卓越的谋划者进一步发现发现，在 active reasoning 场景中，outcome-based RL 并不一定会自然西席出更善于交互的 agent。相背，模子可能插足一种低信息量的西席模式：它反复实施无效操作，过早依赖运行判断，忽略用户或环境复返的新笔据；致使在最终 reward 有所擢升时，背后的步履也未必确切变得更会主动获取和使用信息。

如若说 T3 更存眷 agent 在多轮交互中如何渐渐偏离正确 belief，那么这篇论文《On Information Self-Locking in Reinforcement Learning for Active Reasoning of LLM Agents》系统分析了这一表象背后的原因：在 active reasoning 中，agent 的进展同期依赖于两个相互耦合的才智：一方面是采纳什么动作来获取信息，另一方面是如何把获取到的信息整合进后续判断。outcome reward 很难自动为这两个相互依赖的环节提供明晰 credit：现时者无法带来有用反映，后者就枯竭可学习的笔据；而当后者无法正确收受反映时，前者的价值又很难通过最终 reward 得到正确 credit。

谋划者将这种西席失败机制称为：

Information Self-Locking，信息自锁。

基于这一不雅察，作家进一步提议了一个浅近而有用的次序：AREW（Action-Selection & Belief-Tracking Advantage Reweighting），通过轻量的处所性反映从头分派 trajectory 里面的 credit，从而缓解 information self-locking。

论文已被 ICML 2026 接受。

论文标题：On Information Self-Locking in Reinforcement Learning for Active Reasoning of LLM Agents

边幅代码：https://github.com/unimpor/T3

论文勾通：https://arxiv.org/abs/2603.12109

小序：为什么 RL 西席出来的 agent 如故不会主动推理？

在许多 LLM agent 任务中，模子并不成一最先就看到完整谜底。它必须通过多轮交互渐渐贴近真实任务气象。

比如：

在医疗问诊中，agent 需要主动谋划环节症状，而不是近似问世俗的问题；

在用户偏好揣测中，agent 需要筹办有离别度的问题，渐渐识别用户确切的偏好；

在客服场景中，agent 需要决定什么时辰发音信、什么时辰调用用具、什么时辰提示用户完成某些操作。

这些任务有一个共同结构：agent 的进展同期取决于两件事。

第一，它要知谈下一步该问什么、查什么、调用什么用具。作家称为 Action Selection（AS）。

第二，它要能把得到的新反映收受进我方的里面相识，确切更新对任务气象的判断。作家称为 Belief Tracking（BT）。

如若 AS 很弱，agent 就拿不到有用信息；如若 BT 很弱，即使拿到了有用信息，模子也不会用。

更环节的是，这两者不是零丁的，而是强耦合的：

好的步履只好在反映被正确使用时，才会在最终 reward 中体现价值；好的 belief update 又依赖于前边步履带来了填塞有信息量的反映。

这就带来了 active reasoning 中一个罕见守密的 credit assignment 问题：outcome reward 只在终末出现，它很难判断到底是 “问得不好”，如故 “问到了但没收受好”。

论文第一页的图给出了这一机制的举座直观。

图：原文 Figure 1。Vanilla outcome RL 下，agent 可能插足 self-locking：informative action 的价值被 weak BT 袒护，导致 credit assignment 错位；AREW 通过 directional critiques 从头分派 trajectory 里面 credit，使 AS 和 BT 从头对皆。

Information Self-Locking：西席信号被 “锁住”

作家领先发现了一个反直观表象。

在 outcome-based RL 中，reward 可能照实飞腾了，但这并不虞味着模子确切学会了主动获取信息。为了解耦不雅察这小数，论文先在两个可控的 active reasoning 任务中作念分析：Preference Estimation 要求 agent 通过比较问题渐渐揣测用户荫藏偏好，MediQ 则要求 agent 通插手诊病东谈主问题渐渐识别正确会诊。二者都需要 agent 一边主动获取笔据，一边更新对荫藏任务气象的判断，因此很合乎用来不雅察 AS 和 BT 的西席动态。

论文在这两类任务中追踪了三个量：

Final reward：最终任务进展；

AS proxy：agent 的步履是否带来有信息量的反映；

BT proxy：agent 是否把反映正确收受进 belief。

驱散自满，reward 不错作念有限的飞腾，但 AS 和 BT 并莫得同步擢升。也等于说，模子名义上变强了，但它并莫得确切更会 “获取信息” 和 “使用信息”。

图：原文 Figure 2。左半部分展示西席经由中 reward、AS、BT 的变化：蓝线默示 agent 作念出有信息量步履的比例，橙线默示 agent 是否有用收受反映并更新 belief，绿线默示最终任务告捷率。不错看到，即使告捷率随西席有一些有限的飞腾，AS 和 BT 也可能停滞致使退化。右半部分进一步固定调换的 action-selection 序列：横轴默示一条轨迹中有若干次有信息量的步履，浅蓝色柱子默示这类轨迹出现的频率；蓝线默示由 agent 自身 BT 处理这些反映时的告捷率，橙线默示由 stronger BT 处理调换反映时的告捷率。驱散自满，只好当 BT 填塞强时，informative AS 才会和最终 reward 变成更强正相干。

这张图的右半部分揭示了 AREW 的中枢 insight：

Weak BT 会遮挡 informative AS 的孝敬。

假定 agent 提议了一个很有价值的问题，环境也复返了环节笔据。但如若模子莫得把这条笔据收受进后续推理，最终谜底仍然错了。此时，outcome reward 会告诉 RL：“这条 trajectory 失败了。”

问题在于，RL 并不知谈失败的原因是 belief update 作念得差，而不是 action selection 作念得差。于是，阿谁本来很有价值的问题也可能得不到正向 credit。

反过来亦然同样。

如若 AS 变得保守，模子老是问一些低信息量的问题，BT 就拿不到有价值的反映。莫得填塞信息流，belief tracking 也很难学好。久而久之，RL 可能反而饱读动模子依赖运行判断或非交互式 shortcut，而不是认真阁下交互反映（详宥恕文 Section 2.3 observation 3 ｜ Fig. 6a）。

这等于 information self-locking：

AS 弱导致 BT 没笔据可学；BT 弱导致 AS 的价值无法被 reward 识别。二者相互驱散，使模子卡在低信息量西席区域。

从 Sef-Locking 看 active reasoning 的西席瓶颈

前边提到，论文将 active reasoning 中的 agent 步履理解为两个相互轮换的经由：

Action Selection（AS）：根据现时 belief 采纳下一步环境交互动作，开云2026世界杯官方授权平台举例发问、搜索、调用用具；

Belief Tracking（BT）：根据新反映更新里面任务相识，并决定后续如何步履。

这个理解指出 active reasoning 的难点不单是 sparse reward，而是 sparse outcome reward 下两个才智的耦合学习失败。

通俗 outcome RL 只看到最终成败，很难把 reward 正确分派给 trajectory 中不同的 AS 和 BT 决策。驱散是：

如若 BT 差，好的 AS 步履也无法滚动为高 reward；

如若 AS 差，BT 莫得填塞信息不错收受；

如若二者都处于低水平，梯度信号会同期变弱；

模子可能弥远停留在低信息量区域，难以靠 outcome reward 自行逃离。

论文在表面部分把这个区域边幅化为 self-locking regime：AS informativeness 低，同期 BT capability 也低。在这个区域中，outcome-gradient 对 AS 和 BT 的擢升信号都会被现时才智水平驱散，因此西席动态很难自然逃出。

为了更直不雅地评释注解这小数，论文 appendix 给出了一个二维相图：横轴默示 AS informativeness，纵轴默示 BT capability。

图：原文 Figure 8。AS-BT phase space 中的 learning dynamics。左图默示 outcome-only RL：在低 AS、低 BT 的 locking regime 内，更新处所很弱，agent 难以逃离；右图默示 AREW：directional critiques 在 locking regime 内引入特地更新处所，为模子创造逃离低信息量区域的旅途。这张图玄虚了 AREW 的表面直观：作家不需要实足重写 RL，也不需要精准 dense reward；只需要在 AS/BT 的环节局部决策上提供一些处所性信号，就不错转变低信息量区域内的 effective update field。

AREW：用 weak directional critiques 从头分派 trajectory 里面 credit

既然 SeL 的中枢问题在于 outcome reward 难以在 AS 和 BT 之间提供明晰的学习信号，一个获胜的决策，是为每个中间决策都筹办精准的 dense supervision：举例准确判断某个问题到底孝敬了若干信息，或者某次 belief update 到底应当得回若干中间奖励。可是，在长程 agentic tasks 中，这类 calibrated intermediate reward 经常不成高兴得回。

红运的是，agentic active reasoning 场景经常会自然显现一些更粗粒度、但更容易获取的处所性会诊信号：举例，一个 action 是否让环境或用户复返了新的有用笔据；一次 belief update 是否把新不雅察朝着更接近真实任务气象的处所收受进去。

AREW 的起点恰是阁下这些 uncalibrated directional signals。它并不试图为每一步构造精准的中间奖励，也不需要西席特地的 dense reward model，而是把这些处所性信号行动 weak directional critiques，注入到 policy-gradient 更新中，对 trajectory 里面的 stepwise advantage 进行从头分派。

换句话说，AREW 保留正本的 outcome reward，只是在 actor update 时把更多 credit 分派给被正向 critique 的 AS/BT 决策，并减轻被负向 critique 的决策。通过这种 reward-preserving 的 credit reallocation，AREW 在 SeL regime 中从头提供非退化的局部学习信号，使 AS 和 BT 有契机共同改善并逃离低信息量西席区域。

在终了上，AREW 将一条 trajectory 中被正向 critique 的法子聚合记为 positive steps，被负向 critique 的法子聚合记为 negative steps。然后构造一个 intra-trajectory likelihood margin：加多 positive steps 的 log-probability，相对裁汰 negative steps 的 log-probability。

经过推导（详宥恕文 Section 4.2），最终落实到 policy gradient 上，等于一个罕见轻量的 advantage reweighting：

对正本每一步的 advantage 加上一个由 critique 决定的局部修正项。

直不雅来说，2026美加墨世界杯AREW 作念的是：

不转变最终 outcome reward；

不转变 critic target；

不重写 PPO / GRPO / GSPO 的中枢框架；

只是在 actor update 时，把 trajectory 里面的 credit 从负向法子从头分派给正向法子。

这使得 AREW 具有很强的可集成性：它不错行动一个表层 credit assignment 修正机制，插入现存 outcome-based RL pipeline。

更进击的是，AREW 不要求 critique 竣工。表面分析（原文 proposition 4.1）标明，只消 directional critiques 的 weighted accuracy 好于立时，就不错提供有用的一阶更正信号。后头的推行也考据了这小数：即使 critique 有噪声，AREW 仍然经常优于 vanilla RL。

推行竖立：4 个交互范畴，9 个 active reasoning 任务 / 竖立

论文在多个 agentic active reasoning 场景中系统评估 AREW。

举座包括 4 个交互范畴：

1. Preference Estimation

Agent 需要通过多轮 pairwise comparison 渐渐揣测用户荫藏偏好向量。该范畴包含 PE-G 和 PE-F 不同竖立。AREW 在这里领受的 AS 信号罕见直不雅：如若两部被比较的 item 在不同属性维度上存在 trade-off，而不是一方在整个维度上都显露占优，那么这个 comparison 更可能带来有信息量的偏好反映；BT 信号则看 agent 更新后的偏好揣测是否比上一轮更接近真实偏好向量。

2. Medical Diagnosis

在 MediQ 中，agent 需要基于 clinical vignette 和候选假定，主动谋划病东谈主会诊相干问题，并渐渐提高正确会诊的 belief。AREW 的 AS 信号来自 patient feedback 是否果真提供了新的会诊信息；BT 信号则检查模子是否根据有用反映合理更新了不同会诊假定的置信度，举例是否让正确假定相对其他候选更占优，或者在无信息反映下保执 belief 不被作假扰动。

3. Troubleshooting

在 FloDial 中，agent 需要通过 yes/no diagnostic questions 排查用户问题，并从候选评释注解或惩办决策中识别正确项。AREW 在这里把用户反映行动轻量处所性信号：如若问题掷中了可会诊信息并得到有用 Yes/No 反映，就评释该 action 更有价值；如若只得到 Unknown，则评释该问题莫得匹配到有用会诊足迹。BT 侧则进一步检查 agent 是否在得回有用反映后提高了正确故障候选的置信度；如若反映是 Unknown，则更但愿 belief 保执稳重，而不是假造漂移。

4. Customer Service / Tool Use

在 tau2-bench-Telecom 中，agent 需要通过多轮对话和用具调用完成真实感更强的 telecom customer-service 任务。AREW 的竖立在本文后头会被单独提到。

在前三个范畴中，论文评估了 7 个 active reasoning tasks；在 tau2-bench 上进一步评估 solo setting 和 standard dual-control setting，统统变成 9 个任务 / 竖立。整个任务都只提供结尾监督。

主要模子包括 Qwen2.5-7B-Instruct 和 LLaMA-3.1-8B-Instruct。RL 算法包括 PPO，并进一步膨胀到 GRPO 和 GSPO。

主驱散：AREW 在简直整个竖立下稳重优于 vanilla PPO

论文领先在前三个范畴的 7 个任务上论述最终平均 outcome reward。

表：原文 Table 1。AREW 在 Preference Estimation、Medical Diagnosis、Troubleshooting 三个范畴的 7 个 agentic active reasoning tasks 上，与 direct inference 和 vanilla PPO 进行比较。

这里，AREW-AS only 默示仅使用 action-selection 侧的 directional critiques 来重加权动作决策的 advantage，而 AREW-AS+BT 则同期使用 action-selection 和 belief-tracking 两侧的 critiques，对 “获取信息” 和 “收受信息” 两个环节的 credit 进行谐和修正。

主驱散罕见明晰：

在 28 个 PPO 评估竖立中，AREW 在 27 个竖立中显贵优于 vanilla PPO。

这些驱散评释，AREW 的收益并不是某个模子或某个数据集上的无意表象，而是在不同模子族和不同 active reasoning 任务中都能稳重确认作用。

西席动态：AREW 不单是提高最终分数，也转变了学习经由

除了最终驱散，论文还展示了西席经由中的 reward dynamics。

图：原文 Figure 3。Qwen2.5-7B-Instruct 上，vanilla PPO、AREW-AS only、AREW-AS+BT 在 PE、MediQ、FloDial-Hard 上的 reward training dynamics。

这张图不错看到三类典型表象。

在一些任务中，vanilla PPO 简直无法执续擢升 reward；而 AREW 不错显露冲破这种停滞，并执续提高 performance。

在一些 vanilla PPO 本来也能稳重擢升的任务中，AREW 仍然进展出更快的敛迹速率和更高的最终 reward。

即使某些情况下 reward curve 看起来差距莫得那么大，AREW 也会在 AS 和 BT 步履层面带来更明晰的更正。也等于说，AREW 不单是 “刷高分”，而是在转变模子获取和使用信息的方式。

AS/BT 步履分析：AREW 果真让 agent 更会获取和收受信息

为了考据 AREW 的更恰是否来自 active reasoning 才智自己，论文进一步分析了 AS 和 BT proxy。

图：原文 Figure 4。AREW 对 AS 和 BT capability proxies 的影响。

这张图最值得注见解地方，不单是 AREW-AS+BT 后果最佳，还有：AREW-AS only 仍是不错同期改善 AS 和 BT。

名义上看，AS-only 只对 action-selection 侧进行 advantage reweighting，也等于只饱读动模子采纳更有信息量的动作，并莫得获胜给 belief-tracking 决策特地加 credit。但推行驱散自满，只是改善信息获取，BT 也会随之变好。

这正巧评释 AS 和 BT 并不是两个相互零丁的才智。更好的 AS 会转变 agent 后续看到的 observation stream：当环境或用户复返的反映更有信息量，belief tracking 就更容易从这些反映中学习和更新。换句话说，即使莫得获胜优化 BT，只消 AS 提供了更高质地的信息流，BT 的学习条目也会被改善。

自然，AS-only 并不成实足替代 BT-side correction。Figure 4 中，AREW-AS+BT 在深广情况下会进一步擢升 BT proxy，评释当模子不仅被饱读动 “获取更有用的信息”，也被饱读动 “把这些信息正确收受进 belief” 时，AS 和 BT 更容易变成正向轮回。

因此，AREW 的收益不是浅近来自某个单点模块的增强，而是来自对 AS-BT coupling 的侵犯。只修正 AS 仍是马虎带动 BT，而同期修正 AS 和 BT 则不错更充分地冲破 information self-locking。

不同 RL 算法有用性

一个自然问题是：AREW 是否只是对 PPO 有用？

论文进一步在 GRPO 和 GSPO 上作念了推行。驱散自满，即使使用 group-based RL variants，self-locking 仍然可能存在；只是加多 rollout 采样并不成从根蒂上惩办 AS/BT 的耦合 credit assignment 问题。而 AREW 在 GRPO 和 GSPO 下也能擢升 final performance、AS 和 BT proxies。

图：原文 Figure 6 (b) (c)。

真场景应用 customer-service agent：tau2-bench 上的驱散

除了 controlled domains，论文还在更复杂的 tau2-bench-Telecom 上评估 AREW。

tau2-bench 的挑战在于，agent 不单是问答，还需要在多轮 customer-service 场景中进行用具调用、与用户互助，并完成真实感更强的工作任务。

论文领先计划 no-user solo setting。在这个 setting 中，Qwen2.5-7B agent 获胜限度任务惩办经由。AREW 使用 benchmark 自带的信号构造 critiques：

负向 critique 主要来自运行经由中的显露失败，举例用具调用格式作假、用具实施失败、近似实施调换动作等；

正向 critique 则来自任务评估器提供的进展信号，举例现时轨迹是否新完成了某个预期动作，或是否比上一阶段更接近任务完成。

图：原文 Figure 5。Tau2Bench-Telecom solo setting 中，AREW 擢升 reward，同期显贵减少 tool execution errors；而况这种擢升不是靠更长回复或更多交互轮数换来的。

Figure 5 展示了一个实用驱散：AREW 不单是提高 reward，还显贵减少 tool execution errors，同期 response tokens 更少，interaction turns 基本可比。这评释 AREW 的收益不是浅近来自 “说更多” 或 “多试几轮”，而是来自更有用的 credit assignment。

论文进一步计划 standard dual-control setting。在这个 setting 中，Qwen2.5-14B agent 需要和 GPT-4o-simulated user 互助。这里存在一个更复杂的 credit assignment 问题：任务进展可能来自 agent 我刚直确使用用具，也可能来自 agent 提示用户完成 user-side repair actions。

图：原文 Figure 7。Tau2Bench-Telecom standard dual-control setting 中，AREW 比较 vanilla PPO 将 reward 从约 0.20 擢升到约 0.50，同期减少对 user-side operation shortcut 的依赖，并保执更多 assistant-side tool-use 步履。

在 vanilla PPO 中，模子容易走向一种 shortcut：更多依赖用户侧操作来完成部分任务，而 assistant 我方的 tool-use 步履反而着落。这固然能惩办一部分样本，但会使西席偏向最容易得回 reward 的 progress channel，而不是 benchmark 确切但愿评估的 assistant-side tool-use 才智。

AREW 则通过 directional critiques 给有用的 assistant-side tool decisions 更多 credit，从而减少对 user-side repair 的过度依赖，把优化压力合理分派到 agent 我方的有用用具使用步履上。

这个驱散评释，AREW 也不错用于更接近真实 agentic application 的长程用具使用环境。

Robustness：AREW 不依赖竣工 critiques

AREW 使用的是 weak directional critiques，一个进击问题是：如若 critique 有噪声如何办？

论文通过立时翻转 stepwise critiques 来评估鲁棒性。

表：原文 Table 2。不同 critique perturbation ratio 下，AREW 的最终进展。即使 critique 被较强扰动，AREW 经常仍然保执与 vanilla baseline 竞争致使更好的进展。

驱散自满，跟着扰动比例加多，AREW 的性能会逐渐着落，这是合理的。但在较大范围内，AREW 仍然优于或接近 vanilla baseline，并莫得因为 critique 不竣工而崩溃。

论文 appendix 还进一步分析了更结构化的 critique destruction，举例只保留 AS 或 BT critique、只保留前 40% 或后 40% 的 critique、用常数 label 填补缺失 critique 等。举座论断一致：AREW 对多种 critique 噪声和破损方式都具有一定鲁棒性。

这也酬谢了一个本色部署中的环节担忧：在复杂 agentic tasks 中，咱们很讲求到精准的 dense supervision，但相对容易得回一些局部处所性信号。AREW 恰是为这种 supervision regime 筹办的。

这项责任的意旨与启示

这篇责任给 RL for agentic active reasoning 中一个常见但容易被漠视的问题提供了机制评释注解。已往咱们常说，agent 在多轮任务中进展不好，是因为 reward sparse、exploration hard、tool use complicated。但 AREW 指出，在 active reasoning 中还有一个更结构性的艰巨：

龙虎棋牌2026世界杯官方最新版

获取信息和使用信息是耦合学习的。Outcome reward 很难自然把这两个才智分开 credit。

这会导致一种自锁：

BT 弱时，好的 AS 步履无法得回应有 credit；

AS 弱时，BT 莫得填塞笔据不错学习；

两者一齐弱时，outcome-gradient 对二者的擢升信号都很弱；

模子因此停留在低信息量 interaction pattern 中。

AREW 的念念路也很获胜：既然最终 reward 很难自动分派 credit，就阁下 active reasoning 中自然存在的局部会诊信号，把 trajectory 里面的 credit 从头分派给更有信息价值的决策。

这带来几个 takeaway：

第一，active reasoning 的西席不成只看最终 reward。 Reward 飞腾不等于模子果真学会了更好地交互。咱们需要存眷 agent 是否更会主动获取信息，以及是否更会整合新笔据。

第二，LLM agent 的西席失败有时不是单一才智不及，而是多个才智之间的耦合失效。 AS 和 BT 单独看都进击，但确切的问题发生在二者相互依赖、相互 masking 的西席动态中。

第三，弱监督也不错很有用。 AREW 不要求东谈主工标注精准中间奖励，也不需要西席 dense reward model。只消能判断某些法子节略应该饱读动如故禁锢，就不错显贵改善 credit assignment。

第四，这类次序可能对更复杂的 agentic systems 有启发。在 Deep Research、coding、customer service、computer use 等任务中，agent 都需要阻抑决定 “下一步获取什么信息” 以及 “如何收受新信息”。这恰是 AS/BT coupling 最容易出现的地方。

迎接查阅论文与代码以获取更多时刻细节。

如若您合计这篇责任有匡助，迎接存眷与援用。

世界杯(中国)官网

上一篇：世界杯(中国)官网梅西、姆巴佩、哈兰德: 足球的三种谜底

下一篇：没有了