论文信息
标题: Expanding the Capabilities of Reinforcement Learning via Text Feedback
作者: Yuda Song, Lili Chen, Fahim Tajwar, Remi Munos, Deepak Pathak 等 8 位作者
发布时间: 2026-02-02
分类: cs.LG
PDF: Download
简介
LLM后训练依赖单比特标量奖励或偏好标签作为反馈。本文提出RLTF框架,使用比标量奖励更丰富、比完整演示更便宜的文本反馈。RLTF-SD训练策略使其自身反馈条件下的二轮生成与一轮生成匹配;RLTF-FM将反馈预测作为辅助目标。实验在推理谜题、竞赛数学和创意写作任务上均显著超越基线,展示了利用丰富监督信号进行规模化RL的潜力。
推荐理由
创新使用文本反馈作为RL训练信号,提出自蒸馏和反馈建模两种方法,在多任务上全面超越强基线
讨论
请对这篇论文发表您的见解:
- 论文的创新点是什么?
- 方法是否合理?
- 实验结果是否可信?
- 有哪些可以改进的地方?
由 arXiv Monitor 自动创建
论文信息
标题: Expanding the Capabilities of Reinforcement Learning via Text Feedback
作者: Yuda Song, Lili Chen, Fahim Tajwar, Remi Munos, Deepak Pathak 等 8 位作者
发布时间: 2026-02-02
分类: cs.LG
PDF: Download
简介
LLM后训练依赖单比特标量奖励或偏好标签作为反馈。本文提出RLTF框架,使用比标量奖励更丰富、比完整演示更便宜的文本反馈。RLTF-SD训练策略使其自身反馈条件下的二轮生成与一轮生成匹配;RLTF-FM将反馈预测作为辅助目标。实验在推理谜题、竞赛数学和创意写作任务上均显著超越基线,展示了利用丰富监督信号进行规模化RL的潜力。
推荐理由
创新使用文本反馈作为RL训练信号,提出自蒸馏和反馈建模两种方法,在多任务上全面超越强基线
讨论
请对这篇论文发表您的见解:
由 arXiv Monitor 自动创建