[论文讨论] Expanding the Capabilities of Reinforcement Learning via Text Feedback

## 论文信息

**标题**: [Expanding the Capabilities of Reinforcement Learning via Text Feedback](https://arxiv.org/abs/2602.02482v1)
**作者**: Yuda Song, Lili Chen, Fahim Tajwar, Remi Munos, Deepak Pathak 等 8 位作者
**发布时间**: 2026-02-02
**分类**: cs.LG
**PDF**: [Download](https://arxiv.org/pdf/2602.02482v1.pdf)

## 简介

LLM后训练依赖单比特标量奖励或偏好标签作为反馈。本文提出RLTF框架，使用比标量奖励更丰富、比完整演示更便宜的文本反馈。RLTF-SD训练策略使其自身反馈条件下的二轮生成与一轮生成匹配；RLTF-FM将反馈预测作为辅助目标。实验在推理谜题、竞赛数学和创意写作任务上均显著超越基线，展示了利用丰富监督信号进行规模化RL的潜力。

## 推荐理由

创新使用文本反馈作为RL训练信号，提出自蒸馏和反馈建模两种方法，在多任务上全面超越强基线

## 讨论

请对这篇论文发表您的见解：
- 论文的创新点是什么？
- 方法是否合理？
- 实验结果是否可信？
- 有哪些可以改进的地方？

---
_由 arXiv Monitor 自动创建_

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[论文讨论] Expanding the Capabilities of Reinforcement Learning via Text Feedback #21

论文信息

简介

推荐理由

讨论

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

[论文讨论] Expanding the Capabilities of Reinforcement Learning via Text Feedback #21

Description

论文信息

简介

推荐理由

讨论

Metadata

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

Issue actions