首个系统性工具使用奖励范式，ToolRL刷新大模型训练思路

首个系统性工具使用奖励范式，ToolRL刷新大模型训练思路
钱成目前是伊利诺伊大学香槟分校 (UIUC) 一年级博士生，导师为季姮教授。本科就读于清华大学，导师为刘知远教授。其工作集中在大语言模型工具使用与推理以及人工智能体方向。曾在 ACL，EMNLP，COLM，COLING，ICLR 等多个学术
首个系统性工具使用奖励范式，ToolRL刷新大模型训练思路
admin8小时前
20