编程频道|软件玩家 - 软件改变生活!
  •  首页
  •  编程
  •  IT技术
  •  数码大全
  •  登录
  1. 标签
  2. 首个系统性工具使用奖励范式,ToolRL刷新大模型训练思路
  • 首个系统性工具使用奖励范式,ToolRL刷新大模型训练思路

    钱成目前是伊利诺伊大学香槟分校 (UIUC) 一年级博士生,导师为季姮教授。本科就读于清华大学,导师为刘知远教授。其工作集中在大语言模型工具使用与推理以及人工智能体方向。曾在 ACL,EMNLP,COLM,COLING,ICLR 等多个学术
    首个系统性工具使用奖励范式,ToolRL刷新大模型训练思路
    admin8小时前
    20
CopyRight © 2022 All Rights Reserved 豫ICP备2021025688号-21
Processed: 0.080, SQL: 9