扩散LLM推理用上类GRPO强化学习！优于单独SFT，UCLAM

扩散LLM推理用上类GRPO强化学习！优于单独SFT，UCLA、Meta新框架d1开源
编辑：陈陈、杜伟大语言模型的推理能力，不再是 AR（自回归）的专属。扩散模型现在也能「动脑子」，新框架 d1 让它们学会了解数学、懂逻辑、会思考。当前，强化学习（RL）方法在最近模型的推理任务上取得了显著的改进，比如 DeepSeek-R1
扩散LLM推理用上类GRPO强化学习！优于单独SFT，UCLAMeta新框架d1开源
admin5小时前
30