admin管理员组文章数量:1443220
让 LLM 既能“看”又能“推理”!
DeepSeek-R1 会推理,GPT-4o 会看。能否让
1 LLM既能看又能推理?
DeepSeek-R1取得很大成功,但它有个问题——无法处理图像输入。
1.1 DeepSeek模型发展
自2024.12,DeepSeek已发布:
- DeepSeek-V3(2024.12):视觉语言模型(VLM),支持图像和文本输入,类似 GPT-4o
- DeepSeek-R1(2025.1):大规模推理模型(LRM),仅支持文本输入,但具备更强的推理能力,类似 OpenAI-o1
我们已领略视觉语言模型(VLM)和大规模推理模型(LRM),下一个是谁?
我们需要视觉推理模型(VRM)——既能看又能推理。本文探讨如何实现它。
2 现有模型的问题
当前VLM 不能很好推理,而 LRM 只能处理文本,无法理解视觉信息。若想要一个既能看懂图像,又能深度推理的模型?
物理问题示例
我是一个学生,向 LLM 提问物理问题,并附带一张图像。
就需要一个模型能同时:
- 理解图像内容
- 进行深度推理(如分析问题、评估答案、考虑多种可能性)
就需要
本文标签: 让 LLM 既能“看”又能“推理”!
版权声明:本文标题:让 LLM 既能“看”又能“推理”! 内容由网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:http://www.betaflare.com/biancheng/1748121381a2811629.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论