让 LLM 既能“看”又能“推理”！

编程

更新时间：2025-05-250

admin管理员组
文章数量:1443220

让 LLM 既能“看”又能“推理”！

DeepSeek-R1 会推理，GPT-4o 会看。能否让

1 LLM既能看又能推理？

DeepSeek-R1取得很大成功，但它有个问题——无法处理图像输入。

1.1 DeepSeek模型发展

自2024.12，DeepSeek已发布：

DeepSeek-V3（2024.12）：视觉语言模型（VLM），支持图像和文本输入，类似 GPT-4o
DeepSeek-R1（2025.1）：大规模推理模型（LRM），仅支持文本输入，但具备更强的推理能力，类似 OpenAI-o1

我们已领略视觉语言模型（VLM）和大规模推理模型（LRM），下一个是谁？

我们需要视觉推理模型（VRM）——既能看又能推理。本文探讨如何实现它。

2 现有模型的问题

当前VLM 不能很好推理，而 LRM 只能处理文本，无法理解视觉信息。若想要一个既能看懂图像，又能深度推理的模型？

物理问题示例

我是一个学生，向 LLM 提问物理问题，并附带一张图像。

就需要一个模型能同时：

理解图像内容
进行深度推理（如分析问题、评估答案、考虑多种可能性）

就需要

本文标签：让 LLM 既能“看”又能“推理”！

版权声明：本文标题：让 LLM 既能“看”又能“推理”！内容由网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：http://www.betaflare.com/biancheng/1748121381a2811629.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

编程频道|软件玩家 - 软件改变生活！

让 LLM 既能“看”又能“推理”！

让 LLM 既能“看”又能“推理”！

1 LLM既能看又能推理？

1.1 DeepSeek模型发展

2 现有模型的问题

物理问题示例

更多相关文章

让 LLM 既能“看”又能“推理”！

发表评论

推荐文章

OpenAI震撼发布o3o4

Spring Boot中的 5 种API请求参数读取方式

JVM：Java运行时数据区域

详解Android AM命令

如何解决 Python 项目安装依赖报错：ERROR: Failed to build installable wheels for some pyproject.toml based project

热门文章

OpenAI CFO重磅曝料：AGI近在咫尺，全球最强编程智能体已就绪！

C语言 —— 指尖跃迁 刻印永恒

AutoDev MCP 调试器：连接跨模型工具生态，构建国产模型生态

安卓逆向入门

serializable接口说明

原来这才是Pandas！

nodejs开发后端服务详细学习笔记

地图（八）利用python绘制散点地图

【YOLOv8】YOLOv8改进系列（11）

【现代深度学习技术】现代卷积神经网络04：含并行连接的网络（GoogLeNet）

最新文章

全民AI时代，大模型客户端和服务端的实时通信到底用什么协议？

Pinia党福音，Pinia伴侣：pinia

vite被发现存在安全漏洞，请及时升级安全版本

Alova.js 现代化请求库完全指南

一文搞懂 Burp Suite：零基础也能玩转 HTTP 攻防！

javascript - Type &#39;undefined&#39; is not assignable to type &#39;menuItemProps[]&#39; - Stack Overflow

javascript - VS 2015 Angular 2 import modules cannot be resolved - Stack Overflow

javascript - Get the JSON objects that are not present in another array - Stack Overflow

javascript - How to dismiss a phonegap notification programmatically - Stack Overflow

c - Solaris 10 make Error code 1 Fatal Error when trying to build python 2.7.16 - Stack Overflow

外星人Alienware M15 ALW15M-D3729S参数报价

海尔S15 Pro-M5i716GB1TB参数报价

海尔S15 Pro-M5i58GB512GB参数报价

技械骑士HZ60 13代酷睿i716GB512GB4G独显参数报价

ThinkPad L13 11代酷睿 i7 1165G716GB512GB集显 参数报价

C语言 —— 指尖跃迁刻印永恒

javascript - Type 'undefined' is not assignable to type 'menuItemProps[]' - Stack Overflow

ThinkPad L13 11代酷睿 i7 1165G716GB512GB集显参数报价