admin管理员组

文章数量:1438522

打破模态壁垒!上海 AI Lab & 港科大提出HM

1. 背景与动机

检索增强生成(RAG)方法通过引入外部知识提升大语言模型的回答能力,但传统单代理的 RAG 系统在处理需要跨模态(文本、图像、图结构)复杂推理的任务时表现有限。本文提出 HM-RAG,旨在通过多代理架构,动态整合结构化、非结构化和图形化数据,更有效地支持多模态问答和复杂查询。

2. 核心贡献与方法

HM-RAG 是一种三层次多代理 RAG 框架,包含:

  • 分解代理:将复杂查询拆解为子任务,结合语义重写与上下文增强;
  • 多源检索代理:分别面向向量库、图数据库、网页系统并行检索;
  • 决策代理:投票融合答案,并用专家模型解决冲突。

该架构具有可插拔性和可扩展性,支持无缝集成新模态输入。相较传统单代理 RAG,HM-RAG 在结构设计上更灵活,推理能力更强,特别适用于异构数据场景。

3. 实验设计与结果

作者在 ScienceQA[1]CrisisMMD[2] 两个多模态数据集上进行评估。相较基线方法,HM-RAG 在答案准确率方面提高了 12.95%,在问题分类准确率方面提升了 3.56%,在零样本设定下显著优于现有方法。

ScienceQA数据集表现

ScienceQA数据集表现

CrisisMMD

CrisisMMD

这些结果表明:多代理与多模态的结合,提升了对复杂查询的理解和生成质量。系统在统一框架下高效整合异构知识,是跨模态 RAG 的有效路径。

4. 案例

在第一个 ScienceQA 示例中,问题要求理解电路元件的作用,并根据图像进行判断。单一代理 RAG 无法正确选择对应的知识段落,最终得出错误结论。而 HM-RAG 的图像检索代理能够识别出图中电阻的作用,图文融合机制帮助系统将图像信息与教科书知识整合,从而推理出正确答案。

在案例 2 中,问题要求识别生态系统中哪种生物属于初级消费者,并结合图中食物网进行判断。单一代理 RAG 模型未能正确解析图像中的箭头结构,错误地认为黑鲈(black crappie)是初级消费者,因而选择了错误答案。而 HM-RAG 的图像代理成功识别出图中摄食关系,发现黑鲈是捕食者而非初级消费者;同时,文本代理从教科书中提取了初级消费者的定义,图文融合机制协同工作,最终推理出正确答案为 copepod(桡足类)。

这些结果表明:HM-RAG 通过多智能体协作,有效发挥各代理的模态专长,支持复杂场景下更细致和准确的推理过程,体现出其在多模态任务中的显著优势。

5. 总结

HM-RAG 在方法设计上具有高创新性,实践中对多模态复杂任务效果显著,科学性扎实。建议未来引入更细粒度的代理通信机制,探索自适应推理路径。项目已开源,但是代码尚未上传:

开源链接

最后,我们已经建立了 Agentic AI 开发交流群,后台回复进群即可。

参考资料

[1]

ScienceQA: .html

[2]

CrisisMMD:

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。原始发表:2025-04-22,如有侵权请联系 cloudcommunity@tencent 删除数据系统代理架构模型

本文标签: 打破模态壁垒上海 AI Lab amp 港科大提出HM