admin管理员组

文章数量:1443939

每日学术速递3.24

CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理

Power by Kimi&苏神 编辑丨AiCharm

点击下方卡片,关注「AiCharm」公众号

Subjects: cs.CV

1.MicroVQA: A Multimodal Reasoning Benchmark for Microscopy-Based Scientific Research

标题:MicroVQA:基于显微镜的科学研究的多模态推理基准

作者:James Burgess, Jeffrey J Nirschl, Laura Bravo-Sánchez, Alejandro Lozano, Sanket Rajan Gupte

文章链接:.13399

项目代码:

摘要:

科学研究需要对多模态数据进行复杂的推理,这一挑战在生物学中尤为普遍。尽管用于人工智能辅助研究的多模态大型语言模型 (MLLM) 取得了最新进展,但现有的多模态推理基准仅针对大学级别的难度,而研究级基准则强调低级感知,达不到科学发现所需的复杂多模态推理。为了弥补这一差距,我们推出了 MicroVQA,这是一个视觉问答 (VQA) 基准,旨在评估研究工作流程中至关重要的三种推理能力:专家图像理解、假设生成和实验提议。MicroVQA 由 1,042 个多项选择题 (MCQ) 组成,这些题由不同显微镜模式下的生物学专家精心挑选,确保 VQA 样本代表真实的科学实践。在构建基准时,我们发现标准 MCQ 生成方法会引入语言捷径,从而激发一种新的两阶段流水线:优化的 LLM 提示将问答对结构化为 MCQ;然后,基于代理的“RefineBot”会更新它们以删除快捷方式。对最先进的 MLLM 进行基准测试显示峰值性能为 53%;具有较小 LLMs 的模型仅略低于顶级模型,这表明基于语言的推理比多模态推理更容易;并且使用科学文章进行调整可以提高性能。对思路链反应的专家分析表明,感知错误是最常见的,其次是知识错误,然后是过度概括错误。这些见解突出了多模态科学推理中的挑战,表明 MicroVQA 是推动人工智能驱动的生物医学研究的宝贵资源。

这篇论文试图解决什么问题?

这篇论文试图解决的问题是现有用于科学推理的多模态基准测试(multimodal reasoning benchmarks)无法充分支持生物医学研究中的复杂推理任务。具体来说,现有的多模态基准测试主要针对大学水平及以下的难度,而对于科学研究级别的任务,尤其是需要高级图像理解和多步推理的任务,现有基准测试存在不足。论文指出,尽管多模态大型语言模型(MLLMs)在处理一般考试类任务时表现出色,但在处理需要专业领域知识和复杂多模态推理的科学挑战时往往表现不佳。

为了解决这一问题,论文提出了一个新的视觉问答(VQA)基准测试——MicroVQA,旨在评估在科学研究工作流程中至关重要的三种推理能力:专家图像理解、假设生成和实验设计。MicroVQA 包含了由生物学专家精心策划的 1,042 个多项选择题(MCQs),涵盖了多种显微镜成像模式,确保样本能够代表真实的科学实践。

论文如何解决这个问题?

为了解决现有多模态推理基准测试在科学研究中应用不足的问题,论文提出了一个新的视觉问答(VQA)基准测试——MicroVQA。以下是论文解决该问题的具体方法:

1. 定义科学推理任务

论文定义了三个关键的科学推理任务,这些任务在科学研究工作流程中至关重要:

  • 专家图像理解(Expert Visual Understanding):识别科学相关的图像特征,并结合样本制备的上下文信息进行解释。这要求模型能够进行异常检测和图像比较,而不仅仅是简单的图像识别。
  • 假设生成(Hypothesis Generation):从实验数据中提出科学上合理的解释。这需要模型进行基于不完全信息的推理,选择最有可能的假设。
  • 实验设计(Experiment Proposal):建议进一步的实验来验证或反驳假设。这要求模型能够提出合适的实验方案,并考虑技术问题。

2. 构建 MicroVQA 数据集

MicroVQA 数据集包含 1,042 个由生物学专家精心策划的多项选择题(MCQs),涵盖了多种显微镜成像模式,确保样本能够代表真实的科学实践。数据集的构建过程如下:

  • 专家生成原始 VQA 样本:12 位专家每人创建约 90 个 VQA 样本,每个样本包括图像集、问题、详细回答和实验上下文信息。每个样本的生成时间约为 30-40 分钟。
  • 质量控制:确保问题具有挑战性,与定义的任务一致,并且图像内容多样化。专家对提交的问题进行审查,并根据反馈进一步优化 VQA 样本。
  • 属性标签:为每个问题添加元数据标签,如图像模态、生物尺度、研究领域等,以便进行更深入的错误分析。

3. 多项选择题(MCQ)生成方法

为了确保 MCQs 能够真正测试多模态能力,而不是简单的语言推理,论文提出了一个两阶段的 MCQ 生成方法:

  • 第一阶段:考试风格的 MCQ 生成:将原始的 VQA 样本转换为符合生物医学考试设计原则的 MCQs。这一阶段确保了问题的格式正确,并且保留了原始问题的意图和科学有效性。
  • 第二阶段:RefineBot 优化:通过一个基于代理的系统(RefineBot)进一步优化 MCQs,使其更具挑战性。RefineBot 通过分析模型的推理过程,识别并消除语言捷径,确保问题需要结合图像理解才能正确回答。

4. 评估和分析

论文对多种前沿的多模态大型语言模型(MLLMs)进行了基准测试,发现即使是表现最好的模型,其准确率也只有 53%,这表明当前的模型与专家级科学推理之间存在显著差距。此外,论文还进行了详细的错误分析,发现:

  • 感知错误:模型对视觉特征的解释错误,导致错误的推断,这是最常见的错误类型。
  • 知识错误:模型在特定生物医学知识方面的不足。
  • 过度泛化错误:模型在推理过程中忽略了具体上下文,应用了过于宽泛的科学原则。

通过这些分析,论文揭示了多模态科学推理中的挑战,并强调了 MicroVQA 在推动 AI 驱动的生物医学研究中的价值。

论文做了哪些实验?

论文中进行了以下实验来评估 MicroVQA 基准测试和多模态大型语言模型(MLLMs)的性能:

1. 基准测试实验

  • 实验目标:评估多种前沿 MLLMs 在 MicroVQA 基准测试上的性能,以了解当前模型在科学研究级别的多模态推理任务上的表现。
  • 实验设置:选择了包括开放源代码和闭源代码的多种 MLLMs,涵盖了不同的模型大小和领域专长。实验使用了标准的链式思考(chain-of-thought)提示方法进行评估。
  • 实验结果:发现即使是表现最好的模型,其准确率也只有 53%,这表明当前的 MLLMs 与专家级科学推理之间存在显著差距。较小的模型表现仅略逊于较大的模型,这表明语言推理的挑战相对较小,而多模态推理或知识的挑战更大。此外,通过在科学文章上进行微调可以提高模型在 MicroVQA 上的性能。

2. 语言捷径消融实验

  • 实验目标:评估 MicroVQA 中的语言捷径对模型性能的影响,以及在没有图像的情况下模型的推理能力。
  • 实验设置:进行了两种消融实验:
    • 无图像消融:模型仅接收文本提示,忽略图像信息。
    • 仅选项消融:模型仅接收选项,不接收图像或问题文本。
  • 实验结果:两种消融实验都降低了模型的准确率,但准确率仍然高于随机猜测。这表明尽管 MicroVQA 是一个视觉中心的基准测试,但模型仍然可以利用语言捷径来回答一些问题。然而,通过专家分析发现,许多问题仍然需要图像理解才能正确回答。

3. 错误分析实验

  • 实验目标:通过详细分析模型的错误回答,了解模型在 MicroVQA 上的失败模式。
  • 实验设置:三位生物医学专家对 30 个样本的链式思考(CoT)回答进行了详细分析,将错误分类为主要错误类型和次要错误类型。
  • 实验结果
    • 感知错误:占 50%,模型对视觉特征的解释错误,导致错误的推断。
    • 知识错误:占 30%,模型在特定生物医学知识方面的不足。
    • 过度泛化错误:占 13%,模型在推理过程中忽略了具体上下文,应用了过于宽泛的科学原则。
    • 其他错误:包括文本幻觉或一般推理错误,占 7%。

4. 基于属性的分析实验

  • 实验目标:利用 MicroVQA 的元数据标签,分析模型在不同属性(如图像模态、生物尺度、研究领域等)上的表现。
  • 实验设置:对不同模型在不同属性上的表现进行了分析,包括图像模态(如电子显微镜、荧光显微镜、光显微镜)、Bloom 税收分类(如分析、评估)、多图像推理等。
  • 实验结果
    • 多图像推理:模型在多图像推理任务上的表现相对较好,尽管这一领域在 MLLMs 中研究较少。
    • Bloom 税收分类:对于 Gemini 和 LLaVa-Med,较高的 Bloom 级别(对应更高级别的推理)导致性能下降,这支持了更高级别的推理更具挑战性的直观结果。
    • 图像模态:所有模型在冷冻电子显微镜图像上的表现比在光显微镜或荧光显微镜图像上更差,这可能是由于冷冻电镜图像的低对比度和低信噪比,以及它们在预训练数据集中的代表性不足。

5. RefineBot 的有效性实验

  • 实验目标:评估 RefineBot 方法在提高 MCQs 难度方面的有效性。
  • 实验设置:比较了在 RefineBot 优化前后的 MCQs 对模型性能的影响。
  • 实验结果:RefineBot 优化后的 MCQs 使所有测试模型的准确率显著下降,平均下降了 35% 至 42%,这验证了 RefineBot 在使基准测试更具挑战性方面的有效性。然而,使用 RefineBot 的模型(如 GPT-4o 和 Claude-3.5-Sonnet)在优化后的 MCQs 上表现略差,这表明 RefineBot 引入了对这些模型的小偏见。

这些实验不仅展示了 MicroVQA 基准测试在评估科学研究级别的多模态推理任务上的有效性,还揭示了当前 MLLMs 在这一领域的局限性,并为未来的研究提供了方向。

论文的主要内容:

论文介绍了一个名为MicroVQA的视觉问答(VQA)基准测试,旨在评估多模态大型语言模型(MLLMs)在生物医学研究中的推理能力。MicroVQA包含1042个由生物学专家精心策划的多项选择题(MCQs),涵盖了多种显微镜成像模式,确保样本能够代表真实的科学实践。以下是论文的主要内容:

背景知识

  • 科学研究需要复杂的多模态数据推理能力,尤其是在生物学领域。尽管多模态大型语言模型(MLLMs)在AI辅助研究中取得了进展,但现有基准测试主要针对大学水平及以下的难度,缺乏针对科学研究级别的复杂推理任务。
  • 现有的多模态推理基准测试无法充分支持生物医学研究中的复杂推理任务,因为它们主要基于考试、教科书或分类数据集,缺乏专家策划的、具有挑战性的推理问题。

研究方法

  • 定义科学推理任务:论文定义了三个关键的科学推理任务:专家图像理解、假设生成和实验设计。这些任务在科学研究工作流程中至关重要,要求模型能够进行高级图像分析、假设推理和实验规划。
  • 构建MicroVQA数据集:12位生物医学专家每人创建了约90个VQA样本,每个样本包括图像集、问题、详细回答和实验上下文信息。专家对样本进行了质量控制,确保问题具有挑战性,并且与定义的任务一致。
  • MCQ生成方法:论文提出了一个两阶段的MCQ生成方法。第一阶段将原始VQA样本转换为符合生物医学考试设计原则的MCQs;第二阶段通过RefineBot系统进一步优化MCQs,消除语言捷径,确保问题需要结合图像理解才能正确回答。

实验

  • 基准测试:对多种前沿MLLMs进行了评估,发现即使是表现最好的模型,其准确率也只有53%,这表明当前模型与专家级科学推理之间存在显著差距。较小的模型表现仅略逊于较大的模型,这表明语言推理的挑战相对较小,而多模态推理或知识的挑战更大。
  • 语言捷径消融实验:通过无图像和仅选项消融实验,发现模型在没有图像的情况下仍然能够利用语言捷径回答一些问题,但这些捷径被RefineBot有效消除。
  • 错误分析:通过专家分析发现,模型的错误主要分为感知错误(50%)、知识错误(30%)和过度泛化错误(13%)。这表明视觉理解是模型的主要挑战之一。

关键结论

  • MicroVQA是一个有价值的资源,能够推动AI在生物医学研究中的应用。它揭示了多模态科学推理中的挑战,并为未来的研究提供了方向。
  • 当前的MLLMs在科学研究级别的多模态推理任务上表现不佳,需要进一步改进视觉表示、知识整合和推理能力。
  • RefineBot方法在提高MCQs难度方面非常有效,但也引入了对某些模型的小偏见。未来的研究可以探索如何改进RefineBot,使其更加公平。

未来工作

  • 模型改进:探索更强大的视觉编码器,整合生物医学知识,提升模型的推理能力。
  • 基准测试扩展:扩展MicroVQA以支持开放设置的评估,扩大数据集规模,将基准测试扩展到其他科学领域。
  • 应用探索:开发更智能的科学聊天系统,辅助科学家设计实验。
  • 伦理和社会影响:确保数据的使用符合伦理标准,减轻技术应用中的潜在偏见。

论文通过定义科学推理任务、构建高质量的数据集和提出有效的MCQ生成方法,为推动多模态科学推理领域的发展做出了重要贡献。

2.VideoMind: A Chain-of-LoRA Agent for Long Video Reasoning

标题:VideoMind:用于长视频推理的 Chain-of-LoRA 代理

作者: Ye Liu, Kevin Qinghong Lin, Chang Wen Chen, Mike Zheng Shou

文章链接:.13444

项目代码:/

摘要:

视频具有独特的时间维度,需要精确的基础理解,其中答案直接与视觉的可解释证据相关联。尽管大型语言模型的推理能力取得了重大突破,但多模态推理(尤其是视频推理)仍未被探索。在这项工作中,我们推出了 VideoMind,这是一种专为基于时间的视频理解而设计的新型视频语言代理。VideoMind 结合了两项关键创新:(i)我们确定了视频时间推理的基本能力并开发了基于角色的代理工作流程,包括用于协调不同角色的规划器、用于时间定位的基础器、用于评估时间间隔准确性的验证器和用于问答的解答器。(ii)为了有效地整合这些不同的角色,我们提出了一种新颖的 Chain-of-LoRA 策略,通过轻量级 LoRA 适配器实现无缝角色切换,同时避免多个模型的开销,从而平衡效率和灵活性。在 14 个公共基准上进行的大量实验表明,我们的代理在各种视频理解任务上都取得了最先进的性能,其中包括 3 个基于视频问答的任务、6 个基于视频时间基础的任务和 5 个基于一般视频问答的任务,凸显了其在推进视频代理和长格式时间推理方面的有效性。

这篇论文试图解决什么问题?

这篇论文试图解决视频理解中的时间维度推理问题。尽管大型语言模型(LLMs)在推理任务中取得了显著进展,但多模态推理,尤其是针对视频的推理,仍然是一个未被充分探索的领域。视频的独特之处在于其时间维度,这要求模型不仅能够识别视觉信息,还需要理解视频中动态事件随时间的交互,即时间维度的精确理解(temporal-grounded understanding)

具体来说,论文指出视频推理需要解决以下挑战:

  • 时间定位(Temporal Localization):需要精确地定位视频中与问题相关的时刻。
  • 信息验证(Information Verification):需要验证所定位时刻的准确性。
  • 答案生成(Answer Generation):需要基于定位和验证的信息生成准确的答案。

为了解决这些问题,论文提出了VideoMind,这是一个新型的视频-语言代理(video-language agent),专门设计用于时间维度的视频理解。

论文如何解决这个问题?

论文通过提出 VideoMind,一个新颖的视频-语言代理(video-language agent),来解决视频理解中的时间维度推理问题。VideoMind 的核心设计包括两个关键创新:

1. 基于角色的代理工作流(Role-based Agentic Workflow)

VideoMind 识别出视频时间推理中几个关键角色,并为每个角色设计了专门的模块。这些角色包括:

  • 规划者(Planner):负责根据查询动态协调其他角色的调用顺序。
  • 定位者(Grounder):负责根据文本查询精确定位视频中的相关时刻。
  • 验证者(Verifier):负责验证定位者找到的时刻的准确性,并通过缩放策略进一步细化时刻。
  • 回答者(Answerer):负责根据定位和验证的结果生成最终的自然语言回答。

这种基于角色的工作流使 VideoMind 能够像人类一样逐步处理复杂的视频推理任务,通过分解问题、定位相关时刻、验证信息的准确性,并最终合成答案。

2. 链式 LoRA 策略(Chain-of-LoRA Strategy)

为了高效地整合这些角色,论文提出了一种新颖的 Chain-of-LoRA 策略。该策略基于一个单一的视觉-语言模型(如 Qwen2-VL [77]),通过在推理时动态激活角色特定的 LoRA 适配器(LoRA adapters),实现角色之间的无缝切换。这种方法不仅提高了模型的灵活性,还避免了使用多个完整模型所带来的计算开销,从而在效率和适应性之间取得了平衡。

具体实现细节

  • 规划者(Planner):通过分析查询内容,动态决定调用哪些角色以及调用顺序。例如,对于需要定位和回答的问题,规划者会先调用定位者,然后调用验证者,最后调用回答者。
  • 定位者(Grounder):配备了时间戳解码器(timestamp decoder),能够根据查询生成视频时刻的起始和结束时间戳。该模块通过多级时间特征金字塔(temporal feature pyramid)来增强对不同长度视频和时刻的适应性。
  • 验证者(Verifier):对定位者生成的候选时刻进行验证,通过扩展时刻边界、裁剪和放大分辨率等操作,进一步确认时刻的准确性。
  • 回答者(Answerer):基于定位和验证的结果,生成自然语言回答。该模块直接利用预训练的视觉-语言模型,无需额外的微调。

实验验证

论文通过在 14 个公共基准数据集上的广泛实验验证了 VideoMind 的有效性。这些数据集涵盖了多种视频理解任务,包括:

  • 基于证据的视频问答(Grounded VideoQA):如 CG-Bench [6]、ReXTime [8] 和 NExT-GQA [88]。
  • 视频时间定位(Video Temporal Grounding):如 Charades-STA [17]、ActivityNet-Captions [27] 和 QVHighlights [30]。
  • 通用视频问答(General VideoQA):如 Video-MME [13]、MLVU [108] 和 LVBench [79]。

实验结果表明,VideoMind 在这些任务上均取得了最先进的性能,尤其是在长视频理解任务上,其 2B 模型在 CG-Bench 上的表现甚至超过了 GPT-4o 等大型模型。

总结

通过基于角色的工作流和链式 LoRA 策略,VideoMind 有效地解决了视频理解中的时间维度推理问题,提供了一种高效、灵活且适应性强的解决方案。

论文做了哪些实验?

  • 论文通过在多个公共基准数据集上进行广泛的实验来验证 VideoMind 的性能和有效性。这些实验涵盖了三种主要的视频理解任务:基于证据的视频问答(Grounded VideoQA)视频时间定位(Video Temporal Grounding)通用视频问答(General VideoQA)。以下是详细的实验设置和结果: 1. 实验设置 数据集 论文在以下 14 个公共基准数据集上进行了实验:
    • Grounded VideoQA
      • CG-Bench [6]:平均视频时长 27 分钟,包含 1.2K 视频和 12K QA 对。
      • ReXTime [8]:平均视频时长 141.1 秒,包含 921 验证样本和 2,1K 测试样本。
      • NExT-GQA [88]:平均视频时长 39.5 秒,包含 10.5K 视频和 QA 对。
    • Video Temporal Grounding
      • Charades-STA [17]:平均视频时长 30.1 秒,包含 10K 视频和 16K 时间标注。
      • ActivityNet-Captions [27]:平均视频时长 111.4 秒,包含 20K 视频和 849 小时的视频。
      • QVHighlights [30]:平均视频时长 150 秒,包含 1.5K 视频和 2.5K 时间标注。
      • TACoS [60]:平均视频时长 358.2 秒,包含 1.3K 视频和 1.5K 时间标注。
      • Ego4D-NLQ [18]:平均视频时长 379.0 秒,包含 1.5K 视频和 2.5K 时间标注。
      • ActivityNet-RTL [23]:平均视频时长 111.4 秒,包含 1.3K 视频和 1.5K 时间标注。
    • General VideoQA
      • Video-MME [13]:平均视频时长 1017.9 秒,包含 1.5K 视频和 1.5K QA 对。
      • MLVU [108]:平均视频时长 930 秒,包含 1.5K 视频和 1.5K QA 对。
      • LVBench [79]:平均视频时长 4101 秒,包含 1.5K 视频和 1.5K QA 对。
      • MVBench [34]:平均视频时长 15 秒,包含 1.5K 视频和 1.5K QA 对。
      • LongVideoBench [86]:平均视频时长 473 秒,包含 1.5K 视频和 1.5K QA 对。

      评估指标

    • Grounded VideoQA:使用召回率(R@IoU)、准确率(Acc)、平均交并比(mIoU)等指标。
    • Video Temporal Grounding:使用召回率(R@{0.3, 0.5, 0.7})、平均交并比(mIoU)等指标。
    • General VideoQA:使用准确率(Acc)作为主要评估指标。

    2. 实验结果 Grounded VideoQA

    • CG-Bench [6]
      • VideoMind 2B 模型在 grounding 指标上取得了 31.0% 的 long-acc、5.94% 的 mIoU、8.50% 的 R@IoU 和 4.02% 的 A@IoU,超越了大多数现有模型,包括 InternVL2-78B [10] 和 GPT-4o [56]。
      • VideoMind 7B 模型进一步提升了性能,取得了 38.4% 的 long-acc、7.10% 的 mIoU、9.93% 的 R@IoU 和 4.67% 的 A@IoU,接近 GPT-4o 的性能。
    • ReXTime [8]
      • VideoMind 2B 模型在 zero-shot 设置下取得了 34.31% 的 R@0.3、22.69% 的 R@0.5、24.83% 的 mIoU 和 17.26% 的 Acc,显著优于所有 zero-shot 基线,并与 fine-tuned 变体相当。
      • VideoMind 7B 模型进一步提升了性能,取得了 38.22% 的 R@0.3、25.52% 的 R@0.5、27.61% 的 mIoU 和 20.20% 的 Acc。
    • NExT-GQA [88]
      • VideoMind 2B 模型在 grounding 指标上取得了 45.2% 的 IoU、23.2% 的 IoP 和 28.6% 的 Acc@GQA,与 7B 模型相当。
      • VideoMind 7B 模型进一步提升了性能,取得了 50.2% 的 IoU、25.8% 的 IoP 和 31.4% 的 Acc@GQA,显著优于其他模型。

      Video Temporal Grounding

    • Charades-STA [17]
      • VideoMind 2B 模型在 zero-shot 设置下取得了 63.55% 的 R@0.3、47.23% 的 R@0.5、21.69% 的 R@0.7 和 42.02% 的 mIoU,显著优于其他 LLM 基方法。
      • VideoMind 7B 模型进一步提升了性能,取得了 67.63% 的 R@0.3、51.05% 的 R@0.5、25.99% 的 R@0.7 和 45.22% 的 mIoU。
    • ActivityNet-Captions [27]
      • VideoMind 2B 模型在 zero-shot 设置下取得了 44.0% 的 R@0.3、26.5% 的 R@0.5、12.6% 的 R@0.7 和 30.1% 的 mIoU。
      • VideoMind 7B 模型进一步提升了性能,取得了 48.4% 的 R@0.3、30.3% 的 R@0.5、15.7% 的 R@0.7 和 33.3% 的 mIoU。
    • QVHighlights [30]
      • VideoMind 2B 模型在 fine-tuned 设置下取得了 74.38% 的 R@0.5 和 55.77% 的 R@0.7。
      • VideoMind 7B 模型进一步提升了性能,取得了 77.0% 的 R@0.5 和 78.0% 的 R@0.7。
    • TACoS [60]
      • VideoMind 2B 模型在 zero-shot 设置下取得了 38.6% 的 R@0.5 和 26.9% 的 mIoU。
      • VideoMind 7B 模型进一步提升了性能,取得了 49.5% 的 R@0.5 和 36.2% 的 mIoU。
    • Ego4D-NLQ [18]
      • VideoMind 2B 模型在 zero-shot 设置下取得了 5.9% 的 R@0.5 和 2.9% 的 mIoU。
      • VideoMind 7B 模型进一步提升了性能,取得了 7.2% 的 R@0.5 和 3.7% 的 mIoU。
    • ActivityNet-RTL [23]
      • VideoMind 2B 模型在 zero-shot 设置下取得了 20.1% 的 P@0.5 和 22.7% 的 mIoU。
      • VideoMind 7B 模型进一步提升了性能,取得了 28.0% 的 P@0.5 和 31.3% 的 mIoU。

      General VideoQA

    • Video-MME [13]
      • VideoMind 2B 模型取得了 53.6% 的 Acc。
      • VideoMind 7B 模型进一步提升了性能,取得了 58.2% 的 Acc。
    • MLVU [108]
      • VideoMind 2B 模型取得了 45.4% 的 Acc。
      • VideoMind 7B 模型进一步提升了性能,取得了 49.2% 的 Acc。

论文的主要内容:

论文介绍了一个名为 VideoMind 的新型视频-语言代理(video-language agent),旨在提高视频理解中的时间维度推理能力。VideoMind 通过两个关键创新来实现这一目标:基于角色的代理工作流(role-based agentic workflow)和链式 LoRA 策略(Chain-of-LoRA strategy)。以下是论文的主要内容总结:

研究背景

  • 视频因其独特的时间维度,要求模型具备精确的时间定位和理解能力,即时间维度的精确理解(temporal-grounded understanding)。
  • 尽管大型语言模型(LLMs)在推理任务中取得了显著进展,但多模态推理,尤其是针对视频的推理,仍然是一个未被充分探索的领域。

研究方法

1. 基于角色的代理工作流(Role-based Agentic Workflow)

VideoMind 识别出视频时间推理中几个关键角色,并为每个角色设计了专门的模块:

  • 规划者(Planner):动态协调其他角色的调用顺序。
  • 定位者(Grounder):根据文本查询精确定位视频中的相关时刻。
  • 验证者(Verifier):验证定位者找到的时刻的准确性,并通过缩放策略进一步细化时刻。
  • 回答者(Answerer):根据定位和验证的结果生成最终的自然语言回答。
2. 链式 LoRA 策略(Chain-of-LoRA Strategy)

为了高效地整合这些角色,论文提出了一种新颖的 Chain-of-LoRA 策略。该策略基于一个单一的视觉-语言模型(如 Qwen2-VL [77]),通过在推理时动态激活角色特定的 LoRA 适配器(LoRA adapters),实现角色之间的无缝切换。这种方法不仅提高了模型的灵活性,还避免了使用多个完整模型所带来的计算开销,从而在效率和适应性之间取得了平衡。

实验

数据集

论文在以下 14 个公共基准数据集上进行了实验:

  • Grounded VideoQA:CG-Bench [6]、ReXTime [8]、NExT-GQA [88]。
  • Video Temporal Grounding:Charades-STA [17]、ActivityNet-Captions [27]、QVHighlights [30]、TACoS [60]、Ego4D-NLQ [18]、ActivityNet-RTL [23]。
  • General VideoQA:Video-MME [13]、MLVU [108]、LVBench [79]、MVBench [34]、LongVideoBench [86]。
评估指标
  • Grounded VideoQA:召回率(R@IoU)、准确率(Acc)、平均交并比(mIoU)。
  • Video Temporal Grounding:召回率(R@{0.3, 0.5, 0.7})、平均交并比(mIoU)。
  • General VideoQA:准确率(Acc)。
结果
  • Grounded VideoQA
    • CG-Bench [6]:VideoMind 2B 模型取得了 31.0% 的 long-acc、5.94% 的 mIoU、8.50% 的 R@IoU 和 4.02% 的 A@IoU,超越了大多数现有模型,包括 InternVL2-78B [10] 和 GPT-4o [56]。VideoMind 7B 模型进一步提升了性能,取得了 38.4% 的 long-acc、7.10% 的 mIoU、9.93% 的 R@IoU 和 4.67% 的 A@IoU,接近 GPT-4o 的性能。
    • ReXTime [8]:VideoMind 2B 模型在 zero-shot 设置下取得了 34.31% 的 R@0.3、22.69% 的 R@0.5、24.83% 的 mIoU 和 17.26% 的 Acc,显著优于所有 zero-shot 基线,并与 fine-tuned 变体相当。VideoMind 7B 模型进一步提升了性能,取得了 38.22% 的 R@0.3、25.52% 的 R@0.5、27.61% 的 mIoU 和 20.20% 的 Acc。
    • NExT-GQA [88]:VideoMind 2B 模型在 grounding 指标上取得了 45.2% 的 IoU、23.2% 的 IoP 和 28.6% 的 Acc@GQA,与 7B 模型相当。VideoMind 7B 模型进一步提升了性能,取得了 50.2% 的 IoU、25.8% 的 IoP 和 31.4% 的 Acc@GQA,显著优于其他模型。
  • Video Temporal Grounding
    • Charades-STA [17]:VideoMind 2B 模型在 zero-shot 设置下取得了 63.55% 的 R@0.3、47.23% 的 R@0.5、21.69% 的 R@0.7 和 42.02% 的 mIoU,显著优于其他 LLM 基方法。VideoMind 7B 模型进一步提升了性能,取得了 67.63% 的 R@0.3、51.05% 的 R@0.5、25.99% 的 R@0.7 和 45.22% 的 mIoU。
    • ActivityNet-Captions [27]:VideoMind 2B 模型在 zero-shot 设置下取得了 44.0% 的 R@0.3、26.5% 的 R@0.5、12.6% 的 R@0.7 和 30.1% 的 mIoU。VideoMind 7B 模型进一步提升了性能,取得了 48.4% 的 R@0.3、30.3% 的 R@0.5、15.7% 的 R@0.7 和 33.3% 的 mIoU。
    • QVHighlights [30]:VideoMind 2B 模型在 fine-tuned 设置下取得了 74.38% 的 R@0.5 和 55.77% 的 R@0.7。VideoMind 7B 模型进一步提升了性能,取得了 77.0% 的 R@0.5 和 78.0% 的 R@0.7。
    • TACoS [60]:VideoMind 2B 模型在 zero-shot 设置下取得了 38.6% 的 R@0.5 和 26.9% 的 mIoU。VideoMind 7B 模型进一步提升了性能,取得了 49.5% 的 R@0.5 和 36.2% 的 mIoU。
    • Ego4D-NLQ [18]:VideoMind 2B 模型在 zero-shot 设置下取得了 5.9% 的 R@0.5 和 2.9% 的 mIoU。VideoMind 7B 模型进一步提升了性能,取得了 7.2% 的 R@0.5 和 3.7% 的 mIoU。
    • ActivityNet-RTL [23]:VideoMind 2B 模型在 zero-shot 设置下取得了 20.1% 的 P@0.5 和 22.7% 的 mIoU。VideoMind 7B 模型进一步提升了性能,取得了 28.0% 的 P@0.5 和 31.3% 的 mIoU。
  • General VideoQA
    • Video-MME [13]:VideoMind 2B 模型取得了 53.6% 的 Acc。VideoMind 7B 模型进一步提升了性能,取得了 58.2% 的 Acc。
    • MLVU [108]:VideoMind 2B 模型取得了 45.4% 的 Acc。VideoMind 7B 模型进一步提升了性能,取得了 49.2% 的 Acc。
    • LVBench [79]:VideoMind 2B 模型取得了 58.7% 的 Acc。VideoMind 7B 模型进一步提升了性能,取得了 64.4% 的 Acc。
    • MVBench [34]:VideoMind 2B 模型取得了 53.0% 的 Acc。VideoMind 7B 模型进一步提升了性能,取得了 60.4% 的 Acc。
    • LongVideoBench [86]:VideoMind 2B 模型在所有时长组上均取得了较好的性能,7B 模型进一步提升了性能。

结论

VideoMind 通过基于角色的工作流和链式 LoRA 策略,有效地解决了视频理解中的时间维度推理问题,提供了一种高效、灵活且适应性强的

3.DPC: Dual-Prompt Collaboration for Tuning Vision-Language Models

标题:DPC:用于调整视觉语言模型的双提示协作

作者: Haoyang Li, Liang Wang, Chao Wang, Jing Jiang, Yan Peng, Guodong Long

文章链接:.13443

项目代码:

摘要:

在基于 CLIP 的提示调整优化过程中,基础-新权衡 (BNT) 问题普遍存在,其中对基础(目标)类的持续微调会导致新(未见)类的泛化能力同时下降。现有方法试图通过附加约束来调节提示调整过程以平衡 BNT。然而,施加在同一目标提示上,这些约束无法完全避免基础和新优化方向之间的互斥性。作为这一挑战的新颖解决方案,我们提出了即插即用的双提示协作 (DPC) 框架,这是第一个在提示级别解耦基础和新任务的优化过程的框架。具体来说,我们基于骨干提示克隆了一个可学习的并行提示,并引入了一个可变的加权解耦框架来独立控制特定于基础或新任务的双提示的优化方向,从而避免了泛化冲突。同时,我们提出了一个动态硬负优化器,利用双提示在基类上构建更具挑战性的优化任务以进行增强。为了便于解释,我们证明了优化过程中提示向量的特征通道不变性,为 DPC 的加权解耦提供了理论支持。在多个主干上进行的大量实验表明,DPC 可以在不引入基类之外的任何外部知识的情况下显著提高基础性能,同时保持对新类的泛化能力。

这篇论文试图解决什么问题?

这篇论文试图解决在基于CLIP的提示词微调(Prompt Tuning)过程中普遍存在的基类-新类权衡(Base-New Trade-off, BNT)问题。具体来说,当持续在基类(目标类别)上进行微调时,模型对新类(未见类别)的泛化能力会同时下降。现有的方法尝试通过添加约束来调节提示词微调过程以平衡这种权衡,但这些约束未能完全避免基类和新类优化方向之间的互斥性。

论文如何解决这个问题?

为了解决基类-新类权衡(Base-New Trade-off, BNT)问题,论文提出了**Dual-Prompt Collaboration (DPC)**框架,通过以下三个主要方法来解决这个问题:

1. Dual Prompt Initialization(双提示初始化)

  • 问题:在传统的提示词微调中,提示词向量在优化过程中会过度拟合到基类的分布,从而降低对新类的泛化能力。
  • 解决方案:DPC框架首先在预训练的提示词学习器的基础上,通过适度微调获得一个调优后的提示词(tuned prompt)。然后,基于这个调优后的提示词,初始化一个并行提示词(parallel prompt),其形式、大小和参数都从基线模型中克隆而来。这样,两个提示词可以分别用于新类的泛化和基类的增强,从而在提示词级别上解耦了基类和新类的任务。
  • 效果:通过这种方式,DPC能够在不引入任何外部知识的情况下,显著提高基类的性能,同时保持对新类的泛化能力。

2. Dynamic Hard Negative Optimizer(动态硬负样本优化器)

  • 问题:在基类上进行微调时,提示词向量可能会过度拟合到基类的分布,导致对新类的泛化能力下降。
  • 解决方案:DPC通过动态硬负样本优化器来增强基类的性能。该优化器包括三个子模块:
    • Negative Sampler(负样本采样器):通过调优后的提示词作为查询,动态地从基类中获取Top-K推理结果,并将这些结果中除正样本外的其他样本作为硬负样本。这些硬负样本用于构建更具挑战性的优化任务。
    • Feature Filtering(特征过滤):对硬负样本的文本特征进行L2归一化,以保持基类的全局特征分布不变,防止在与调优后的提示词协作时出现参数偏移。
    • Hard Negative Optimizing(硬负样本优化):使用InfoNCE损失函数构建对称的图像-文本对比学习任务,从而实现更强大的跨模态对齐。
  • 效果:通过动态硬负样本优化器,DPC能够更深入地拟合基类的潜在特征分布,同时增强视觉和语言模态之间的特征对齐,从而显著提高基类的性能。

3. Weighting-Decoupling Module(权重解耦模块)

  • 问题:在传统的提示词微调中,提示词向量在优化过程中会过度拟合到基类的分布,从而降低对新类的泛化能力。
  • 解决方案:DPC引入了一个灵活的权重调整框架,称为权重解耦模块(Weighting-Decoupling Module, WDM)。该模块在微调和推理阶段统一作用于双提示词的输入。在微调阶段,权重子模块(Weighting)将调优后的提示词和并行提示词组合成一个混合提示词(mixed prompt),并通过基类特定的权重系数(ωb)控制其权重分布。在推理阶段,解耦子模块(Decoupling)将混合提示词分解回并行提示词和调优后的提示词,并通过新类特定的权重系数(ωn)重新分配权重。
  • 效果:通过权重解耦模块,DPC能够在推理阶段独立调整基类和新类的权重,从而在保持新类泛化能力的同时,最大化基类的性能。这种结构不仅提高了模型的整体性能,还提供了理论支持,证明了提示词向量在优化过程中的特征通道不变性。

总结

通过上述三个主要方法,DPC框架在提示词级别上解耦了基类和新类的优化过程,有效解决了BNT问题。实验结果表明,DPC在多个基线模型和数据集上均取得了显著的性能提升,同时保持了对新类的泛化能力。

论文做了哪些实验?

论文进行了以下几类实验来验证所提方法的有效性:

1. Base-to-New Generalization(基类到新类的泛化)

  • 实验设置:使用11个识别相关的数据集,包括ImageNet、Caltech101、OxfordPets等,将每个数据集的类别均匀划分为基类和新类。仅在基类上进行微调,然后在基类和新类上进行推理。
  • 评估指标:使用准确率(Accuracy)和调和平均数(Harmonic Mean, HM)来评估模型在基类和新类上的性能。
  • 结果:DPC在所有4个基线模型上均取得了优于基线和当前最佳方法PromptKD的HM性能,主要性能提升来自于基类的优化,同时新类的泛化能力得到了充分保留。

2. Cross-Dataset and Cross-Domain Transfer(跨数据集和跨域迁移)

  • 实验设置:使用ImageNet作为源数据集,在其他数据集(如ImageNet-V2、ImageNet-Sketch等)上进行零样本设置下的评估。
  • 评估指标:平均准确率。
  • 结果:DPC在所有基线模型上均取得了优于基线的性能,同时在涉及未见数据分布的跨数据集和跨域任务中保持了一致的泛化水平。

3. Comparison with Another Plug-and-Play Method(与其他插即用方法的比较)

  • 实验设置:将DPC与DePT(另一种插即用提示词学习器,它在特征级别上解耦基类和新类任务)进行比较。
  • 评估指标:调和平均数(HM)。
  • 结果:DPC在3个基线模型上的增强效果优于或等于DePT,这归因于DPC在提示词级别上的解耦提供了更广泛的优化空间。

4. Ablation Study(消融研究)

  • 实验设置:基于CoOp基线,对DPC的各个子模块(如动态硬负样本优化器、权重解耦模块等)进行消融实验,以及对协作权重(ωb, ωn)、Top-K采样数量和微调周期等参数进行研究。
  • 评估指标:准确率(Accuracy)和调和平均数(HM)。
  • 结果
    • 验证了动态硬负样本优化器(DHNO)和权重解耦模块(WE)在提升基类性能方面的有效性。
    • 发现权重解耦模块对于避免BNT问题至关重要。
    • 确定了最优的协作权重(ωb=0.2, ωn=1e-6)和Top-K采样数量(K=8)。
    • 即使减少微调周期,DPC仍能保持优于基线的性能。

5. Interpretability and Analysis(可解释性和分析)

  • 实验设置:对DPC优化过程中的提示词向量进行可视化和特征通道不变性分析。
  • 评估指标:特征图的可视化和特征分布的相似性。
  • 结果
    • 可视化结果显示,DPC优化后的并行提示词的特征分布与原始调优后的提示词高度相似。
    • 分析表明,DPC能够在优化过程中保持提示词向量的特征通道不变性,从而通过动态调整权重来控制模型对基类的拟合程度,而不会引入特征偏差。

这些实验全面验证了DPC框架在解决BNT问题、提升基类性能和保持新类泛化能力方面的有效性。

论文的主要内容:

本文提出了Dual-Prompt Collaboration(DPC)框架,旨在解决视觉-语言模型(VLMs)中基于CLIP的提示词微调(Prompt Tuning)过程中存在的基类-新类权衡(Base-New Trade-off, BNT)问题。BNT问题指的是在基类上持续微调会导致模型对新类的泛化能力下降。DPC通过在提示词级别上解耦基类和新类的优化过程,有效地克服了这一问题。

背景知识

  • 视觉-语言模型(VLMs):以CLIP为代表,展示了强大的跨模态开放领域表示和零样本学习能力。
  • 提示词微调(Prompt Tuning):一种参数高效的微调方法,通过冻结视觉和文本编码器,使用可学习的轻量级提示词向量作为查询,引导CLIP的输出指向目标任务。
  • BNT问题:在基类上持续微调会导致模型对新类的泛化能力下降。

研究方法

DPC框架的核心在于双提示词权重解耦,具体方法如下:

  1. 双提示词初始化(Dual Prompt Initialization)
    • 在预训练的提示词学习器的基础上,通过适度微调获得一个调优后的提示词(tuned prompt)。
    • 基于调优后的提示词,初始化一个并行提示词(parallel prompt),其形式、大小和参数都从基线模型中克隆而来。
    • 两个提示词分别用于新类的泛化和基类的增强,从而在提示词级别上解耦了基类和新类的任务。
  2. 动态硬负样本优化器(Dynamic Hard Negative Optimizer)
    • 负样本采样器(Negative Sampler):通过调优后的提示词作为查询,动态地从基类中获取Top-K推理结果,并将这些结果中除正样本外的其他样本作为硬负样本。
    • 特征过滤(Feature Filtering):对硬负样本的文本特征进行L2归一化,以保持基类的全局特征分布不变,防止在与调优后的提示词协作时出现参数偏移。
    • 硬负样本优化(Hard Negative Optimizing):使用InfoNCE损失函数构建对称的图像-文本对比学习任务,从而实现更强大的跨模态对齐。
  3. 权重解耦模块(Weighting-Decoupling Module)
    • 在微调和推理阶段统一作用于双提示词的输入。
    • 在微调阶段,权重子模块(Weighting)将调优后的提示词和并行提示词组合成一个混合提示词(mixed prompt),并通过基类特定的权重系数(ωb)控制其权重分布。
    • 在推理阶段,解耦子模块(Decoupling)将混合提示词分解回并行提示词和调优后的提示词,并通过新类特定的权重系数(ωn)重新分配权重。

实验

实验部分验证了DPC在多个基线模型和数据集上的有效性:

  1. 基类到新类的泛化(Base-to-New Generalization)
    • 使用11个识别相关的数据集,将每个数据集的类别均匀划分为基类和新类。
    • 仅在基类上进行微调,然后在基类和新类上进行推理。
    • DPC在所有4个基线模型上均取得了优于基线和当前最佳方法PromptKD的调和平均数(HM)性能,主要性能提升来自于基类的优化,同时新类的泛化能力得到了充分保留。
  2. 跨数据集和跨域迁移(Cross-Dataset and Cross-Domain Transfer)
    • 使用ImageNet作为源数据集,在其他数据集(如ImageNet-V2、ImageNet-Sketch等)上进行零样本设置下的评估。
    • DPC在所有基线模型上均取得了优于基线的性能,同时在涉及未见数据分布的跨数据集和跨域任务中保持了一致的泛化水平。
  3. 与其他插即用方法的比较(Comparison with Another Plug-and-Play Method)
    • 将DPC与DePT(另一种插即用提示词学习器,它在特征级别上解耦基类和新类任务)进行比较。
    • DPC在3个基线模型上的增强效果优于或等于DePT,这归因于DPC在提示词级别上的解耦提供了更广泛的优化空间。
  4. 消融研究(Ablation Study)
    • 验证了动态硬负样本优化器(DHNO)和权重解耦模块(WE)在提升基类性能方面的有效性。
    • 发现权重解耦模块对于避免BNT问题至关重要。
    • 确定了最优的协作权重(ωb=0.2, ωn=1e-6)和Top-K采样数量(K=8)。
    • 即使减少微调周期,DPC仍能保持优于基线的性能。

关键结论

DPC通过在提示词级别上解耦基类和新类的优化过程,有效解决了BNT问题。实验结果表明,DPC在多个基线模型和数据集上均取得了显著的性能提升,同时保持了对新类的泛化能力。此外,DPC具有出色的插即用特性和自包含性,无需引入外部知识,具有广泛的应用前景。

未来工作

  • 动态调整协作权重:研究如何自适应地调整协作权重,以更好地平衡基类和新类的性能。
  • 优化提示词初始化策略:探索更先进的提示词初始化策略,以进一步提升DPC的性能。
  • 适应更多类型的提示词和模型架构:研究如何将DPC扩展到更多类型的提示词和模型架构。
  • 跨模态对比学习的改进:探索更先进的对比学习方法,以进一步提升基类的性能。
  • 多任务学习和迁移学习:研究如何将DPC应用于多任务学习和迁移学习场景。
  • 计算效率和可扩展性:研究如何进一步优化DPC的计算效率,使其能够更高效地应用于大规模数据集和复杂模型。
  • 理论分析和泛化能力:进行更深入的理论分析,为DPC的设计和应用提供更坚实的理论基础。
  • 跨领域应用:研究如何将DPC应用于其他领域,如自然语言处理、语音识别或强化学习。
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。原始发表:2025-03-24,如有侵权请联系 cloudcommunity@tencent 删除模型视频性能优化论文

本文标签: 每日学术速递324