admin管理员组文章数量:1438281
UMIT:统一多模态多任务视觉
随着深度学习的迅速发展,尤其是在医学影像分析领域的应用,越来越多的视觉-语言模型(VLMs)被广泛应用于解决复杂的健康和生物医学挑战。 然而,现有研究主要集中在特定任务或单一模态上,这限制了它们在多种医学场景中的适用性和泛化能力。为了解决这一挑战,作者提出了一种统一的多模态、多任务VLM——UMIT,专门设计用于医疗成像任务。UMIT能够解决各种任务,包括视觉问答、疾病检测以及医学报告生成。 此外,它适用于多种影像模态(例如X光、CT和PET),涵盖了从基础诊断到复杂病灶分析的广泛应用领域。而且,UMIT支持英语和汉语,使其在全球范围内具有更广泛的适用性,并确保不同语境下医疗服务体系的可访问性。为了增强模型的适应性和任务处理能力,作者设计了一种独特的两阶段训练策略,并使用设计好的指令模板对UMIT进行微调。 通过广泛的实证评估,UMIT在多个数据集上的五个任务中表现出色。UMIT的表现表明,它可以显著提升诊断准确性并提高工作流程效率,从而为医学影像应用提供有效的解决方案。 源代码和所采用的数据集可在。
1. Introduction
传统医学影像任务通常依赖于专门化的模型,这些模型在单一任务上表现优异,但缺乏跨任务的一般性,这在实际应用中降低了灵活性和效率。近年来,视觉-语言模型(VLMs)通过结合视觉和语言信息显著增强了理解和生成文本的能力,并在多种多模态任务中展现了出色的性能[1, 19, 26]。在医学领域,越来越多的研究开始引入VLMs进行医学图像分析,旨在实现更加智能和高效的多任务处理。
现有的医学图像分析视觉-语言模型(VLMs)可以分为两大类:基于CLIP的方法和基于大语言模型(LLM)的方法。对于基于CLIP的方法,训练过程主要集中在图像与文本之间的对比学习[25]。因此,它们在处理复杂的医学任务(如疾病定位和报告生成)方面存在困难。例如,PLIP[12]通过在大规模病理图像-文本对上训练CLIP来进行零样本分类任务。BiomedCLIP[30]引入了一种基于CLIP的基础模型,使其能够适应各种医学成像模态,并将其应用于分类和视觉问答(VQA)任务。而基于大语言模型的方法通常使用语言模型作为解码器,并将医学多模态任务转化为目标序列生成。这种方法不仅具有更强的上下文理解和推理能力,还可以通过微调来适应不同的医学任务。然而,现有的基于大语言模型的方法在应用范围上仍然有所欠缺。例如,LLaVA-Med[14]是第一个在生物医学领域引入多阶段多模态指令进行视觉-文本数据分析的模型,但它只支持英语,并且仅限于VQA任务。RadFM[27]是第一个基于2D和3D医学数据集训练的系统,主要侧重于文本生成任务。
在本文中,作者提出了一种多功能多模态、多任务视觉-语言模型UMIT。具体而言,UMIT旨在处理广泛的医学任务,包括医疗VQA、报告生成、图像分类、疾病检测和地标检测。这些任务涵盖了大多数医学自动化需求,为临床决策、报告生成和诊断提供了强有力的支持。此外,所提出的UMIT能够处理二维和三维医学图像,并支持双语输入,极大地扩展了其在各种医学领域的应用潜力。如图1所示,相比于其他模型,UMIT涉及的 dataset 更加广泛,涵盖了多种任务和医学成像模态。通过利用其处理多样模态和执行多项任务的能力,UMIT提供了一个全面且灵活的解决方案,能够提升医学影像解释、诊断工作流程和报告生成过程的效率和准确性。为了实现这一目标,作者设计了一种两阶段训练策略:特征对齐阶段和指令微调阶段。通过实验,UMIT在五个数据集上的多个任务中均优于此前的SOTA方法。本文的主要贡献可以总结如下:
- 作者提出了一种视觉-语言模型UMIT,它能够处理多模态和多任务医学成像应用。
- 作者设计了一种两阶段训练策略:特征对齐阶段和指令微调阶段。特征对齐阶段旨在对齐视觉和文本特征,而微调阶段则通过各种指令使UMIT能够在多个任务之间共享知识。
- 作者在多个公共基准数据集上进行了实验,包括五项任务和十八个数据集。结果表明,在大多数数据集上,UMIT的性能优于现有最佳方法。
2. Related Work
2.1. Vision-Language Models
受大语言模型(LLMs)如GPT [22] 成功的启发,各种视觉-语言模型(VLMs)被开发出来,以从视觉和文本模态中提取信息,克服了LLMs主要关注文本数据的局限性。目前,VLMs中最广泛使用的方法可以大致分为两大类:CLIP基的方法和LLM基的方法。
CLIP(对比语言-图像预训练)[25]是一种通过对比学习使用大量自然语言与图像数据配对进行预训练的模型,它可以对齐图像和文本的表示。医学领域中基于CLIP开发的模型,如PLIP[12]、PMC-CLIP[16]和BiomedCLIP[30],因此能够分析病理图像、分类疾病类型、根据给定的文字描述检索相应的图像以及其他与图像-文本匹配相关的任务。然而,由于CLIP基模型依赖对比学习来实现图像-文本对齐,它们缺乏生成内容的能力,这使得它们难以处理位置定位和报告生成等任务。
另一方面,基于大语言模型的多模态视觉语言模型(VLM),以Qwen2-VL [26]为例,在复杂和多样化的任务上表现出色。基于视觉编码器和跨模态连接器对特征的提取,这些VLM将特征传递给大语言模型进行进一步处理。在此基础上,Qwen2-VL 引入了如原生动态分辨率机制和多模态旋转位置嵌入等模块,进一步增强了其处理、感知和生成多模态信息的能力。因此,Qwen2-VL 适用于包括视觉问答(VQA)、报告生成和其他需要复杂图像处理能力的特定任务等多种类型的任务。在医疗领域的应用方面,已经出现了一些针对某些挑战的模型,并且旨在完成更全面任务的模型大多采用基于大语言模型的方法,这主要是因为大语言模型具有强大的信息处理能力。
2.2. Unified VLMs for Medical Image Analysis
在医学图像分析领域,传统的机器学习模型难以应对复杂多样的数据。医学分析不仅需要解释不同类型的功能,包括从图像和文本中提取的特征,还需要掌握专业医疗领域的知识。目前,多模态大语言模型(VLMs)显示出满足这些要求的潜力。值得注意的是,现实世界中的医学图像分析任务包含多种多样的任务,并且需要多种语言支持以更广泛地应用。因此,有必要引入能够处理多模态、多语言和多任务数据的模型,作者将这类模型称为统一的大语言模型(unified VLMs)。
近年来,开发了多种统一的多模态学习模型(VLM),特别是基于大语言模型(LLM)的VLM,旨在满足医学图像分析中的多模态和多任务需求。然而,这些方法仍然存在一些局限性,例如任务覆盖范围受限、与医学影像模态的兼容性有限或语言支持不完整。具体来说,为了应对多任务要求,PeFoMed [9] 提供了一种参数化有效微调方法,将通用领域知识转移到医学图像分析中,以解决医学影像问答(MedVQA)和医学报告生成的问题。GSCo [10] 结合了统一模型的情境学习能力和专家模型的专业领域知识,并引入了两种协作机制——专家混合诊断和检索增强诊断,有效提升了影像问答(VQA)、报告生成和医学图像诊断任务的表现。通过整合跨学科数据,BiomedGPT [29] 在多个数据集上实现了分类、VQA 和报告生成任务的最佳性能指标。为了适应各种医学影像模态,如X光片、超声波、CT扫描和MRI等,RadFM [27] 提出了一种专门用于放射学中影像问答和报告生成任务的通用基础模型,该模型可以适用于二维和三维图像。针对多语言模型,Qilin-Med-VL [20] 构建了首个针对通用医疗保健任务的大规模中文VLM,使用经过质量控制的GPT-3.5的英文开源数据集进行翻译构建。HuatuoGPT-Vision [3] 基于PubMed构建了一个高质量的多模态医学数据集,并使用此数据集训练了一个能够处理双语医学影像问答的VLM。
尽管这些模型已在多种场景中成功应用,但它们在不同医疗领域和任务上的扩展性仍然有限。为了解决这一问题,作者提出了UMIT,一种专门为医疗图像分析设计的先进统一VL模型,能够高效地处理多模态任务,支持中英双语。
3. Methodology
3.1. Framework
由于Qwen2-VL [26] 支持双语 Prompt 并且具有强大的图像和视频理解能力,作者简单地采用了Qwen2-VL 的模型架构。如图2所示,UMIT 包括三个模块:一个视觉编码器、一个线性层和作为解码器的语言模型。线性层充当连接器,用于在视觉编码器和语言模型之间映射通道维度。作者设计了一种两阶段训练策略来优化整个模型。在第一阶段,作者使用大量医学图像-文本对对模型进行预训练。这一阶段有助于建立医学图像视觉特征与包含专业知识的文本特征之间的联系,实现特征对齐。在第二阶段,作者设计了多种指令以微调模型,使其能够建立不同任务之间的联系。这些设计指令可以根据每项任务和模态的具体要求进行调整,从而增强其在多任务和多模态环境中的灵活性和适应性。
3.2. Feature Alignment Stage
在特征对齐阶段,目标是使UMIT能够学会在共享特征空间中对齐视觉和文本信息。例如,在医学成像任务中,X光图像可能对应于与该图像相关的医学报告或诊断描述。作者使用Qwen2-VL预训练权重初始化UMIT,并训练模型的所有参数以确保其能够有效学习医学图像和文本之间的关系。这种方法不仅增强了模型在下游任务中的泛化能力,还提高了其对基本医学概念理解的一致性。
3.2.1. Data Engine for Feature Alignment
在特征对齐阶段,作者使用了大约300万张图像-文本配对数据,其中包括来自英语医学视图语言数据集的约250万张和来自中文医学视图语言数据集的约50万张。这些数据集的获取细节如下。
对于英文医学视觉-语言数据集,通过过滤和从PMC-OA [16] 中选择,获得了约160万张带文字描述的lion图像。PMCOA包含来自PubMed Central的配对图像和描述。此外,由于医学图像数据集的数量有限且种类不多,作者生成了一些合成训练数据,包含90万组问题-答案对。具体来说,作者将不同图像及其相关标题和描述作为一组,利用GPT-3.5 Turbo回答它们之间的相似点与差异点。然后,选择的图像及其相应的生成答案构成一个训练样本。这些训练样本有助于模型更好地学习领域特定知识,例如医学领域的专业术语和概念。
对于中文医疗视觉语言数据集,作者从ChiMed-VLAlignment [20] 中选择了30万张图像文本对,每对包括图像的上下文信息或描述。然后,类似地,作者通过相同的操作生成了20万训练样本。
3.3. Instruction-Tuning Stage
多任务学习对于实现一般人工智能至关重要。在指令调优阶段,作者对UMIT进行微调以提高其在多种医学任务上的性能。作者选择了五个下游任务,每个任务都有显著的实际应用价值。医学影像报告生成能够为放射科医生提供高质量的草稿报告,从而显著提高诊断效率[21]。医学VQA不仅能提升临床医生的诊断准确性,还能增强患者对医学信息的理解,并促进医学教育和研究[31]。医学图像分类在疾病诊断和病变检测中起着关键作用[5]。基于文本 Prompt 的疾病检测能够在图像中精确定位目标目标,识别特定的病变区域[24]。解剖标志物检测能够自动识别医学影像中的预定义解剖标志物,为精确的医学图像分析提供强有力的支持[4]。在这个阶段,作者冻结了预训练的视觉编码器,并对线性层和语言模型进行了微调,从而使UMIT能够更好地理解和应对医学任务。
3.3.1. Data Engine for Instruction-Tuning
作者选取了18个先前工作中的公开数据集用于训练和测试(这些数据集的细节见表1)。为了帮助模型更好地理解任务需求并在处理不同类型的任务时作出必要的调整(例如,不同的输出格式),作者还设计了多个指令模板。具体细节如下。
医学VQA。对于医学VQA任务,作者总共使用了五个数据集,包括VQA-RAD [13]、SLAKE [18]、PathVQA [11] 和 ChiMedVL-Instruction [20](用于2D图像),以及M3D-VQA [2](用于3D图像)。这些数据集涵盖了来自各种解剖结构的放射学数据,以及捕获身体和特定组织详细信息的病理数据。此外,这些数据集中的一些既包括开放型数据也包括封闭型数据。给定图像,请审查图像并编制一份评估其中任何异常情况的报告。
4. Experiment
4.1. Implementation Details
该模型采用PyTorch实现,并在8块NVIDIA A100 GPU(每块拥有80 GB内存)上并行训练。所有模型均使用Adam W优化器进行训练,并利用DeepSpeed提供的ZeRO-2优化技术来优化内存使用并加速训练过程。在第一阶段,作者对UMIT进行了一个epoch的训练。在第二阶段,首先用所有数据对UMIT进行四轮训练以获得基础模型(在后续部分中称为UMIT-B)。然后,为了与之前的模型如BiomedGPT [29] 保持一致,作者在每个任务上对UMIT进行微调,所用的训练轮数与之前相同。
4.2. Results on Medical VQA
在基于2D图像的医疗VQA任务中,作者评估了提出的UMIT方法在三个纯英文数据集上的性能。作者将Qwen2-VL作为 Baseline 模型,并将作者的模型与之前在医学影像领域的CLIP基和大语言模型基的顶级方法进行对比。具体来说,作者选择了两种CLIP基的方法(即BiomedCLIP和PubMedCLIP [7])和三种大语言模型基的方法(即LLaVA-Med [14]、PeFoMed [9] 和BiomedGPT)。作者采用准确性作为主要评估指标。
如表2所示,作者的模型显著优于 Baseline 模型Qwen2-VL。Qwen2-VL性能不佳的两个可能原因如下:
1)其训练数据集中包含的医学相关示例非常少;
2)它倾向于生成比真实答案更长的答案。尽管UMIT架构基于Qwen2-VL构建,但UMIT-B仍然实现了显著的性能提升,进一步突显了所提训练策略和指令模板的有效性。此外,作者还将UMIT-B与其他模型的结果进行了对比。如SLAKE和VQA-RAD数据集的结果所示,UMIT-B在封闭式问题上表现最佳。尽管UMIT-B在开放式问题上的表现未达到顶级水平,但其性能仍具有竞争力。
对于PathVQA数据集,由于官方数据集没有提供封闭式和开放式问题的划分,作者将所有数据视为开放式问题。即便如此,很明显,作者的模型在开放式问题上展示了相当大的潜力,而其他方法在这类问题上表现较差。
此外,如表2的最后一行所示,UMIT在所有数据集上均实现了最优性能,除了SLAKE中的开放式问题外。然而,值得注意的是,LLaVA-Med对开放式和封闭式问题的准确性测量不同:他们使用 Token 召回率对开放式问题进行评估,而对封闭式问题则使用传统的分类准确率。
如表3所示,作者在另外三个数据集上也进行了实验:两个中文2D图像数据集SLAKE和CM-VL-I,以及一个3D图像数据集M3DVQA。由于之前没有专门针对作者采用的两个中文2D图像数据集的研究,作者仅将UMIT与 Baseline 方法Qwen2-VL进行比较。表3中的结果显示,UMIT在中文数据上也取得了令人印象深刻的结果。然而,在CM-VL-I数据集上的性能相对较差,这可能是因为该数据集较为复杂。CM-VL-I数据集包含了医疗图像和医疗场景图像,并且答案较为冗长,这些都可能导致实现高性能的挑战。对于基于3D图像的数据集,作者将作者的模型与之前的技术领先视觉语言模型进行了比较,包括RadFM [27] 和M3D [2]。RadFM支持2D和3D图像分析,而M3D专门用于3D图像分析。结果显示,UMIT仍然取得了更好的性能,这表明多任务学习能够使其在不同任务间共享知识。
4.3. Results on Classification
作者在七个分类数据集上评估了UMIT,并将其与通用视觉语言模型和领域特定模型进行了比较。实验结果见表4。与医学VQA任务类似,作者使用准确率作为评价指标。与 Baseline 模型Qwen2-VL相比,UMIT显示出显著的性能提升,这突显了其更强的领域适应性。显然,UMIT在大多数数据集上均实现了最优性能,甚至超越了一些专门化模型。正如之前的工作所示,在UMITB的方法中,作者使用的图像作为输入。然而,这种设置显然对作者的模型产生了负面影响。在所提出的方法中,通过视觉编码器后,输入图像只剩下了一个Token,这可能限制了其性能。尽管UMIT-B在输入大小的情况下表现不佳,但与之前的模型相比,它们仍然相当令人印象深刻。
4.4. Results on Report Generation
如表5和表6所示,作者在报告生成任务中对2D图像数据集IU-Xray和PEIR GROSS以及3D图像数据集M3D-CAP进行了实验。作者使用常用的评价指标:METEOR、ROUGE-L、CIDEr和BLEU来评估作者的方法。
在对2D图像数据集进行评估时,作者选择了当前最佳的一般视觉语言模型和领域特定模型作为对比方法。表5的结果显示,在METEOR和ROUGE-L指标上,UMIT优于之前的所有基于LLM的模型,在IU-Xray和PEIR GROSS数据集上的表现更为突出。这表明作者的模型在内容连贯性和语义相似性方面具有明显优势。作者注意到,UMIT的CIDEr分数略低,因为CIDEr更注重多样性和新颖性,而这与医学报告生成的相关性较小,因此作者认为这不会显著影响作者模型的整体性能。此外,作者的方法在PEIR GROSS数据集上优于专门模型,并且在IU-Xray数据集上的表现相当。这表明作者的模型有效地利用了跨领域的知识和上下文信息,提高了准确性。
在对基于3D图像的医疗报告生成进行评估(如表6所示),UMIT在与先前模型的性能比较中表现出竞争力。在M3D-Cap上,UMIT获得的BLEU得分为15.63,这是所有评估模型中的最高分,表明其在词汇层面上生成文本与参考报告高度一致的优势。然而,在ROUGE-L和METEOR指标上,UMIT分别获得了18.5和12.22的成绩,略低于表现最佳的M3D(mlp)模型。尽管未在所有指标上领先,但UMIT的最高BLEU得分突显了其在从3D图像准确重现医疗报告中关键术语和短语方面的能力,这对于医疗场景中的有效沟通至关重要。
4.5. Results on Disease Detection
在RSNA胸部X光疾病检测数据集上,UMIT展现出显著的性能,IoU得分为0.22,使其成为第二好的模型。这一结果相较于通用的Vision-Language模型Qwen2-VL和MiniGPT-v2分别取得的0.10和0.13的IoU得分有了显著提升。值得一提的是,专门优化用于放射影像分析的MiniGPT-Med取得了最佳性能,其IoU得分为0.26。尽管如此,UMIT的结果仍然突显了其在疾病检测适应性方面的有效性。
UMIT在基于3D图像的疾病检测数据集M3D-Seg上的评估中进一步展现了其优势,取得了67.21的优异成绩。UMIT分别优于M3D的两种变种:一种是冻结视觉编码器的版本(M3D-F),其得分为30.05;另一种是未冻结视觉编码器的版本(M3D-U),其得分为49.66。UMIT在基于3D图像的疾病检测中的优势尤为明显,与最佳的M3D配置相比,性能提升了约17.5%。这表明,UMIT不仅在适应2D医学图像方面表现出色,还显著推动了处理复杂3D医学成像数据的技术水平,展示了其在不同医学成像任务中的鲁棒性和 versatility。
4.6. Results on Landmark Detection
由于目前没有基于大语言模型的地标的检测模型,作者仅将UMIT与 Baseline 模型Qwen2-VL和SOTA方法FDGR-Net [15] 进行比较。如表9所示,由于训练数据集有限,每地标仅有150张图像可供训练,作者的结果略低。然而,作者仍然在 Baseline 模型上实现了显著的提升。尽管在训练过程中用于地标检测的图像数量较少,但存在大量用于其他任务的相似图像。这可能使模型能够学习到相关知识。这表明,多任务指令调优阶段能够通过利用不同任务的相关知识有效提升模型性能。
4.7. Qualitative Evaluation
如图3所示,作者呈现了五个任务的部分可视化结果。在分类任务中,包括疾病检测和组织识别,该模型持续生成准确的结果。对于视觉问答(VQA)任务,作者展示了一个错误预测的例子。这表明尽管模型整体表现良好,但在面对更复杂或含糊的情景时,仍可能出现错误。对于地标检测和疾病检测任务,尽管预测结果并非总是完全准确,但偏差很小。这表明模型对图像有很强的理解能力,并能有效识别关键特征。对于报告生成任务,作者展示了基于多张图像的结果。模型的预测结果高度一致,结论与预期结果契合紧密。虽然生成的报告缺乏一些ground truth中的深度,但仍清楚地证明了模型能够生成相关且上下文恰当的结论。虽然细节方面有所欠缺,但核心输出依然稳健可靠。更多可视化结果详见补充材料。
参考
[0]. UMIT: Unifying Medical Imaging Tasks via Vision-Language Models .
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。原始发表:2025-04-22,如有侵权请联系 cloudcommunity@tencent 删除性能医疗图像分析模型数据本文标签: UMIT统一多模态多任务视觉
版权声明:本文标题:UMIT:统一多模态多任务视觉 内容由网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:http://www.betaflare.com/biancheng/1747560625a2708859.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论