admin管理员组

文章数量:1442151

前瞻

Basic Information

  • 英文标题:Multimodal generative AI for medical image interpretation
  • 中文标题:用于医学图像解释的多模态生成式人工智能
  • 发表日期:26 March 2025
  • 文章类型:Perspective
  • 所属期刊:Nature
  • 文章作者:Vishwanatha M. Rao | Pranav Rajpurkar
  • 文章链接:

Abstract

Para_01
  1. 准确解读医学影像并生成有见地的叙述报告对于患者护理至关重要,但给临床专家带来了沉重的负担。
  2. 人工智能(AI)的进步,特别是在我们称之为多模态生成医学图像解释(GenMI)的领域,为自动化这一复杂过程的部分创造了机会。
  3. 在这篇观点文章中,我们综合了开发从图像生成医学报告的AI系统方面的进展和挑战。
  4. 我们广泛聚焦于放射学,这是一个具有巨大报告需求和研究努力的领域。
  5. 除了分析用于医学报告生成的新模型的优势和应用外,我们还倡导一种新的范式来部署GenMI,以增强临床医生及其患者的能力。
  6. 初步研究表明,GenMI有朝一日可能在多个学科(如放射学、病理学和皮肤病学)中匹配人类专家在生成报告方面的表现。
  7. 然而,在验证模型准确性、确保透明性和引出细致印象方面仍然存在巨大的障碍。
  8. 如果谨慎实施,GenMI可以有意义地帮助临床医生提高护理质量、增强医学教育、减少工作量、扩展专业访问并提供实时专业知识。
  9. 总体而言,我们强调了开发多模态生成AI的机会以及关键挑战,这些挑战补充了人类专家可靠的医学报告写作。

Main

Para_01
  1. 医学报告生成涉及将诸如医学图像和视频的视觉数据转化为有见地的书面文本,这一过程对于在多个专业领域中传达发现和指导护理是不可或缺的。
  2. 在放射学中,报告需求正在迅速增加,部分原因是由于计算机断层扫描(CT)、磁共振成像(MRI)和其他需要专门知识来解释的复杂模式的进步。
  3. 心脏导管插入术、超声心动图和内窥镜检查的报告对患者管理至关重要,这些测试的信息通常需要与其他成像模式获得的发现进行整合。
  4. 例如,一份全面的患者心脏状态总结可能需要考虑从心脏血管造影报告、心脏灌注研究、心脏MRI、超声心动图和心脏CT中获得的信息。
  5. 将这些程序中的大量视觉数据综合成连贯简洁的文本摘要代表了一个巨大的挑战,并导致不可避免的信息丢失。
  6. 此外,缺乏熟练于报告复杂模式的专家导致报告周转时间延迟和错误,这可能显著影响患者的护理。
Para_02
  1. AI 报告生成工具在应对这些挑战方面显示出潜力。AI 可以初步阅读考试并起草初步报告,使临床医生能够更快地处理病例,提高周转时间,扩大获得专业水平报告的机会,并最终减轻医疗系统的压力。
  2. 在没有专家可用的偏远地区,AI 工具可能作为完全自主的初步读取工具,类似于远程放射学服务。
  3. 除了提高临床效率,自动化报告生成还可以直接改善患者护理。
  4. 随着使用更强大的数据集进一步开发 AI 模型,它们将能够更好地预测治疗效果和疾病,并更有效地向患者传达健康信息。
  5. AI 模型也是可扩展的,同样道理,一组放射科医生比单个放射科医生更准确地筛查疾病,部署多种 AI 模型可能会带来更大的性能改进。
Para_03
  1. 现代AI算法的互动能力也为它们作为‘AI居民’发挥更广泛的作用打开了大门,这一灵感来自于学术医院的工作流程。除了仅生成报告外,AI助手还可以通过使相似图像及其报告进行比较来改善医学教育。
  2. 它们提供实时帮助的能力也与增强临床医生和患者理解相关。
  3. AI居民可以使治疗医生,如全科医生,在相应图像的背景下深入探究报告的细节,并获得更深刻的见解。
  4. 在监督下,患者可以查询以快速获得对其病情的新视角。
  5. 算法甚至可以生成与特定句子和发现相关的图像中相关区域相链接的有根据且互动的报告。
Para_04
  1. 尽管它们具有潜力,大多数现有的人工智能解决方案主要集中在医学影像中的单一任务自动化,例如在个别模式中检测特定状况。
  2. 例如,算法可以对胸部X光片进行分类以发现如气胸的迹象,作为计算机辅助检测工具来标记CT中的可能病变如肺结节或结肠镜筛查中的结肠息肉,或者定位和描述乳房X光片中的异常情况。
  3. 这些都代表了重要但非常局限的人工智能应用,并未考虑到放射学和临床成像中涉及的更全面和综合的分析。
  4. 解释检查需要综合多个成像模式的结果,将观察结果与患者的临床背景相关联并通过报告传达综合见解。
  5. 目前大多数人工智能工具缺乏摄取多模态数据、上下文化异常并生成总结印象叙述的广度。
  6. 因此,它们减少放射科医生和其他成像专家工作量的能力仍然有限。
  7. 它们也不太擅长识别和描述较为罕见的病症或新兴疾病,这可能会妨碍其在改善患者护理和教育学生方面的有效性。
Para_05
  1. 在医学影像和报告方面,AI有一个重要的机会以GenMI的形式采取更广泛的方法。如图1所示,GenMI模型将很快能够撰写涵盖多个专业的引人注目的报告,并且未来的模型可以摄取多种模式和临床数据,生成更加准确、流畅和可解释的报告。
  2. 尽管GenMI迅速发展,但缺乏管理其临床整合的既定指南。
  3. 此外,虽然GenMI模型显然可以减轻临床医生的工作负担,但它们在患者护理和教育中的作用不太直观,需要进一步讨论。
  4. 除了提出一种新的范式来利用这些令人兴奋的能力在临床环境中,我们还讨论了必须克服的重要挑战,以便安全地实现生成性AI在这个复杂领域中的好处。

Fig. 1: Applications for automated medical report generation.

- 图片说明

◉ 基于人工智能的医疗报告生成在各专科中的应用和样本报告总结。心电图,即ECG。

Generative AI for medical report generation

Para_01
  1. 直到最近,医学报告生成框架主要由视觉编码器和语言解码器组成。
  2. 在这个框架中,编码器从图像中提取视觉信息并将其转换为向量表示,而解码器则将一个向量转化为特定的输出,在这种情况下是语言。
  3. 多年来,研究基于编码器-解码器方法,创新了新的方法来更好地编码图像数据、考虑外部知识、筛查异常等。
  4. 然而,基础模型——包括大型语言模型(LLM)在内的大型预训练通用人工智能系统的出现,通过促进新型GenMI解决方案的发展,彻底改变了医学图像解释。
  5. 这些GenMI方法声称可以生成更准确的医学报告,并执行其他多个下游任务,使用相同的基模型处理多模态数据。
  6. 这些算法中的大部分都建立在视觉-语言模型(VLMs)的基础上,这些模型将单独的视觉和语言模型融合到一个统一的框架中,可以同时编码图像和文本输入。
  7. 图2概述了多模态生成AI解锁的医学图像解释的新应用。

Fig. 2: The capabilities of GenMI.

- 图片说明

◉ 左上角,基于人工智能的医学图像解释模型传统上依赖于单模态输入来输出静态文本报告或其他疾病预测。◉ 右下角,GenMI 的出现为更动态的图像解释打开了大门。◉ 新技术将能够考虑全面的多模态上下文,包括患者病史和先前的图表,并生成注释和标签以提高报告的质量。◉ 它们还允许与患者和临床医生进行实时互动和后续跟进,从而提高对人工智能生成输出的可解释性。

Incorporating LLMs

融入大语言模型

Para_01
  1. 大型语言模型(LLMs)的出现显著影响了医学报告生成——算法现在采用GPT变体或其他大型语言模型作为其解码器,而不是较小的传统模型。
  2. 许多研究已经转向利用大型语言模型的知识和推理能力,这使它们成为更强健的报告生成解码器。
  3. 然而,这种使用方式较为局限,并未充分利用提示技术或在集成到视觉-语言模型(VLM)框架时的独特能力来编码多模态输入。
  4. 除了在编码器-解码器范式中作为解码器外,大型语言模型还被用于报告质量保证,以重写报告并去除幻觉,这些通常是错误引用不存在的先前报告。
Para_02
  1. 最近,人们开始推动更加通用的视觉-语言系统,在这些系统中,GenMI 模型被开发出来处理多模态输入,并执行各种医学图像解释任务,包括报告生成和视觉问答。
  2. 几个这样的框架利用了大语言模型(LLM)的能力来生成报告并回答不同条件和模态下的问题,而无需额外的标注数据。
  3. GPT-4V 是 OpenAI 的一个流行示例,它可以在某些情况下识别成像模态和解剖结构,为病理图像生成结构化报告,并根据医学提示修改这些报告。
  4. 然而,初步评估该模型在医学领域的开箱即用效用的结果不佳,且在准确诊断医学状况方面面临困难。
  5. 还有其他一些 GenMI 方法使用较小的语言模型来实现类似的性能。
Para_03
  1. 尽管大型语言模型(LLMs)在未来的多模态医学报告生成中很有前景,但目前它们面临几个限制,这些限制阻碍了其临床应用。
  2. LLMs 容易产生偏见、频繁的幻觉和不准确性,这在医学报告生成的背景下尤其成问题,因为在医学报告生成中保持无偏见和临床准确性是至关重要的。
  3. 临床医生也经常处理不完整的信息,但在患者信息和病史缺乏的情况下,更复杂的模型会经历更高的幻觉和误诊率。
  4. 此外,用于报告生成的大多数基础模型都是为英语开发的。
  5. 除了中文之外,对其他语言的研究有限。
  6. 许多这些问题可以通过谨慎的数据收集和进一步开发 LLMs 来缓解,并且在审计部署在 GenMI 框架内的 LLMs 时,保持人类合作是很重要的。

Multimodal processing

多模态处理

Para_01
  1. 将多模态数据纳入的能力是更准确的医疗报告生成的一个令人兴奋的途径;除了直接处理输入查询和图像外,多模态输入允许更强的临床背景编码。
  2. 虽然以前的报告生成方法已经结合了诸如先前病史等多模态输入,但视觉语言模型(VLMs)为更有效的多模态处理打开了大门。
  3. 例如,一种使用VLMs的GenMI方法可以通过对提供的图像进行文本域标识符令牌编码来整合各种输入模态。
  4. 尽管VLMs带来了改进,当前的基础模型在整合多模态图像输入方面的性能仍不及临床医生。
  5. 像谷歌的Gemini和GPT-4V这样的针对多模态任务调整的模型在这方面尤其有前途,并且在包括健康和医学领域的多模态和高层次推理基准测试中表现更好。
Para_02
  1. 改进多模态VLMs生成报告的基础是它们使用统一的文本和图像表示空间学习任务的能力。
  2. 这种表示学习通常实现一种称为交叉注意力的机制,在生成这些共享表示时,模型学习图像和文本序列不同方面的‘重要性得分’矩阵。
  3. 视觉和文本编码器的对比学习,即机器学习模型通过比较组或对来区分相似和不相似的数据,是这种共享表示空间学习的关键,并且也导致了医学报告生成的改进。
Para_03
  1. 尽管已有许多研究结合了多模态输入,但探索多模态输出的研究却少得多,在这种情况下,生成的报告附带某种非文本形式的输出,以提高可解释性或丰富其临床实用性。
  2. 例如,一种方法能够在输入图像上输出边界框,这显著提高了其可解释性。
  3. 另一项研究构建了一个统一模型,可以从给定输入中生成文本报告以及胸部X光片。
  4. 除了这些研究之外,多模态输出在报告生成中的使用相对未被探索。

Fig. 3: Implementing an AI resident.

- 图片说明

◉ 制定一种有效的AI住院工具的发展策略,该工具可以协助临床医生起草报告,提供互动的临床专业知识,并教育住院医师和医学生。◉ 为了实施AI住院医师,首先可以在现有数据集上以自动化方式评估GenMI算法,使用传统的自然语言相似性度量和临床准确性得分。◉ 随后,可以在有临床医生密切监督的受控环境中前瞻性地测试新病例。◉ 最后,在诊所部署时,可以通过人类反馈不断改进这些算法。

Improving clinical accuracy

提高临床准确性

Para_01
  1. 尽管它们具有能力,GenMI 方法在临床准确性方面仍有改进的空间,才能在实际部署中发挥作用。因此,我们概述了两种在提高先前报告生成解决方案的临床准确性方面取得成功的策略:引入外部知识和明确的疾病分类。未来的 GenMI 模型可以在其训练和推理流程中借鉴这些方法。一项研究已经将检索增强生成技术纳入其中,这种技术使语言模型能够在生成过程中检索特定领域的外部知识。
  2. 这样的范式已经被应用在一个研究中。
Para_02
  1. 几种方法尝试在报告生成的不同阶段纳入外部临床知识。首先,在较小的范围内,记忆矩阵可以通过存储视觉和语言组件之间的跨模态映射信息来帮助巩固知识,以便更好地将未来生成的报告与提供的图像对齐。
  2. 其他研究则在更广泛的层面上结合了临床发现和疾病的知识。
  3. 最常见的实现方式是通过知识图谱,这是一种由节点和边组成的计算图。
  4. 在这里,节点代表疾病状态或病理生理特征,而边捕捉它们之间的关系。
  5. 这些图中的信息通常使用某种形式的图神经网络与输入一起编码,这是一种设计用于处理计算图的深度学习架构。
  6. 流行的知识图谱RadGraph包含从MIMIC-CXR胸部X光数据集中提取的超过六百万个实体和四百万个关系,并且在报告生成中频繁使用。
  7. 除了临床发现外,某些研究还尝试根据类似的报告对特定患者的上下文知识进行编码。
Para_03
  1. 尽管以这种方式整合外部知识可以提高临床准确性,但它对模型的影响程度可能会影响性能。
  2. 此外,似乎在临床准确性和自然语言相似性之间存在一种权衡,后者衡量生成文本和真实报告之间的流利度、词汇重叠、词干相似性和相关词汇数量等因素。
  3. 然而,当外部知识得到良好实施时,有可能同时实现高临床准确性和语言相似性。
Para_04
  1. 除了外部知识,明确执行疾病分类也与提高临床准确性有关——一些论文在训练过程中使用多标签分类来鼓励模型更多地关注临床上相关的特征。
  2. 进一步的方法更直接地利用了疾病分类的输出来生成医疗报告。
  3. 例如,有些方法使用这些输出来增强生成放射学报告时发送到解码器的初始视觉特征。
  4. 而其他方法则在不同的解剖区域进行多标签分类,以确定报告的内容和重点区域。
  5. 疾病标签的输出甚至被用作撰写报告的起点,基于单个疾病标签撰写的描述符被组合形成最终报告。

GenMI beyond radiology

GenMI在放射学之外的应用

Para_01
  1. 鉴于GenMI在放射学图像处理中的日益普及,类似的方法已在其他专业中引入,包括病理学和皮肤病学。
  2. 一种用于病理图像分析的全能工具包可以通过结合与多个专用模型交互的基础模型来处理多模态输入并生成多模态输出。
  3. 除了医学报告生成外,它还可以执行任务,包括输出边界框、分割和回答问题。
  4. 另一种用于皮肤病学的GenMI方法可以根据用户拍摄的图像提供互动协助并生成医学报告。
  5. 更广泛地说,大型多模态模型为跨专业的医学推断提供了合理的基础,但它们在深度和当前准确性方面仍然有限。
  6. 这些领域已经开发了其他图像解释模型,但不将正式的医学报告生成作为下游任务。

Leveraging GenMI to assist clinicians and patients

Deploying an AI resident

部署一个人工智能居民

Para_01
  1. 尽管这些新的基因组医学信息(GenMI)解决方案前景广阔,但我们认为必须以一种有意且谨慎的方式实施它们,以便在临床环境中充分实现其益处。
  2. 鉴于此,我们提倡AI驻留范式,该范式作为指导,利用这些算法来增强临床医生及其患者的能力(图3)。
  3. AI驻留者首先会专注于起草临床准确的报告,作为住院医师或医生撰写报告的起点。
  4. 在开发过程中,模型可以在临床环境中进行前瞻性测试,正如X-REM28中介绍的那样。
  5. 然后,实际的住院医师可以在本地对AI驻留者进行微调或校准,在此过程中,AI可以从所需的修正和补充中学习。
  6. 一旦部署,AI驻留者可以帮助提高放射科医生或其他专家撰写的报告质量,尤其是在通过笔记、对话或指示部分获得的患者信息有限的情况下。
  7. 例如,当遇到肺部空洞时,AI驻留者可以生成诸如"患者是否免疫功能低下?"或"患者是否有结核病史?"等问题,这些问题将帮助放射科医生在报告中生成针对特定患者的鉴别诊断。
Para_02
  1. AI 居民也可以通过利用 GenMI 的实时交互能力来更好地传播临床发现,从而造福临床医生及其患者。
  2. 在治疗患者时参考医疗报告的临床医生,例如全科医生,可能对特定发现感兴趣,并可以查询 AI 居民以找到与报告相对应的图像区域,反之亦然。
  3. 外科医生通常也是如此,他们有兴趣深入了解他们将要操作区域的解剖结构。
  4. 另外,患者可以在受控环境中直接与 AI 居民互动,快速获得对其病例的第二意见。
  5. 患者已经频繁地咨询 Google 等平台以获取在线健康帮助,并且 AI 居民可以更有效和监督的方式使这一过程正式化。
  6. 该系统还将使患者更好地了解他们的病情,并在他们的医疗保健中发挥更积极的作用。
  7. 例如,生成报告中的特定句子和诊断可以指向与其对应的图像中的特定区域。
  8. 患者可以在报告中标记不熟悉的术语并向 AI 询问"在这种情况下我应该问我的医生什么?"
  9. 虽然不期望患者完全理解医学图像,但 AI 居民可以帮助澄清图像中引起关注的区域,从而提高患者在医患会面后的满意度。
  10. 由于使用了这样的工具而更积极参与其护理的患者可能会体验到更高的治疗依从性和更好的健康结果。
Para_03
  1. 此外,GenMI 的交互能力可以使人工智能住院医师在教育方面提供帮助。实时和个性化反馈在医学教育中的价值是有充分文献记载的,人工智能住院医师可以为住院医师和医学生提供这种指导。
  2. 例如,学生可以从他们的图像库中调出类似的案例进行教育模块学习,帮助他们进行对比分析、可视化外观谱系,并最终获得更全面的理解。
  3. 报告顺序可以调整,让学生先进行报告,然后由人工智能住院医师根据报告提供反馈和建议。
  4. 因此,在主治医师的适当监督下,人工智能住院医师可以作为医学教育的重要补充。

Aligning with human preferences

与人类的偏好保持一致

Para_01
  1. 人类输入对于确保人工智能居民能够符合临床医生和患者的兴趣履行这些角色至关重要。
  2. 为此,临床医生和基础模型之间的协作努力已显示出有希望的结果,并且在将来部署人工智能居民时可以采用这些技术。
  3. 研究表明,当临床医生审查和调整人工智能生成的报告时,最终输出通常与仅由临床医生撰写的报告相当,甚至更受青睐。
  4. 来自人类反馈的强化学习和直接偏好优化代表了两种已被应用于此类任务的技术。
  5. 最近的一项研究通过专门训练一种对话式的医学报告生成模型进一步发展了这一概念,以便临床医生可以根据需要提供反馈和后续问题。
  6. 另一种方法是与临床医生合作,通过使用生成性人工智能改变输入图像的属性来审核人工智能成像工具,观察模型预测的相关差异,并将这些差异与临床医生识别的重要特征进行比较。
  7. 这种方法可用于提高人工智能居民的可解释性。
  8. 尽管研究主要在模型和临床医生之间应用这些对齐技术,但也有潜力让患者参与此过程以捕捉他们的偏好。
  9. 例如,专门为患者生成的报告可以进行调整,以包含较少的医学术语和更多关于患者状况的直白语言。
Para_02
  1. 虽然GenMI将受益于临床医生的输入,但临床医生也可能会通过至少三种途径从AI中学习。首先,临床医生可以利用AI模型的诊断能力,尤其是在它们继续提高准确性的情况下,来获得关于诊断错误的反馈。模型可以结合多模态输出,使这种反馈更加直观和信息丰富,其中带有边界框的解释叠加在原始图像上,可以突出之前可能被忽略的相关图像区域。
  2. 其次,模型快速解析图像和报告的能力将使它们成为临床医生快速搜索类似病例和图像的宝贵工具。
  3. 第三,模型在协助临床医生在决策过程中进行协作性头脑风暴时,可能会证明其无价之宝,模型提供的探询问题可以提供有关特定条件相关诊断模式的见解。

Challenges in realizing the benefits of GenMI

Benchmarks and evaluation metrics

基准和评估指标

Para_01
  1. 医学报告生成模型以前是通过诸如BLEU、METEOR、CIDeR和Rouge-L等自然语言指标进行评估的。这些度量虽然在确定文本输入之间的相似性方面有效,但并未考虑临床准确性,并且不适用于解析和区分特定于医学的术语。
  2. 鉴于此,已经开发了几种新的度量标准,以更好地跟踪医学报告生成网络的有效性。
  3. 具体来说,对于放射学报告生成,提出了RadGraph F1和RadCliQ来预测医学报告中临床特征和放射科医生确定的错误评分的重叠情况。
  4. 此外,还开发了Radbanch作为基础放射学模型的基准,包括医学报告生成在内的其他视觉-语言任务。
Para_02
  1. 尽管自动化指标方便且可扩展,但人工评估对于确定GenMI解决方案的直接临床可行性至关重要。
  2. 一项研究已经前瞻性地调查了读者在评估生成放射学报告的有效性时节省的时间,并且其他研究已将他们的评估扩展到使用人类专家级别的反馈来区分他们的模型与基线。
  3. 然而,这个领域相对未被探索,未来必须进行评估下游临床效果的研究,然后才能安全地实施医疗报告生成模型。
Para_03
  1. 在AI驻留的背景下,对更好定义的指标的需求尤为相关,因为这将在患者护理中扮演更为重要的角色。部署AI驻留工具后,必须制定方法以维持一致的监控,防止性能下降,并尽量减少对抗性攻击的机会。
  2. 最近的报告已经发现,流行的LLM的性能可能会随时间显著变化,这对报告生成来说尤其令人担忧,因为这种差异可能具有高度后果。
  3. 此外,GenMI模型可能容易受到对抗性攻击的影响,这些攻击本质上利用了模型的漏洞来生成错误的输出,这些输出可能被用于犯罪活动。
  4. 例如,疾病预测模型可能被操纵以输出特定的诊断和结果指标,从而可能导致过度处方、保险欺诈和伪造临床试验。
  5. LLM特别容易受到这些攻击的影响,因此,在将它们作为AI驻留的一部分进行部署时,确保一致的安全措施和监督是至关重要的。

Clinician and patient over-reliance

临床医生和患者的过度依赖

Para_01
  1. 即使在使用明确的措施部署和监控人工智能居民之后,防止临床医生过度依赖其输出仍然很重要。
  2. 例如,由于各种原因,包括对错误的责任不明确、确认偏见和自动化偏见,临床医生可能不愿意更改人工智能生成报告中的文本,其中他们过于依赖机器自动化的指导。
  3. 这种依赖可能导致严重后果,因为临床医生可能会忽略模型未被训练识别的罕见发现。
  4. 此外,用于训练报告生成模型的数据集主要基于欧洲裔人群的数据,因此,这些模型可能会为少数群体生成较低质量的草稿;如果医生在这种情况下过于依赖模型输出,这可能导致服务不足社区的护理质量下降。
  5. 尽管一些研究已经调查了医生在使用人工智能时的决策过程,但在基因组医学影像(GenMI)背景下研究依赖性仍需进一步的工作。
Para_02
  1. 这个问题的过度依赖也延伸到了患者——尽管AI助手可以让患者直接与实时临床专业知识进行互动,但这些互动应该在受控的方式下进行,以防止患者依赖AI助手来指导他们的医疗护理。
  2. 当患者独立咨询AI助手时,他们不能根据生成的报告采取行动,除非该报告得到医务人员的批准。
  3. 因此,临床医生可以在教育患者如何正确查询和理解GenMI工具方面发挥重要作用,以便他们自己进行探索。
  4. 更广泛地说,在部署AI助手的过程中,必须承认AI系统的局限性,特别是在需要更广泛的背景、同理心和认知能力的直接护理领域,这些只有人类才能处理和提供。
  5. AI助手将有助于加强临床护理,并赋予患者和临床医生更多的权力。

Biased datasets and models

有偏见的数据集和模型

Para_01
  1. 深度学习模型,特别是大型语言模型(LLMs),容易受到训练数据中固有偏见的影响。这一缺陷在AI驻留范式中尤其成问题,在这种范式中,模型不仅可以在生成的报告中延续这些偏见,还可以在诸如医学教育和临床医生理解等领域延续这些偏见。此外,主观的人类反馈是改进AI驻留的关键组成部分,这本身可能会导致偏见反馈循环。鉴于这些后果的严重性,在开发和部署此类工具时,评估和减轻偏见至关重要。
  2. 由于这些后果的严重性,在开发和部署此类工具时,评估和减轻偏见至关重要。
Para_02
  1. 训练数据的质量、规模和平衡性在决定模型偏差方面也起着重要作用,因此需要更大范围和更具代表性的数据集。
  2. 目前,大多数进展是由像MIMIC-CXR这样的数据集驱动的,而这些数据集仅限于单模态胸部X光扫描。
  3. 其他数据集存在不平衡问题,除了普遍缺乏配对图像和相关报告外,异常扫描的数量远远少于正常扫描。
  4. 即使在异常扫描中,异常通常也局限于图像的小部分区域,使得模型难以筛查。
  5. 此外,带有异常的扫描往往捕捉到更常见的病症,而罕见疾病则很少被表示。
  6. 这个问题可能会限制AI系统识别罕见疾病的能力,并为教育生成新颖且异常的测试案例。
Para_03
  1. 一些研究试图通过特定的模型组件来缓解数据偏差,同时也通过明确的疾病标记来解决类别不平衡问题。
  2. 其他研究则尝试通过扩展可用数据来应对这一问题。
  3. 例如,有人提出了一种新的MIMIC-CXR数据集纵向版本,以帮助扩展其涵盖的条件并提供更多的时间数据。
  4. 此外,越来越多的研究关注于生成合成图像数据,但较少有研究专注于生成异常扫描。
  5. 在一项研究之外,很少有研究探索将合成文本纳入其中,该研究通过使用LLM改写现有报告生成了数千份人工编写的报告样本。
Para_04
  1. 值得注意的是,即使在可用的数据集中,类别标签本身也可能是有噪声的,特别是考虑到临床医生的观察者内变异性以及通过自动化挖掘收集的标签不准确性。
  2. 一种有前景的方法是零样本学习,这是一种不需要标记训练数据的训练技术。
  3. 虽然某些医学报告生成研究已经在某种程度上结合了零样本训练,但这一领域仍需要进一步发展,以减少对大数据集的依赖并减轻模型偏差。

New modalities and specialties

新的模式和专业

Para_01
  1. 尽管有许多医学报告生成的研究,但将GenMI应用于3D成像(包括MRI和CT扫描)的工作却有限。这在一定程度上是由于该领域缺乏大型标注数据集,除了少数未发布、稀疏或难以访问的数据集外。
  2. 因此,一些MRI报告生成研究专注于撰写定性报告摘要或将具体信息填入统一模板中。
  3. 其中一个为通用MRI诊断开发的框架是在一个未发布的数据集上进行预训练的,该数据集包含许多MRI-报告对。
Para_02
  1. 除了三维放射影像外,生成医学影像(GenMI)技术在其他专科中也有限地应用。
  2. 眼科和皮肤科报告生成在某种程度上取得了成功,将外部知识和疾病分类等标准技术纳入其流程中。
  3. 一项眼科研究提出了一套高质量视网膜扫描的大数据集,并附带双语报告和详细注释,为该领域更强大的GenMI模型打开了大门。
  4. 这些专科中的医疗报告生成方法将会随着更多稳健数据集的收集和数据高效算法的进一步发展而改进。
Para_03
  1. 尽管纳入新的专业和图像类型会扩展人工智能工具的能力,但获取这些大规模的多模态数据集非常昂贵;资源充足的企业可以负担得起收集或授权这些专有数据集,但这些数据集不太可能免费公开提供。
  2. 此外,即使在各种专业领域中更广泛地实施了人工智能居民系统后,医疗机构可能会优先考虑使用它来增加患者数量,而不是提高提供的护理质量。
  3. 因此,必须以渐进的方式实施人工智能居民系统,可能从仅一个专业如放射学开始,以确保这样做时优先考虑患者的临床护理价值。
  4. 此外,临床医生也有责任维护医患关系的首要地位,并确保GenMI的实施保护患者利益。

Conclusion

Para_01
  1. 自动化的医疗报告生成代表了人工智能在减轻临床负担和扩大专家级临床护理的可及性方面的一个有前途的领域。
  2. GenMI 的出现为人工智能创造了引人注目的机会,以生成更高质量的报告,通过提供交互式的临床专业知识来增强临床医生和患者的能力,并通过扩展教育能力来改善未来的临床护理。
Para_02
  1. 随着GenMI在这个领域的日益普及,开发旨在衡量其在不同模态和专业临床环境中疗效的开放基准变得至关重要。这样做将帮助学术界更透明地衡量报告生成的进步,并为未来的临床监管机构提供指导。
  2. 目前缺乏标准化的基准使得监管机构难以确定一种算法是否适合临床实施,随着该领域的发展,监管提交的数量将变得越来越难以管理。
  3. 因此,为了以安全有效的方式利用驻留在AI中的临床效用,必须与AI工具一起开发数据集和基准,并注重持续的临床合作和谨慎的模型验证。
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。原始发表:2025-04-03,如有侵权请联系 cloudcommunity@tencent 删除模型数据人工智能工具开发

本文标签: 前瞻