admin管理员组

文章数量:1443565

临床模型

Basic Information

  • 英文标题:Large language models encode clinical knowledge
  • 中文标题:大型语言模型编码临床知识
  • 发表日期:12 July 2023
  • 文章类型:Article
  • 所属期刊:Nature
  • 文章作者:Karan Singhal | Vivek Natarajan
  • 文章链接:

Abstract

Para_01
  1. 大型语言模型(LLMs)展示了令人印象深刻的能力,但临床应用的标准很高。
  2. 评估这些模型的临床知识通常依赖于基于有限基准的自动化评估。
  3. 在此,为了解决这些限制,我们提出了 MultiMedQA,这是一个结合了六个现有医疗问答数据集的基准,涵盖专业医学、研究和消费者查询,并包括一个新的在线搜索医疗问题的数据集 HealthSearchQA。
  4. 我们提出了一种多维度的人工评估框架,用于评估模型答案,包括事实性、理解能力、推理能力、可能的危害和偏差。
  5. 此外,我们在 MultiMedQA 上评估了 Pathways 语言模型(PaLM,一个包含 5400 亿参数的 LLM)及其指令调优变体 Flan-PaLM。
  6. 通过结合多种提示策略,Flan-PaLM 在每个 MultiMedQA 多选数据集上(包括 MedQA、MedMCQA、PubMedQA 和大规模多任务语言理解测量(MMLU)临床主题)实现了最先进的准确率,其中在 MedQA(美国医学执照考试风格的问题)上达到了 67.6% 的准确率,比之前的最先进水平高出超过 17%。
  7. 然而,人工评估揭示了关键的不足之处。
  8. 为了解决这一问题,我们引入了指令提示调优,这是一种参数高效的对齐 LLMs 到新领域的方法,只需少量示例即可。
  9. 由此产生的模型 Med-PaLM 表现令人鼓舞,但仍不如临床医生出色。
  10. 我们发现,随着模型规模的扩大和指令提示调优,理解能力、知识回忆和推理能力有所提高,这表明 LLMs 在医学中的潜在用途。
  11. 我们的人工评估揭示了当今模型的局限性,强调了在创建安全、有用的临床应用 LLMs 时,评估框架和方法开发的重要性。

Main

Para_01
  1. 医学是一项充满人性的努力,语言使得临床医生、研究人员和患者之间能够进行关键的互动。
  2. 然而,当今用于医学和医疗保健的人工智能(AI)模型在很大程度上未能充分运用语言。
  3. 这些模型虽然有用,但大多是单一任务系统(例如,用于分类、回归或分割),缺乏表达能力和交互功能。
  4. 因此,当前模型的能力与在现实世界临床工作流程中对其的期望之间存在不一致。

Fig. 1: Overview of our contributions.

- 图片说明

◉ 我们整理了MultiMedQA,这是一个涵盖医学考试、医学研究和消费者医学问题的基准数据集。◉ 我们在MultiMedQA上评估了PaLM及其指令调优变体Flan-PaLM。◉ 通过结合多种提示策略,Flan-PaLM在MedQA(美国医学执照考试)、MedMCQA、PubMedQA和MMLU临床主题上的表现超过了现有最先进的模型。◉ 特别是在MedQA(美国医学执照考试)上,其性能比之前的最佳水平提高了超过17%。◉ 接下来,我们提出了指令提示调优方法,以进一步使Flan-PaLM与医学领域对齐,生成了Med-PaLM。◉ 根据我们的人类评估框架,Med-PaLM对消费者医学问题的回答与临床医生的回答相当,证明了指令提示调优的有效性。

Para_02
  1. 最近大型语言模型的进步为重新思考人工智能系统提供了机会,其中语言作为一种工具,可以调解人类与人工智能之间的交互。
  2. 大型语言模型是‘基础模型’,即大型预训练人工智能系统,能够以极小的努力在众多领域和各种任务中重新应用。
  3. 这些表达能力强且互动性强的模型展现出巨大的潜力,可以从医学语料库中大规模编码的知识学习普遍有用的表示方法。
  4. 此类模型在医学领域有几种令人兴奋的潜在应用,包括知识检索、临床决策支持、关键发现的总结、患者分类、解决初级保健问题等。
Para_03
  1. 然而,该领域的安全关键性质要求仔细开发评估框架,使研究人员能够有意义地衡量进展,并捕捉和减轻潜在危害。
  2. 这对大语言模型(LLMs)尤为重要,因为这些模型可能生成与临床和社会价值观不一致的文本(以下简称为‘生成内容’)。
  3. 例如,它们可能会产生令人信服的医疗错误信息,或包含可能加剧健康不平等的偏见。
Para_04
  1. 为了评估大语言模型(LLMs)在编码临床知识方面的表现,并评估其在医学领域的潜力,我们考虑了对医学问题的回答。
  2. 这项任务具有挑战性:提供高质量的医学问题答案需要理解医学背景、回忆适当的医学知识,并利用专家信息进行推理。
  3. 现有的医学问答基准通常仅限于评估分类准确性或自动自然语言生成指标(例如,BLEU),无法支持实际临床应用所需的详细分析。
  4. 这产生了一个未满足的需求,即需要一个广泛的医学问答基准来评估大语言模型在回答事实性、使用专家知识推理、帮助性、精确性、健康公平性和潜在危害方面的表现。
Para_05
  1. 为了解决这一问题,我们整理了 MultiMedQA,这是一个包含七个医学问答数据集的基准,其中包括六个现有数据集:MedQA、MedMCQA、PubMedQA、LiveQA、MedicationQA 和 MMLU 临床主题。
  2. 我们引入了第七个数据集,即 HealthSearchQA,它由常见的健康搜索问题组成。
Para_06
  1. 为了使用 MultiMedQA 评估大语言模型(LLM),我们基于 PaLM 进行了研究,PaLM 是一个拥有 5400 亿参数的大型语言模型,同时我们还研究了其经过指令调优的变体 Flan-PaLM。
  2. 通过结合少量示例、链式思维(COT)以及自一致性提示策略,Flan-PaLM 在 MedQA、MedMCQA、PubMedQA 和 MMLU 临床主题上实现了最先进的性能,通常以显著的优势超越多个强大的 LLM 基线模型。
  3. 在包含美国医学执照考试(USMLE)风格问题的 MedQA 数据集中,Flan-PaLM 超过了之前最先进的水平超过 17%。
Para_07
  1. 尽管 Flan-PaLM 在多项选择题上表现强劲,但其对消费者医疗问题的回答揭示了关键的不足之处。
  2. 为了解决这一问题,我们提出了指令提示微调(instruction prompt tuning),这是一种数据和参数高效的对齐技术,可以进一步将 Flan-PaLM 适配到医疗领域。
  3. 由此产生的模型 Med-PaLM,在我们的初步人类评估框架的各个维度上表现出令人鼓舞的结果。
  4. 例如,一组临床医生判断 Flan-PaLM 的长篇答案中有 61.9% 与科学共识一致,而 Med-PaLM 的答案则达到了 92.6%,与临床医生生成的答案(92.9%)相当。
  5. 类似地,Flan-PaLM 的答案中有 29.7% 被评为可能引发有害结果,而 Med-PaLM 的这一比例仅为 5.9%,与临床医生生成的答案(5.7%)相似。
Para_08
  1. 尽管这些结果很有希望,但医学领域非常复杂。
  2. 有必要进行进一步的评估,特别是在安全、公平和偏见方面。
  3. 我们的工作表明,在这些模型能够在临床应用中使用之前,必须克服许多限制。
  4. 我们在本文中概述了一些关键的限制和未来研究的方向。

Key contributions

Para_01
  1. 我们第一个关键贡献是一种在医学问答背景下评估大语言模型的方法。
  2. 我们引入了 HealthSearchQA,这是一个包含 3,173 个常见消费者医学查询问题的数据集。
  3. 我们展示了这一数据集,并结合六个现有的开放数据集,这些数据集涵盖了医学考试、医学研究和消费者医学问题,作为多样化的基准来评估大语言模型的临床知识和问答能力。
Para_02
  1. 我们设计了一个框架,供医生和普通用户评估大型语言模型(LLM)在多项选择数据集准确性之外的多方面表现。
  2. 我们的评估涵盖了答案是否与科学和临床共识一致、可能造成伤害的概率及其程度、阅读理解能力、相关临床知识的回忆、通过合理推理对知识的运用、回答的完整性、潜在偏见、相关性和帮助性(详见方法部分,‘人类评估框架’)。
Para_03
  1. 第二个关键贡献是使用Flan-PaLM和一系列提示策略组合,在MedQA、MedMCQA、PubMedQA以及MMLU临床主题数据集上展示了最先进的性能,超越了多个强大的LLM基线模型。
  2. 具体来说,我们在MedQA上达到了67.6%的准确率(比之前的最先进水平高出超过17%),在MedMCQA上达到57.6%,在PubMedQA上达到79.0%。
Para_04
  1. 接下来的贡献是引入了指令提示调优,这是一种简单、数据和参数高效的技术,用于将大语言模型与安全关键的医疗领域对齐(见方法,‘建模’部分)。
  2. 我们利用该技术构建了 Med-PaLM,这是 Flan-PaLM 的指令提示调优版本,专门针对医疗领域(图 1)。
  3. 我们的人类评估框架揭示了 Flan-PaLM 在科学依据、危害和偏见方面的局限性。
  4. 然而,根据临床医生和普通用户的评价,Med-PaLM 在这些方面的表现显著缩小了与临床医生之间的差距(甚至在某些方面表现相当好)(见‘人类评估结果’部分)。
Para_05
  1. 最后,我们详细讨论了通过人工评估揭示的大型语言模型的关键局限性。
  2. 尽管我们的结果展示了大型语言模型在医学领域的潜力,但也表明为了使这些模型适用于现实世界的临床应用,还需要进行若干关键改进。

Model development and evaluation of performance

Para_01
  1. 我们首先提供 Flan-PaLM 在多项选择任务上的关键结果概述,如图2和扩展数据图2所示。
  2. 然后,我们展示了几项消融研究,以帮助解释和理解这些结果。

Fig. 2: Comparison of our method and prior state of the art.

- 图片说明

◉ 我们的 Flan-PaLM 540B 模型在 MedQA(四个选项)、MedMCQA 和 PubMedQA 数据集上超过了之前的最先进性能(SOTA)。◉ 之前的最佳结果分别来自 Galactica20(MedMCQA)、PubMedGPT19(MedQA)和 BioGPT21(PubMedQA)。◉ 每个列上方显示的是百分比准确率。

State of the art on MedQA

MedQA领域的最新研究进展

Para_01
  1. 在包含美国医学执照考试(USMLE)风格问题的 MedQA 数据集中,我们的 Flan-PaLM 540B 模型在四选一的多项选择题上达到了 67.6% 的准确率,比 DRAGON 模型高出 20.1%。
Para_02
  1. 在我们研究的同时,PubMedGPT 发布了,这是一个完全基于生物医学摘要和论文训练的 27 亿参数模型。
  2. PubMedGPT 在带有 4 个选项的 MedQA 问题上取得了 50.3% 的正确率。
  3. 据我们所知,这是 MedQA 上的最佳表现,而 Flan-PaLM 540B 超过了这一水平 17.3%。
  4. 扩展数据表 4 比较了在此数据集上表现最佳的模型。
  5. 在更困难的带有 5 个选项的问题集合中,我们的模型达到了 62.0% 的准确率。

Performance on MedMCQA and PubMedQA

MedMCQA 和 PubMedQA 上的表现

Para_01
  1. 在 MedMCQA 数据集上,该数据集包含来自印度的医学入学考试问题,Flan-PaLM 540B 在开发测试集上的表现达到了 57.6%。
  2. 这一结果超过了 Galactica 模型此前最先进的 52.9% 的成绩。
Para_02
  1. 同样,在PubMedQA数据集上,我们的模型达到了79.0%的准确率,比之前的最先进模型BioGPT高出0.8%(图2)。
  2. 尽管这一提升与MedQA和MedMCQA数据集上的改进相比可能显得较小,但PubMedQA上单个评分者的人类表现仅为78.0%,这表明该任务可能存在固有的性能上限。

Performance on MMLU clinical topics

MMLU临床主题的表现

Para_01
  1. MMLU 数据集包含来自多个与临床知识、医学和生物学相关主题的多项选择题。
  2. 这些主题包括解剖学、临床知识、专业医学、人类遗传学、大学医学和大学生物学。
  3. Flan-PaLM 540B 在所有这些子集上取得了最先进的性能,超过了强大的语言模型,例如 PaLM、Gopher、Chinchilla、BLOOM、OPT 和 Galactica。
  4. 特别是在专业医学和临床知识子集上,Flan-PaLM 540B 分别达到了 83.8% 和 80.4% 的最先进准确率。
  5. 扩展数据图 2 总结了结果,并在有可用数据的情况下与其他大型语言模型进行了比较。

Ablations

Para_01
  1. 我们在三个多选数据集——MedQA、MedMCQA 和 PubMedQA 上进行了多项消融研究,以更好地理解我们的结果,并确定对 Flan-PaLM 性能贡献最大的关键组件。

Instruction tuning improves performance

指令微调可以提高性能

Para_01
  1. 在所有模型尺寸上,我们观察到指令微调的 Flan-PaLM 模型在 MedQA、MedMCQA 和 PubMedQA 数据集上的表现优于基础的 PaLM 模型。
  2. 在这些实验中,模型使用补充信息第 11 节中详细描述的提示文本进行了少量样本提示。
  3. 详细结果总结在补充表 6 中。
  4. 改进最显著的是在 PubMedQA 数据集上,8B 的 Flan-PaLM 模型的表现比基础的 PaLM 模型高出超过 30%。
  5. 类似的显著改进也在 62B 和 540B 变体的情况下被观察到。
  6. 这些结果展示了指令微调的强大优势。
  7. 关于 MMLU 临床主题的类似结果报告在补充信息第 4 节中。
Para_02
  1. 我们尚未完成对指令提示调优对多项选择准确性影响的全面分析;在本节中,我们的分析对象是 Flan-PaLM,而不是 Med-PaLM。
  2. Med-PaLM(针对医疗领域调整指令提示的 Flan-PaLM)是为了改进‘人类评估结果’部分中展示的 Flan-PaLM 的长篇生成结果,使其更好地与医学领域对齐。
  3. 然而,鉴于领域无关的指令调优在回答多项选择题方面的成功,在领域内的指令提示调优看起来很有前景,我们在扩展数据表 5 中展示了初步结果,并在补充信息第 5 节中进一步描述了该实验。

Scaling improves performance on medical question answering

缩放技术提高了医学问题回答的性能

Para_01
  1. 补充表6中的一个相关观察结果是,当模型从80亿参数扩展到620亿参数再到5400亿参数时,性能得到了显著提升。
  2. 我们发现在PaLM和Flan-PaLM中,当模型从80亿扩展到5400亿参数时,性能大约提高了两倍。
  3. 这些改进在MedQA和MedMCQA数据集上表现得更为明显。
  4. 特别是对于Flan-PaLM模型,5400亿参数的变体比620亿参数的变体性能高出超过14%,比80亿参数的变体高出超过24%。
  5. 鉴于这些结果以及Flan-PaLM 5400亿参数模型的强大性能,我们在下游实验和消融实验中基于此模型进行构建。
  6. 扩展图示见补充信息的第7节。

COT prompting

链式思维提示

Para_01
  1. 补充表 2 汇总了使用 COT 提示的结果,并与使用 Flan-PaLM 540B 模型的少量样本提示策略进行了比较。
  2. 在 MedQA、MedMCQA 和 PubMedQA 多项选择数据集上,我们没有观察到使用 COT 比标准的少量样本提示策略有任何改进。
  3. 这可能是由于存在许多通往特定答案的可能推理路径,而采样其中一条路径可能无法产生最准确的结果。
  4. 这促使我们进行自洽性实验,如下文所述。
  5. 所使用的 COT 提示汇总在补充信息的第 12 节中。
  6. 此外,我们还探索了非医学领域 COT 提示的使用。
  7. 补充信息第 6 节中展示的结果表明,COT 提示在引导模型解决这些问题类型方面是有效的,而不是为模型添加新知识。

Self-consistency improves multiple-choice performance

自洽性提升多选题表现

Para_01
  1. 已证明在 COT 提示损害性能时,自一致性是有用的;先前的研究在算术和常识推理任务上显示出显著改进。
  2. 我们将自一致性应用于 MultiMedQA,为三个多项选择数据集中的每一个固定了 11 条链式思考答案解释路径(解码)。
  3. 然后我们对不同的解码结果进行平均化处理,以选择最一致的答案。
  4. 使用这一策略,我们在 MedQA 和 MedMCQA 数据集上观察到 Flan-PaLM 540B 模型相对于标准少样本提示策略的显著改进。
  5. 特别是对于 MedQA 数据集,通过自一致性,我们观察到了超过 7% 的改进。
  6. 然而,自一致性导致 PubMedQA 数据集上的性能下降。
  7. 结果总结在补充表 3 中。
  8. 我们在扩展数据表 6 中进一步提供了 Flan-PaLM 540B 模型针对 MedQA 的示例响应。

Uncertainty and selective prediction

不确定性与选择性预测

Para_01
  1. 大型语言模型能够生成长篇、连贯且复杂的文本。
  2. 然而,它们也可能生成事实错误的陈述。
  3. 特别是在医疗场景中,这种失效模式需要仔细审查,在实际应用中,应避免生成那些不太可能是真的内容。
  4. 相反,当需要时,我们可以选择参考其他信息来源或专家的意见。
  5. 因此,一个解决方案是让大型语言模型在给出回应的同时传达不确定性估计。
Para_02
  1. 尽管对LLM输出序列的不确定性度量仍然是一个开放的研究领域,我们探索了一种简单的代理方法,作为初步衡量LLM不确定性与陈述准确性之间关系的方法。
  2. 我们创建了一个选择性预测任务,使用自一致性匹配给定答案的解码数量作为不确定性度量,并在模型不够自信时抑制答案输出。
  3. 我们使用Flan-PaLM 540B模型进行了实验,采用41次解码,结合链式思维提示和自一致性方法。
  4. 我们观察到,随着延迟比例的增加(即需要更高的置信度才能提供预测),模型在MedQA上的性能得到了提升,在延迟比例为0.45时准确率达到了82.5%(图3)。
  5. 这表明我们对响应不确定性的度量可能是合理的,并且LLM似乎在其医学知识领域中编码了不确定性。
  6. 然而,除了这项初步分析之外,还需要更多的研究。

Fig. 3: Selective prediction analysis.

- 图片说明

◉ 对具有自一致性 Flan-PaLM 540B 模型的延迟行为进行分析。我们观察到,如果使用基于自一致性的不确定性阈值更频繁地延迟决策,模型在未延迟回答的问题上会变得越来越准确。

Human evaluation results

人类评估结果

Para_01
  1. 我们从 HealthSearchQA 中随机选择了 100 个问题,从 LiveQA 中选择了 20 个问题,从 MedicationQA 中选择了 20 个问题,作为小型长篇答案基准,用于详细的人工评估。
  2. 这些问题反映了现实世界中消费者对医学信息的查询需求。
  3. 这些选定的问题与用于调整 Med-PaLM 指令提示的示例不重叠。
Para_02
  1. 我们邀请了一组临床医生为这些问题生成专家参考答案。
  2. 然后,我们使用 Flan-PaLM 和 Med-PaLM(两者均为 540B 模型)生成了答案。
  3. 扩展数据表 7 中展示了一些这些问题及其对应的 Med-PaLM 回答的定性示例。
  4. 三组答案由另一组临床医生根据扩展数据表 2 中呈现的标准进行评估,且未透露答案来源。
  5. 每条答案由一位临床医生进行评估。
  6. 为了减少不同临床医生之间的差异对研究结果普适性的影响,我们的专家组由九位临床医生组成(分别来自美国、英国和印度)。
  7. 我们使用非参数引导法估计结果中的任何显著变化,其中通过 1,000 次引导复制品为每组生成分布,并使用 95% 的引导百分位数区间来评估变化。
  8. 这些结果在以下内容以及补充信息的第 10 节中详细描述,并在图 4–6 中进行了可视化。

Fig. 4: Clinician evaluation of answers.

- 图片说明

◉ a至f,临床医生被要求对 HealthSearchQA、LiveQA 和 MedicationQA 数据集中的问题答案进行评分,评估内容包括:与科学和临床共识的一致性(a)、是否存在错误内容(b)、是否有内容遗漏(c)、可能造成的伤害程度(d)、造成伤害的可能性(e)以及答案中可能存在的偏差(f)。◉ 我们比较了 Flan-PaLM、Med-PaLM 和临床医生提供的答案。◉ 在所有评估维度上,临床医生的答案被认为优于 Flan-PaLM 的答案。◉ Med-PaLM 的答案在与科学共识的一致性、潜在伤害、遗漏内容和偏差方面显著优于 Flan-PaLM 的答案,并且通常与临床医生的答案相当,这表明通过指令微调可以使模型更好地适应医学领域。◉ 本次评估涉及 140 个问题,每个问题由一名临床医生进行评分。◉ 我们使用非参数自助法(bootstrap)来估计结果中的显著变化,使用 1,000 次自助复制生成每组数据的分布。◉ 我们采用 95% 的自助百分位区间来评估变化情况。◉ 带有区间的结果详情见补充信息第 10 节。

Fig. 5: Evaluation of comprehension, retrieval and reasoning capabilities by clinicians.

- 图片说明

◉ 评估阅读理解、知识回忆和推理步骤的正确性(a)与错误性(b)。◉ 结果表明 Flan-PaLM 与临床医生之间存在差距,而 Med-PaLM 能够显著缩小这一差距。◉ 评估涉及 140 个问题,每个问题由一位临床医生评分。◉ 我们使用非参数自助法(bootstrap)来估计结果中的任何显著变化,使用 1,000 个自助复制来为每组数据生成分布。◉ 我们使用 95% 的自助百分位区间来评估变化。

Fig. 6: Lay user assessment of answers.

- 图片说明

◉ 进行用户评估时,考虑答案与查询意图的相关性(a)和有用性(b)。◉ Med-PaLM 的回答更有可能针对用户的意图,并且比 Flan-PaLM 的回答更有帮助,但仍然不如临床医生提供的回答。◉ 评估涉及 140 个问题,每个问题由一位非专家的普通用户单独评分。◉ 我们使用非参数自助法(bootstrap)来估计结果中的任何显著变化,其中使用了 1,000 个自助复制样本为每组生成一个分布。◉ 我们使用 95% 的自助百分位区间来评估变化。

Scientific consensus

科学共识

Para_01
  1. 我们旨在了解这些答案与临床和科学界当前共识之间的关系。
  2. 我们判断临床医生的回答在92.9%的问题中与科学共识一致,而Flan-PaLM的回答仅在61.9%的答案中与科学共识一致(图4)。
  3. 对于其他问题,答案要么与共识相悖,要么不存在共识。
  4. 这表明单靠通用指令调优不足以生成具有科学和临床依据的答案。
  5. 然而,Med-PaLM的92.6%的回答被判定为与科学共识一致,展示了指令提示调优作为一种对齐技术的力量,能够生成基于科学的答案。
Para_02
  1. 我们注意到,由于 PaLM、Flan-PaLM 和 Med-PaLM 使用了包含网络文档、书籍、维基百科、代码、自然语言任务和医学任务的语料库进行训练,而这些语料库仅反映特定时间点的数据,因此这些模型的一个潜在局限性在于它们可能反映的是过去的科学共识而非当今的共识。
  2. 尽管这并非 Med-PaLM 当前常见的失效模式,但它激发了未来在大规模语言模型的持续学习以及从不断演进的语料库中检索信息方面的研究。
Comprehension, retrieval and reasoning capabilities

理解、检索和推理能力

Para_01
  1. 我们试图了解 Med-PaLM 的医学理解、知识检索和推理能力。
  2. 我们让一组临床医生评估答案是否包含任何(一个或多个示例)正确的或错误的医学阅读理解、医学知识检索和医学推理能力的证据,采用的方法与 CHARD 一致。
  3. 正确和错误的证据是同时评估的,因为一个较长的答案可能同时包含正确和错误的理解、检索和推理的证据。
Para_02
  1. 尽管通过指令提示调优改进了性能,但专家生成的答案仍然优于 Flan-PaLM(图 5)。
  2. 这种趋势在用于评估这些能力的六个子问题中均有所体现。
  3. 例如,在正确检索医学知识的证据方面,我们发现临床医生的答案得分为 97.8%,而 Flan-PaLM 的得分为 76.3%。
  4. 然而,经过指令提示调优的 Med-PaLM 模型得分为 95.4%,缩小了与临床医生之间的性能差距。
Incorrect or missing content

内容错误或缺失

Para_01
  1. 本次评估的目标是通过判断生成的答案是否遗漏了不应遗漏的信息,或者是否包含不应出现的内容,从而了解答案的完整性和正确性。
  2. 对于被认为存在缺失或遗漏的内容,评估人员会被要求判断其潜在的临床重要性是大还是小。
Para_02
  1. 再次,临床医生生成的答案被认为更优(图4)。
  2. 临床医生的答案中,有1.4%的案例显示出不恰当或错误的内容,而Flan-PaLM的比例为16.1%。
  3. 指令提示调优似乎降低了性能,Med-PaLM答案中有18.7%被判定包含不恰当或错误内容。
Para_03
  1. 相比之下,指令提示调整提高了模型在不遗漏重要信息方面的性能。
  2. Flan-PaLM 的回答被判定有 47.6% 的情况下遗漏了重要信息,而 Med-PaLM 的回答仅有 15.3% 的情况遗漏了重要信息,这一比例与临床医生的回答差距缩小,后者的回答中有 11.1% 被认为存在缺失信息。
  3. 扩展数据表 8 显示了几个定性例子,表明大型语言模型(LLM)的回答在未来应用场景中可能能够补充和完善医生对患者提问的回应。
Para_04
  1. 对这些观察结果的一个可能解释是,指令提示调优教会了 Med-PaLM 模型生成比 Flan-PaLM 模型更详细的答案,从而减少了重要信息的遗漏。
  2. 然而,更长的答案也增加了引入错误内容的风险。
Possible extent and likelihood of harm

可能的危害范围和发生概率

Para_01
  1. 我们试图根据人们依据生成的答案所采取的行为,确定潜在危害的严重性和可能性。
  2. 我们要求评估人员假设模型的输出可能导致临床医生、消费者或患者采取行动,并估计可能由此导致的身体或心理健康相关危害的严重性和可能性。
  3. 我们基于医疗保健研究与质量局 (AHRQ) 的通用格式所提供的选项,该格式提供了对危害严重性的分类选项,包括死亡、严重或危及生命的伤害、中度伤害、轻微伤害或无伤害。
  4. 我们承认,这种对危害的定义通常用于分析医疗保健提供过程中产生的危害,即使在这样的环境中(危害发生的背景已知且具有更高的特异性),医生对危害严重性的评估也常常存在很大差异。
  5. 因此,AHRQ 量表的有效性不能被假定适用于我们的背景,在我们的研究中,评估人员的输出应被视为主观估计,因为我们的工作并未基于特定的预期用途和社会文化背景。
Para_02
  1. 尽管评分的定义广泛且主观,我们观察到指令微调产生的答案更安全,降低了估计的可能性和严重性。
  2. 虽然有 29.7% 的 Flan-PaLM 回答被认为可能造成伤害,但 Med-PaLM 的这一比例下降到了 5.9%,与医生生成的答案结果(5.7%)相似。
Para_03
  1. 同样地,在危害可能性轴上,指令提示微调使 Med-PaLM 的回答能够与专家生成的回答相匹配(图 4)。
Bias for medical demographics

医学人口统计学中的偏差

Para_01
  1. 临床医生答案评估的最后一个维度是偏差。
  2. 在这次初步评估中,我们试图了解答案是否包含任何对于特定人群不准确或不适用的信息。
  3. 具体来说,对于每个回答,评审员会被问到"所提供的答案是否包含对某一特定患者群体或人口统计特征不适用或不准确的信息?例如,该答案是否仅适用于某一性别的患者,而另一性别患者可能需要不同的信息?"
  4. 评审员对此提供是或否的回答。
  5. 根据这一偏差定义,在7.9%的情况下,Flan-PaLM 的回答被发现包含有偏差的信息(图4)。
  6. 然而,Med-PaLM 的这一比例降至0.8%,与专家的表现相比更有优势,因为专家的回答在1.4%的情况下被认为含有偏差证据。
Para_02
  1. 需要注意的是,大多数问题都是以中立的方式表述的,并不包含特定的人口统计推论。
  2. 这种初步评估偏见的方法存在局限性,无法全面评估潜在的危害、公平性或平等性。
  3. 关于公平和平等的进一步考虑将在‘公平和平等考虑’部分中讨论。
Lay user assessment

用户评估

Para_01
  1. 除了专家评估外,我们还要求一个由五名非该领域专家(没有医学背景的印度普通民众)组成的小组来评估答案。
  2. 结果总结在图6中。
  3. 虽然Flan-PaLM的答案在仅60.6%的情况下被认为有帮助,但Med-PaLM的答案这一比例增加到了80.3%。
  4. 然而,这仍然不如临床医生给出的答案,后者在91.1%的情况下被认为有帮助。
  5. 类似地,在90.8%的情况下,Flan-PaLM的答案被认为直接解决了用户问题的意图。
  6. 这一比例对于Med-PaLM增加到了94.4%,而临床医生生成的答案在95.9%的情况下被认为直接解决了意图。
Para_02
  1. 进一步的非专业用户评估表明,通过指令提示调整可以产生对用户有帮助的答案,但也显示要接近人类临床医生提供的输出质量,仍需大量工作。

Discussion

Para_01
  1. 我们的结果表明,大型语言模型在回答医学问题方面的出色表现可能是其与有效的指令提示调优相结合的新兴能力。
  2. 让我们一步一步地思考。
Para_02
  1. 我们观察到由于模型扩展而带来的强劲性能提升,随着 PaLM 模型从 8B 扩展到 540B,准确率大约提高了两倍。
  2. PaLM 8B 在 MedQA 上的表现仅略好于随机表现。
  3. PaLM 540B 的准确率提高了超过 30%,这证明了扩展对于回答医学问题的有效性。
  4. 我们在 MedMCQA 和 PubMedQA 数据集上也观察到了类似的性能提升。
  5. 此外,指令微调也非常有效,在所有多选数据集上,Flan-PaLM 模型在所有模型尺寸变体中均优于 PaLM 模型。
Para_03
  1. 很可能 PaLM 的预训练语料库包含了大量与医学相关的内容,540B 模型表现出色的一个可能解释是该模型记住了 MultiMedQA 评估数据集。
  2. 在补充信息的第 1 部分中,我们分析了 Med-PaLM 对 MultiMedQA 消费者问题的回答与 PaLM 训练语料库之间的重叠情况,未发现任何重叠。
  3. 我们还评估了 MultiMedQA 多项选择题与训练语料库之间的重叠情况,观察到的重叠非常少(补充表 1)。
  4. 此外,在评估被污染和干净测试数据集时,PaLM1 展示了类似的性能差异,即在扩大模型规模时,PaLM 8B 和 540B 模型的表现有所不同(被污染的数据集是指测试集中的一部分包含在模型预训练语料库中)。
  5. 这些结果表明,仅靠记忆不能解释通过扩展模型规模所观察到的强大性能。
Para_04
  1. 已经有多项努力尝试在生物医学语料库上训练语言模型,特别是在 PubMed 上。
  2. 这些包括 BioGPT(355B)、PubMedGPT(2.7B)和 Galactica(120B)。
  3. 我们的模型在没有进行数据集特定微调的情况下,能够在 PubMedQA 上超越这些努力。
  4. 此外,在 MedQA 数据集上,规模扩大和指令微调的好处更加显著,这个数据集对所有这些模型来说都可以认为是领域外的。
  5. 根据结果,我们可以得出结论:医学回答能力(回忆、阅读理解和推理技能)随着模型规模的增大而提高。
Para_05
  1. 然而,我们在消费者医疗问答数据集上的人类评估结果清楚地表明,规模 alone 并不足以解决问题。
  2. 即使像 Flan-PaLM 这样强大的大语言模型也可能生成不适合在安全关键的医疗领域使用的答案。
  3. 然而,Med-PaLM 的结果表明,指令提示微调是一种数据和参数高效的对齐技术,有助于提高与准确性、事实性、一致性、安全性、危害和偏差相关的因素,帮助缩小与临床专家的差距,并使这些模型更接近现实世界的临床应用。

Limitations

Para_01
  1. 我们的研究展示了大语言模型在编码医学知识和回答医学问题方面的潜力。
  2. 下面我们将讨论其局限性并概述未来研究的方向。

Expansion of MultiMedQA

多医学问答系统的扩展

Para_01
  1. 尽管 MultiMedQA 基准测试具有多样性,并包含来自多种医学考试、医学研究和消费者来源的问题,但它绝非全面。
  2. 我们计划在未来扩展该基准测试,以涵盖更多种类的医学和科学领域(例如生物学)以及更多种格式。
Para_02
  1. 临床环境中的一项关键挑战是从患者那里获取信息,并将发现综合成评估和计划。
  2. 多项选择题回答任务本质上比这更容易,因为它们通常基于专家编制的案例,并且被设计为有一个普遍优选的答案。
  3. 并非所有的医疗决策都是如此。
  4. 开发反映真实世界临床工作流程的基准任务是未来研究的重要方向。
Para_03
  1. 此外,本研究仅考虑了英语语料库,迫切需要扩大基准的范围以支持多语言评估。

Key LLM capabilities for this setting

此场景的关键LLM能力

Para_01
  1. 尽管 Flan-PaLM 在几个多项选择的医学问答基准测试中达到了最先进的性能,但我们的专家评估明确表明,这些模型在许多临床重要方面尚未达到临床专家水平。
  2. 为了弥合这一差距,需要研究和开发几种新的大型语言模型能力,包括:(1) 将回答基于权威医学来源,并考虑医学共识的时间变化特性;(2) 有效检测和向用户传达不确定性;(3) 能够用多种语言回答问题;以及 (4) 更好地符合医学领域的安全要求。

Improving human evaluation

改进人类评估

Para_01
  1. 我们为本研究提出的评级框架代表了一种有前景的试点方法,但我们选择的评估轴并不全面,并且具有主观性。
  2. 例如,医学或科学共识的概念本质上是随时间变化的,反映了当前对人类健康、疾病和生理的理解,而这些理解常常受到种族、民族、性别、年龄和能力歧视的影响。
  3. 此外,共识通常仅存在于与某些群体(如数量较多和/或权力较大的群体)相关的话题上,而对于某些亚人群可能缺乏共识。
  4. 此外,危害的概念可能因人群而异。
  5. 专家对危害的评估也可能基于地理位置、生活经历和文化背景而有所不同。
  6. 健康素养的差异可能导致专家和普通用户在评分上的差异。
  7. 进一步的研究可以测试答案的感知有用性和危害是否根据其可理解性和可操作性而有所不同。
Para_02
  1. 所评估的模型响应数量有限,评估这些响应的临床医生和 laypeople 的人数也有限,因为我们的结果仅基于每位响应者单独接受一位临床医生或 layperson 的评估。
  2. 这一问题可以通过纳入大量更多且刻意多样化的人类评分者来缓解。
Para_03
  1. 我们与四位合格的临床医生组成的小组合作,这些临床医生在内科、儿科、外科和初级保健方面具有专业知识,并且位于美国或英国,共同确定最佳的演示示例并设计少量示例提示。
  2. 进一步的研究可以扩大参与提示构建和示例答案选择的临床医生范围,从而探索参与此活动的临床医生类型在多个维度上的变化如何影响大型语言模型的行为(例如临床医生的人口统计学特征、地理位置、专业领域、生活经历等其他因素)。
Para_04
  1. 我们开发的试点框架可以通过采用健康、社会和行为研究中关于设计和验证评分工具的最佳实践来进一步完善。
  2. 这可能包括通过参与式研究发现更多评分项目,并由领域专家和技术接收者对评分项目进行评估,以确保其相关性、代表性和技术质量。
  3. 纳入更大规模的人类评分者群体还将能够通过确认测试维度、测试-重测信度和有效性来测试工具的可推广性。
  4. 进一步的研究可以探讨非专业评分者在教育水平、医疗状况、照护者状态、医疗经验、教育水平或其他相关因素上的差异对其评分的独立影响。
  5. 同样可以探索临床评分者在专业领域、人口统计学特征、地理位置或其他因素上的差异所产生的影响。

Fairness and equity considerations

公平与平等的考量

Para_01
  1. 正如前面所讨论的,我们对偏差的评估方法在公平性和与公平相关的危害方面存在局限性。
  2. 使用大型语言模型回答医学问题可能会导致加剧健康差距的危害。
  3. 这些危害源于多种因素,包括训练数据中存在的反映健康不平等的模式以及算法设计的选择。
  4. 这可能导致系统在不同人群中产生行为或性能差异,从而在医疗决策中造成进一步的危害,或者重现关于健康差距原因的种族主义误解。
Para_02
  1. 对大型语言模型中偏差和公平性相关危害的评估程序的开发正在进行中。
  2. 由于该领域的安全关键性质以及与导致健康差异的社会和结构性偏见相关的细微差别,医疗保健是大型语言模型的一个特别复杂的应用场景。
  3. 大型语言模型与医疗保健的结合为偏差、公平性和健康平等的稳健评估和缓解工具的责任创新和道德创新创造了独特的机会。
Para_03
  1. 我们概述了未来研究的机会,研究系统性识别和减轻大型语言模型在医疗保健环境中下游危害和影响的框架。
  2. 关键原则包括使用参与式方法设计情境化评估,以反映可能受益或受到伤害的患者的价值观,将评估基于一个或多个具体的下游临床用例,并使用数据集和模型文档框架,透明地报告在数据收集和整理、模型开发和评估过程中所做的选择和假设。
  3. 此外,还需要研究算法程序和基准的设计,以探测已知的技术偏差,这些偏差如果不加以缓解可能会造成伤害。
  4. 例如,根据具体情境,可能有必要评估模型输出对提示中人口统计标识符扰动的敏感性,故意设计提示以确保结果在扰动下不会发生变化。
  5. 此外,上述构建评估方法以实现大型语言模型健康公平性的研究活动需要跨学科合作,以确保能够应用各种科学视角和方法来理解健康的社交和情境方面。
Para_04
  1. 为大型语言模型(LLMs)的性能、公平性、偏差和平等性开发评估框架是一项关键的研究议程,应该以与将临床知识编码到语言模型工作中相同的严谨性和关注度来对待。

Ethical considerations

伦理考量

Para_01
  1. 本研究展示了大型语言模型在医疗保健未来应用中的潜力。
  2. 从一个用于回答医学问题的大型语言模型转变为医疗提供者、管理者和消费者可以使用的工具,需要大量的额外研究,以确保该技术的安全性、可靠性、有效性和隐私保护。
  3. 必须仔细考虑这项技术的伦理部署,包括在不同临床环境中使用时进行严格的质量评估,以及设置防护措施以防止过度依赖医疗助手的输出结果。
  4. 例如,使用大型语言模型诊断或治疗疾病所带来的潜在危害,远大于使用大型语言模型获取疾病或药物信息的危害。
  5. 还需要进一步研究评估大型语言模型在医疗保健中的应用,以解决其可能从基础模型中继承的偏见同质化、放大效应及安全漏洞问题。

Conclusion

Para_01
  1. 基础模型和大语言模型的出现为重新思考医疗人工智能的发展提供了令人信服的机会,并使其使用更加便捷、安全和公平。
  2. 同时,医学是应用大语言模型特别复杂的领域。
Para_02
  1. 我们的研究提供了将这些技术应用于医学的机会和挑战的初步见解。
  2. 我们预计,这项研究将激发患者、消费者、人工智能研究人员、临床医生、社会科学学者、伦理学家、政策制定者和其他相关方之间的进一步对话与合作,以负责任地将这些早期研究成果转化为改善医疗保健的实践。

Data availability

Para_01
  1. 本研究使用的基准测试 MultiMedQA 包含六个开源数据集和一个面向消费者医疗问题的数据集 HealthSearchQA,我们在本文中对其进行介绍,并将其作为补充文件与本工作一同发布。

Code availability

Para_01
  1. Med-PaLM 是一个与医疗领域对齐的大型语言模型。
  2. 由于在医疗环境中无监督使用此类模型的安全性问题,我们不公开模型代码和权重。
  3. 为了负责任地创新,我们将与学术界和工业界的科研合作伙伴、提供者、监管者以及政策利益相关方一起验证并探索 Med-PaLM 的安全应用途径。
  4. 为了可重复性,我们在保持论文对临床和一般科学受众可读性的同时,记录了深度学习技术方法。
  5. 我们的研究基于 PaLM,其技术细节已得到广泛描述,并且我们机构已经开源了多个相关的大型语言模型,以推动该领域研究方法的发展()。

Change history

[ul]- 27 July 2023 A Correction to this paper has been published: .1038/s41586-023-06455-0

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。原始发表:2025-03-27,如有侵权请联系 cloudcommunity@tencent 删除编码模型数据性能医疗

本文标签: 临床模型