admin管理员组文章数量:1487745
视觉语言模型的视觉提示何时优于线性探究 ? 清华 & IBM & 港中文提出了一种使用视觉提示近似方法的 LLR 评分 !
将预训练模型适应到新任务,其有效性能在数据集之间有所不同。视觉提示,是当今最有效的参数高效的迁移学习方法之一,可以显著提高异常分布任务的性能。另一方面,线性检测,是一种标准的迁移学习方法,有时可能会成为最佳方法。 作者提出了一种对视觉提示和线性检测的比较效益进行分析的 log-likelihood ratio (LLR) 方法。 通过使用 LLR 分数并与高效的视觉提示进行资源节约的近似,作者的有效方法相比完整的训练实现了最多100倍的运行时间减少,同时实现了高达91%的预测精度。
1 Introduction
在将迁移学习应用于下游任务时,需要对预训练模型进行特定修改。例如,线性检测(LP)涉及调整模型中最后一层的线性层,而全精细调优涉及修改模型的所有参数。然而,在迁移学习微调的新兴领域中,视觉提示(VP)提供了一种不需要改变预训练模型的方法。
具体而言,CLIP-VP 的研究表明,视觉提示特别适用于非确定分布(OOD)数据集。在AutoVP中,作者观察到得分较低、表示更非确定分布的的数据集,相对于线性检测(LP),往往能够实现更大的准确性增长(即VP与LP之间性能差异的量化衡量)。
在本论文中,作者对视觉提示对同时适用于非确定分布(OOD)和确定分布(ID)数据集的影响进行了深入分析。在图1中,作者计算了Pearson相关系数(PCC)的模型嵌入度量。
PCC是通过与整个提示图像或单独的图像或提示进行嵌入对比生成的结果。结果(提示或图像)具有较高的PCC分数表明,其与整个输入(即提示图像)的嵌入度量之间有更大的相似性,即它提供了主导特征。研究发现,在非确定分布(OOD)数据集中,提示达到了浅层PCC 0.9,而在确定分布(ID)数据集中,干净图像的输出逻辑时间达到了PCC 0.91。
这表明,非确定分布(OOD)数据集更适合使用VP进行训练,而确定分布(ID)数据集,为了避免与图像固有特征的干扰,更适合使用LP进行训练。
由于不存在一劳永逸的方法,为下游数据集选择适用的迁移学习方法仍然至关重要。一些零样本学习方法可以作为估计模型适应性到下游数据集的可靠参考,从而防止需要探索大量的训练配置空间。
2 Background and Related Work
Visual Prompting
视觉提示(VP),也称为模型重编程,可用于将预训练模型适应到新任务。VP框架如图2所示,包括三个组成部分:输入变换、预训练模型和输出变换。在输入变换中,通常在图像周围添加一个可训练的视觉提示,通常以帧填充的形式。预训练模型作为特征提取器且在VP训练期间保持冻结。输出变换然后将预训练模型源标签映射到下游任务的目标标签。以前的研究已经调查了各种VP设计和使用场景,包括探索最优提示大小,视觉 Transformer 中的视觉提示调优,黑盒VP训练,以及学习输出映射的迭代方法。这些研究已经证明了VP的能力和计算效率。
3 Methodology
Log-Likelihood Ratio
为了评估具有给定数据集的线性检测(LP)模型θ和视觉提示(VP)模型θp的比较性能,作者利用方程3中描述的对数似然比(LLR)方法。术语pθ和pθp分别表示LP和VP的最大似然值。通过将输入x分解为ID和OOD组成部分,作者可以分析视觉提示对ID和OOD输入的不同影响。正如在第一部分中所讨论的,在ID数据集中,提示可能会破坏干净图像的主导特征,导致对数似然评分低于0(LLR:主导ID特征)。相反,对于OOD数据集,提示通过提供关键特征增强模型的识别能力,导致对数似然评分高于0(LLR:主导OOD特征)。
Visual Prompt Approximation
4 Experimental Results
在本节中,作者将展示提出的LLR分数和模拟提示的有效性。这些技术将用于按照VP相对于LP获得的准确性提升对数据集进行排序。
The Effectiveness of LLR and Simulated Prompts
在第三节中,使用的LLR分数用于评估视觉提示对ID/OOD数据集的影响。如图4所示,使用混合数据集为例,作者观察到LLR分数与实际准确率之间存在密切的相关性,这表明该方法能够有效地区分VP或LP提供优势。LLR分数为正表示数据集(偏向OOD)在VP训练中受益更多,而LLR分数为负表示数据集(偏向ID)更适合LP训练。
此外,作者已验证了第三节中提出模拟方法的有效性。从两个方面 - KL散度(图3)的分布忠实度减少以及LogME-VP分数(图5)的增加 - 表明模拟提示逐步收敛到训练提示获得的提示。
The Sorting Results with Diverse Datasets
5 Conclusion
本文提出了一种使用视觉提示近似方法的LLR评分,以评估VP(视觉提示)相对于LP(语言提示)的优势。
LLR评分显示,通过实际准确性的提升和可靠性能预测,排名得到了改进,并且有效地与数据集中OOD(Out-of-Domain,域外)数据的比例相关。
因此,这种方法作为迁移学习训练的有价值的前驱,显著减少了探索不同微调方法所需的时间。
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。原始发表:2024-09-27,如有侵权请联系 cloudcommunity@tencent 删除迁移学习编程模型数据性能本文标签: 视觉语言模型的视觉提示何时优于线性探究清华 amp IBM amp 港中文提出了一种使用视觉提示近似方法的 LLR 评分 !
版权声明:本文标题:视觉语言模型的视觉提示何时优于线性探究 ? 清华 & IBM & 港中文提出了一种使用视觉提示近似方法的 LLR 评分 ! 内容由网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:http://www.betaflare.com/shuma/1755060470a3183044.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论