TransMamba跨架构训练实现Transformer知识向M

TransMamba：跨架构训练实现Transformer知识向Mamba迁移，两阶段策略及多方法赋能单多模态任务 !
Transformer架构在单模态和多模态基础模型中备受青睐，因其在注意力模块上的灵活可扩展性。因此，许多预训练的Transformer模型，例如LLaVA、CLIP和DEIT，已公开可用。近期研究引入了亚二次复杂度的架构，如Mamba，这
TransMamba跨架构训练实现Transformer知识向Mamba迁移，两阶段策略及多方法赋能单多模态任务
admin9小时前
30