首页
编程
IT技术
数码大全
登录
标签
TransMamba跨架构训练实现Transformer知识向M
TransMamba:跨架构训练实现Transformer知识向Mamba迁移,两阶段策略及多方法赋能单多模态任务 !
Transformer架构在单模态和多模态基础模型中备受青睐,因其在注意力模块上的灵活可扩展性。因此,许多预训练的Transformer模型,例如LLaVA、CLIP和DEIT,已公开可用。近期研究引入了亚二次复杂度的架构,如Mamba,这
TransMamba跨架构训练实现Transformer知识向Mamba迁移,两阶段策略及多方法赋能单多模态任务
admin
9小时前
3
0