admin管理员组文章数量:1487745
YoloV8改进策略:双动态令牌混合器(D
摘要
涨点效果:在我自己的数据集上,mAP50由原来的0.986涨到0.993,mAP50-95由原来的0.737涨到0.788,涨幅明显
链接:
代码语言:javascript代码运行次数:0运行复制.2014.3001.5502
双动态令牌混合器(D-Mixer),一种输入依赖的方式聚合全局信息和局部细节。D-Mixer通过分别在均匀分割的特征片段上应用有效的全局注意力模块和输入依赖的深度卷积,使网络具有强大的归纳偏差和扩大的有效感受野。使用D-Mixer作为基本构建块设计了TransXNet,这是一种新型的混合CNN-Transformer视觉主干网络,可提供引人注目的性能。在ImageNet-1K图像分类任务中,TransXNet-T在计算成本不到Swin-T的一半的情况下,Top-1准确率提高了0.3%。此外,TransXNet-S和TransXNet-B表现出优秀的模型可扩展性,分别实现了83.8%和84.6%的Top-1准确率,同时计算成本合理。
该模型具有以下优点:
- 动态特征聚合权重:通过OSRA和IDConv,该模型考虑了全局和本地信息,实现了动态特征聚合,从而为模型提供了强大的表示学习能力。
- 输入依赖的深度卷积:为了注入诱导偏置并以动态输入依赖的方式执行本地特征聚合,该模型采用了输入依赖的深度卷积。这种方法有助于扩大模型的有效感受野。
- 双动态令牌混合器(D-Mixer):D-Mixer是该模型的基本构建块,它通过结合自注意力和卷积,为Transformer模型提供了强大的泛化能力。通过堆叠多个D-Mixer,可以进一步增强模型的性能。
- 高效性能:在ImageNet-1K图像分类任务中,与Swin-T相比,TransXNet-T在top-1准确率上提高了0.3%,同时计算成本不到Swin-T的一半。这表明该模型在实现高性能的同时保持了良好的计算效率。
综上所述,该模型具有强大的表示学习能力、输入依赖的深度卷积、双动态令牌混合器和高效性能等优点。
YoloV8官方测试结果
代码语言:javascript代码运行次数:0运行复制YOLOv8l summary (fused): 268 layers, 43631280 parameters, 0 gradients, 165.0 GFLOPs
Class Images Instances Box(P R mAP50 mAP50-95): 100%|██████████| 29/29 [
all 230 1412 0.922 0.957 0.986 0.737
c17 230 131 0.973 0.992 0.995 0.825
c5 230 68 0.945 1 0.995 0.836
helicopter 230 43 0.96 0.907 0.951 0.607
c130 230 85 0.984 1 0.995 0.655
f16 230 57 0.955 0.965 0.985 0.669
b2 230 2 0.704 1 0.995 0.722
other 230 86 0.903 0.942 0.963 0.534
b52 230 70 0.96 0.971 0.978 0.831
kc10 230 62 0.999 0.984 0.99 0.847
command 230 40 0.97 1 0.995 0.811
f15 230 123 0.891 1 0.992 0.701
kc135 230 91 0.971 0.989 0.986 0.712
a10 230 27 1 0.555 0.899 0.456
b1 230 20 0.972 1 0.995 0.793
aew 230 25 0.945 1 0.99 0.784
f22 230 17 0.913 1 0.995 0.725
p3 230 105 0.99 1 0.995 0.801
p8 230 1 0.637 1 0.995 0.597
f35 230 32 0.939 0.938 0.978 0.574
f18 230 125 0.985 0.992 0.987 0.817
v22 230 41 0.983 1 0.995 0.69
su-27 230 31 0.925 1 0.995 0.859
il-38 230 27 0.972 1 0.995 0.811
tu-134 230 1 0.663 1 0.995 0.895
su-33 230 2 1 0.611 0.995 0.796
an-70 230 2 0.766 1 0.995 0.73
tu-22 230 98 0.984 1 0.995 0.831
Speed: 0.2ms preprocess, 3.8ms inference, 0.0ms loss, 0.8ms postprocess per image
改进一:使用Block替换C2f中的Bottleneck,重构C2f模块
测试结果
代码语言:javascript代码运行次数:0运行复制YOLOv8l summary: 655 layers, 38975184 parameters, 0 gradients, 157.8 GFLOPs
Class Images Instances Box(P R mAP50 mAP50-95): 100%|██████████| 15/15 [00:02<00:00, 5.48it/s]
all 230 1412 0.918 0.971 0.991 0.758
c17 230 131 0.959 0.992 0.995 0.832
c5 230 68 0.943 0.971 0.992 0.84
helicopter 230 43 0.935 1 0.982 0.627
c130 230 85 0.992 1 0.995 0.662
f16 230 57 0.893 0.965 0.987 0.684
b2 230 2 0.761 1 0.995 0.801
other 230 86 0.942 0.988 0.986 0.56
b52 230 70 0.984 0.986 0.981 0.828
kc10 230 62 0.989 0.984 0.989 0.861
command 230 40 0.982 1 0.995 0.841
f15 230 123 0.925 0.967 0.991 0.693
kc135 230 91 0.946 0.989 0.991 0.706
a10 230 27 1 0.705 0.947 0.467
b1 230 20 1 0.998 0.995 0.774
aew 230 25 0.936 1 0.995 0.804
f22 230 17 0.854 1 0.995 0.768
p3 230 105 0.987 1 0.995 0.801
p8 230 1 0.537 1 0.995 0.796
f35 230 32 0.962 1 0.995 0.557
f18 230 125 0.979 0.992 0.993 0.839
v22 230 41 0.983 1 0.995 0.754
su-27 230 31 0.945 1 0.995 0.857
il-38 230 27 0.973 1 0.995 0.846
tu-134 230 1 0.617 1 0.995 0.895
su-33 230 2 1 0.684 0.995 0.752
an-70 230 2 0.766 1 0.995 0.796
tu-22 230 98 0.993 1 0.995 0.832
Speed: 0.2ms preprocess, 6.2ms inference, 0.0ms loss, 1.2ms postprocess per image
改进二:使用双动态令牌混合器(D-Mixer)改进C2f模块,打造全新的C2f_Hybrid
测试结果
代码语言:javascript代码运行次数:0运行复制YOLOv8l summary: 354 layers, 44439888 parameters, 0 gradients, 170.7 GFLOPs
Class Images Instances Box(P R mAP50 mAP50-95): 100%|██████████| 15/15 [00:02<00:00, 5.86it/s]
all 230 1412 0.931 0.979 0.989 0.731
c17 230 131 0.981 0.992 0.994 0.814
c5 230 68 0.943 0.985 0.994 0.8
helicopter 230 43 0.935 0.953 0.968 0.568
c130 230 85 0.976 0.958 0.993 0.653
f16 230 57 0.831 0.947 0.973 0.645
b2 230 2 0.837 1 0.995 0.773
other 230 86 0.937 0.93 0.964 0.523
b52 230 70 0.944 0.971 0.981 0.808
kc10 230 62 1 0.977 0.988 0.814
command 230 40 0.975 0.986 0.995 0.811
f15 230 123 0.97 0.959 0.993 0.686
kc135 230 91 0.959 0.989 0.979 0.701
a10 230 27 1 0.873 0.97 0.479
b1 230 20 0.915 1 0.995 0.727
aew 230 25 0.94 1 0.995 0.784
f22 230 17 0.91 1 0.995 0.715
p3 230 105 0.99 0.993 0.995 0.795
p8 230 1 0.938 1 0.995 0.697
f35 230 32 0.97 0.938 0.993 0.544
f18 230 125 0.978 0.992 0.992 0.816
v22 230 41 0.986 1 0.995 0.715
su-27 230 31 0.957 1 0.995 0.847
il-38 230 27 0.932 1 0.995 0.835
tu-134 230 1 0.673 1 0.995 0.895
su-33 230 2 0.859 1 0.995 0.751
an-70 230 2 0.81 1 0.995 0.724
tu-22 230 98 0.997 1 0.995 0.808
Speed: 0.2ms preprocess, 4.9ms inference, 0.0ms loss, 0.7ms postprocess per image
改进三:使用TransXNet主干网络替换YoloV8的主干网络
测试结果
代码语言:javascript代码运行次数:0运行复制 Class Images Instances Box(P R mAP50 mAP50-95): 100%|██████████| 15/15 [00:03<00:00, 4.26it/s]
all 230 1412 0.972 0.974 0.993 0.781
c17 230 131 0.983 1 0.995 0.863
c5 230 68 0.939 1 0.995 0.864
helicopter 230 43 0.952 1 0.987 0.696
c130 230 85 0.989 1 0.995 0.679
f16 230 57 0.986 0.965 0.992 0.686
b2 230 2 0.899 1 0.995 0.929
other 230 86 0.983 0.93 0.981 0.568
b52 230 70 1 0.973 0.991 0.897
kc10 230 62 0.995 0.984 0.99 0.865
command 230 40 0.984 1 0.995 0.863
f15 230 123 0.982 0.992 0.995 0.697
kc135 230 91 0.989 0.989 0.992 0.709
a10 230 27 1 0.484 0.982 0.454
b1 230 20 0.991 1 0.995 0.74
aew 230 25 0.951 1 0.995 0.798
f22 230 17 0.982 1 0.995 0.805
p3 230 105 0.996 1 0.995 0.806
p8 230 1 0.844 1 0.995 0.796
f35 230 32 0.996 1 0.995 0.586
f18 230 125 0.989 0.992 0.995 0.843
v22 230 41 0.993 1 0.995 0.73
su-27 230 31 0.991 1 0.995 0.893
il-38 230 27 0.989 1 0.995 0.93
tu-134 230 1 0.838 1 0.995 0.895
su-33 230 2 1 1 0.995 0.635
an-70 230 2 1 1 0.995 0.958
tu-22 230 98 0.997 1 0.995 0.896
Speed: 0.2ms preprocess, 9.9ms inference, 0.0ms loss, 0.7ms postprocess per image
总结
本文尝试了3种改进方式,均有不同的提点。欢迎大家在自己的数据集上做尝试!
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。原始发表:2024-02-05,如有侵权请联系 cloudcommunity@tencent 删除网络性能测试模型数据本文标签: YoloV8改进策略双动态令牌混合器(D
版权声明:本文标题:YoloV8改进策略:双动态令牌混合器(D 内容由网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:http://www.betaflare.com/shuma/1754669025a3176178.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论