admin管理员组

文章数量:1487745

YoloV8改进策略:双动态令牌混合器(D

摘要

涨点效果:在我自己的数据集上,mAP50由原来的0.986涨到0.993,mAP50-95由原来的0.737涨到0.788,涨幅明显

链接:

代码语言:javascript代码运行次数:0运行复制
.2014.3001.5502

双动态令牌混合器(D-Mixer),一种输入依赖的方式聚合全局信息和局部细节。D-Mixer通过分别在均匀分割的特征片段上应用有效的全局注意力模块和输入依赖的深度卷积,使网络具有强大的归纳偏差和扩大的有效感受野。使用D-Mixer作为基本构建块设计了TransXNet,这是一种新型的混合CNN-Transformer视觉主干网络,可提供引人注目的性能。在ImageNet-1K图像分类任务中,TransXNet-T在计算成本不到Swin-T的一半的情况下,Top-1准确率提高了0.3%。此外,TransXNet-S和TransXNet-B表现出优秀的模型可扩展性,分别实现了83.8%和84.6%的Top-1准确率,同时计算成本合理。

该模型具有以下优点:

  1. 动态特征聚合权重:通过OSRA和IDConv,该模型考虑了全局和本地信息,实现了动态特征聚合,从而为模型提供了强大的表示学习能力。
  2. 输入依赖的深度卷积:为了注入诱导偏置并以动态输入依赖的方式执行本地特征聚合,该模型采用了输入依赖的深度卷积。这种方法有助于扩大模型的有效感受野。
  3. 双动态令牌混合器(D-Mixer):D-Mixer是该模型的基本构建块,它通过结合自注意力和卷积,为Transformer模型提供了强大的泛化能力。通过堆叠多个D-Mixer,可以进一步增强模型的性能。
  4. 高效性能:在ImageNet-1K图像分类任务中,与Swin-T相比,TransXNet-T在top-1准确率上提高了0.3%,同时计算成本不到Swin-T的一半。这表明该模型在实现高性能的同时保持了良好的计算效率。

综上所述,该模型具有强大的表示学习能力、输入依赖的深度卷积、双动态令牌混合器和高效性能等优点。

YoloV8官方测试结果

代码语言:javascript代码运行次数:0运行复制
YOLOv8l summary (fused): 268 layers, 43631280 parameters, 0 gradients, 165.0 GFLOPs
                 Class     Images  Instances      Box(P          R      mAP50  mAP50-95): 100%|██████████| 29/29 [
                   all        230       1412      0.922      0.957      0.986      0.737
                   c17        230        131      0.973      0.992      0.995      0.825
                    c5        230         68      0.945          1      0.995      0.836
            helicopter        230         43       0.96      0.907      0.951      0.607
                  c130        230         85      0.984          1      0.995      0.655
                   f16        230         57      0.955      0.965      0.985      0.669
                    b2        230          2      0.704          1      0.995      0.722
                 other        230         86      0.903      0.942      0.963      0.534
                   b52        230         70       0.96      0.971      0.978      0.831
                  kc10        230         62      0.999      0.984       0.99      0.847
               command        230         40       0.97          1      0.995      0.811
                   f15        230        123      0.891          1      0.992      0.701
                 kc135        230         91      0.971      0.989      0.986      0.712
                   a10        230         27          1      0.555      0.899      0.456
                    b1        230         20      0.972          1      0.995      0.793
                   aew        230         25      0.945          1       0.99      0.784
                   f22        230         17      0.913          1      0.995      0.725
                    p3        230        105       0.99          1      0.995      0.801
                    p8        230          1      0.637          1      0.995      0.597
                   f35        230         32      0.939      0.938      0.978      0.574
                   f18        230        125      0.985      0.992      0.987      0.817
                   v22        230         41      0.983          1      0.995       0.69
                 su-27        230         31      0.925          1      0.995      0.859
                 il-38        230         27      0.972          1      0.995      0.811
                tu-134        230          1      0.663          1      0.995      0.895
                 su-33        230          2          1      0.611      0.995      0.796
                 an-70        230          2      0.766          1      0.995       0.73
                 tu-22        230         98      0.984          1      0.995      0.831
Speed: 0.2ms preprocess, 3.8ms inference, 0.0ms loss, 0.8ms postprocess per image

改进一:使用Block替换C2f中的Bottleneck,重构C2f模块

测试结果

代码语言:javascript代码运行次数:0运行复制
YOLOv8l summary: 655 layers, 38975184 parameters, 0 gradients, 157.8 GFLOPs
                 Class     Images  Instances      Box(P          R      mAP50  mAP50-95): 100%|██████████| 15/15 [00:02<00:00,  5.48it/s]
                   all        230       1412      0.918      0.971      0.991      0.758
                   c17        230        131      0.959      0.992      0.995      0.832
                    c5        230         68      0.943      0.971      0.992       0.84
            helicopter        230         43      0.935          1      0.982      0.627
                  c130        230         85      0.992          1      0.995      0.662
                   f16        230         57      0.893      0.965      0.987      0.684
                    b2        230          2      0.761          1      0.995      0.801
                 other        230         86      0.942      0.988      0.986       0.56
                   b52        230         70      0.984      0.986      0.981      0.828
                  kc10        230         62      0.989      0.984      0.989      0.861
               command        230         40      0.982          1      0.995      0.841
                   f15        230        123      0.925      0.967      0.991      0.693
                 kc135        230         91      0.946      0.989      0.991      0.706
                   a10        230         27          1      0.705      0.947      0.467
                    b1        230         20          1      0.998      0.995      0.774
                   aew        230         25      0.936          1      0.995      0.804
                   f22        230         17      0.854          1      0.995      0.768
                    p3        230        105      0.987          1      0.995      0.801
                    p8        230          1      0.537          1      0.995      0.796
                   f35        230         32      0.962          1      0.995      0.557
                   f18        230        125      0.979      0.992      0.993      0.839
                   v22        230         41      0.983          1      0.995      0.754
                 su-27        230         31      0.945          1      0.995      0.857
                 il-38        230         27      0.973          1      0.995      0.846
                tu-134        230          1      0.617          1      0.995      0.895
                 su-33        230          2          1      0.684      0.995      0.752
                 an-70        230          2      0.766          1      0.995      0.796
                 tu-22        230         98      0.993          1      0.995      0.832
Speed: 0.2ms preprocess, 6.2ms inference, 0.0ms loss, 1.2ms postprocess per image

改进二:使用双动态令牌混合器(D-Mixer)改进C2f模块,打造全新的C2f_Hybrid

测试结果

代码语言:javascript代码运行次数:0运行复制
YOLOv8l summary: 354 layers, 44439888 parameters, 0 gradients, 170.7 GFLOPs
                 Class     Images  Instances      Box(P          R      mAP50  mAP50-95): 100%|██████████| 15/15 [00:02<00:00,  5.86it/s]
                   all        230       1412      0.931      0.979      0.989      0.731
                   c17        230        131      0.981      0.992      0.994      0.814
                    c5        230         68      0.943      0.985      0.994        0.8
            helicopter        230         43      0.935      0.953      0.968      0.568
                  c130        230         85      0.976      0.958      0.993      0.653
                   f16        230         57      0.831      0.947      0.973      0.645
                    b2        230          2      0.837          1      0.995      0.773
                 other        230         86      0.937       0.93      0.964      0.523
                   b52        230         70      0.944      0.971      0.981      0.808
                  kc10        230         62          1      0.977      0.988      0.814
               command        230         40      0.975      0.986      0.995      0.811
                   f15        230        123       0.97      0.959      0.993      0.686
                 kc135        230         91      0.959      0.989      0.979      0.701
                   a10        230         27          1      0.873       0.97      0.479
                    b1        230         20      0.915          1      0.995      0.727
                   aew        230         25       0.94          1      0.995      0.784
                   f22        230         17       0.91          1      0.995      0.715
                    p3        230        105       0.99      0.993      0.995      0.795
                    p8        230          1      0.938          1      0.995      0.697
                   f35        230         32       0.97      0.938      0.993      0.544
                   f18        230        125      0.978      0.992      0.992      0.816
                   v22        230         41      0.986          1      0.995      0.715
                 su-27        230         31      0.957          1      0.995      0.847
                 il-38        230         27      0.932          1      0.995      0.835
                tu-134        230          1      0.673          1      0.995      0.895
                 su-33        230          2      0.859          1      0.995      0.751
                 an-70        230          2       0.81          1      0.995      0.724
                 tu-22        230         98      0.997          1      0.995      0.808
Speed: 0.2ms preprocess, 4.9ms inference, 0.0ms loss, 0.7ms postprocess per image

改进三:使用TransXNet主干网络替换YoloV8的主干网络

测试结果

代码语言:javascript代码运行次数:0运行复制
      Class     Images  Instances      Box(P          R      mAP50  mAP50-95): 100%|██████████| 15/15 [00:03<00:00,  4.26it/s]
                   all        230       1412      0.972      0.974      0.993      0.781
                   c17        230        131      0.983          1      0.995      0.863
                    c5        230         68      0.939          1      0.995      0.864
            helicopter        230         43      0.952          1      0.987      0.696
                  c130        230         85      0.989          1      0.995      0.679
                   f16        230         57      0.986      0.965      0.992      0.686
                    b2        230          2      0.899          1      0.995      0.929
                 other        230         86      0.983       0.93      0.981      0.568
                   b52        230         70          1      0.973      0.991      0.897
                  kc10        230         62      0.995      0.984       0.99      0.865
               command        230         40      0.984          1      0.995      0.863
                   f15        230        123      0.982      0.992      0.995      0.697
                 kc135        230         91      0.989      0.989      0.992      0.709
                   a10        230         27          1      0.484      0.982      0.454
                    b1        230         20      0.991          1      0.995       0.74
                   aew        230         25      0.951          1      0.995      0.798
                   f22        230         17      0.982          1      0.995      0.805
                    p3        230        105      0.996          1      0.995      0.806
                    p8        230          1      0.844          1      0.995      0.796
                   f35        230         32      0.996          1      0.995      0.586
                   f18        230        125      0.989      0.992      0.995      0.843
                   v22        230         41      0.993          1      0.995       0.73
                 su-27        230         31      0.991          1      0.995      0.893
                 il-38        230         27      0.989          1      0.995       0.93
                tu-134        230          1      0.838          1      0.995      0.895
                 su-33        230          2          1          1      0.995      0.635
                 an-70        230          2          1          1      0.995      0.958
                 tu-22        230         98      0.997          1      0.995      0.896
Speed: 0.2ms preprocess, 9.9ms inference, 0.0ms loss, 0.7ms postprocess per image

总结

本文尝试了3种改进方式,均有不同的提点。欢迎大家在自己的数据集上做尝试!

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。原始发表:2024-02-05,如有侵权请联系 cloudcommunity@tencent 删除网络性能测试模型数据

本文标签: YoloV8改进策略双动态令牌混合器(D