YoloV8改进策略：双动态令牌混合器（D-软件玩家

admin管理员组
文章数量:1487745

YoloV8改进策略：双动态令牌混合器（D

摘要

涨点效果：在我自己的数据集上，mAP50由原来的0.986涨到0.993，mAP50-95由原来的0.737涨到0.788，涨幅明显

链接：

代码语言：javascript代码运行次数：0运行复制

.2014.3001.5502

双动态令牌混合器（D-Mixer），一种输入依赖的方式聚合全局信息和局部细节。D-Mixer通过分别在均匀分割的特征片段上应用有效的全局注意力模块和输入依赖的深度卷积，使网络具有强大的归纳偏差和扩大的有效感受野。使用D-Mixer作为基本构建块设计了TransXNet，这是一种新型的混合CNN-Transformer视觉主干网络，可提供引人注目的性能。在ImageNet-1K图像分类任务中，TransXNet-T在计算成本不到Swin-T的一半的情况下，Top-1准确率提高了0.3％。此外，TransXNet-S和TransXNet-B表现出优秀的模型可扩展性，分别实现了83.8％和84.6％的Top-1准确率，同时计算成本合理。

该模型具有以下优点：

动态特征聚合权重：通过OSRA和IDConv，该模型考虑了全局和本地信息，实现了动态特征聚合，从而为模型提供了强大的表示学习能力。
输入依赖的深度卷积：为了注入诱导偏置并以动态输入依赖的方式执行本地特征聚合，该模型采用了输入依赖的深度卷积。这种方法有助于扩大模型的有效感受野。
双动态令牌混合器（D-Mixer）：D-Mixer是该模型的基本构建块，它通过结合自注意力和卷积，为Transformer模型提供了强大的泛化能力。通过堆叠多个D-Mixer，可以进一步增强模型的性能。
高效性能：在ImageNet-1K图像分类任务中，与Swin-T相比，TransXNet-T在top-1准确率上提高了0.3%，同时计算成本不到Swin-T的一半。这表明该模型在实现高性能的同时保持了良好的计算效率。

综上所述，该模型具有强大的表示学习能力、输入依赖的深度卷积、双动态令牌混合器和高效性能等优点。

YoloV8官方测试结果

代码语言：javascript代码运行次数：0运行复制

YOLOv8l summary (fused): 268 layers, 43631280 parameters, 0 gradients, 165.0 GFLOPs
                 Class     Images  Instances      Box(P          R      mAP50  mAP50-95): 100%|██████████| 29/29 [
                   all        230       1412      0.922      0.957      0.986      0.737
                   c17        230        131      0.973      0.992      0.995      0.825
                    c5        230         68      0.945          1      0.995      0.836
            helicopter        230         43       0.96      0.907      0.951      0.607
                  c130        230         85      0.984          1      0.995      0.655
                   f16        230         57      0.955      0.965      0.985      0.669
                    b2        230          2      0.704          1      0.995      0.722
                 other        230         86      0.903      0.942      0.963      0.534
                   b52        230         70       0.96      0.971      0.978      0.831
                  kc10        230         62      0.999      0.984       0.99      0.847
               command        230         40       0.97          1      0.995      0.811
                   f15        230        123      0.891          1      0.992      0.701
                 kc135        230         91      0.971      0.989      0.986      0.712
                   a10        230         27          1      0.555      0.899      0.456
                    b1        230         20      0.972          1      0.995      0.793
                   aew        230         25      0.945          1       0.99      0.784
                   f22        230         17      0.913          1      0.995      0.725
                    p3        230        105       0.99          1      0.995      0.801
                    p8        230          1      0.637          1      0.995      0.597
                   f35        230         32      0.939      0.938      0.978      0.574
                   f18        230        125      0.985      0.992      0.987      0.817
                   v22        230         41      0.983          1      0.995       0.69
                 su-27        230         31      0.925          1      0.995      0.859
                 il-38        230         27      0.972          1      0.995      0.811
                tu-134        230          1      0.663          1      0.995      0.895
                 su-33        230          2          1      0.611      0.995      0.796
                 an-70        230          2      0.766          1      0.995       0.73
                 tu-22        230         98      0.984          1      0.995      0.831
Speed: 0.2ms preprocess, 3.8ms inference, 0.0ms loss, 0.8ms postprocess per image

改进一：使用Block替换C2f中的Bottleneck，重构C2f模块

测试结果

代码语言：javascript代码运行次数：0运行复制

YOLOv8l summary: 655 layers, 38975184 parameters, 0 gradients, 157.8 GFLOPs
                 Class     Images  Instances      Box(P          R      mAP50  mAP50-95): 100%|██████████| 15/15 [00:02<00:00,  5.48it/s]
                   all        230       1412      0.918      0.971      0.991      0.758
                   c17        230        131      0.959      0.992      0.995      0.832
                    c5        230         68      0.943      0.971      0.992       0.84
            helicopter        230         43      0.935          1      0.982      0.627
                  c130        230         85      0.992          1      0.995      0.662
                   f16        230         57      0.893      0.965      0.987      0.684
                    b2        230          2      0.761          1      0.995      0.801
                 other        230         86      0.942      0.988      0.986       0.56
                   b52        230         70      0.984      0.986      0.981      0.828
                  kc10        230         62      0.989      0.984      0.989      0.861
               command        230         40      0.982          1      0.995      0.841
                   f15        230        123      0.925      0.967      0.991      0.693
                 kc135        230         91      0.946      0.989      0.991      0.706
                   a10        230         27          1      0.705      0.947      0.467
                    b1        230         20          1      0.998      0.995      0.774
                   aew        230         25      0.936          1      0.995      0.804
                   f22        230         17      0.854          1      0.995      0.768
                    p3        230        105      0.987          1      0.995      0.801
                    p8        230          1      0.537          1      0.995      0.796
                   f35        230         32      0.962          1      0.995      0.557
                   f18        230        125      0.979      0.992      0.993      0.839
                   v22        230         41      0.983          1      0.995      0.754
                 su-27        230         31      0.945          1      0.995      0.857
                 il-38        230         27      0.973          1      0.995      0.846
                tu-134        230          1      0.617          1      0.995      0.895
                 su-33        230          2          1      0.684      0.995      0.752
                 an-70        230          2      0.766          1      0.995      0.796
                 tu-22        230         98      0.993          1      0.995      0.832
Speed: 0.2ms preprocess, 6.2ms inference, 0.0ms loss, 1.2ms postprocess per image

改进二：使用双动态令牌混合器（D-Mixer）改进C2f模块，打造全新的C2f_Hybrid

测试结果

代码语言：javascript代码运行次数：0运行复制

YOLOv8l summary: 354 layers, 44439888 parameters, 0 gradients, 170.7 GFLOPs
                 Class     Images  Instances      Box(P          R      mAP50  mAP50-95): 100%|██████████| 15/15 [00:02<00:00,  5.86it/s]
                   all        230       1412      0.931      0.979      0.989      0.731
                   c17        230        131      0.981      0.992      0.994      0.814
                    c5        230         68      0.943      0.985      0.994        0.8
            helicopter        230         43      0.935      0.953      0.968      0.568
                  c130        230         85      0.976      0.958      0.993      0.653
                   f16        230         57      0.831      0.947      0.973      0.645
                    b2        230          2      0.837          1      0.995      0.773
                 other        230         86      0.937       0.93      0.964      0.523
                   b52        230         70      0.944      0.971      0.981      0.808
                  kc10        230         62          1      0.977      0.988      0.814
               command        230         40      0.975      0.986      0.995      0.811
                   f15        230        123       0.97      0.959      0.993      0.686
                 kc135        230         91      0.959      0.989      0.979      0.701
                   a10        230         27          1      0.873       0.97      0.479
                    b1        230         20      0.915          1      0.995      0.727
                   aew        230         25       0.94          1      0.995      0.784
                   f22        230         17       0.91          1      0.995      0.715
                    p3        230        105       0.99      0.993      0.995      0.795
                    p8        230          1      0.938          1      0.995      0.697
                   f35        230         32       0.97      0.938      0.993      0.544
                   f18        230        125      0.978      0.992      0.992      0.816
                   v22        230         41      0.986          1      0.995      0.715
                 su-27        230         31      0.957          1      0.995      0.847
                 il-38        230         27      0.932          1      0.995      0.835
                tu-134        230          1      0.673          1      0.995      0.895
                 su-33        230          2      0.859          1      0.995      0.751
                 an-70        230          2       0.81          1      0.995      0.724
                 tu-22        230         98      0.997          1      0.995      0.808
Speed: 0.2ms preprocess, 4.9ms inference, 0.0ms loss, 0.7ms postprocess per image

改进三：使用TransXNet主干网络替换YoloV8的主干网络

测试结果

代码语言：javascript代码运行次数：0运行复制

      Class     Images  Instances      Box(P          R      mAP50  mAP50-95): 100%|██████████| 15/15 [00:03<00:00,  4.26it/s]
                   all        230       1412      0.972      0.974      0.993      0.781
                   c17        230        131      0.983          1      0.995      0.863
                    c5        230         68      0.939          1      0.995      0.864
            helicopter        230         43      0.952          1      0.987      0.696
                  c130        230         85      0.989          1      0.995      0.679
                   f16        230         57      0.986      0.965      0.992      0.686
                    b2        230          2      0.899          1      0.995      0.929
                 other        230         86      0.983       0.93      0.981      0.568
                   b52        230         70          1      0.973      0.991      0.897
                  kc10        230         62      0.995      0.984       0.99      0.865
               command        230         40      0.984          1      0.995      0.863
                   f15        230        123      0.982      0.992      0.995      0.697
                 kc135        230         91      0.989      0.989      0.992      0.709
                   a10        230         27          1      0.484      0.982      0.454
                    b1        230         20      0.991          1      0.995       0.74
                   aew        230         25      0.951          1      0.995      0.798
                   f22        230         17      0.982          1      0.995      0.805
                    p3        230        105      0.996          1      0.995      0.806
                    p8        230          1      0.844          1      0.995      0.796
                   f35        230         32      0.996          1      0.995      0.586
                   f18        230        125      0.989      0.992      0.995      0.843
                   v22        230         41      0.993          1      0.995       0.73
                 su-27        230         31      0.991          1      0.995      0.893
                 il-38        230         27      0.989          1      0.995       0.93
                tu-134        230          1      0.838          1      0.995      0.895
                 su-33        230          2          1          1      0.995      0.635
                 an-70        230          2          1          1      0.995      0.958
                 tu-22        230         98      0.997          1      0.995      0.896
Speed: 0.2ms preprocess, 9.9ms inference, 0.0ms loss, 0.7ms postprocess per image

总结

本文尝试了3种改进方式，均有不同的提点。欢迎大家在自己的数据集上做尝试！

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。原始发表：2024-02-05，如有侵权请联系 cloudcommunity@tencent 删除网络性能测试模型数据

本文标签： YoloV8改进策略双动态令牌混合器（D

版权声明：本文标题：YoloV8改进策略：双动态令牌混合器（D 内容由网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：http://www.betaflare.com/shuma/1754669025a3176178.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

编程频道|软件玩家 - 软件改变生活！

YoloV8改进策略：双动态令牌混合器（D

YoloV8改进策略：双动态令牌混合器（D

摘要

YoloV8官方测试结果

改进一：使用Block替换C2f中的Bottleneck，重构C2f模块

测试结果

改进二：使用双动态令牌混合器（D-Mixer）改进C2f模块，打造全新的C2f_Hybrid

测试结果

改进三：使用TransXNet主干网络替换YoloV8的主干网络

测试结果

总结

更多相关文章

YoloV8改进策略：双动态令牌混合器（D

发表评论

推荐文章

常见排序算法

如何从模块内部运行 Pytest

用 UniApp 实现一个炫酷的做决定转盘

字符数组数据映射转换到实体对象model注解方式 demo

GEE问题：筛选指定区域的Sentinel

热门文章

网络空间安全之一个WH的超前沿全栈技术深入学习之路(二：渗透测试行业术语扫盲)作者——LJS

【汇编语言】寄存器（CPU工作原理）（六）—— 修改CS，IP的指令以及代码段

向量搜索的秘诀：训练嵌入模型

延伸

字符串与内存函数的介绍+模拟实现

容器化技术：Docker的基本概念和使用

idea编译报错 Lombok运行测试类报错 jar依赖冲突解决

C# 的数组

探秘NVIDIA RTX AI：llama.cpp如何让你的Windows PC变身AI超人

PicX 最好的基于 GitHub API 开发的个人博客站点免费开源图床工具

最新文章

【免费下载】 联想拯救者Y7000 2020H原厂Win10系统镜像：重拾纯净体验

【免费下载】 Java 11 下载 - 版本 11.0.17 (Windows 各版本)

【免费下载】 Windows7旗舰版简体中文ISO镜像下载：轻松获取正版系统安装镜像

【免费下载】 Ventory-u盘启动制作工具：让你的Ubuntu之旅更加顺畅

【免费下载】 Ventory-u盘启动制作工具：轻松打造高效启动盘

WordPress get parent category taxonomy

Omit specific product categories from WooCommerce shortcode

Updating Posts table in database without overwriting user generated content

php - Use wp_get_recent_posts with search term

responsive - How to exclude an image size from the Wordpress srcset

惠普暗影精灵8 Pro i7 12700H16GB512GBRTX3050参数报价

联想开天N80Z KX U6780A16GB512GB正版麒麟统信系统参数报价

联想开天N80Z KX U6780A16GB512GB正版 麒麟统信 系统wps+360杀毒参数报价

联想开天N80Z KX U6780A16GB1TB麒麟统信GF版系统参数报价

联想开天N80ZKX U6780A16GB512GB参数报价

【免费下载】联想拯救者Y7000 2020H原厂Win10系统镜像：重拾纯净体验

联想开天N80Z KX U6780A16GB512GB正版麒麟统信系统wps+360杀毒参数报价