admin管理员组

文章数量:1487745

YoloV8改进策略:聚焦线性注意力重构YoloV8

摘要

.00442.pdf

FLatten Transformer是一种使用聚焦线性注意力(Focused Linear Attention)的视觉Transformer模型。与传统的Softmax注意力机制相比,聚焦线性注意力机制具有更低的计算复杂度。它通过重新排列自注意力计算的顺序,将复杂度从

O(N^2 d)

降低到

O(Nd^2)

。此外,聚焦线性注意力模块的设计旨在解决线性注意力模块中存在的低秩问题,并采用简单运算符实现近似计算,以最小计算开销实现高表达力。

完整代码:

代码语言:javascript代码运行次数:0运行复制
.2014.3001.5502

在视觉Transformer中应用聚焦线性注意力模块,可以扩大模型的感受野,使其能够更好地捕捉到长程依赖关系。此外,该模块可以作为一个插件模块,方便地应用于各种现代视觉Transformer架构中。

FLatten Transformer在多个先进的视觉Transformer模型上进行了实现和验证,包括DeiT、PVT、PVT-v2、Swin Transformer和CSwin Transformer等。实验结果表明,通过在早期阶段引入聚焦线性注意力模块,可以在保持计算效率的同时提高模型的性能。

本文将FLatten Transformer的线性注意力机制引入YoloV8,重构YoloV8的模块。

YoloV8官方测试结果

代码语言:javascript代码运行次数:0运行复制
YOLOv8l summary (fused): 268 layers, 43631280 parameters, 0 gradients, 165.0 GFLOPs
                 Class     Images  Instances      Box(P          R      mAP50  mAP50-95): 100%|██████████| 29/29 [
                   all        230       1412      0.922      0.957      0.986      0.737
                   c17        230        131      0.973      0.992      0.995      0.825
                    c5        230         68      0.945          1      0.995      0.836
            helicopter        230         43       0.96      0.907      0.951      0.607
                  c130        230         85      0.984          1      0.995      0.655
                   f16        230         57      0.955      0.965      0.985      0.669
                    b2        230          2      0.704          1      0.995      0.722
                 other        230         86      0.903      0.942      0.963      0.534
                   b52        230         70       0.96      0.971      0.978      0.831
                  kc10        230         62      0.999      0.984       0.99      0.847
               command        230         40       0.97          1      0.995      0.811
                   f15        230        123      0.891          1      0.992      0.701
                 kc135        230         91      0.971      0.989      0.986      0.712
                   a10        230         27          1      0.555      0.899      0.456
                    b1        230         20      0.972          1      0.995      0.793
                   aew        230         25      0.945          1       0.99      0.784
                   f22        230         17      0.913          1      0.995      0.725
                    p3        230        105       0.99          1      0.995      0.801
                    p8        230          1      0.637          1      0.995      0.597
                   f35        230         32      0.939      0.938      0.978      0.574
                   f18        230        125      0.985      0.992      0.987      0.817
                   v22        230         41      0.983          1      0.995       0.69
                 su-27        230         31      0.925          1      0.995      0.859
                 il-38        230         27      0.972          1      0.995      0.811
                tu-134        230          1      0.663          1      0.995      0.895
                 su-33        230          2          1      0.611      0.995      0.796
                 an-70        230          2      0.766          1      0.995       0.73
                 tu-22        230         98      0.984          1      0.995      0.831
Speed: 0.2ms preprocess, 3.8ms inference, 0.0ms loss, 0.8ms postprocess per image

改进一

测试结果

代码语言:javascript代码运行次数:0运行复制
YOLOv8l summary (fused): 276 layers, 44684080 parameters, 0 gradients, 165.8 GFLOPs
                 Class     Images  Instances      Box(P          R      mAP50  mAP50-95): 100%|██████████| 15/15 [00:01<00:00, 10.01it/s]
                   all        230       1412      0.957      0.962       0.99      0.752
                   c17        230        131      0.988      0.992      0.995      0.832
                    c5        230         68      0.956      0.985      0.994      0.828
            helicopter        230         43      0.955          1      0.982      0.605
                  c130        230         85      0.989      0.988      0.995       0.67
                   f16        230         57      0.981      0.913      0.985      0.687
                    b2        230          2      0.902          1      0.995      0.822
                 other        230         86      0.981      0.953      0.978      0.557
                   b52        230         70      0.978      0.971       0.98      0.835
                  kc10        230         62          1       0.98      0.989      0.847
               command        230         40       0.99          1      0.995      0.839
                   f15        230        123      0.968      0.995      0.995      0.697
                 kc135        230         91      0.984      0.989      0.984      0.706
                   a10        230         27          1      0.761      0.948       0.52
                    b1        230         20      0.931       0.95      0.987       0.72
                   aew        230         25      0.948          1      0.995      0.816
                   f22        230         17      0.934          1      0.995      0.726
                    p3        230        105          1      0.969      0.995      0.798
                    p8        230          1      0.785          1      0.995      0.796
                   f35        230         32      0.979      0.906       0.99       0.57
                   f18        230        125      0.975      0.992      0.992      0.826
                   v22        230         41      0.976          1      0.995      0.726
                 su-27        230         31      0.985          1      0.995      0.874
                 il-38        230         27       0.98          1      0.995      0.825
                tu-134        230          1      0.799          1      0.995      0.895
                 su-33        230          2          1       0.63      0.995      0.663
                 an-70        230          2      0.867          1      0.995      0.796
                 tu-22        230         98          1      0.996      0.995      0.828

改进二

测试结果

代码语言:javascript代码运行次数:0运行复制
Ultralytics YOLOv8.0.200  Python-3.11.5 torch-2.0.1 CUDA:0 (NVIDIA GeForce RTX 3090, 24576MiB)
YOLOv8l summary (fused): 282 layers, 45736880 parameters, 0 gradients, 169.2 GFLOPs
                 Class     Images  Instances      Box(P          R      mAP50  mAP50-95): 100%|██████████| 15/15 [00:02<00:00,  5.68it/s]
                   all        230       1412      0.971      0.942      0.967      0.725
                   c17        230        131       0.98      0.962      0.974      0.814
                    c5        230         68      0.943      0.972      0.993      0.817
            helicopter        230         43      0.969      0.953      0.973      0.584
                  c130        230         85      0.976      0.978      0.993      0.656
                   f16        230         57          1      0.476      0.604      0.388
                    b2        230          2      0.917          1      0.995      0.778
                 other        230         86      0.975      0.919       0.98      0.542
                   b52        230         70      0.985      0.986      0.984      0.824
                  kc10        230         62          1      0.973      0.989      0.843
               command        230         40      0.993          1      0.995      0.835
                   f15        230        123      0.985      0.659      0.733      0.485
                 kc135        230         91      0.999      0.989      0.991        0.7
                   a10        230         27          1      0.631      0.965      0.466
                    b1        230         20      0.997          1      0.995      0.772
                   aew        230         25      0.953          1      0.995      0.779
                   f22        230         17      0.987          1      0.995      0.764
                    p3        230        105          1      0.968      0.995      0.793
                    p8        230          1      0.863          1      0.995      0.697
                   f35        230         32          1      0.988      0.995      0.577
                   f18        230        125      0.973      0.992      0.993      0.828
                   v22        230         41      0.996          1      0.995      0.681
                 su-27        230         31      0.993          1      0.995      0.856
                 il-38        230         27      0.987          1      0.995      0.837
                tu-134        230          1      0.848          1      0.995      0.895
                 su-33        230          2          1          1      0.995      0.771
                 an-70        230          2      0.911          1      0.995      0.752
                 tu-22        230         98      0.998          1      0.995       0.83

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。原始发表:2023-12-19,如有侵权请联系 cloudcommunity@tencent 删除重构测试架构模型效率

本文标签: YoloV8改进策略聚焦线性注意力重构YoloV8