admin管理员组文章数量:1487745
YoloV8改进策略:聚焦线性注意力重构YoloV8
摘要
.00442.pdf
FLatten Transformer是一种使用聚焦线性注意力(Focused Linear Attention)的视觉Transformer模型。与传统的Softmax注意力机制相比,聚焦线性注意力机制具有更低的计算复杂度。它通过重新排列自注意力计算的顺序,将复杂度从
降低到
。此外,聚焦线性注意力模块的设计旨在解决线性注意力模块中存在的低秩问题,并采用简单运算符实现近似计算,以最小计算开销实现高表达力。
完整代码:
代码语言:javascript代码运行次数:0运行复制.2014.3001.5502
在视觉Transformer中应用聚焦线性注意力模块,可以扩大模型的感受野,使其能够更好地捕捉到长程依赖关系。此外,该模块可以作为一个插件模块,方便地应用于各种现代视觉Transformer架构中。
FLatten Transformer在多个先进的视觉Transformer模型上进行了实现和验证,包括DeiT、PVT、PVT-v2、Swin Transformer和CSwin Transformer等。实验结果表明,通过在早期阶段引入聚焦线性注意力模块,可以在保持计算效率的同时提高模型的性能。
本文将FLatten Transformer的线性注意力机制引入YoloV8,重构YoloV8的模块。
YoloV8官方测试结果
代码语言:javascript代码运行次数:0运行复制YOLOv8l summary (fused): 268 layers, 43631280 parameters, 0 gradients, 165.0 GFLOPs
Class Images Instances Box(P R mAP50 mAP50-95): 100%|██████████| 29/29 [
all 230 1412 0.922 0.957 0.986 0.737
c17 230 131 0.973 0.992 0.995 0.825
c5 230 68 0.945 1 0.995 0.836
helicopter 230 43 0.96 0.907 0.951 0.607
c130 230 85 0.984 1 0.995 0.655
f16 230 57 0.955 0.965 0.985 0.669
b2 230 2 0.704 1 0.995 0.722
other 230 86 0.903 0.942 0.963 0.534
b52 230 70 0.96 0.971 0.978 0.831
kc10 230 62 0.999 0.984 0.99 0.847
command 230 40 0.97 1 0.995 0.811
f15 230 123 0.891 1 0.992 0.701
kc135 230 91 0.971 0.989 0.986 0.712
a10 230 27 1 0.555 0.899 0.456
b1 230 20 0.972 1 0.995 0.793
aew 230 25 0.945 1 0.99 0.784
f22 230 17 0.913 1 0.995 0.725
p3 230 105 0.99 1 0.995 0.801
p8 230 1 0.637 1 0.995 0.597
f35 230 32 0.939 0.938 0.978 0.574
f18 230 125 0.985 0.992 0.987 0.817
v22 230 41 0.983 1 0.995 0.69
su-27 230 31 0.925 1 0.995 0.859
il-38 230 27 0.972 1 0.995 0.811
tu-134 230 1 0.663 1 0.995 0.895
su-33 230 2 1 0.611 0.995 0.796
an-70 230 2 0.766 1 0.995 0.73
tu-22 230 98 0.984 1 0.995 0.831
Speed: 0.2ms preprocess, 3.8ms inference, 0.0ms loss, 0.8ms postprocess per image
改进一
测试结果
代码语言:javascript代码运行次数:0运行复制YOLOv8l summary (fused): 276 layers, 44684080 parameters, 0 gradients, 165.8 GFLOPs
Class Images Instances Box(P R mAP50 mAP50-95): 100%|██████████| 15/15 [00:01<00:00, 10.01it/s]
all 230 1412 0.957 0.962 0.99 0.752
c17 230 131 0.988 0.992 0.995 0.832
c5 230 68 0.956 0.985 0.994 0.828
helicopter 230 43 0.955 1 0.982 0.605
c130 230 85 0.989 0.988 0.995 0.67
f16 230 57 0.981 0.913 0.985 0.687
b2 230 2 0.902 1 0.995 0.822
other 230 86 0.981 0.953 0.978 0.557
b52 230 70 0.978 0.971 0.98 0.835
kc10 230 62 1 0.98 0.989 0.847
command 230 40 0.99 1 0.995 0.839
f15 230 123 0.968 0.995 0.995 0.697
kc135 230 91 0.984 0.989 0.984 0.706
a10 230 27 1 0.761 0.948 0.52
b1 230 20 0.931 0.95 0.987 0.72
aew 230 25 0.948 1 0.995 0.816
f22 230 17 0.934 1 0.995 0.726
p3 230 105 1 0.969 0.995 0.798
p8 230 1 0.785 1 0.995 0.796
f35 230 32 0.979 0.906 0.99 0.57
f18 230 125 0.975 0.992 0.992 0.826
v22 230 41 0.976 1 0.995 0.726
su-27 230 31 0.985 1 0.995 0.874
il-38 230 27 0.98 1 0.995 0.825
tu-134 230 1 0.799 1 0.995 0.895
su-33 230 2 1 0.63 0.995 0.663
an-70 230 2 0.867 1 0.995 0.796
tu-22 230 98 1 0.996 0.995 0.828
改进二
测试结果
代码语言:javascript代码运行次数:0运行复制Ultralytics YOLOv8.0.200 Python-3.11.5 torch-2.0.1 CUDA:0 (NVIDIA GeForce RTX 3090, 24576MiB)
YOLOv8l summary (fused): 282 layers, 45736880 parameters, 0 gradients, 169.2 GFLOPs
Class Images Instances Box(P R mAP50 mAP50-95): 100%|██████████| 15/15 [00:02<00:00, 5.68it/s]
all 230 1412 0.971 0.942 0.967 0.725
c17 230 131 0.98 0.962 0.974 0.814
c5 230 68 0.943 0.972 0.993 0.817
helicopter 230 43 0.969 0.953 0.973 0.584
c130 230 85 0.976 0.978 0.993 0.656
f16 230 57 1 0.476 0.604 0.388
b2 230 2 0.917 1 0.995 0.778
other 230 86 0.975 0.919 0.98 0.542
b52 230 70 0.985 0.986 0.984 0.824
kc10 230 62 1 0.973 0.989 0.843
command 230 40 0.993 1 0.995 0.835
f15 230 123 0.985 0.659 0.733 0.485
kc135 230 91 0.999 0.989 0.991 0.7
a10 230 27 1 0.631 0.965 0.466
b1 230 20 0.997 1 0.995 0.772
aew 230 25 0.953 1 0.995 0.779
f22 230 17 0.987 1 0.995 0.764
p3 230 105 1 0.968 0.995 0.793
p8 230 1 0.863 1 0.995 0.697
f35 230 32 1 0.988 0.995 0.577
f18 230 125 0.973 0.992 0.993 0.828
v22 230 41 0.996 1 0.995 0.681
su-27 230 31 0.993 1 0.995 0.856
il-38 230 27 0.987 1 0.995 0.837
tu-134 230 1 0.848 1 0.995 0.895
su-33 230 2 1 1 0.995 0.771
an-70 230 2 0.911 1 0.995 0.752
tu-22 230 98 0.998 1 0.995 0.83
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。原始发表:2023-12-19,如有侵权请联系 cloudcommunity@tencent 删除重构测试架构模型效率本文标签: YoloV8改进策略聚焦线性注意力重构YoloV8
版权声明:本文标题:YoloV8改进策略:聚焦线性注意力重构YoloV8 内容由网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:http://www.betaflare.com/shuma/1754670116a3176260.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论