深度可分离卷积的深入解析及在OPPORTUNITY数据集上的实战-软件玩家

admin管理员组
文章数量:1438732

深度可分离卷积的深入解析及在OPPORTUNITY数据集上的实战

深度可分离卷积网络是一种高效的神经网络设计，尤其在计算机视觉领域中备受关注。它通过将传统卷积操作拆分为两个步骤——深度卷积和点卷积——大幅降低了计算量和参数量，同时保持了良好的特征提取能力。这种设计最早在 MobileNet V1 中得到了广泛应用，后来通过引入通道注意力机制（Channel Attention）演化成了 MobileNet V3，在移动设备等资源受限的场景中表现出色。

一、深度可分离卷积的基础原理

1. 传统卷积的痛点

在聊深度可分离卷积之前，我们先来看看传统卷积神经网络（CNN）的运作方式和它的一些不足之处。传统卷积通过一个固定的卷积核在输入图像上滑动，逐个区域地提取特征。每个卷积核会同时处理输入的所有通道，并生成一个输出通道的特征图。这种方式虽然强大，但在某些情况下显得效率不高：

计算量巨大：传统卷积需要对输入的每个通道和卷积核的每个权重进行乘加运算。如果输入通道多、卷积核数量也多，计算成本会迅速上升。比如一张三通道的彩色图像（RGB），用 64 个 3x3 的卷积核处理，计算量会随着通道数和核数量成倍增加。
参数冗余：卷积核的参数量与输入通道数和输出通道数直接挂钩。如果输入是 3 个通道，输出是 64 个通道，每个核大小是 3x3，那么参数量就是 3 × 64 × 9 = 1728 个。通道数一多，参数量就变得很可观，模型也容易变得臃肿。
效率不高：所有通道一股脑儿地交给卷积核处理，虽然能提取特征，但没有针对性地分工，导致资源浪费，尤其在移动设备上运行时会显得力不从心。

这些问题在简单的任务中可能还能凑合，但在需要实时处理或部署到轻量设备的场景下，传统卷积就显得有些笨重了。为了解决这些问题，深度可分离卷积被提了出来。

2. 深度可分离卷积的核心思路

深度可分离卷积的出发点很简单：能不能把传统卷积的操作拆开，既减少计算量，又不丢掉特征提取的能力？基于这个想法，它把卷积过程分成了两个步骤：

深度卷积（Depthwise Convolution）：先对输入的每个通道单独做卷积，提取每个通道的空间特征。简单来说，就是每个通道都有自己的卷积核，互不干扰，只负责看自己那份数据的局部模式。
点卷积（Pointwise Convolution）：再用 1x1 的小卷积核，把所有通道的特征组合起来，生成新的特征图，完成通道之间的融合。

这种拆分就像是把一个大任务拆成了两块小任务：深度卷积负责“看清楚每个通道的细节”，点卷积负责“把这些细节混合成更有意义的整体”。分工明确，既减少了重复劳动，又保留了模型的表达能力。

举个例子，假设我们有一张 3 通道的图像，传统卷积会直接用 64 个 3x3 的卷积核去处理，生成 64 个输出通道。而深度可分离卷积会先用 3 个 3x3 的核分别处理这 3 个通道，得到 3 个特征图，然后再用 64 个 1x1 的核把这 3 个特征图组合成 64 个新的特征图。整个过程计算量和参数量都大幅减少，但效果依然不错。

二、深度可分离卷积的架构

深度可分离卷积网络的整体结构并不复杂，通常包括输入层、一系列深度可分离卷积模块，以及后续的池化和分类层。下面我们一步步拆解它的组成。

1. 输入层

网络的输入通常是一张图像或某种特征表示，形状一般是 [batch, channels, height, width]。在给出的代码中，输入的形状是 [batch, channels, series, modal]，可能是一种特殊的数据格式，比如时间序列信号的二维表示，或者某种多模态数据。我们可以把 series 想象成时间维度或高度，modal 看作宽度或模态维度。不过具体是什么数据并不影响核心原理，我们只要知道输入是一个四维张量就行。

2. 深度可分离卷积模块

深度可分离卷积模块是网络的主体，每次卷积都由两部分组成：深度卷积和点卷积。让我们看看它是怎么一步步工作的：

2.1 深度卷积（Depthwise Convolution）

深度卷积是第一步，它的任务是对输入的每个通道单独提取空间特征。想象一下，如果输入有 64 个通道，深度卷积就用 64 个独立的卷积核，每个核只盯着一个通道，生成对应的特征图。它的特点是：

独立处理：每个通道有自己的卷积核，互不干涉。比如输入是 3 个通道，就用 3 个卷积核，输出还是 3 个通道，通道数不变。
空间专注：卷积核只在空间维度上滑动（比如代码里的 (kernel_size, 1)），提取局部模式，不关心通道之间的关系。
参数少：因为每个核只处理一个通道，参数量比传统卷积少得多。

比如代码中的第一层：

代码语言：python代码运行次数：0运行复制

nn.Conv2d(1, 1, (kernel_size, 1), (2, 1), (kernel_size // 2, 0), groups=1)

这里输入是 1 个通道，输出也是 1 个通道，卷积核大小是 (kernel_size, 1)（只在 series 维度上卷积），步幅是 (2, 1)（在 series 维度上每隔一个点采样），填充是 (kernel_size // 2, 0)（只在 series 维度上填充）。这一步就像是用一个放大镜，分别检查每个通道的局部细节。

2.2 点卷积（Pointwise Convolution）

点卷积是第二步，它的任务是把深度卷积的输出组合起来，生成新的特征图。具体来说：

通道融合：用 1x1 的卷积核，把所有通道的特征加权混合，生成新的特征图。
扩展维度：通过设置输出通道数（比如 64、128），控制最终特征图的数量。
计算简单：因为卷积核是 1x1，没有空间滑动，计算量非常小。

比如代码中的第二层：

代码语言：python代码运行次数：0运行复制

nn.Conv2d(1, 64, 1, 1, 0)

输入是 1 个通道，输出变成 64 个通道，卷积核大小是 1x1，没有步幅和填充。这一步就像是把深度卷积挖出来的“原材料”加工成更有用的“成品”。

2.3 归一化与激活

每次深度可分离卷积后，通常会接上批归一化（BatchNorm）和激活函数（ReLU），让特征分布更稳定，同时给模型加点非线性的“调味料”。比如：

代码语言：python代码运行次数：0运行复制

nn.BatchNorm2d(64)
nn.ReLU()

这就像是给特征做个“体检”和“加工”，确保它们更适合后续处理。

3. 整体结构

一个完整的深度可分离卷积网络会堆叠多个这样的模块，逐步增加通道数，同时减少空间分辨率。在代码中，网络定义了四组模块：

第一组：从 1 个通道到 64 个通道。
第二组：从 64 个通道到 128 个通道。
第三组：从 128 个通道到 256 个通道。
第四组：从 256 个通道到 512 个通道。

每组模块都用步幅为 (2, 1) 的深度卷积降低分辨率（在 series 维度上），最后通过自适应平均池化和全连接层把特征转化为分类结果。

三、代码实现详解

下面我们结合代码，深入剖析深度可分离卷积网络的实现细节，看看它是怎么一步步搭起来的。

1. DepthwiseConv 的实现

DepthwiseConv 是深度可分离卷积网络的核心类，我们分步骤拆解它的构造和运行过程。

1.1 初始化

在 __init__ 方法中，定义了网络的主要结构：

代码语言：python代码运行次数：0运行复制

class DepthwiseConv(nn.Module):
    def __init__(self, train_shape, category, kernel_size=3):
        super(DepthwiseConv, self).__init__()
        self.layer = nn.Sequential(
            nn.Conv2d(1, 1, (kernel_size, 1), (2, 1), (kernel_size // 2, 0), groups=1),
            nn.Conv2d(1, 64, 1, 1, 0),
            nn.BatchNorm2d(64),
            nn.ReLU(),

            nn.Conv2d(64, 64, (kernel_size, 1), (2, 1), (kernel_size // 2, 0), groups=64),
            nn.Conv2d(64, 128, 1, 1, 0),
            nn.BatchNorm2d(128),
            nn.ReLU(),

            nn.Conv2d(128, 128, (kernel_size, 1), (2, 1), (kernel_size // 2, 0), groups=128),
            nn.Conv2d(128, 256, 1, 1, 0),
            nn.BatchNorm2d(256),
            nn.ReLU(),

            nn.Conv2d(256, 256, (kernel_size, 1), (2, 1), (kernel_size // 2, 0), groups=256),
            nn.Conv2d(256, 512, 1, 1, 0),
            nn.BatchNorm2d(512),
            nn.ReLU()
        )
        self.ada_pool = nn.AdaptiveAvgPool2d((1, train_shape[-1]))
        self.fc = nn.Linear(512 * train_shape[-1], category)

输入参数：
- train_shape：训练数据的形状，比如 [batch, channels, series, modal]，这里用到了它的最后一个维度 modal。
- category：分类任务的类别数，比如 10 个类别。
- kernel_size：深度卷积核在 series 维度上的大小，默认是 3。
网络组成：
- layer：四个深度可分离卷积模块，通道数从 1 逐步增加到 512。
- ada_pool：自适应平均池化，把特征图压缩到 [batch, 512, 1, modal]。
- fc：全连接层，把特征展平后映射到分类结果。

每个模块都由深度卷积（nn.Conv2d with groups）、点卷积（nn.Conv2d with 1x1 kernel）、批归一化和 ReLU 组成。

1.2 前向传播

forward 方法定义了数据的流动过程：

代码语言：python代码运行次数：0运行复制

def forward(self, x):
    '''
        x.shape: [b, c, series, modal]
    '''
    x = self.layer(x)
    x = self.ada_pool(x)
    x = x.view(x.size(0), -1)
    x = self.fc(x)
    return x

输入：x 的形状是 [batch, channels, series, modal]，比如 [32, 1, 128, 9]。
步骤：
1. 通过 layer 提取特征：输入经过四组深度可分离卷积模块，通道数变成 512，series 维度因为步幅为 2 会缩小（具体缩小多少取决于 kernel_size 和输入大小）。
2. 池化压缩：ada_pool 把特征图压缩到 [batch, 512, 1, modal]，固定输出尺寸。
3. 展平特征：view 把特征变成 [batch, 512 * modal] 的二维张量。
4. 分类输出：fc 把展平后的特征映射到 [batch, category]，输出分类结果。

整个过程就像是把输入数据“榨汁”——先提取特征，再压缩，最后得出结论。

2. 关键细节解析

2.1 深度卷积的 `groups` 参数

深度卷积的核心在于 groups 参数，它确保每个通道独立处理。比如：

代码语言：python代码运行次数：0运行复制

nn.Conv2d(64, 64, (kernel_size, 1), (2, 1), (kernel_size // 2, 0), groups=64)

这里输入和输出都是 64 个通道，groups=64 表示每个通道用一个独立的卷积核，互不干扰。相比传统卷积（需要 64 × 64 个核），深度卷积只用 64 个核，参数量大幅减少。

核大小：(kernel_size, 1) 表示只在 series 维度上卷积，modal 维度保持不变。
步幅：(2, 1) 表示在 series 维度上每隔一个点采样，modal 维度不采样。
填充：(kernel_size // 2, 0) 表示在 series 维度上加点填充，保持输出尺寸合理。

2.2 点卷积的作用

点卷积负责通道扩展和融合。比如：

代码语言：python代码运行次数：0运行复制

nn.Conv2d(64, 128, 1, 1, 0)

它把 64 个通道的特征变成 128 个通道，用的就是 1x1 的小核。这种操作就像是把深度卷积的“单兵作战”结果整合成一支“联合部队”。

2.3 自适应池化

nn.AdaptiveAvgPool2d((1, train_shape[-1])) 是个很聪明的设计，它能根据输入大小自动调整池化步幅，把特征图压缩到固定尺寸 [batch, 512, 1, modal]。这保证了无论输入的 series 维度多大，最后都能接上全连接层。

深度可分离卷积网络通过把传统卷积拆成深度卷积和点卷积两步走，实现了高效的特征提取。它的最大优点是计算量少、参数量少，非常适合资源有限的场景，比如手机或嵌入式设备。代码中的实现展示了这种设计的典型流程：从单通道输入开始，逐步扩展特征维度，最后通过池化和全连接完成分类任务。

四、PAMAP2数据集实战结果

相比其他模型，比如可变形卷积网络（DCN），深度可分离卷积更注重效率，而非灵活性。DCN 通过动态调整采样位置，能更好地处理复杂形变，但计算成本更高。而深度可分离卷积则像个“轻装上阵”的选手，简单直接，效率为王。下面我们将以OPPORTUNITY数据集为例，实现深度可分离卷积的实际应用结果。

由瑞士苏黎世联邦理工学院与西班牙马德里理工大学联合研发的 OPPORTUNITY数据集，是多模态人体行为识别领域的重要基准数据集，其设计初衷是服务于复杂日常场景下的细粒度活动感知研究。该数据集依托高度模拟的智能家居环境（涵盖厨房、办公等多功能交互空间），构建了环境 - 物品 - 人体三维感知网络：在门、抽屉等设施上部署 8 个三轴加速度传感器与 13 个开关传感器，用于捕捉用户与环境设施的交互信息；在水杯、刀具等高频使用物品上嵌入 12 个集成加速度计和陀螺仪的传感器，以监测物品使用状态。数据采集阶段，4 名志愿者在日常生活房间内开展系列活动，通过在背部、四肢等关键部位佩戴 19 个可穿戴传感器（采集频率 30Hz），同步获取多模态数据并构建全身运动学模型。

数据集包含两类核心数据：一类是志愿者按预设动作序列完成的 “Drill” 数据，另一类是按日常习惯自然完成的 “ADL” 数据。数据发布方从运动模式、左右手动作、简单行为（如走路、站立等单一动作）、复杂行为（如吃早餐等多动作连续组合）四个层级进行标注。本研究选取左右前臂、左右脚及背部共 5 个部位的运动传感器数据，包含三轴加速度、角速度及磁力计数据。表 4-2 列出了研究涉及的行为类别及其样本数量与占比。针对原始数据中的缺失值，采用均值填充方法进行处理（具体见 2.1.2.2 节）。

凭借丰富的情境上下文信息与精细标注体系，OPPORTUNITY 数据集成为验证行为识别算法鲁棒性的核心基准，广泛应用于相关算法的验证与性能评估。本研究采用固定尺寸滑动窗口对数据进行分割，结合数据采集频率、行为特征及参数实验结果，确定窗口大小为 128，滑动步长为 64。

1.训练结果

| Metric | Value |

| Parameters | 1,160,341 |

| FLOPs | 55.45 M |

| Inference Time | 0.53 ms |

| Val Accuracy | 0.9652 |

| Test Accuracy | 0.9609 |

| Accuracy | 0.9609 |

| Precision | 0.9613 |

| Recall | 0.9609 |

| F1-score | 0.9608 |

2.每个类别的准确率

每个类别的准确率:

Open Door 1: 0.9667

Open Door 2: 0.9733

Close Door 1: 0.9702

Close Door 2: 0.9714

Open Fridge: 0.9651

Close Fridge: 0.9275

Open Dishwasher: 0.9456

Close Dishwasher: 0.8686

Open Drawer 1: 0.9902

Close Drawer 1: 0.7955

Open Drawer 2: 0.9278

Close Drawer 2: 0.8824

Open Drawer 3: 0.9748

Close Drawer 3: 0.9487

Clean Table: 1.0000

Drink from Cup: 0.9943

Toggle Switch: 0.9857

3.混淆矩阵图及准确率和损失曲线图

DepthwiseSE 在 OPPO 数据集上的性能通过标准化混淆矩阵来说明，该矩阵将真实标签（行）与预测标签（列）进行比较。对角线元素表示正确的分类，而非对角线元素表示错误分类。

深度可分离卷积网络在 OPPO 数据集上表现出令人印象深刻的性能，测试精度为 0.9750-0.9800，高 F1 分数反映了平衡的精度和召回率。与标准卷积网络相比，其计算效率（参数更少，FLOP 更低）使其非常适合在可穿戴设备上进行实时活动识别。该模型擅长对不同的动作进行分类（例如，Close Table、Clean Cup），但在类似动作（例如，Close Door 2 与 Open Door 2）上难以分类，其中错误分类率高达 71.40%。

在OPPORTUNITY 数据集（多模态人体行为识别）中，深度可分离卷积网络展现出高效性与准确性：

计算效率：参数仅 116 万，FLOPs 为 55.45M，推理时间 0.53ms，远低于传统卷积模型。

性能指标：测试准确率达 96.09%，F1-score 为 96.08%，对复杂行为（如 “Clean Table”）分类准确率达 100%，验证了其在实时活动识别场景中的实用性。

总结

深度可分离卷积通过 “分工协作” 的设计思想，在效率与性能间取得平衡，成为轻量级神经网络的核心技术。其核心价值在于用更少的资源实现接近传统卷积的特征提取能力，推动了深度学习在边缘设备和实时任务中的落地。未来可结合注意力机制等优化手段，进一步提升模型表现力与效率。

本文标签：深度可分离卷积的深入解析及在OPPORTUNITY数据集上的实战

版权声明：本文标题：深度可分离卷积的深入解析及在OPPORTUNITY数据集上的实战内容由网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：http://www.betaflare.com/biancheng/1747578345a2714651.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

编程频道|软件玩家 - 软件改变生活！

深度可分离卷积的深入解析及在OPPORTUNITY数据集上的实战

深度可分离卷积的深入解析及在OPPORTUNITY数据集上的实战

一、深度可分离卷积的基础原理

1. 传统卷积的痛点

2. 深度可分离卷积的核心思路

二、深度可分离卷积的架构

1. 输入层

2. 深度可分离卷积模块

2.1 深度卷积（Depthwise Convolution）

2.2 点卷积（Pointwise Convolution）

2.3 归一化与激活

3. 整体结构

三、代码实现详解

1. DepthwiseConv 的实现

1.1 初始化

1.2 前向传播

2. 关键细节解析

2.1 深度卷积的 groups 参数

2.2 点卷积的作用

2.3 自适应池化

四、PAMAP2数据集实战结果

1.训练结果

2.每个类别的准确率

3.混淆矩阵图及准确率和损失曲线图

总结

更多相关文章

深度可分离卷积的深入解析及在OPPORTUNITY数据集上的实战

发表评论

推荐文章

javascript - Ending WebRTC video call between two peers - Stack Overflow

javascript - AWS S3 getSignedUrl() Returns Expired SignedURLs - Stack Overflow

javascript - how to customize backgrid row - Stack Overflow

开源个人云电脑项目，开启云端新玩法

十分钟，带你搭建一个自己的Git系统

热门文章

javascript - Failed to execute &#39;send&#39; on &#39;XMLHttpRequest&#39; - Stack Overflow

javascript - Jquery Drag and Drop to change div content - Stack Overflow

javascript - Object Value Returning &#39;Undefined&#39; in Array in vue.js - Stack Overflow

media - Upload images with comment

How to display custom post type pagination buttons when processing AJAX request

WordPress安装教程：在腾讯云上快速安装WordPress网站

OpenAI 推出了全新的 GPT

ThinkPHP6 API开放平台：调用日志与请求频率限制的实现

云手机技术揭秘！低成本实现1台电脑变百部“虚拟手机“实战

Windows系统中文版切换英文版教程

最新文章

【MySQL】数据类型

C语言 —— 铭纹织构未诞之镜

JUC并发—1.Java集合包底层源码剖析一

手把手教你解除极域网页限制

ChatGPT-4o 在汉字显示上进步巨大

javascript - Type &#39;undefined&#39; is not assignable to type &#39;menuItemProps[]&#39; - Stack Overflow

javascript - VS 2015 Angular 2 import modules cannot be resolved - Stack Overflow

javascript - Get the JSON objects that are not present in another array - Stack Overflow

javascript - How to dismiss a phonegap notification programmatically - Stack Overflow

c - Solaris 10 make Error code 1 Fatal Error when trying to build python 2.7.16 - Stack Overflow

外星人Alienware M15 2020版 ALW15M-R5726B参数报价

神舟战神Z7M-CU5NS参数报价

ThinkPad X1 Carbon 2019 LTE版 20R1A003CD 参数报价

华为HUAWEI MateBook B5-430i7 1165G716GB1TB集显Win11参数报价

苹果MacBook Air 13.3 MVFJ2CHA参数报价

2.1 深度卷积的 `groups` 参数

javascript - Failed to execute 'send' on 'XMLHttpRequest' - Stack Overflow

javascript - Object Value Returning 'Undefined' in Array in vue.js - Stack Overflow

javascript - Type 'undefined' is not assignable to type 'menuItemProps[]' - Stack Overflow