专利 一种基于分流注意力网络的人体动作识别方法、系统及设备

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210252373.2 (22)申请日 2022.03.15 (71)申请人淮阴工学院地址 223000 江苏省淮安市经济技术开发区枚乘东路1号申请人江苏清软智能科技有限公司 (72)发明人胡荣林　何旭琴　冯万利　 (74)专利代理机构南京苏高专利商标事务所 (普通合伙) 32204 专利代理师徐红梅 (51)Int.Cl. G06V 40/20(2022.01) G06V 20/40(2022.01) G06V 10/82(2022.01) G06V 10/80(2022.01)G06V 10/774(2022.01) G06V 10/764(2022.01) G06N 3/04(2006.01) G06K 9/62(2022.01) (54)发明名称一种基于分流注意力网络的人体动作识别方法、系统及设备 (57)摘要本发明公开了一种基于分流注意力网络的人体动作识别方法、系统及设备，方法包括： S1、将人体动作识别数据集中的视频解析成人体动作帧序列； S2、对解析的人体动作帧序列进行预处理，并采样得到训练数据集和测试数据集； S3、将数据预处理后的T帧序列输入到分流注意力网络中，提取出通道域和时空域的人体动作外观特征； S4、将人体动作外观特征输入到时序网络模型中，提取出人体动作的时差时序特征； S5、基于时差时序特征训练人体动作特征模型，将测试数据集输入训练好的人体动作特征模型中，得到人体动作的最终分类结果。本发明提出的分流注意力网络和时差点积自注意力模块，能在不增加计算量的前提下，进一步提高人体动作识别的精度。权利要求书4页说明书9页附图4页 CN 114627555 A 2022.06.14 CN 114627555 A 1.一种基于分流注意力网络的人体动作识别方法，其特征在于，包括以下步骤： S1、将人体动作识别数据集中的视频解析成人体动作帧序列，其中，人体动作识别数据集中的视频为带标签的人体动作视频； S2、对解析的人体动作帧序列进行随机的翻转和变换操作进行数据增强，得到预处理后的人体动作帧序列，并采样得到训练数据集和测试数据集； S3、将步骤S2中的训练数据集输入到分流注意力网络中，提取出通道域和时空域的人体动作外观特征； S4、将步骤S3得到的人体动作外观特征输入到BiLSTM循环神经网络和时差点积自注意力模块结合的时序网络模型中，提取出人体动作的时差时序特征； S5、基于步骤S4得到的时差时序特征训练人体动作特征模型，将测试数据集输入训练好的人体动作特征模型中，得到人体动作的最终分类结果。 2.根据权利要求1所述的一种基于分流注意力网络的人体动作识别方法，其特征在于，步骤S2中训练数据集采样方法为：从预处理后的人体动作帧序列中随机的选择采样间隔和起始帧作为训练数据集；测试数据集采样方法为：从预处理后的人体动作帧序列中以第一帧开始均匀的采样作为测试数据集。 3.根据权利要求1所述的一种基于分流注意力网络的人体动作识别方法，其特征在于，步骤S3中分流注意力网络包括主干网络模块，主干网络模块包括5个顺序连接的残差块，每个残差块包括一个7 ×7的卷积层、通道域注意力模块、时空域注意力模块、一个1 ×1卷积层、一个3 ×3卷积层和一个1 ×1卷积层；主干网络模块中第一残差块的7 ×7的卷积层提取训练数据集中的人体动作底层特征 R，并分别输出至通道域注意力模块和时空域注意力模块；通道域注意力模块使用空间自适应平均池化顺序推理出一维的通道域注意力掩码mca；并将一维的通道域注意力掩码Mca和人体动作底层特征R进行相乘再相加得到通道域注意力特征Rca；时空域注意力模块使用通道平均和最大池化顺序推理出一维的时空域注意力掩码 M′sta；并将一维的时空域注意力掩码M ′sta和人体动作底层特征R进行相乘再相加得到时空域注意力特征Rsta；对得到的通道域注意力特征Rca和时空域注意力特征Rsta进行相加得到通道域和时空域的人体动作混合特征；人体动作的混合特征依次经过1 ×1卷积层、 3 ×3卷积层和1 ×1卷积层后输入第二残差块；然后依次经过第三残差块、第四残差块和第五残差块输出人体动作的外观特征。 4.根据权利要求3所述的一种基于分流注意力网络的人体动作识别方法，其特征在于，通道域注意力模块通过压缩空间特征来增强通道域特征的影响，并通过局部跨通道交互进一步增强通道特征的表达能力，具体包括以下步骤： S301、对于主干网络模块中第一残差块的7 ×7的卷积层提取的人体动作底层特征R，通道域注意力模块使用空间自适应平均池化在所有通道上进行空间特征编码，压缩空间特征为一个全局特征，并将全局空间信息压缩到通道描述符中，获得通道域特征信息；采用的空间自适应平均池化公式为：权　利　要　求　书 1/4 页 2 CN 114627555 A 2其中，通道域注意力模块的输入特征为人体动作底层特征R∈RNT×C×H×W， NT是人体动作底层特征图的数量， C是每张人体动作底层特征图的通道数， H是每张人体动作底层特征图的高， W是每张人体动作底层特征图的宽，通道域注意力模块的输出特征F∈RNT×C×1×1； S302、使用2D卷积层k1以比例r来压缩通道域注意力模块的输出特征F的通道数，进一步减少参数量；其采用的公式为： Fr＝k1*F 其中， k1是一个1 ×1的2D卷积层， Fr为压缩通道特征，将Fr重塑为 S303、将步骤S302重塑后的压缩通道特征F ′r输入到1D卷积层k2中来进行跨通道交互；其采用的公式为： Ftemp＝k2*F′r 其中， k2是一个1×1的1D卷积层， Ftemp为交互通道特征，将Ftemp重塑为 S304、使用2D卷积层k3对步骤S303重塑后的交互通道特征F ′temp进行解压缩并馈送到 Sigmoid激活函数中；其分别采用的公式为： Fc＝k3*F′temp Mca＝ δ(Fc) 其中， Fc为通道掩码， Fc∈RNT×C×1×1， Mca为一维的通道域注意力掩码， Mca∈RNT×C×1×1， δ (·)是Sigmo id激活函数，最终得到的通道域注意力特征Rca为： Rca＝R+R⊙Mca。 5.根据权利要求3所述的一种基于分流注意力网络的人体动作识别方法，其特征在于，时空域注意力模块通过压缩通道特征来增强空间特征的影响，并通过3D卷积层来进一步增强空间特征的时序表达能力，具体步骤为： S311、将主干网络模块中第一残差块的7 ×7的卷积层提取的底层特征R∈RNT×C×H×W重塑为R′∈RN×T×C×H×W； S312、时空域注意力模块使用通道平均池化和通道最大池化在所有空间上进行通道特征编码，分别压缩通道特征为全局特征Favg和Fmax，并将全局通道信息压缩到空间描述符中，获得时空特征信息；采用的平均池化和最大池化公式分别为： Fmax＝max(R′[:,:,i,:,:]) 其中， Favg为空间注意力平均池化特征， Favg∈RN×T×1×H×W， Fmax为空间注意力最大池化特征， Fmax∈RN×T×1×H×W； C为人体动作底层特征的通道数；权　利　要　求　书 2/4 页 3 CN 114627555 A 3

专利 一种基于分流注意力网络的人体动作识别方法、系统及设备

专利一种基于分流注意力网络的人体动作识别方法、系统及设备