(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210252373.2
(22)申请日 2022.03.15
(71)申请人 淮阴工学院
地址 223000 江苏省淮安市经济技 术开发
区枚乘东路1号
申请人 江苏清软智能科技有限公司
(72)发明人 胡荣林 何旭琴 冯万利
(74)专利代理 机构 南京苏高专利商标事务所
(普通合伙) 32204
专利代理师 徐红梅
(51)Int.Cl.
G06V 40/20(2022.01)
G06V 20/40(2022.01)
G06V 10/82(2022.01)
G06V 10/80(2022.01)G06V 10/774(2022.01)
G06V 10/764(2022.01)
G06N 3/04(2006.01)
G06K 9/62(2022.01)
(54)发明名称
一种基于分流注意力网络的人体动作识别
方法、 系统及设备
(57)摘要
本发明公开了一种基于分流注意力网络的
人体动作识别方法、 系统及设备, 方法包括: S1、
将人体动作识别数据集中的视频解析成人体动
作帧序列; S2、 对解析的人体动作帧序列进行预
处理, 并采样得到训练数据集和测试数据集; S3、
将数据预处理后的T帧序列输入到分流注意力网
络中, 提取出通道域和时空域的人体动作外观特
征; S4、 将人体动作外观特征输入到时序网络模
型中, 提取出人体动作的时差时序特征; S5、 基于
时差时序特征训练人体动作特征模 型, 将测试数
据集输入训练好的人体动作特征模 型中, 得到人
体动作的最终分类结果。 本发明提出的分流注意
力网络和时差点积自注意力模块, 能在不增加计
算量的前提下, 进一步提高人体动作识别的精
度。
权利要求书4页 说明书9页 附图4页
CN 114627555 A
2022.06.14
CN 114627555 A
1.一种基于分流注意力网络的人体动作识别方法, 其特 征在于, 包括以下步骤:
S1、 将人体动作识别数据集中的视频解析成人体动作帧序列, 其中, 人体动作识别数据
集中的视频为带 标签的人体动作视频;
S2、 对解析的人体动作帧序列进行随机的翻转和变换操作进行数据增强, 得到预处理
后的人体动作帧序列, 并采样得到训练数据集和 测试数据集;
S3、 将步骤S2中的训练数据集输入到分流注意力 网络中, 提取出通道域和时空域的人
体动作外观特 征;
S4、 将步骤S3得到的人体动作外观特征输入到BiLSTM循环神经网络和时差点积自注意
力模块结合的时序网络模型中, 提取 出人体动作的时差时序特 征;
S5、 基于步骤S4得到的时差时序特征训练人体动作特征模型, 将测试数据集输入训练
好的人体动作特 征模型中, 得到人体动作的最终分类结果。
2.根据权利要求1所述的一种基于分流注意力网络的人体动作识别方法, 其特征在于,
步骤S2中训练数据集采样方法为: 从预处理后的人体动作帧序列中随机的选择采样间隔和
起始帧作为训练数据集;
测试数据集采样方法为: 从预处理后的人体动作帧序列中以第 一帧开始均匀的采样作
为测试数据集。
3.根据权利要求1所述的一种基于分流注意力网络的人体动作识别方法, 其特征在于,
步骤S3中分流注意力网络包括主干网络模块, 主干网络模块包括5个顺序连接的残差块, 每
个残差块包括一个7 ×7的卷积层、 通道域注意力模块、 时空域注意力模块、 一个1 ×1卷积
层、 一个3 ×3卷积层和一个1 ×1卷积层;
主干网络模块中第一残差块的7 ×7的卷积层提取训练数据集中的人体动作底层特征
R, 并分别输出至通道域注意力模块和时空域注意力模块;
通道域注意力模块使用空间 自适应平均 池化顺序推理出一维的通道域注意力掩码mca;
并将一维的通道域注意力掩码Mca和人体动 作底层特征R进行相乘再相 加得到通道域注意力
特征Rca;
时空域注意力模块使用通道平均和最大池化顺序推理出一维的时空域注意力掩码
M′sta; 并将一维的时空域注意力掩码M ′sta和人体动作底层特征R进行相乘再相加得到时空
域注意力特 征Rsta;
对得到的通道域注意力特征Rca和时空域注意力特征Rsta进行相加得到通道域和时空域
的人体动作混合特 征;
人体动作的混合特征依次经过1 ×1卷积层、 3 ×3卷积层和1 ×1卷积层后 输入第二残差
块; 然后依次经 过第三残差块、 第四残差块和第五残差块输出 人体动作的外观特 征。
4.根据权利要求3所述的一种基于分流注意力网络的人体动作识别方法, 其特征在于,
通道域注意力模块通过压缩空间特征来增强通道 域特征的影响, 并通过局部跨通道交互进
一步增强通道特 征的表达能力, 具体包括以下步骤:
S301、 对于主干网络模块中第一残差块的7 ×7的卷积层提取的人体动作底层特征R, 通
道域注意力模块使用空间自适应平均池化在所有通道上进 行空间特征编码, 压缩空间特征
为一个全局特征, 并将全局空间信息压缩到通道描述符中, 获得通道域特征信息; 采用的空
间自适应平均池化公式为:权 利 要 求 书 1/4 页
2
CN 114627555 A
2其中, 通道域注意力模块的输入特征为人体动作底层特征R∈RNT×C×H×W, NT是人体动作
底层特征图的数量, C是每张人体动作底层特征图的通道数, H是每张人体动作底层特征图
的高, W是每张人体动作底层特 征图的宽, 通道域注意力模块的输出 特征F∈RNT×C×1×1;
S302、 使用2D卷积层k1以比例r来压缩 通道域注意力模块的输 出特征F的通道数, 进 一步
减少参数量; 其采用的公式为:
Fr=k1*F
其中, k1是一个1 ×1的2D卷积层, Fr为压缩通道特征,
将Fr重塑为
S303、 将步骤S302重塑后的压缩通道特征F ′r输入到1D卷积层k2中来进行跨通道交互;
其采用的公式为:
Ftemp=k2*F′r
其中, k2是一个1×1的1D卷积层, Ftemp为交互通道特征,
将Ftemp重塑为
S304、 使用2D卷积层k3对步骤S303重塑后的交互通道特征F ′temp进行解压缩并馈送到
Sigmoid激活函数中; 其分别采用的公式为:
Fc=k3*F′temp
Mca= δ(Fc)
其中, Fc为通道掩码, Fc∈RNT×C×1×1, Mca为一维的通道域注意力掩码, Mca∈RNT×C×1×1, δ
(·)是Sigmo id激活函数, 最终得到的通道域注意力特 征Rca为:
Rca=R+R⊙Mca。
5.根据权利要求3所述的一种基于分流注意力网络的人体动作识别方法, 其特征在于,
时空域注意力模块通过压缩通道特征来增强空间特征的影响, 并通过3D卷积层来进一步增
强空间特 征的时序表达能力, 具体步骤为:
S311、 将主干网络模块中第一残差块的7 ×7的卷积层提取的底层特征R∈RNT×C×H×W重塑
为R′∈RN×T×C×H×W;
S312、 时空域注意力模块使用通道平均池化和通道最大池化在所有空间上进行通道特
征编码, 分别压缩通道特征为全局特征Favg和Fmax, 并将全局通道信息压缩到空间描述符中,
获得时空特 征信息; 采用的平均池化和最大池化公式分别为:
Fmax=max(R′[:,:,i,:,:])
其中, Favg为空间注意力平均池化特征, Favg∈RN×T×1×H×W, Fmax为空间注意力最大池化特
征, Fmax∈RN×T×1×H×W; C为人体动作底层特 征的通道数;权 利 要 求 书 2/4 页
3
CN 114627555 A
3
专利 一种基于分流注意力网络的人体动作识别方法、系统及设备
文档预览
中文文档
18 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 01:16:10上传分享