水利行业标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210159476.4 (22)申请日 2022.02.21 (71)申请人 首都体育学院 地址 100191 北京市海淀区北三环西路1 1 号高德楼 201 (72)发明人 周志雄 王秋睿  (51)Int.Cl. G06V 20/40(2022.01) G06V 40/20(2022.01) G06V 10/46(2022.01) G06V 10/766(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01)G06V 10/22(2022.01) G06V 10/62(2022.01) (54)发明名称 一种基于区域中心采样的无锚点时序动作 定位方法 (57)摘要 本发明专利提出了一种基于区域中心采样 的无锚点时序动作定位方法, 其特征在于: (1)构 建金字塔结构的三维卷积网络对视频序列进行 从粗尺度到细尺度, 再从细尺度到粗的特征提 取; (2)构建一种无锚点的中心区域采样动作定 位的回归模 型, 该模型的头部区域对每一帧预想 为中心区域, 把以其为中心点的视频长度的一半 和动作定位得分作为回归目标, 不需要预先提供 可供参考的获选区域; (3)对不同尺度的动作定 位的结果用非极大值抑制算法选取最合适的定 位区域。 权利要求书1页 说明书2页 附图1页 CN 114519836 A 2022.05.20 CN 114519836 A 1.本发明专利提出了一种基于区域中心采样的无锚点时序动作定位方法, 其特征在于 如下步骤: (1)构建金字塔结构的三 维卷积网络对视频序列进 行从粗尺度到细尺度, 再从细 尺度到粗的特征提取; (2)构建一种无锚点的中心区域采样动作定位的回归模型, 该模型的 头部区域对每一帧预想为中心区域, 把以其为中心 点的视频长度的一半和动作定位得分作 为回归目标, 不需要 预先提供可供参考的获选区域; (3)对不同尺度的动作定位的结果用非 极大值抑制算法选取最 合适的定位区域。权 利 要 求 书 1/1 页 2 CN 114519836 A 2一种基于区域中心采 样的无锚点时序动作定位方 法 一、 技术领域 [0001]视频动作定位、 计算机 视觉、 人工智能 二、 背景技术 [0002]2.1通用技 术方法介绍 [0003]视频动作定位是 给出某动作在一段视频中起始位置和终止位置的方法。 [0004]卷积神经网络是一种利用卷积核提供特征的深度神经网络方法, 其中二维卷积神 经网络作用于二 维数据结构, 典型的如图像数据; 三 维卷积神经网络作用于二 维数据结构, 典型的如视频 数据。 [0005]非极大值抑制算法是一种对重叠区域达到一定比例的预测结果进行精简, 仅保留 最高置信度的预测结果的方法。 [0006]2.2相似方法介绍 [0007]视频动作定位方法主要分为有锚点的视频动作定位方法和无锚点的视频动作定 位方法。 [0008]有锚点的视频动作定位方法需要先给出动作定位的大体位置, 跟根据这个位置进 行精准预测, 最后调整这个大体位置的方法。 有锚点的视频动作定位方法受预先给出 的大 体位置的影响较大, 当大体位置不太准确时, 无法较准确预测动作的起始与结束位置。 典型 的方法如CN10839 9380A。 [0009]本方法采用了无锚点的视频动作定位方法。 其不需要预先给出的动作的大体位置 就可以预测动作的起始与结束位置 。 三、 发明内容 [0010]本方法在融合了创新技术和已有方法的基础上, 实现了一种基于区域中心采样的 无锚点时序动作定位方法。 本方法是一种端到端的方法。 [0011]本方法模型分为2个部分: 基于三维卷积金字塔模型的特征提取、 基于多尺度的无 锚点定位回归。 三 维卷积金字塔模型采用了类似文献[1]的结构, 但有 所区别是仅采用了最 大的3层卷积尺度而不是原文的4  层, 同时在时间、 空间三维坐标轴上, 下一层卷积核是上 一层卷积核大小的二分之一。 如图1所示, 该部分有2 个金字塔, 分别为C1 ‑C2‑C3、 P1‑P2‑P3, 数字越小, 卷积核越大。 C、 P金字塔同层卷积层同时相连。 [0012]在多尺度无锚点定位回归网络部分, P金字塔分别连接3个head部分, 即目标回归 模型, 其分别在3  个尺度上对动作时长的一半r和 动作得分s进 行回归。 得分s的定义为tp和 tg的区域交集除以tp和t g 的区域并集, 其中tp为预测的动作的开始时间和结束 时间的区 域, tg为真实的动作的开始时间和结束时间的区域。 模 型的损失函数采用smooth  L1损失函 数。 [0013]每个尺度的回归结果集中起来, 对于预测动作的区间重叠部分大于二分之一区域 的区间, 采用文献[2]  所采用的软极大值抑制算法去掉重 叠区域过 大的预测结果。说 明 书 1/2 页 3 CN 114519836 A 3

.PDF文档 专利 一种基于区域中心采样的无锚点时序动作定位方法

文档预览
中文文档 5 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共5页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于区域中心采样的无锚点时序动作定位方法 第 1 页 专利 一种基于区域中心采样的无锚点时序动作定位方法 第 2 页 专利 一种基于区域中心采样的无锚点时序动作定位方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 01:16:12上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。