水利行业标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210120671.6 (22)申请日 2022.02.09 (71)申请人 开利科技股份有限公司 地址 650225 云南省昆明市盘龙区云南映 象城市公园广场1幢12层1207号 (72)发明人 许国庆 齐转风  (74)专利代理 机构 北京中政联科专利代理事务 所(普通合伙) 11489 专利代理师 陈剑杰 (51)Int.Cl. G06V 20/40(2022.01) G06V 10/98(2022.01) G06V 10/72(2022.01) G06V 10/762(2022.01) G06V 10/764(2022.01)G06V 10/80(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01) G06K 9/62(2022.01) (54)发明名称 一种基于Deep Learning的视 频识别技术的 系统 (57)摘要 本发明涉及视频识别技术领域, 尤其涉及了 一种基于DeepLearning的视 频识别技术, 包 括图 像采样器、 时序分段处理器和分支处理器, 所述 时序分段处理器连接于图像采样器的输出端, 所 述分支处理器连接于时序分段处理器的输出端, 所述分支处理器的输出端 连接有帧信息处理器, 帧信息处理器通过对每帧视频的清晰度进行对 比, 将所有帧视频分为正确数据, 冗余数据和错 误数据, 经过处理后全部导入到新数据库中。 该 基于DeepLearning的视 频识别技术, 帧信息处理 器对冗余数据进行重新标定, 导入临近时间帧数 的图像, 留下清晰度最高的一帧视频导入到新数 据库中, 去除了临近的视频帧信息存在的大量冗 余, 可以更加高效的从视频中采样图像 。 权利要求书1页 说明书4页 附图3页 CN 114550034 A 2022.05.27 CN 114550034 A 1.一种基于DeepLearning的视频识别技术的系统, 包括图像采样器、 时序分段处理器 和分支处理器, 所述时序分段处理器连接于图像采样器的输出端, 所述分支处理器连接于 时序分段处 理器的输出端, 其特 征在于: 所述分支处 理器的输出端连接有帧信息处 理器。 2.根据权利 要求1所述的一种基于DeepLearning的视频识别技术的系统, 其特征在于: 所述帧信息处理器通过对每 帧视频的清晰度进行对比, 将所有帧视频分为正确数据, 冗余 数据和错误数据, 正确数据指清晰度较高的视频帧数, 冗余数据指清晰度较低的视频帧数, 错误数据指不清晰的视频帧数。 3.根据权利 要求1所述的一种基于DeepLearning的视频识别技术的系统, 其特征在于: 所述帧信息处理器的输出端连接有新数据库, 所述新数据库具备分支结果预测功能, 所述 时序分段处 理器具有特 征融合功能, 所述融合后的特 征向量作为视频的分量。 4.根据权利 要求1所述的一种基于DeepLearning的视频识别技术的系统, 其特征在于: 所述时序分段处理器的输出端连接有优化器, 所述优化器采用3D卷积, 低秩近似模型和VGG 算法对视频的分量进行建模。 5.根据权利 要求1所述的一种基于DeepLearning的视频识别技术的系统, 其特征在于: 基于DeepLearning的视频识别方法, 包括以下步骤: S1: 图像采样器将采集到的视频信息传递给时序分段处理器, 时序分段处理器将一个 视频分为多个小段, 每段均匀的采集 一帧图像与多帧光 流; S2: 时序分段处理器多小段的视频传递给帧信息处理器, 帧信息处理器根据视频的清 晰度分为 正确数据, 冗余数据和错 误数据, 三种数据经 过处理后全部导入到新数据库中; S3: 所有帧数的视频图像在新数据库中集合, 然后传递给分支处理器, 分支处理器利用 双流法, 每视频小段获取图像分支与光流分支的特征后, 融合所有的特征作为整个视频 的 特征向量进行处理, 时序分段网络对于不同段之间的特征向量直接进行平均融合处理,在 针对不同的分支进行分类预测; S4: 预测的结果结合视频的时序信息进行VLAD融合, 对一个视频的各个帧特征进行聚 类得到多个聚类中心, 将所有的特征分配到指定的聚类中心中, 对于每个聚类区域中的特 征向量取平均, 最终合并所有的聚类区域的特 征向量作为整个视频的特 征向量; S5: 将S4中的特征向量利用优化器直接使用3D卷积构建网络, 利用低秩近似模型实现 参数量的减少, 最后利用VG G算法进行建模, 建模后的结果即为视频识别结果。权 利 要 求 书 1/1 页 2 CN 114550034 A 2一种基于De ep Learning的视频识别技术的 系统 技术领域 [0001]本发明涉及 视频识别技术领域, 具体为一种基于DeepLearning的视频识别技术的 系统。 背景技术 [0002]视频识别主要包括前端视频信息的采集及传输、 中间的视频检测和后端的分析处 理三个环节。 视频识别需要前端视频采集摄像机提供清晰稳定的视频信号, 视频信号质量 将直接影响到视频识别的效果; 再通过中间嵌入的智能分析模块, 对视频画 面进行识别、 检 测、 分析, 滤除干扰, 对视频画面中的异常情况做目标和轨迹标记。 其中智能视频分析模块 是基于人工智能和模式识别原理的算法。 [0003]深度学习是机器学习领域中一个新的研究方向, 它被引入机器学习使其更接近于 最初的目标——人工智能。 深度学习 是学习样本数据的内在规律和表示层次, 这些学习过 程中获得的信息对诸如文字, 图像和声音等数据的解释有很大的帮助。 它的最终目标是让 机器能够像人一样具有分析 学习能力, 能够识别文字、 图像和声 音等数据。 [0004]现有的基于深度学习的视频行为识别方法主要分成两类: 基于双流架构的方法和 基于3D卷积神经网络的方法。 虽然视频的帧率很高, 但是视频中的内容变化相对较慢, 临近 的视频帧信息存在大量的冗余, 如何能更加高效的从视频中采样图像帧也是非常重要的。 发明内容 [0005]本发明的目的在 于提供一种基于DeepLearning的视频识别技术的系统, 以解决上 述背景技 术中提出的问题。 [0006]为实现上述 目的, 本发明提供如下技术方案: 一种基于DeepLearning的视频识别 技术的系统, 包括图像采样 器、 时序分段 处理器和分支处理器, 所述时序分段 处理器连接于 图像采样器的输出端, 所述分支处理器连接于时序分段处理器的输出端, 所述分支处理器 的输出端连接有帧信息处 理器。 [0007]优选的, 所述帧信息处理器通过对每帧视频的清晰度进行对比, 将所有帧视频分 为正确数据, 冗余数据和错误数据, 正确数据指清晰度较高的视频帧数, 冗余数据指清晰度 较低的视频帧数, 错 误数据指不清晰的视频帧数。 [0008]优选的, 所述帧信息处理器 的输出端连接有新数据库, 所述新数据库具备分支结 果预测功能, 所述时序分段处理器具有特征融合功 能, 所述融合后的特征向量作为视频 的 分量。 [0009]优选的, 所述时序分段处理器的输出端连接有优化器, 所述优化器采用  3D卷积, 低秩近似 模型和VG G算法对视频的分量进行建模。 [0010]优选的, 基于De epLearning的视频识别方法, 包括以下步骤: [0011]S1: 图像采样器将采集到 的视频信息传递给时序分段处理器, 时序分段处理器将 一个视频分为多个小段, 每段均匀的采集 一帧图像与多帧光 流。说 明 书 1/4 页 3 CN 114550034 A 3

.PDF文档 专利 一种基于Deep Learning的视频识别技术的系统

文档预览
中文文档 9 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于Deep Learning的视频识别技术的系统 第 1 页 专利 一种基于Deep Learning的视频识别技术的系统 第 2 页 专利 一种基于Deep Learning的视频识别技术的系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 01:15:36上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。