(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210120671.6
(22)申请日 2022.02.09
(71)申请人 开利科技股份有限公司
地址 650225 云南省昆明市盘龙区云南映
象城市公园广场1幢12层1207号
(72)发明人 许国庆 齐转风
(74)专利代理 机构 北京中政联科专利代理事务
所(普通合伙) 11489
专利代理师 陈剑杰
(51)Int.Cl.
G06V 20/40(2022.01)
G06V 10/98(2022.01)
G06V 10/72(2022.01)
G06V 10/762(2022.01)
G06V 10/764(2022.01)G06V 10/80(2022.01)
G06V 10/82(2022.01)
G06N 3/04(2006.01)
G06K 9/62(2022.01)
(54)发明名称
一种基于Deep Learning的视 频识别技术的
系统
(57)摘要
本发明涉及视频识别技术领域, 尤其涉及了
一种基于DeepLearning的视 频识别技术, 包 括图
像采样器、 时序分段处理器和分支处理器, 所述
时序分段处理器连接于图像采样器的输出端, 所
述分支处理器连接于时序分段处理器的输出端,
所述分支处理器的输出端 连接有帧信息处理器,
帧信息处理器通过对每帧视频的清晰度进行对
比, 将所有帧视频分为正确数据, 冗余数据和错
误数据, 经过处理后全部导入到新数据库中。 该
基于DeepLearning的视 频识别技术, 帧信息处理
器对冗余数据进行重新标定, 导入临近时间帧数
的图像, 留下清晰度最高的一帧视频导入到新数
据库中, 去除了临近的视频帧信息存在的大量冗
余, 可以更加高效的从视频中采样图像 。
权利要求书1页 说明书4页 附图3页
CN 114550034 A
2022.05.27
CN 114550034 A
1.一种基于DeepLearning的视频识别技术的系统, 包括图像采样器、 时序分段处理器
和分支处理器, 所述时序分段处理器连接于图像采样器的输出端, 所述分支处理器连接于
时序分段处 理器的输出端, 其特 征在于: 所述分支处 理器的输出端连接有帧信息处 理器。
2.根据权利 要求1所述的一种基于DeepLearning的视频识别技术的系统, 其特征在于:
所述帧信息处理器通过对每 帧视频的清晰度进行对比, 将所有帧视频分为正确数据, 冗余
数据和错误数据, 正确数据指清晰度较高的视频帧数, 冗余数据指清晰度较低的视频帧数,
错误数据指不清晰的视频帧数。
3.根据权利 要求1所述的一种基于DeepLearning的视频识别技术的系统, 其特征在于:
所述帧信息处理器的输出端连接有新数据库, 所述新数据库具备分支结果预测功能, 所述
时序分段处 理器具有特 征融合功能, 所述融合后的特 征向量作为视频的分量。
4.根据权利 要求1所述的一种基于DeepLearning的视频识别技术的系统, 其特征在于:
所述时序分段处理器的输出端连接有优化器, 所述优化器采用3D卷积, 低秩近似模型和VGG
算法对视频的分量进行建模。
5.根据权利 要求1所述的一种基于DeepLearning的视频识别技术的系统, 其特征在于:
基于DeepLearning的视频识别方法, 包括以下步骤:
S1: 图像采样器将采集到的视频信息传递给时序分段处理器, 时序分段处理器将一个
视频分为多个小段, 每段均匀的采集 一帧图像与多帧光 流;
S2: 时序分段处理器多小段的视频传递给帧信息处理器, 帧信息处理器根据视频的清
晰度分为 正确数据, 冗余数据和错 误数据, 三种数据经 过处理后全部导入到新数据库中;
S3: 所有帧数的视频图像在新数据库中集合, 然后传递给分支处理器, 分支处理器利用
双流法, 每视频小段获取图像分支与光流分支的特征后, 融合所有的特征作为整个视频 的
特征向量进行处理, 时序分段网络对于不同段之间的特征向量直接进行平均融合处理,在
针对不同的分支进行分类预测;
S4: 预测的结果结合视频的时序信息进行VLAD融合, 对一个视频的各个帧特征进行聚
类得到多个聚类中心, 将所有的特征分配到指定的聚类中心中, 对于每个聚类区域中的特
征向量取平均, 最终合并所有的聚类区域的特 征向量作为整个视频的特 征向量;
S5: 将S4中的特征向量利用优化器直接使用3D卷积构建网络, 利用低秩近似模型实现
参数量的减少, 最后利用VG G算法进行建模, 建模后的结果即为视频识别结果。权 利 要 求 书 1/1 页
2
CN 114550034 A
2一种基于De ep Learning的视频识别技术的 系统
技术领域
[0001]本发明涉及 视频识别技术领域, 具体为一种基于DeepLearning的视频识别技术的
系统。
背景技术
[0002]视频识别主要包括前端视频信息的采集及传输、 中间的视频检测和后端的分析处
理三个环节。 视频识别需要前端视频采集摄像机提供清晰稳定的视频信号, 视频信号质量
将直接影响到视频识别的效果; 再通过中间嵌入的智能分析模块, 对视频画 面进行识别、 检
测、 分析, 滤除干扰, 对视频画面中的异常情况做目标和轨迹标记。 其中智能视频分析模块
是基于人工智能和模式识别原理的算法。
[0003]深度学习是机器学习领域中一个新的研究方向, 它被引入机器学习使其更接近于
最初的目标——人工智能。 深度学习 是学习样本数据的内在规律和表示层次, 这些学习过
程中获得的信息对诸如文字, 图像和声音等数据的解释有很大的帮助。 它的最终目标是让
机器能够像人一样具有分析 学习能力, 能够识别文字、 图像和声 音等数据。
[0004]现有的基于深度学习的视频行为识别方法主要分成两类: 基于双流架构的方法和
基于3D卷积神经网络的方法。 虽然视频的帧率很高, 但是视频中的内容变化相对较慢, 临近
的视频帧信息存在大量的冗余, 如何能更加高效的从视频中采样图像帧也是非常重要的。
发明内容
[0005]本发明的目的在 于提供一种基于DeepLearning的视频识别技术的系统, 以解决上
述背景技 术中提出的问题。
[0006]为实现上述 目的, 本发明提供如下技术方案: 一种基于DeepLearning的视频识别
技术的系统, 包括图像采样 器、 时序分段 处理器和分支处理器, 所述时序分段 处理器连接于
图像采样器的输出端, 所述分支处理器连接于时序分段处理器的输出端, 所述分支处理器
的输出端连接有帧信息处 理器。
[0007]优选的, 所述帧信息处理器通过对每帧视频的清晰度进行对比, 将所有帧视频分
为正确数据, 冗余数据和错误数据, 正确数据指清晰度较高的视频帧数, 冗余数据指清晰度
较低的视频帧数, 错 误数据指不清晰的视频帧数。
[0008]优选的, 所述帧信息处理器 的输出端连接有新数据库, 所述新数据库具备分支结
果预测功能, 所述时序分段处理器具有特征融合功 能, 所述融合后的特征向量作为视频 的
分量。
[0009]优选的, 所述时序分段处理器的输出端连接有优化器, 所述优化器采用 3D卷积,
低秩近似 模型和VG G算法对视频的分量进行建模。
[0010]优选的, 基于De epLearning的视频识别方法, 包括以下步骤:
[0011]S1: 图像采样器将采集到 的视频信息传递给时序分段处理器, 时序分段处理器将
一个视频分为多个小段, 每段均匀的采集 一帧图像与多帧光 流。说 明 书 1/4 页
3
CN 114550034 A
3
专利 一种基于Deep Learning的视频识别技术的系统
文档预览
中文文档
9 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 01:15:36上传分享