水利行业标准网
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211252753.2 (22)申请日 2022.10.13 (71)申请人 重庆工商大 学 地址 400067 重庆市南岸区学府大道19号 (72)发明人 张会均 张宇樊 熊炫睿 (74)专利代理 机构 重庆辉腾律师事务所 5 0215 专利代理师 王诗思 (51)Int.Cl. G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) H04L 9/40(2022.01) (54)发明名称 一种基于聚类自适应混合采样的网络入侵 检测方法及系统 (57)摘要 本发明属于网络入侵检测技术领域, 涉及一 种基于聚类自适应混合采样的网络入侵检测方 法及系统; 包括将网络入侵数据集的字符型特征 编码为数字特征并归一化; 对网络入侵数据集聚 类得到M个集群, 将其划分为少数类簇和非少数 类簇; 计算少数类簇的采样权重并进行过采样; 计算非少数类簇的采样权重并进行自适应欠采 样; 合并以上数据训练CNN神经网络分类器; 将实 时的网络入侵 数据输入训练好的CNN神经网络分 类器输出类别; 本发明能有效避免生成噪声样本 并且保证采样后各个样本簇内的数量达到均衡 以及去除稠密簇中样本间相似度大的冗余样本, 相比传统的基于SMOTE过采样的入侵检测技术, 该方法对少数类样本以及数据集整体样本有更 好的分类性能。 权利要求书3页 说明书8页 附图2页 CN 115545111 A 2022.12.30 CN 115545111 A 1.一种基于聚类自适应混合采样的网络入侵检测方法, 其特 征在于, 包括: S1.将网络入侵数据集中的数据的字符型 特征编码为数字特 征; S2.将网络入侵数据集归一 化至区间[0,1]; S3.设置平衡采样数, 并将网络入侵数据集中的数据划分为多数类样本和少数类样本; S4.采用DBSCAN聚类算法处理网络入侵数据 集得到M个集群, 将M个集群划分为X个少数 类簇和Y个非少数类簇; S5.计算每个少数类簇的采样权重, 通过采样权重得到对应的采样数量, 再利用SMOTE 方法对每个少数类簇进行过采样, 使每个少数类簇的少数类样本的数量增加至平衡采样 数; S6.计算每个非少数类簇的采样权重, 通过采样权重得到对应的采样数量, 再对每个非 少数类簇进行欠采样, 使每 个非少数类簇的多数类样本的数量降低至平衡采样数; S7.合并S5与S6得到的数据训练CN N神经网络分类 器; S8.将实时的网络入侵数据输入训练好的CNN神经网络分类器, CNN神经网络分类器输 出该实时的网络入侵数据的类别。 2.根据权利要求1所述的一种基于聚类自适应混合采样的网络入侵检测方法, 其特征 在于, 划分 网络入侵数据集的过程为: 在样本总数量为N, 样 本总类别为C的网络入侵数据集 中, 设定平衡采样数S=N/C, 将样本数量大于平衡采样数S的类别划分为多数类样本, 否则 为少数类样本 。 3.根据权利要求1所述的一种基于聚类自适应混合采样的网络入侵检测方法, 其特征 在于, 采用DBSCAN聚类算法对网络入侵数据集进行聚类, 得到M个集群后, 分别计算每个集 群中少数类样本的占比, 当该集群中少数类样本的占比大于4/5时, 将其划分为少数类簇, 否则划分为非少数类簇 。 4.根据权利要求1或3所述的一种基于聚类自适应混合采样的网络入侵检测方法, 其特 征在于, 计算每 个少数类簇的采样数量的过程 为: S11.筛选 出少数类簇cx中的所有少数类样本, 计算少数类样本间的欧式距 离, 得到少数 类簇cx的少数类样本欧氏距离矩阵, 表示 为: 其中, 1≤x≤X, X为少数类簇的数量, dij表示少数类簇中的少数类样本si到少数类样本 sj的欧氏距离, n表示少数类簇中的少数类样本总数; S12.将少数类样本欧氏距离矩阵中所有非对角元素相加, 采用相加结果除以少数类簇 cx的少数类样本总数, 得到平均距离, 表示 为: S13.通过平均距离计算少数类簇 cx的密度值, 表示 为:权 利 要 求 书 1/3 页 2 CN 115545111 A 2S14.将密度值翻转得到少数类簇的稀疏度, 表 示为: S15.根据步骤S11 ‑S14计算每个少 数类簇的稀疏度, 将所有少数类簇的稀疏度相加获 得稀疏度总和, 根据每 个少数类簇的稀疏度计算 其自身的采样权 重, 表示为: S16.通过平衡采样数S与采样权 重获取少数类簇的采样数量, 表示 为: Samples(cx)=S×samplingWeight(cx)。 5.根据权利要求4所述的一种基于聚类自适应混合采样的网络入侵检测方法, 其特征 在于, 计算每个非少数类簇的采样数量的过程与少数类簇相同, 但是非少数类簇是进行欠 采样, 所以采样权 重计算公式不同, 其表示 为: 其中, fy表示第y个非少数类簇, 1≤y≤ Y, Y表示非少数类簇的数量。 6.一种基于聚类自适应混合采样的网络入侵检测系统, 其特征在于, 包括历史数据存 储模块、 属性转换模块、 归一化模块、 采样模块、 机器学习分类器训练模块、 实时预测模块, 其中: 历史数据存 储模块, 用于存 储已经进行了分类的网络入侵数据; 属性转换模块, 用于将网络入侵数据中的字符型 特征编码为数字特 征; 归一化模块, 用于对经 过属性转换后的网络入侵数据归一 化到区间; 采样模块, 用于对网络历史数据进行采样, 保证训练数据的数据量平衡; 采样模块包括数据分类单 元、 DBSCAN聚集单 元、 少数类采样单 元、 多数类采样单 元; 数据分类单元, 用于设定平衡采样数S, 将网络历史数据集中样本数量大于平衡采样数 S的类别划分为多数类样本, 否则为少数类样本; DBSCAN聚集单元, 采用DBSCAN聚类算法处理网络历史数据集得到M个集群, 将M个集群 划分为X个少数类簇和Y个非少数类簇; 少数类采样单元, 计算每个少数类簇的采样权重, 通过采样权重得到对应的采样数量, 再利用SMOTE方法对每个少数类簇进行过采样, 使每个少数类簇的少数类样本的数量增加 至平衡采样数; 多数类采样单元, 计算每个非少数类簇的采样权重, 通过采样权重得到对应的采样数 量, 再对每个非少数类簇进行欠采样, 使每个非少数类簇的多数类样本的数量降低至平衡 采样数; 机器学习分类 器训练模块, 用于根据训练数据进行训练, 获得机器学习分类 器; 实时预测模块, 用于将实时的网络入侵数据输入机器学习分类器, 获得该网络入侵的权 利 要 求 书 2/3 页 3 CN 115545111 A 3
专利 一种基于聚类自适应混合采样的网络入侵检测方法及系统
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 SC 于
2024-02-18 22:24:39
上传分享
举报
下载
原文档
(626.5 KB)
分享
友情链接
GB-T 33857-2017 节能评估技术导则 热电联产项目.pdf
GB-T 36558-2023 电力系统电化学储能系统通用技术条件.pdf
DB1408-T005-2020 果园植保器械农药有效沉积率评价技术规程 运城市.pdf
GM-T 0045-2016 金融数据密码技术规范.pdf
思度安全-DSMM-010 数据处理环境安全管理规范V1.0.pdf
JYT 0631-2020 义务教育学校音乐教室建设与装备规范.pdf
T-SDPIA 06—2022 宠物美毛产品功效评价操作规程.pdf
DB61-T 1658-2023 固定污染源废气挥发性有机物监测技术规范 陕西省.pdf
DB3301-T 0213-2018 城市道路防沉降检查井盖和雨水口技术管理规范 杭州市.pdf
GB-T 2020-1980 信息处理交换用9磁道12.7毫米宽32行-毫米记录磁带.pdf
腾讯 2022产业互联网安全十大趋势.pdf
GB-T 42293-2022 商品交易市场知识产权保护规范.pdf
GM-T 0065-2019 商用密码产品生产和保障能力建设规范.pdf
GB-T 4023-2015 半导体器件 分立器件和集成电路 第2部分:整流二极管.pdf
GB-T 30273-2013 信息安全技术 信息系统安全保障通用评估指南.pdf
GB-T 28827.4-2019 信息技术服务 运行维护 第4部分:数据中心服务要求.pdf
T-CAMIR 003—2022 媒体大数据分类分级指南.pdf
DB3402-T 25-2022 12355青少年服务台服务规范 芜湖市.pdf
GB-T 36630.4-2018 信息安全技术 信息技术产品安全可控评价指标 第4部分:办公套件.pdf
CH-T 4024-2019 《城市政务电子地图更新技术规范》.pdf
1
/
14
评价文档
赞助2.5元 点击下载(626.5 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。