(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111253681.9
(22)申请日 2021.10.27
(71)申请人 首都信息发展股份有限公司
地址 100071 北京市丰台区万丰路316号 万
开中心B座3层
(72)发明人 万聪 李洁薇 张晓庆
(74)专利代理 机构 北京八月瓜知识产权代理有
限公司 1 1543
代理人 秦莹
(51)Int.Cl.
G06F 16/9535(2019.01)
G06F 16/9536(2019.01)
G06F 16/955(2019.01)
G06F 16/957(2019.01)
G06F 16/27(2019.01)G06Q 30/02(2012.01)
G06N 20/00(2019.01)
(54)发明名称
用户行为分析装置及方法
(57)摘要
本发明公开了一种用户行为分析装置及方
法, 所述装置包括: 数据采集模块, 用于基于
Spark Streaming实时流技术, 进行非侵入式数
据采集、 数据落地和数据实时同步, 获取用户数
据; 数据分析模块, 用于基于所述用户数据对用
户进行数据分析, 得到用户数据分析结果; 用户
画像模块, 用于基于所述用户数据分析结果, 采
用推荐过滤及机器学习算法, 基于用户画像标签
系统获取的用户特征进行用于研判用户需求的
用户画像 。
权利要求书3页 说明书11页 附图4页
CN 113901325 A
2022.01.07
CN 113901325 A
1.一种用户行为分析装置, 其特 征在于, 包括:
数据采集模块, 用于基于Spark Streaming实时流技术, 进行非侵入式数据采集、 数据
落地和数据实时同步, 获取用户数据;
数据分析模块, 用于基于所述用户数据对用户进行 数据分析, 得到用户数据分析 结果;
用户画像模块, 用于基于所述用户数据分析结果, 采用推荐过滤及机器学习算法, 基于
用户画像标签系统获取的用户特 征进行用于研判用户需求的用户画像。
2.根据权利要求1所述的装置, 其特征在于, 所述数据采集模块用于: 触发相应的采集
接口, 基于页面标签技术, 通过页面插入js代码, 在用户浏览系统进行每步骤操作时, 触发
所述js代码, 通过用户端发送一个image的请求, 进行PC、 WAP系统数据请求的收集功能, 将
数据请求收集 为log日志, 实现对PC、 WAP系统的用户访问数据的采集。
3.根据权利要求2所述的装置, 其特 征在于, 所述数据采集模块具体包括:
系统来源采集接口, 用于通过Http协议进行数据传输, 以特定的Url参数方式标记系统
用户来源信息, 实现系统用户来源信息的采集, 其中, 所述系统用户来源信息的渠道包括:
直接渠道、 自然搜索引擎、 搜索关键词、 和/或者引荐系统;
系统用户采集接口, 用于通过Http协议进行数据传输, 以特定的Url参数方式标记系统
用户基本信息, 实现采集系统用户基本信息, 所述系统用户基本信息具体包括: 用户的终端
类型、 用户终端屏幕的分辨 率、 用户使用的浏览器、 和/或用户的访问地 域;
系统页面采集接口, 用于通过Http协议进行数据传输, 以特定的Url参数方式标记页面
浏览信息, 实现页面浏览信息的获取, 其中, 所述页面浏览信息具体包括: 页面Url地址、 页
面标题、 页面 域名、 和/或页面所属频道信息;
系统搜索采集接口, 用于通过Http协议进行数据传输, 以特定的Url参数方式标记系统
搜索信息, 实现系统搜索信息的采集, 其中, 所述系统搜索信息具体包括: 用户的搜索词、 搜
索词的属性、 和/或搜索结果数量;
系统事件采集接口, 用于通过Http协议进行数据传输, 以特定的Url参数方式来标点击
元素和点击类型。
4.根据权利要求1所述的装置, 其特 征在于, 所述数据分析模块具体包括:
用户分析模块, 用于基于所述用户数据, 进行呈现所选期间内, 用户每天的访问、 流量、
以及转化数据, 并呈现所选期间内, 用户的访问趋势; 进 行终端类型分析、 设备品牌分析、 屏
幕分辨率分析、 用户浏览网页使用的浏览器类型分析、 用户地域分析、 以及会员分析, 并进
行用户详情的详情展示;
来源分析模块, 用于进行网站整体流量来源分析, 其中网站整体流量来源具体包括以
下至少之一: 广告来源、 引荐来源, 自然搜索、 直接流 量;
站内分析模块, 用于对网站 的每个页面流量和行为进行分析, 对网站 的搜索功能进行
分析, 监测用户搜索的内容和搜索的结果, 监测用户交互情况, 对网站 一些重点的元素进 行
点击分析;
UE分析模块, 用于通过特殊高亮的形式, 对用户在网站上的点击操作进行展示, 显示客
热衷的页面区域。
5.根据权利要求1所述的装置, 其特 征在于, 所述用户画像模块具体用于:
通过采集的用户数据, 进行数据内容解析和标签化处理建立包括用户画像属性标签信权 利 要 求 书 1/3 页
2
CN 113901325 A
2息库与用户画像行为标签信息库的用户画像标签系统, 采用推荐过滤及机器学习算法, 基
于用户画像标签系统获取 的用户的搜索关键词、 搜索点击的内容, 精准定位和研判用户需
求, 在门户网站、 移动App、 业务平台建立个性化推送窗口实现个性化内容及服务的推荐, 其
中, 所述用户画像属性标签信息库具体包括: 用户地域、 用户特征、 用户频率、 用户终端、 用
户互动、 用户分类、 用户办理行为、 以及用户服 务。
6.根据权利要求5所述的装置, 其特 征在于, 所述用户画像模块具体用于:
通过采集的用户数据进行分析, 汇总全局热搜, 分类热度, 主题热度, 关键词热度进行
热度推荐;
通过采集点击相似用户、 兴趣分类相似用户, 兴趣主题相似用户, 兴趣词相似, 通过用
户行为分析不同用户间相似性, 实现协同过 滤;
评估内容的属性与用户是否匹配进行内容相关性推荐, 并分析页面与页面点击动作之
间的关联关系, 形成推荐特 征库。
7.一种用户行为分析 方法, 其特 征在于, 包括:
基于Spark Streaming实时流技术, 进行非侵入式数据采集、 数据落地和数据实时同
步, 获取用户数据;
基于所述用户数据对用户进行 数据分析, 得到用户数据分析 结果;
基于所述用户数据分析结果, 采用推荐过滤及机器学习算法, 基于用户画像标签系统
获取的用户特 征进行用于研判用户需求的用户画像。
8.根据权利要求7所述的方法, 其特征在于, 基于Spark Streaming实时流技术, 进行非
侵入式数据采集、 数据落 地和数据实时同步, 获取用户数据具体包括:
触发相应的采集接口, 基于页面标签技术, 通过页面插入js代码, 在用户浏览系统进行
每步骤操作时, 触发所述js代码, 通过用户端发送一个image的请求, 进行PC、 WAP系统数据
请求的收集功能, 将数据请求收集 为log日志, 实现对PC、 WAP系统的用户访问数据的采集。
9.根据权利要求7所述的, 其特征在于, 基于Spark Streamin g实时流技术, 进行非侵入
式数据采集、 数据落 地和数据实时同步, 获取用户数据具体包括:
触发系统来源采集接口, 通过Http协议进行数据传输, 以特定的Url参数方式标记系统
用户来源信息, 实现系统用户来源信息的采集, 其中, 所述系统用户来源信息的渠道包括:
直接渠道、 自然搜索引擎、 搜索关键词、 和/或者引荐系统;
触发系统用户采集接口, 通过Http协议进行数据传输, 以特定的Url参数方式标记系统
用户基本信息, 实现采集系统用户基本信息, 所述系统用户基本信息具体包括: 用户的终端
类型、 用户终端屏幕的分辨 率、 用户使用的浏览器、 和/或用户的访问地 域;
触发系统页面采集接口, 通过Http协议进行数据传输, 以特定的Url参数方式标记页面
浏览信息, 实现页面浏览信息的获取, 其中, 所述页面浏览信息具体包括: 页面Url地址、 页
面标题、 页面 域名、 和/或页面所属频道信息;
触发系统搜索采集接口, 通过Http协议进行数据传输, 以特定的Url参数方式标记系统
搜索信息, 实现系统搜索信息的采集, 其中, 所述系统搜索信息具体包括: 用户的搜索词、 搜
索词的属性、 和/或搜索结果数量;
触发系统事件采集接口, 通过Http协议进行数据传输, 以特定的Url参数方式来标点击
元素和点击类型。权 利 要 求 书 2/3 页
3
CN 113901325 A
3
专利 用户行为分析装置及方法
文档预览
中文文档
19 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 19:03:23上传分享