阿里数字商业知识图谱构建及开放 陈强(拉普) 阿里巴巴业务中台商品智能负责人 消费电商加速进化:内容、兴趣电商兴起 40 50 60 30 40 70 50 60 30 40 70 50 40 60 30 50 60 30 70 40 70 50 60 30 40 70 50 60 30 70 20 80 20 80 20 80 20 80 20 80 20 80 10 90 10 90 10 90 10 90 10 90 10 90 0 45% 100 0 44% 100 0 25% 100 0 22% 100 0 20% 100 0 16% 100 消费电商加速进化:消费观念的变化 当下商品面临的挑战:标准化程度不够 类目庞杂,商家无从选择 类目CPV管理跟不上变化 问题 诊断 对商品管理来代替商品定义 市场管理差异导致商品信息差 当下商品面临的挑战:商品信息结构化不够精准丰富,商家的商品运营困难 商家为了经营需要,可能存在如下的商品信息质量问题:标题堆叠 / sku主品不符/图片牛皮癣 /类目错放 /SKU营销 关键词堆叠,可读性较差 平台结构化不够丰富精细 当下商品面临的挑战:特性和个性缺乏结构化表达 1 2 3 下一代商品模型概述 以“机制+模型”升级为基座,以数据智能为驱动,实现商品全面能力及全链路应用的更新换代 商家体验提升 消费者体验提升 精品 价格力 机制2:商品 信息BC联动 优品 趋势力 机制2:商品 信息BC联动 中品 质量分 口碑力 潜力品 差品 收藏 内容 卖家 场景 品牌商 属性 品牌 人群 评价 机制1:类目属性 标准化&智能化 产品 加购 标签 视频 图像 时间 POI 消费者 搜索 知识 图片 图谱 类目 浏览 条码 … 下单 机制1:类目属性 标准化&智能化 模型升级:数字商业知识图谱概览 本体层 连衣裙 男 老年人 女 意图 体育 概念层 关键词 充值 意图 生活 吃辣人 群 属于 冬天保暖应 该知道的注 意事项 官旗 会员域 点击 李四 耐克旗 舰店 老王 内容域 送女朋 友礼物 具有 冬季 商品域 华为旗 舰店 浏览 玻尿酸 杨幂 代言 5G手 机 约会 情侣 张三 护肤 皮肤干 性人群 护肤霜 香水 手机 七夕 有钱人 • 一般由领域专家建设,规 笔记本 针织衫 西溪园 区附近 王品城西 银泰店 售卖 需要 产品:欧莱 雅玻尿酸 导入面霜 商品:华为 P40包邮 品牌:华为 /HUAWEI 门店域 保湿 属于 商品:欧莱雅复 颜玻尿酸水光 充盈导入面霜 杭州成功获 得2022亚运 会举办权 时序 杭州2022亚 运会主体体 育馆竣工 时序 杭州亚运会 天猫旗舰店 上线 模在千、万级别 2 概念层 • 有相同属性的一类实体称 之为概念,具备一定的泛 化性、可解释性,规模在 几十万到百万级别 3 实体层 • 知识图谱中的实体、实例, 规模在千万、亿级别 4 事件层 关联 事件层 1 本体层 美妆 3C数码 衬衫 年轻人 中年人 爱美 关键词 保暖 实体层 女装 年龄 性别 下周冷空气 席卷华东 华为正式发 布P40新机 • 结构化的刻画某一个真实事 件,规模在千万、亿级别 本体层:类目属性标准化&智能化 淘宝 类目属性 盒马 类目管理 盒马 类目管理 淘宝 类目属性 集团标准 类目属性 本地生活 类目属性 相互独立 新市场 ... 本地生活 类目属性 关联互通 淘宝 类目属性 盒马 类目管理 集团标准类目属性 新市场 ... 本地生活 类目属性 新市场 ... 共享+个性定制 概念层:消费决策过程分析 1 满足某个生活场景的购物需求 人群:20-30岁、0-1岁宝妈 事件:滑雪、游泳、聚会 … 2 将购物需求分解为细分品类 品类:滑雪服 款式:双层内胆、两件套 … 3 品类下产品优劣对比 品牌:哥伦比亚、北面 货号:MY1020、4R52-918948 … 4 选择信任的商家及合适的价格、服务 店铺:官方旗舰店、百年老店 服务:顺丰包邮、花呗分期 … 5 使用评价 客服服务:售后服务特别好 品质:品质真、防寒效果特别好 … 藏经阁项目总体框架图 知识建模:该模块核心任务主要是从 不同类型的多源数据中,构建生成领 域知识体系。领域知识体系的构建是 对领域分类、属性以及分类之间关系 的定义 知识获取:该模块核心任务主要是从 各种多源异构的数据源中结构化出各 种知识 知识融合:该模块核心任务主要是发 现碎片化及异构知识之间的关联,获 得更完整的知识描述和知识之间的关 联关系,实现知识的互联、互补和融 合 知识推理:该模块核心任务主要是构 建面向大规模知识图谱的推理与计算 引擎,基于已有知识、背景知识推理 和发现未知的知识 知识建模:关键属性树构建 模型整体框架 异质信息融合模块 关键属性树推理模块 Interpretable and Low-Resource Entity Matching via Decoupling Feature Learning from Decision Making[C] ACL Anthology 2021 知识获取:基于半监督局部标注学习模型 挑战点 研究策略 • 实体类型规模大(上 • 由于词典自身的不完备性,训练数据中会存在一定程度 千种实体类型) • 增强新实体发现能力 (NER OOV) 的漏标。为缓解漏标数据对训练过程的影响,我们在训 练中引入局部标注(Partial Annotation)的思想 • 引入Self-training,训练交叉标注完成对训练数据的 迭代标注 • 基于阅读理解的大规模属性识别:句子和属性分别编码, 再利用注意力机制权重生成新表达 A Distantly-Supervised Self-Training Method for Low Resource Named Entity Recognition(在投) 知识融合:多模态表征模型CAPTURE • 三种transformer网络架构来编码,同时 结合单流式架构和双流式架构 • 先对齐后融合,跨模态对比学习 • 融合部分,基于2个无监督遮掩mask任务, MLM和MRP 相关成果已经发表在ICCV 2021上 Product1M: TowardsWeakly Supervised Instance-Level Product Retrieval via Cross-Modal Pretraining 阿里数字商业图谱实践分享1:商品智能发布 利用知识图谱理解商品信息,自动化补全商品信息,助力商家商品智能发布,提升商品发布效率和质量 1 前置输入 条码+图片 > 条码图片智能链接标 准产品,辅助智能回 填产品信息。标准产 品量1.6亿覆盖品牌 商品50%+ 2 智能回填 类目+属性 > 类目回填比例 100%, 识别准确 率98.6%; 3 商品标题诊断, 蓝海词推荐 > 根据商品蓝海词 库优化标题关键 字,推荐准确率 90%+ 4 决策属性 前置 > 智能识别重点决 策属性, 优先推荐 卖家回填和诊断 信息准确性、提 供智能回填 5 白底图、 透明图、 长图合成 > 一键自动扣图、 合成白底图、透 明图、长图 总计帮助商家优化商品近2亿,为社会累积节省了20万人日工作量 图片待找 6 详情 智能模板 > 算法辅助详情生 成。推荐商品搭 配组合,支持模特 图搭配生成 阿里数字商业图谱实践分享2:精准购物引导 基于知识图谱沉淀一套围绕场景的商品决策树体系,辅助实现基于场景的商品导购,重构供需关系 品类标签 “ 篮球鞋相关 ” 跨品类标签 “ 喂奶必备 ” 覆盖淘系商品近20亿商品,支持淘宝/天猫搜索、猜你喜欢、榜单等31个核心流量场 跨品类标签 “ 送给爱人的礼物 ” 阿里数字商业图谱实践分享3:商品实时管控 通过图像算法、文本识别算法、形式化的管控知识、商品事实类知识 实现实时管控 商家 平台 商品管理 智能管控 商品 上架 商品信息审核 每秒审核5000条商品信息 标题识别出多个品牌词 监控 商品 售卖 商品图片审核 每秒扫描2.2万张商品图片 在线商品巡检 6小时扫描全网近20亿+商品 判断出”真皮”和”含量30% 及以下”描述有冲突 峰值亿级别 实时拦截率达 90% 每周拦截问题商品1500万 阿里数字商业图谱实践分享4:跨渠道商品流通铺货 利用知识图谱链接跨渠道商品信息,自动化映射转换对齐商品信息,助力商家多渠道商品运营,提升商品流通效率和质量 1 跨渠道差 异化供给 分析 > 基于概念图谱,挖 掘沉淀商机库 1000w+,指导商 家多渠道商品运营 2 类目映射关 系配置 3 属性映射关系 配置 > 基于标准类目属性,和淘宝、猫超、 盒马、饿了么、考拉、1688、ICBU 等13个渠道建立了映射关系,覆盖新 零售GMV 90% 4 商品同款 预测 5 智能回填 类目+属 性 > 基于1.6亿标准产品,利用实体对齐 技术,实现跨渠道商品同款预测识 别,覆盖率80%+,准确率 90%+,利用同款帮助回填类目+ 属性 累计帮助商家多渠道铺货经营商品17亿+,帮助商家节省了3500万人日工作量 图片待找 阿里数字商业图谱开放 开放促进互联,连接创造价值,开放知识图谱是激活数据要素潜力的有力技术手段 已开放数据集 kg.alibaba.com 近期准备开放数据集 > 类及属性个数:46万+ > 常识知识推理数据集 > 核心概念数:67万+ > 跨渠道商品同款数据集 > 标准产品数:306万+ > 商品类目错放数据集 > 总实体数:1600万+ > 商品短标题生成数据集 > 总三元组数:18亿+ 欢迎加入我们 23届校招 社招 发送简历至
[email protected]
阿里云 阿里数字商业知识图谱构建及开放
文档预览
中文文档
21 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 路人甲 于 2022-08-13 07:21:33上传分享