水利行业标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210278138.2 (22)申请日 2022.03.21 (71)申请人 北京有竹居网络技 术有限公司 地址 101299 北京市平谷区林荫北街13号 信息大厦802室 (72)发明人 毛晓飞 黄灿  (74)专利代理 机构 北京信远 达知识产权代理有 限公司 1 1304 专利代理师 冯柳伟 (51)Int.Cl. G06V 10/80(2022.01) G06V 10/75(2022.01) G06V 10/82(2022.01) G06K 9/62(2022.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称 一种图像描述生 成方法、 装置、 设备、 介质及 产品 (57)摘要 本公开提供了一种图像描述生成方法、 装 置、 设备、 介质及产品, 涉及图像处理技术领域, 该方法包括获取包括目标对象的图像; 从所述图 像中分别提取出所述目标对象的标签特征、 所述 目标对象在所述图像中的位置特征、 所述图像中 文本特征以及所述目标对象 的视觉特征; 根据所 述标签特征、 所述位置特征、 所述文本特征、 所述 视觉特征和视觉语言模型生成针对所述图像的 自然语言描述。 可见, 该方法从图像中提取了更 多的有效信息, 使得模型能够更好地理解图像, 进而能够提高得到自然语言描述与图像中目标 对象的匹配度。 权利要求书2页 说明书9页 附图5页 CN 114627353 A 2022.06.14 CN 114627353 A 1.一种图像描述 生成方法, 其特 征在于, 所述方法包括: 获取包括目标对象的图像; 从所述图像中分别提取出所述目标对象的标签特征、 所述目标对象在所述图像中的位 置特征、 所述图像中文本特 征以及所述目标对象的视 觉特征; 根据所述标签特征、 所述位置特征、 所述文本特征、 所述视觉特征和视觉语言模型生成 针对所述图像的自然语言描述。 2.根据权利要求1所述的方法, 其特 征在于, 所述方法还 包括: 根据所述图像的自然语言描述, 确定针对所述目标对象的推广策略, 所述推广策略用 于推广所述目标对象。 3.根据权利要求1所述的方法, 其特征在于, 所述从所述图像中提取出所述目标对象的 标签特征、 所述目标对象在所述图像中的位置特 征, 包括: 将所述图像依次通过卷积神经网络、 编码结构和解码结构, 提取所述目标对象在所述 图像中的位置坐标以及所述目标对象的标签; 根据所述目标对象在所述图像中的位置坐标, 得到所述图像中的位置特征, 根据所述 目标对象的标签, 得到所述目标对象的标签特 征。 4.根据权利要求3所述的方法, 其特 征在于, 所述目标对象的标签包括至少一个单词。 5.根据权利要求1所述的方法, 其特 征在于, 提取 所述图像中文本特 征的过程包括: 对所述图像进行光学字符识别, 提取 所述图像中的文本; 根据所述图像中的文本, 得到所述图像中的文本特 征。 6.根据权利要求3所述的方法, 其特征在于, 提取所述目标对象的视觉特征的过程包 括: 根据所述目标对象在所述图像中的位置坐标, 从所述图像中确定所述目标对象对应的 区域图像; 根据所述目标对象对应的区域图像, 得到所述目标对象的视 觉特征。 7.根据权利要求1 ‑6任一项所述的方法, 其特征在于, 所述根据所述标签特征、 所述位 置特征、 所述文本特征、 所述视觉特征和视觉语言模型生 成针对所述图像的自然语 言描述, 包括: 通过加和操作, 将所述标签特征、 所述位置特征、 所述文本特征以及所述视觉特征件进 行融合, 得到融合特 征; 将所述融合特 征输入到所述视 觉语言模型, 生成针对所述图像的自然语言描述。 8.一种图像描述 生成装置, 其特 征在于, 包括: 获取模块, 用于获取包括目标对象的图像; 提取模块, 用于从所述图像中分别提取出所述目标对象的标签特征、 所述目标对象在 所述图像中的位置特 征、 所述图像中文本特 征以及所述目标对象的视 觉特征; 生成模块, 用于根据所述标签特征、 所述位置特征、 所述文本特征、 所述视觉特征和视 觉语言模型生成针对所述图像的自然语言描述。 9.一种电子设备, 其特 征在于, 包括: 存储装置, 其上存 储有计算机程序; 处理装置, 用于执行所述存储装置中的所述计算机程序, 以实现权利要求1至7中任一权 利 要 求 书 1/2 页 2 CN 114627353 A 2项所述的方法。 10.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 该程序被处理装 置执行时实现权利要求1至7中任一项所述的方法。 11.一种计算机程序产品, 其特征在于, 当所述计算机程序产品在计算机上运行时, 使 得计算机执 行如权利要求1至7中任一项所述的方法。权 利 要 求 书 2/2 页 3 CN 114627353 A 3

.PDF文档 专利 一种图像描述生成方法、装置、设备、介质及产品

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种图像描述生成方法、装置、设备、介质及产品 第 1 页 专利 一种图像描述生成方法、装置、设备、介质及产品 第 2 页 专利 一种图像描述生成方法、装置、设备、介质及产品 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 01:15:26上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。