水利行业标准网
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210278138.2 (22)申请日 2022.03.21 (71)申请人 北京有竹居网络技 术有限公司 地址 101299 北京市平谷区林荫北街13号 信息大厦802室 (72)发明人 毛晓飞 黄灿 (74)专利代理 机构 北京信远 达知识产权代理有 限公司 1 1304 专利代理师 冯柳伟 (51)Int.Cl. G06V 10/80(2022.01) G06V 10/75(2022.01) G06V 10/82(2022.01) G06K 9/62(2022.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称 一种图像描述生 成方法、 装置、 设备、 介质及 产品 (57)摘要 本公开提供了一种图像描述生成方法、 装 置、 设备、 介质及产品, 涉及图像处理技术领域, 该方法包括获取包括目标对象的图像; 从所述图 像中分别提取出所述目标对象的标签特征、 所述 目标对象在所述图像中的位置特征、 所述图像中 文本特征以及所述目标对象 的视觉特征; 根据所 述标签特征、 所述位置特征、 所述文本特征、 所述 视觉特征和视觉语言模型生成针对所述图像的 自然语言描述。 可见, 该方法从图像中提取了更 多的有效信息, 使得模型能够更好地理解图像, 进而能够提高得到自然语言描述与图像中目标 对象的匹配度。 权利要求书2页 说明书9页 附图5页 CN 114627353 A 2022.06.14 CN 114627353 A 1.一种图像描述 生成方法, 其特 征在于, 所述方法包括: 获取包括目标对象的图像; 从所述图像中分别提取出所述目标对象的标签特征、 所述目标对象在所述图像中的位 置特征、 所述图像中文本特 征以及所述目标对象的视 觉特征; 根据所述标签特征、 所述位置特征、 所述文本特征、 所述视觉特征和视觉语言模型生成 针对所述图像的自然语言描述。 2.根据权利要求1所述的方法, 其特 征在于, 所述方法还 包括: 根据所述图像的自然语言描述, 确定针对所述目标对象的推广策略, 所述推广策略用 于推广所述目标对象。 3.根据权利要求1所述的方法, 其特征在于, 所述从所述图像中提取出所述目标对象的 标签特征、 所述目标对象在所述图像中的位置特 征, 包括: 将所述图像依次通过卷积神经网络、 编码结构和解码结构, 提取所述目标对象在所述 图像中的位置坐标以及所述目标对象的标签; 根据所述目标对象在所述图像中的位置坐标, 得到所述图像中的位置特征, 根据所述 目标对象的标签, 得到所述目标对象的标签特 征。 4.根据权利要求3所述的方法, 其特 征在于, 所述目标对象的标签包括至少一个单词。 5.根据权利要求1所述的方法, 其特 征在于, 提取 所述图像中文本特 征的过程包括: 对所述图像进行光学字符识别, 提取 所述图像中的文本; 根据所述图像中的文本, 得到所述图像中的文本特 征。 6.根据权利要求3所述的方法, 其特征在于, 提取所述目标对象的视觉特征的过程包 括: 根据所述目标对象在所述图像中的位置坐标, 从所述图像中确定所述目标对象对应的 区域图像; 根据所述目标对象对应的区域图像, 得到所述目标对象的视 觉特征。 7.根据权利要求1 ‑6任一项所述的方法, 其特征在于, 所述根据所述标签特征、 所述位 置特征、 所述文本特征、 所述视觉特征和视觉语言模型生 成针对所述图像的自然语 言描述, 包括: 通过加和操作, 将所述标签特征、 所述位置特征、 所述文本特征以及所述视觉特征件进 行融合, 得到融合特 征; 将所述融合特 征输入到所述视 觉语言模型, 生成针对所述图像的自然语言描述。 8.一种图像描述 生成装置, 其特 征在于, 包括: 获取模块, 用于获取包括目标对象的图像; 提取模块, 用于从所述图像中分别提取出所述目标对象的标签特征、 所述目标对象在 所述图像中的位置特 征、 所述图像中文本特 征以及所述目标对象的视 觉特征; 生成模块, 用于根据所述标签特征、 所述位置特征、 所述文本特征、 所述视觉特征和视 觉语言模型生成针对所述图像的自然语言描述。 9.一种电子设备, 其特 征在于, 包括: 存储装置, 其上存 储有计算机程序; 处理装置, 用于执行所述存储装置中的所述计算机程序, 以实现权利要求1至7中任一权 利 要 求 书 1/2 页 2 CN 114627353 A 2项所述的方法。 10.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 该程序被处理装 置执行时实现权利要求1至7中任一项所述的方法。 11.一种计算机程序产品, 其特征在于, 当所述计算机程序产品在计算机上运行时, 使 得计算机执 行如权利要求1至7中任一项所述的方法。权 利 要 求 书 2/2 页 3 CN 114627353 A 3
专利 一种图像描述生成方法、装置、设备、介质及产品
文档预览
中文文档
17 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 人生无常 于
2024-03-18 01:15:26
上传分享
举报
下载
原文档
(750.5 KB)
分享
友情链接
GB-T 34680.3-2017 智慧城市评价模型及基础评价指标体系 第3部分:信息资源.pdf
GB-T 31049-2022 石油天然气钻采设备 顶部驱动钻井装置.pdf
T-XJNFCP 001—2023 预制菜.pdf
GB 4094-2016 汽车操纵件、指示器及信号装置的标志.pdf
GB-T 37124-2018 进入天然气长输管道的气体质量要求.pdf
GB-T 14926.25-2001 实验动物 呼肠孤病毒Ⅲ型检测方法.pdf
GB-T 28537-2012 高压开关设备和控制设备中六氟化硫(SF6)的使用和处理.pdf
GB-T 21050-2019 信息安全技术网络交换机安全技术要求.pdf
GB-T 39680-2020 信息安全技术 服务器安全技术要求和测评准则.pdf
GB-T 32386-2015 电子工业用气体 六氟化钨.pdf
GB-T 39988-2021 全尾砂膏体制备与堆存技术规范.pdf
GB-T 20042.3-2022 质子交换膜燃料电池 第3部分:质子交换膜测试方法.pdf
GB-T 35075-2018 燃气燃烧器节能试验规则.pdf
NIST 改善关键基础设施的网络安全框架 数据法盟翻译 2020.pdf
安恒 黄承开 网络安全技术标准化和下一代网络安全架构技术介绍 2022.pdf
GB 7000.204-2008 灯具 第2-4部分:特殊要求 可移式通用灯具.pdf
GB-T 31960.7-2015 电力能效监测系统技术规范 第7部分:电力能效监测终端技术条件.pdf
GB-T 25181-2019 预拌砂浆.pdf
DB11-T 051-2015 电机系统节能监测 北京市.pdf
GB-T 21254-2017 呼出气体酒精含量检测仪.pdf
1
/
3
17
评价文档
赞助2元 点击下载(750.5 KB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。