(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210111331.7
(22)申请日 2022.01.29
(71)申请人 安徽农业大 学
地址 230036 安徽省合肥市长江西路13 0号
(72)发明人 饶元 苏仕芳 江朝晖 金秀
张武 梁惠 李绍稳
(74)专利代理 机构 安徽知问律师事务所 34134
代理人 代群群
(51)Int.Cl.
G06K 9/62(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
G06V 10/764(2022.01)
G06V 10/774(2022.01)
G06V 10/80(2022.01)G06V 10/82(2022.01)
(54)发明名称
一种基于变分自编码器和对抗生成网络的
图像增广模型训练方法及图像分类方法
(57)摘要
本发明公开了一种基于变分自编码器和对
抗生成网络的图像增广模型训练方法及图像分
类方法, 该方法将可见类训练图像的视觉特征和
语义特征分别输入视觉模态和语义模态变分自
编码器中对应生成第一伪视觉特征和伪语义特
征, 并将其输入生成器网络中生成第二伪视觉特
征, 再利用判别器网络判别真实特征和生成的特
征, 利用可见类训练图像数据集对变 分自编码器
对抗生成网络模型进行训练。 对于零样本图像分
类, 在可见类上训练完成的模型生成未见类训练
图像的伪视觉特征并结合类别标签训练分类器
对未见类图像进行分类; 能够 有效融合图像的视
觉信息和语义信息, 生成更接近于真实数据分布
且高质量的可见类和未见类图像, 提高零样本图
像分类准确率。
权利要求书3页 说明书10页 附图5页
CN 114386534 A
2022.04.22
CN 114386534 A
1.一种基于变分自编码器和对抗生成网络的图像增广模型训练方法, 其特征在于, 所
述方法包括如下步骤:
S110: 获取可见类训练图像, 提取 所述可见类训练图像的视 觉特征和语义特 征;
S120: 预先配置图像增广模型, 所述图像增广模型包括视觉模态变分自编码器、 语义模
态变分自编码器以及根据生成对抗网络配置的生成器;
S130: 将所述视觉特征和语义特征分别输入视觉模态变分自编码器和语义模态变分自
编码器中生成第一伪视 觉特征和伪语义特 征;
S140: 将第一伪视觉特征和伪语义特征输入预配置的生成器中, 融合生成第二伪视觉
特征;
S150: 根据图像增广模型的损失函数进行反向传播优化参数, 直至总体损失函数收敛,
保存模型参数, 得到训练好的图像增广模型。
2.根据权利要求1所述的基于变分自编码器和对抗生成网络的图像增广模型训练方
法, 其特征在于, 所述损失函数包括对抗损失函数, 对抗损失函数获取步骤 包括:
配置视觉特征判别器和语义特 征判别器;
将所述视 觉特征和所述第二伪视 觉特征输入视 觉特征判别器中获得第一判别 信息;
将所述语义特 征和所述伪语义特 征输入语义特 征判别器中获得第二判别 信息;
根据第一判别信息和第二判别信息分别确定对抗损失函数, 采用Adam梯度下降算法更
新视觉特征判别器和语义特 征判别器的参数;
所述损失函数还包括变分自编码器的总损失函数LVAE、 视觉模态变分自编码器的重构
损失
和KL散度损失、 语义模态变分自编码器的重构损失
和KL散度损失。
3.根据权利要求1所述的基于变分自编码器和对抗生成网络的图像增广模型训练方
法, 其特征在于, 在所述 步骤S110中:
利用视觉特征提取模型提取所述可见类训练图像的视觉特征, 所述视觉特征提取模型
是利用卷积神经网络和Transformer编码器作为特 征提取网络;
将可见类训练图像输入卷积神经网络中得到特 征图;
将所述特征图分割成多维特征向量块, 并通过线性映射将每个特征向量块映射到一维
向量中, 得到多个特 征向量;
对所述特征向量进行位置编码并嵌入到所述Transformer编码器中, 在编码器中重复
堆叠编码器块L次, 输出第二维特征向量, 再将第二维特征向量重组为预定大小的视觉特
征。
4.根据权利要求3所述的基于变分自编码器和对抗生成网络的图像增广模型训练方
法, 其特征在于, 在所述 步骤S110中:
利用语义特征提取模型提取所述可见类训练图像的语义特征, 将在文本语料库中经无
监督训练得到的连续词袋模型作为语义特征提取模型, 所述语义特征提取模型用来提取可
见类图像语义特征向量, 再通过维度变换网络将语义特征向量转换为预定大小的语义特
征。
5.根据权利要求1所述的基于变分自编码器和对抗生成网络的图像增广模型训练方
法, 其特征在于, 所述步骤S120中视觉模态变分自编码器包括编码器网络E1和解码器网络权 利 要 求 书 1/3 页
2
CN 114386534 A
2D1, 所述编码 器网络E1为全 卷积网络, 包含n层卷积, 滤波器通道数目逐层增加, 用于学习深
层次的特征; 所述全卷积网络中最后一个卷积层的输出为均值向量和方差 向量两个n维矢
量;
所述编码器网络E1将视觉特征映射到一个由概率分布N( μ,Σ)表示的区间向量上, 进
行采样得到隐变量Z1, 其中 μ为均值向量, Σ 为方差向量; 则隐变量Z1的概率分布为:
q1(Z1|x)=N(Z1| μ1,Σ1),p(Z1)=N(Z1|0,I)
其中, q1(Z1|x)表示隐变量Z1服从的概率分布, p(Z1)表示隐变量Z1的先验分布, 此处为
单位高斯分布, μ1和Σ1表示隐变量Z1的均值和方差, N表示 正态分布。
6.根据权利要求1所述的一种基于变分 自编码器和对抗生成网络的图像增广模型训练
方法, 其特征在于, 所述语义模态变 分自编码 器包括编码 器网络E2和解码 器网络D2, 编码 器
网络E2和解码 器网络D2均使用两层 全连接层 进行编码和解码, 将所述语义特征输入编码 器
网络E2中得到隐变量Z2的概率分布, 解码器网络D2根据隐变量Z2的概率分布还原为原始数
据的近似概 率分布, 即生成与语义特 征相似的伪语义特 征
并更新编码器网络 E2和解码器
网络D2的参数 e2、 d2, 计算重构损失:
q2(Z2|a)=N(Z2| μ2,Σ2),p(Z2)=N(Z2|0,I)
其中, q2(Z2|a)表示隐变量Z2服从的概率分布, p(Z2)表示隐变量Z2的先验分布, 此处为
单位高斯分布, μ2和Σ2表示隐变量Z2的均值和方差, N表示 正态分布,
表示语义模态变分
自编码器的重构损失, σ 表示逻辑 运算,
表示L2范数平方。
7.根据权利要求5所述的一种基于变分 自编码器和对抗生成网络的图像增广模型训练
方法, 其特征在于, 在步骤S130计算视觉模态变分自编码器和 语义模态变分自编码器的总
损失函数LVAE, 所述总损失函数LVAE由视觉模态自编码 器和语义模态变 分自编码器的总重构
损失和KL散度损失组成, 所述总重构损失用于计算第二伪视觉特征与视觉特征数据的相似
程度, 如下公式所示:
其中, LVAE为图像视觉模态与语义模态变分自编码器损失之和,
表示视觉模态变分
自编码器重构损失,
表示语义模态变分自编码器重构损失, q1(Z1|x)、 q2(Z2|a)分别表示
隐变量Z1和Z2服从的概率分布, p(Z1)、 p(Z2)分别表示隐变 量Z1和Z2的先验分布, LKL为KL散度
损失,
表示重构损失项的权重, 用于降低生成特征和 真实特征差异, β表示KL散度损失项
的权重, 用于鼓励网络学习更广泛的分布; 给定的隐变量空间维度为n的条件下, KL散度损
失定义为:
其中, LKL表示KL散度损失; μi表示空间维度为 i的均值; ∑i表示空间维度为 i的方差。
8.根据权利要求1所述的一种基于变分 自编码器和对抗生成网络的图像增广模型训练权 利 要 求 书 2/3 页
3
CN 114386534 A
3
专利 一种基于变分自编码器和对抗生成网络的图像增广模型训练方法及图像分类方法
文档预览
中文文档
19 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 01:16:18上传分享