专利 一种基于变分自编码器和对抗生成网络的图像增广模型训练方法及图像分类方法

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210111331.7 (22)申请日 2022.01.29 (71)申请人安徽农业大学地址 230036 安徽省合肥市长江西路13 0号 (72)发明人饶元　苏仕芳　江朝晖　金秀　张武　梁惠　李绍稳　 (74)专利代理机构安徽知问律师事务所 34134 代理人代群群 (51)Int.Cl. G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06V 10/764(2022.01) G06V 10/774(2022.01) G06V 10/80(2022.01)G06V 10/82(2022.01) (54)发明名称一种基于变分自编码器和对抗生成网络的图像增广模型训练方法及图像分类方法 (57)摘要本发明公开了一种基于变分自编码器和对抗生成网络的图像增广模型训练方法及图像分类方法，该方法将可见类训练图像的视觉特征和语义特征分别输入视觉模态和语义模态变分自编码器中对应生成第一伪视觉特征和伪语义特征，并将其输入生成器网络中生成第二伪视觉特征，再利用判别器网络判别真实特征和生成的特征，利用可见类训练图像数据集对变分自编码器对抗生成网络模型进行训练。对于零样本图像分类，在可见类上训练完成的模型生成未见类训练图像的伪视觉特征并结合类别标签训练分类器对未见类图像进行分类；能够有效融合图像的视觉信息和语义信息，生成更接近于真实数据分布且高质量的可见类和未见类图像，提高零样本图像分类准确率。权利要求书3页说明书10页附图5页 CN 114386534 A 2022.04.22 CN 114386534 A 1.一种基于变分自编码器和对抗生成网络的图像增广模型训练方法，其特征在于，所述方法包括如下步骤： S110：获取可见类训练图像，提取所述可见类训练图像的视觉特征和语义特征； S120：预先配置图像增广模型，所述图像增广模型包括视觉模态变分自编码器、语义模态变分自编码器以及根据生成对抗网络配置的生成器； S130：将所述视觉特征和语义特征分别输入视觉模态变分自编码器和语义模态变分自编码器中生成第一伪视觉特征和伪语义特征； S140：将第一伪视觉特征和伪语义特征输入预配置的生成器中，融合生成第二伪视觉特征； S150：根据图像增广模型的损失函数进行反向传播优化参数，直至总体损失函数收敛，保存模型参数，得到训练好的图像增广模型。 2.根据权利要求1所述的基于变分自编码器和对抗生成网络的图像增广模型训练方法，其特征在于，所述损失函数包括对抗损失函数，对抗损失函数获取步骤包括：配置视觉特征判别器和语义特征判别器；将所述视觉特征和所述第二伪视觉特征输入视觉特征判别器中获得第一判别信息；将所述语义特征和所述伪语义特征输入语义特征判别器中获得第二判别信息；根据第一判别信息和第二判别信息分别确定对抗损失函数，采用Adam梯度下降算法更新视觉特征判别器和语义特征判别器的参数；所述损失函数还包括变分自编码器的总损失函数LVAE、视觉模态变分自编码器的重构损失和KL散度损失、语义模态变分自编码器的重构损失和KL散度损失。 3.根据权利要求1所述的基于变分自编码器和对抗生成网络的图像增广模型训练方法，其特征在于，在所述步骤S110中：利用视觉特征提取模型提取所述可见类训练图像的视觉特征，所述视觉特征提取模型是利用卷积神经网络和Transformer编码器作为特征提取网络；将可见类训练图像输入卷积神经网络中得到特征图；将所述特征图分割成多维特征向量块，并通过线性映射将每个特征向量块映射到一维向量中，得到多个特征向量；对所述特征向量进行位置编码并嵌入到所述Transformer编码器中，在编码器中重复堆叠编码器块L次，输出第二维特征向量，再将第二维特征向量重组为预定大小的视觉特征。 4.根据权利要求3所述的基于变分自编码器和对抗生成网络的图像增广模型训练方法，其特征在于，在所述步骤S110中：利用语义特征提取模型提取所述可见类训练图像的语义特征，将在文本语料库中经无监督训练得到的连续词袋模型作为语义特征提取模型，所述语义特征提取模型用来提取可见类图像语义特征向量，再通过维度变换网络将语义特征向量转换为预定大小的语义特征。 5.根据权利要求1所述的基于变分自编码器和对抗生成网络的图像增广模型训练方法，其特征在于，所述步骤S120中视觉模态变分自编码器包括编码器网络E1和解码器网络权　利　要　求　书 1/3 页 2 CN 114386534 A 2D1，所述编码器网络E1为全卷积网络，包含n层卷积，滤波器通道数目逐层增加，用于学习深层次的特征；所述全卷积网络中最后一个卷积层的输出为均值向量和方差向量两个n维矢量；所述编码器网络E1将视觉特征映射到一个由概率分布N( μ,Σ)表示的区间向量上，进行采样得到隐变量Z1，其中 μ为均值向量， Σ 为方差向量；则隐变量Z1的概率分布为： q1(Z1|x)＝N(Z1| μ1,Σ1),p(Z1)＝N(Z1|0,I) 其中， q1(Z1|x)表示隐变量Z1服从的概率分布， p(Z1)表示隐变量Z1的先验分布，此处为单位高斯分布， μ1和Σ1表示隐变量Z1的均值和方差， N表示正态分布。 6.根据权利要求1所述的一种基于变分自编码器和对抗生成网络的图像增广模型训练方法，其特征在于，所述语义模态变分自编码器包括编码器网络E2和解码器网络D2，编码器网络E2和解码器网络D2均使用两层全连接层进行编码和解码，将所述语义特征输入编码器网络E2中得到隐变量Z2的概率分布，解码器网络D2根据隐变量Z2的概率分布还原为原始数据的近似概率分布，即生成与语义特征相似的伪语义特征并更新编码器网络 E2和解码器网络D2的参数 e2、 d2，计算重构损失： q2(Z2|a)＝N(Z2| μ2,Σ2),p(Z2)＝N(Z2|0,I) 其中， q2(Z2|a)表示隐变量Z2服从的概率分布， p(Z2)表示隐变量Z2的先验分布，此处为单位高斯分布， μ2和Σ2表示隐变量Z2的均值和方差， N表示正态分布，表示语义模态变分自编码器的重构损失， σ 表示逻辑运算，表示L2范数平方。 7.根据权利要求5所述的一种基于变分自编码器和对抗生成网络的图像增广模型训练方法，其特征在于，在步骤S130计算视觉模态变分自编码器和语义模态变分自编码器的总损失函数LVAE，所述总损失函数LVAE由视觉模态自编码器和语义模态变分自编码器的总重构损失和KL散度损失组成，所述总重构损失用于计算第二伪视觉特征与视觉特征数据的相似程度，如下公式所示：其中， LVAE为图像视觉模态与语义模态变分自编码器损失之和，表示视觉模态变分自编码器重构损失，表示语义模态变分自编码器重构损失， q1(Z1|x)、 q2(Z2|a)分别表示隐变量Z1和Z2服从的概率分布， p(Z1)、 p(Z2)分别表示隐变量Z1和Z2的先验分布， LKL为KL散度损失，表示重构损失项的权重，用于降低生成特征和真实特征差异， β表示KL散度损失项的权重，用于鼓励网络学习更广泛的分布；给定的隐变量空间维度为n的条件下， KL散度损失定义为：其中， LKL表示KL散度损失； μi表示空间维度为 i的均值； ∑i表示空间维度为 i的方差。 8.根据权利要求1所述的一种基于变分自编码器和对抗生成网络的图像增广模型训练权　利　要　求　书 2/3 页 3 CN 114386534 A 3

专利 一种基于变分自编码器和对抗生成网络的图像增广模型训练方法及图像分类方法

专利一种基于变分自编码器和对抗生成网络的图像增广模型训练方法及图像分类方法