专利 一种三维脸部动作生成方法和系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210195575.8 (22)申请日 2022.03.01 (71)申请人浙江同花顺智能科技有限公司地址 310023 浙江省杭州市余杭区五常街道同顺街18号3楼3 05室 (72)发明人王新文　陈珉　谌明　 (74)专利代理机构成都七星天知识产权代理有限公司 5125 3 专利代理师李如文 (51)Int.Cl. G06T 13/40(2011.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06V 10/80(2022.01)G06V 10/82(2022.01) (54)发明名称一种三维脸部动作生成方法和系统 (57)摘要本说明书涉及一种三维脸部表情生成方法和系统，方法包括：获取音频信号中的至少一帧信号对应的至少一个音频特征；获取所述至少一帧信号对应的至少一个音素特征；通过三维脸部表情生成模型处理所述至少一个音频特征和所述至少一个音素特征，得到所述至少一帧信号中的每一帧信号对应的脸部表情系数；基于所述至少一帧信号中的各帧信号对应的所述脸部表情系数、预设的脸部表情基底和预设脸部形状，得到所述至少一帧信号对应的至少一个三维脸部动作图像。权利要求书3页说明书13页附图4页 CN 114581570 A 2022.06.03 CN 114581570 A 1.一种三维脸部表情生成模型的训练方法，所述方法包括：获取音频信号样本中的帧信号样本对应的音频特征样本；获取所述帧信号样本对应的音素特征样本；通过所述三维脸部表情生成模型处理所述音频特征样本和所述音素特征样本，得到所述帧信号样本对应的脸部表情系数预测值；基于所述脸部表情系数预测值与所述帧信号样本对应的脸部表情系数标签的差异，调整所述三维脸部表情生成模型的参数。 2.如权利要求1所述的方法，所述方法还包括：通过所述三维脸部表情生成模型处理所述音频特征样本和所述音素特征样本，得到所述帧信号样本对应的融合特征样本或者第一音频特征样本；通过身份识别网络处理所述融合特征样本或者所述第一音频特征样本，得到所述帧信号样本对应的身份预测值；基于所述身份预测值与所述帧信号样本对应的身份标签的差异，调整所述三维脸部表情生成模型的参数。 3.如权利要求1所述的方法，所述三维脸部表情生成模型包括特征融合网络和表情系数生成网络；所述通过所述三维脸部表情生成模型处理所述音频特征样本和所述音素特征样本，得到所述帧信号样本对应的脸部表情系数预测值包括：通过所述特征融合网络处理所述音频特征样本和所述音素特征样本，得到所述帧信号样本对应的融合特征样本；通过所述表情系数生成网络处理所述融合特征样本，得到所述帧信号样本对应的脸部表情系数预测值。 4.如权利要求2所述的方法，所述特征融合网络包括一个或多个第一特征提取单元和一个或多个第二特征提取单元；所述通过所述特征融合网络处理所述音频特征样本和所述音素特征样本，得到所述帧信号样本对应的所述融合特征样本包括：通过所述一个或多个第一特征提取单元处理所述音频特征样本，得到所述一个或多个第一特征提取单元对应的一个或多个第一音频特征样本；通过所述一个或多个第二特征提取单元处理所述音素特征样本和所述一个或多个第一音频特征样本，得到所述帧信号样本对应的所述融合特征样本。 5.一种三维脸部表情生成模型的训练方法，所述方法包括：获取音频信号样本中的帧信号样本对应的音频特征样本；获取所述帧信号样本对应的音素特征样本；基于所述音频特征样本和所述音素特征样本，通过特征融合网络和表情系数生成网络得到所述帧信号样本对应的脸部表情系数预测值；所述三维脸部表情生成模型包括所述特征融合网络和所述表情系数生成网络；基于所述音频特征样本和所述音素特征样本，通过特征融合网络和身份识别网络得到所述帧信号样本对应的身份预测值；基于所述脸部表情系数预测值与所述帧信号样本对应的脸部表情系数标签的差异、所述身份预测值与所述帧信号样本对应的身份标签的差异，调整所述三维脸部表情生成模型权　利　要　求　书 1/3 页 2 CN 114581570 A 2的参数。 6.一种三维脸部动作生成方法，包括：获取音频信号中的至少一帧信号对应的至少一个音频特征；获取所述至少一帧信号对应的至少一个音素特征；通过三维脸部表情生成模型处理所述至少一个音频特征和所述至少一个音素特征，得到所述至少一帧信号中的每一帧信号对应的脸部表情系数；基于所述至少一帧信号中的各帧信号对应的所述脸部表情系数、预设的脸部表情基底和预设脸部形状，得到所述至少一帧信号对应的至少一个三维脸部动作图像。 7.如权利要求6所述的方法，所述获取音频信号中至少一帧信号对应的至少一个音频特征包括：获取所述至少一帧信号对应的至少一个窗口信号，其中一帧信号对应的窗口信号包括所述一帧信号所在的预设长度的音频信号；基于所述至少一个窗口信号，获取所述至少一个音频特征。 8.如权利要求6所述的方法，所述获取音频信号中至少一帧信号对应的至少一个音频特征包括：获取所述至少一帧信号对应的至少一个窗口信号，其中一帧信号对应的窗口信号包括所述一帧信号所在的预设长度的音频信号；基于所述至少一个窗口信号，获取所述至少一个音素特征。 9.如权利要求6所述的方法，所述三维脸部表情生成模型包括卷积神经网络模型。 10.如权利要求6所述的方法，所述三维脸部表情生成模型包括特征融合网络和表情系数生成网络，所述通过三维脸部表情生成模型处理所述至少一个音频特征和所述至少一个音素特征，得到所述至少一帧信号中的每一帧信号对应的脸部表情系数包括：通过所述特征融合网络处理所述至少一个音频特征和所述至少一个音素特征，得到所述至少一帧信号对应的至少一个融合特征；通过所述表情系数生成网络处理所述至少一帧信号对应的所述至少一个融合特征，得到所述至少一帧信号中的每一帧信号对应的脸部表情系数。 11.如权利要求10所述的方法，所述特征融合网络包括一个或多个第一特征提取单元和一个或多个第二特征提取单元；所述通过所述特征融合网络处理所述至少一帧信号对应的所述至少一个音频特征和所述至少一个音素特征，得到所述至少一帧信号对应的至少一个融合特征包括：对于所述至少一帧信号中的每一帧信号：通过所述一个或多个第一特征提取单元处理所述每一帧信号对应的所述音频特征，得到所述一个或多个第一特征提取单元对应的一个或多个第一音频特征；通过所述一个或多个第二特征提取单元处理所述每一帧信号对应的所述音素特征和所述一个或多个第一音频特征，得到所述每一帧信号对应的所述融合特征。 12.如权利要求11所述的方法，所述通过所述一个或多个第一特征提取单元处理所述每一帧信号对应的所述音频特征，得到所述一个或多个第一特征提取单元对应的一个或多个第一音频特征包括：所述一个或多个第一特征提取单元中的第一个特征提取单元处理所述每一帧信号对权　利　要　求　书 2/3 页 3 CN 114581570 A 3

专利 一种三维脸部动作生成方法和系统

专利一种三维脸部动作生成方法和系统