(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210195575.8
(22)申请日 2022.03.01
(71)申请人 浙江同花 顺智能科技有限公司
地址 310023 浙江省杭州市余杭区五常街
道同顺街18号3楼3 05室
(72)发明人 王新文 陈珉 谌明
(74)专利代理 机构 成都七星天知识产权代理有
限公司 5125 3
专利代理师 李如文
(51)Int.Cl.
G06T 13/40(2011.01)
G06K 9/62(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
G06V 10/80(2022.01)G06V 10/82(2022.01)
(54)发明名称
一种三维脸部动作生成方法和系统
(57)摘要
本说明书涉及一种三维脸部表情生成方法
和系统, 方法包括: 获取音频信号中的至少一帧
信号对应的至少一个音 频特征; 获取所述至少一
帧信号对应的至少一个音素特征; 通过三维脸部
表情生成模型处理所述至少一个音频特征和所
述至少一个音素特征, 得到所述至少一帧信号中
的每一帧信号对应的脸部表情系数; 基于所述至
少一帧信号中的各帧信号对应的所述脸部表情
系数、 预设的脸部表情基底和预设脸部形状, 得
到所述至少一帧信号对应的至少一个三维脸部
动作图像 。
权利要求书3页 说明书13页 附图4页
CN 114581570 A
2022.06.03
CN 114581570 A
1.一种三维脸部表情生成模型的训练方法, 所述方法包括:
获取音频信号样本中的帧信号样本对应的音频 特征样本;
获取所述帧信号样本对应的音素 特征样本;
通过所述三维脸部表情生成模型处理所述音频特征样本和所述音素特征样本, 得到所
述帧信号样本对应的脸部表情系数 预测值;
基于所述脸部表情系数预测值与 所述帧信号样本对应的脸部表情系数标签的差异, 调
整所述三维脸部表情生成模型的参数。
2.如权利要求1所述的方法, 所述方法还 包括:
通过所述三维脸部表情生成模型处理所述音频特征样本和所述音素特征样本, 得到所
述帧信号样本对应的融合特 征样本或者第一音频 特征样本;
通过身份识别网络处理所述融合特征样本或者所述第 一音频特征样本, 得到所述帧信
号样本对应的身份预测值;
基于所述身份预测值与所述帧信号样本对应的身份标签的差异, 调 整所述三维脸部表
情生成模型的参数。
3.如权利要求1所述的方法, 所述三维脸部表情生成模型包括特征融合网络和表情系
数生成网络; 所述通过所述三维脸部表情生成模型 处理所述音频特征样本和所述音素特征
样本, 得到所述帧信号样本对应的脸部表情系数 预测值包括:
通过所述特征融合网络处理所述音频特征样本和所述音素特征样本, 得到所述帧信号
样本对应的融合特 征样本;
通过所述表情系数生成网络处理所述融合特征样本, 得到所述帧信号样本对应的脸部
表情系数 预测值。
4.如权利要求2所述的方法, 所述特征融合网络包括一个或多个第一特征提取单元和
一个或多个第二特 征提取单元;
所述通过所述特征融合网络处理所述音频特征样本和所述音素特征样本, 得到所述帧
信号样本对应的所述融合特 征样本包括:
通过所述一个或多个第 一特征提取单元处理所述音频特征样本, 得到所述一个或多个
第一特征提取单元对应的一个或多个第一音频 特征样本;
通过所述一个或多个第二特征提取单元处理所述音素特征样本和所述一个或多个第
一音频特征样本, 得到所述帧信号样本对应的所述融合特 征样本。
5.一种三维脸部表情生成模型的训练方法, 所述方法包括:
获取音频信号样本中的帧信号样本对应的音频 特征样本;
获取所述帧信号样本对应的音素 特征样本;
基于所述音频特征样本和所述音素特征样本, 通过特征融合网络和表情系数生成网络
得到所述帧信号样本对应的脸部表情系数预测值; 所述三维脸部表情生成模型包括所述特
征融合网络和所述表情系数生成网络;
基于所述音频特征样本和所述音素特征样本, 通过特征融合网络和身份识别网络得到
所述帧信号样本对应的身份预测值;
基于所述脸部表情系数预测值与 所述帧信号样本对应的脸部表情系数标签的差异、 所
述身份预测值与所述帧信号样本对应的身份标签的差异, 调整所述三维脸部表情生成模型权 利 要 求 书 1/3 页
2
CN 114581570 A
2的参数。
6.一种三维脸部动作生成方法, 包括:
获取音频信号中的至少一帧信号对应的至少一个音频 特征;
获取所述至少一帧信号对应的至少一个音素 特征;
通过三维脸部表情生成模型处理所述至少一个音频特征和所述至少一个音素特征, 得
到所述至少一帧信号中的每一帧信号对应的脸部表情系数;
基于所述至少一帧信号中的各帧信号对应的所述脸部表情系数、 预设的脸部表情基底
和预设脸部形状, 得到所述至少一帧信号对应的至少一个三维脸部动作图像。
7.如权利要求6所述的方法, 所述获取音频信号中至少一帧信号对应的至少一个音频
特征包括:
获取所述至少一帧信号对应的至少一个窗口信号, 其中一帧信号对应的窗口信号包括
所述一帧信号所在的预设长度的音频信号;
基于所述至少一个窗口信号, 获取 所述至少一个音频 特征。
8.如权利要求6所述的方法, 所述获取音频信号中至少一帧信号对应的至少一个音频
特征包括:
获取所述至少一帧信号对应的至少一个窗口信号, 其中一帧信号对应的窗口信号包括
所述一帧信号所在的预设长度的音频信号;
基于所述至少一个窗口信号, 获取 所述至少一个音素 特征。
9.如权利要求6所述的方法, 所述 三维脸部表情生成模型包括卷积神经网络模型。
10.如权利要求6所述的方法, 所述三维脸部表情生成模型包括特征融合网络和表情系
数生成网络, 所述通过三 维脸部表情生成模型 处理所述至少一个音频特征和所述至少一个
音素特征, 得到所述至少一帧信号中的每一帧信号对应的脸部表情系数包括:
通过所述特征融合网络处理所述至少一个音频特征和所述至少一个音素特征, 得到所
述至少一帧信号对应的至少一个融合特 征;
通过所述表情系数生成网络处理所述至少一帧信号对应的所述至少一个融合特征, 得
到所述至少一帧信号中的每一帧信号对应的脸部表情系数。
11.如权利要求10所述的方法, 所述特征融合网络包括一个或多个第一特征提取单元
和一个或多个第二特 征提取单元;
所述通过所述特征融合网络处理所述至少一帧信号对应的所述至少一个音频特征和
所述至少一个音素特征, 得到所述至少一帧信号对应的至少一个融合特征包括: 对于所述
至少一帧信号中的每一帧信号:
通过所述一个或多个第 一特征提取单元处理所述每一帧信号对应的所述音频特征, 得
到所述一个或多个第一特 征提取单元对应的一个或多个第一音频 特征;
通过所述一个或多个第二特征提取单元处理所述每一帧信号对应的所述音素特征和
所述一个或多个第一音频 特征, 得到所述每一帧信号对应的所述融合特 征。
12.如权利要求11所述的方法, 所述通过所述一个或多个第一特征提取单元处理所述
每一帧信号对应的所述音频特征, 得到所述一个或多个第一特征提取单元对应的一个或多
个第一音频 特征包括:
所述一个或多个第一特征提取单元中的第一个特征提取单元处理所述每一帧信号对权 利 要 求 书 2/3 页
3
CN 114581570 A
3
专利 一种三维脸部动作生成方法和系统
文档预览
中文文档
21 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 01:15:03上传分享