我校研究生在人工智能顶刊发表音频驱动说话人生成新成果

作者: 时间:2025-09-16 点击数:

近日,我校计算机科学与技术学院2023级电子信息计算机技术专业硕士研究生唐鹏以第一作者(导师为通讯作者)在国际知名期刊《Expert Systems with Applications》上发表题为《One-Shot Motion Talking Head Generation with Audio-Driven Model》的研究论文。该项研究以衡阳师范学院为第一署名单位,在计算机科学与技术学院赵辉煌教授的指导下完成。

让一张静态照片根据一段音频“开口说话”并生成流畅自然的视频,是当前人工智能领域的前沿热点,在远程教育、虚拟偶像、影视特效等领域具有广泛的应用前景。然而,现有技术常面临生成视频身份信息不一致、头部运动不自然、唇形与音频不同步等挑战。

论文核心内容是提出了一种简洁而高效的音频驱动说话人面部生成方法。该方法以侧面人脸图像作为身份输入,通过人脸特征与头部姿态预测正面关键点,并在预测过程中引入面部表情特征作为附加信息,从而实现了高质量的说话人视频生成。在头部运动建模方面,该方法不仅能够生成自然流畅的头部运动效果,还保持了身份信息的高度一致性。此外,论文设计了一种基于Transformer架构的唇语同步专家判别器,通过引入跨注意力机制联合学习前后帧信息,提取有效的上下文语义,显著提升了长序列生成中的唇形同步性能。


论文发表截图



微信公众号

版权所有 © 2020 衡阳师范学院研究生院(研究生工作部)/学科建设办公室

地址:湖南省衡阳市珠晖区衡花路16号

联系电话:0734-3456100      联系邮箱:xkjsb@hynu.edu.cn