我省广电行业积极推动人工智能、高新视频等前沿科技的落地,大力开拓高新技术的新领域、新业态。2023年,在国家广电总局举办的第三届广播电视和网络视听人工智能应用创新大赛,以及第三届高新视频创新应用大赛中,我省斩获佳绩,15个项目获奖,取得了获奖总数历届最多、一等奖总数历届最多的优异成绩。
广电因技术而生、因技术而兴,必将依靠新技术创新发展。为了助推我省广电行业科技创新高质量发展,展现我省广电行业前沿科技项目案例,我们将获奖项目选编汇集,以供学习和借鉴。
《基于多模态面部动作单元驱动的人脸合成技术》获第三届广播电视和网络视听人工智能应用创新大赛(MediaAIAC)人脸合成技术应用一等奖。
科技创新案例二
基于多模态面部动作单元驱动的人脸合成技术
——青岛市广播电视台、中国科学院大学
一、项目背景
在文化强国战略的引领下,人工智能技术与文化产业深度融合,催生出了以人脸合成技术为代表的众多视听新技术和新应用,为我国文化娱乐媒体等产业的发展注入了新的动能。中国科学院大学与青岛市广播电视台以推动AI赋能媒体融合发展为目标,成立联合项目团队,采用深度学习、计算机视觉和自然语言处理等人工智能技术,研究并实现了基于多模态面部动作单元驱动的人脸合成技术。人脸合成算法已成功部署应用到青岛市广播电视台、快手、看了吗等视听平台,用以在短视频制作、直播交互过程中替换目标人脸。项目成果关键技术已初步应用于短视频制作、网络直播及表情监测等场景,产生了良好的社会和经济效益。
二、技术创新点
(一)AU强度感知的人脸合成技术。本项目结合AU辅助人脸合成技术,将面部表情分解成多个不同的动作单元,通过对这些动作单元的控制,模型可以生成丰富多样的面部表情,并可以更加准确的识别不同人脸的表情变化,提高了人脸生成技术的表现力和逼真度。
(二)基于多模态信息的AU强化技术。本项目创新性的尝试结合音频信号进行AU参数的量化。首先,部分面部活动可以从音频通道中提取推断出来,比如语言、声音与面部下方的嘴部相关AU之间具有很强的关系;其次,有研究表明,人在说话时其眉毛的运动与声音的基本频率具有相关性,而作为最小语音单位的音素,可通过声带与AU组合激活来发音。
(三)多模态人脸合成技术。本项目使用了基于图像驱动和基于语音驱动混合的方法。图像驱动方法能有效处理头部姿态,通过使用可学习的人脸关键点与3DMM参数,将驱动视频中的人物头部动作迁移到目标人物图片上;语音驱动方法可以使人物嘴部动作更加连贯,确保了口型同步的质量,进一步提高了合成效果。