基于特定人物面部动态的自监督学习自动人格识别
关键词:自动人格分析(APR)、排序损失、面部时间演变、人格化动态层、自监督学习、卷积神经网络
摘要
现有自动人格分析方法常见两个问题:一是过度依赖短视频片段甚至单帧来推断人格,二是缺少对特定个体面部动态的显式编码。为此,论文提出一种基于排序损失的自监督学习方案,用面部动作的自然时间演变来学习通用动态表示。方法上,先用大量未标记面部视频训练一个 U-Net 风格模型,学习通用面部动态;再冻结主干,只在特定个体视频上训练插入的中间自适应层,让这些层的权重逐渐带上个人特征。最后,直接把这些权重拼接起来作为该个体的人格化描述符,用于下游人格预测。实验在自我报告人格数据集和表观人格数据集上验证了效果,不仅达到了较好的预测结果,也说明了任务内容、时间尺度和融合策略都会显著影响最终性能。
引言
人格通常被看作一组稳定但会体现个体差异的行为、认知和情感模式。它既能通过长期行为观察,也能从非语言线索中捕捉到一些端倪。论文关注的是两类常见的人格分析任务:
- 自我报告人格:个体对自己性格特质的主观评价;
- 表观人格:观察者基于外显行为和线索对某人的感知。
心理学研究早就提示,面部行为并不只是情绪的瞬时反映,也可能携带隐含气质和内部状态的信息。问题在于,很多视频人格预测方法把视频级标签直接摊到帧级或短片段级上训练,这会带来很明显的矛盾:不同人格的人可能在某一帧里表现出相同的动作原语,但真正有区分力的是这些动作如何随时间变化。换句话说,单帧或极短片段通常不够支撑人格推断。
论文的目标很明确:提取一种长时稳定、个体区分明显的视频级面部行为表示,同时尽量保留短时动态信息。为此,作者把'动态图像'的思想改造成了一个自监督排序任务:不依赖人格标签,而是利用面部动作在时间上的自然演化来训练模型。
主要贡献
论文围绕这个思路做了几件事:
- 把动态图像的思想扩展到自监督场景,用排序损失学习短时面部动态;
- 通过领域自适应,把个体特有信息注入到预训练网络中;
- 直接使用网络权重作为人格化描述符,而不是只拿中间特征做回归;
- 系统分析了任务内容、时间窗口和融合策略对人格分析结果的影响。
相关工作
五因素模型
论文使用五因素模型(FFM)作为人格度量标准,即开放性、严谨性、外向性、宜人性和神经质。这个模型在心理学里非常经典,也最常用于自动人格分析。
人格、面部行为与情绪之间的关系
面部不仅承载身份信息,也会反映年龄、性别、情绪状态等多种线索。既然观察者能够从自然面部行为中读出一定的人格印象,那么从视频里自动预测人格也就有了心理学基础。只是这件事不能靠'单帧像不像某种人格'来做,而更应该看行为模式的时间演化。
基于视频的自动人格预测
已有方法大体分两类:
- 帧级/片段级方法:先提取单帧或短片段特征,再做决策融合;
- 视频级方法:先把帧级特征汇总成统计描述符,再用回归器预测人格。
这些方法的问题在于,它们大多默认人格可以从短时间局部行为里直接读出,或者在汇总时丢掉了不少细粒度时间信息。论文正是希望补上这一块:既不把视频标签粗暴地贴到帧上,也不把动态特征压成过于粗糙的统计量。
方法
论文的方法可以分成三层:先学通用面部动态,再学个体特定动态,最后把学到的权重当作人格描述符送入回归模型。
面部动态的自监督学习
作者把问题改写成一个排序任务。直观来说,给定一张中间帧,模型要学会生成一个动态表示,让它对同一时间窗内的前后帧打分时,越接近中心帧的图像分数越高,越远的图像分数越低。
这个设计有两个好处:
- 不需要人工标注动态标签;
- 网络必须真的去理解'时间上的变化',而不是只记住静态外观。
论文里借用了动态图像的思想,但做了一个关键调整:不是从整段序列直接生成动态图像,而是从单张中心图像出发,去预测周围帧的相对顺序。这样做会迫使网络学习短时面部运动的通用规律。


