近年来短视频应用大火,视频媒体逐渐成为用户消费的主要内容载体之一,对视频内容的精准检索成为重要的技术需求。自然文本描述和视频进行跨模态检索(Cross-Modal Text-Video Retrieval)是最符合自然人机交互的方式之一,通过描述文本语义特征和视频理解多模态特征的相关性计算,满足用户对视频内容的检索需求。本文工作针对淘宝首猜全屏页、逛逛等内容场景,采用文本-视频跨模态检索的方法,实现淘宝大规模内容标签和视频的挂靠[1,3]。
本系列将介绍在淘宝内容电商生态业务中,对短视频直播这类多媒体内容的识别理解工作。其中包括多媒体内容标签结构化、内容多模态融合识别、超大规模视频标签理解、跨模态语义检索、实时流媒体内容数字化、视频highlight提取及创意生产、多模态内容标签图谱建设等方面的工作成果。
本篇是淘宝视频的第三篇,前两篇可见:
背景
近年来短视频应用大火,视频媒体逐渐成为用户消费的主要内容载体之一,对视频内容的精准检索成为重要的技术需求。自然文本描述和视频进行跨模态检索(Cross-Modal Text-Video Retrieval)是最符合自然人机交互的方式之一,通过描述文本语义特征和视频理解多模态特征的相关性计算,满足用户对视频内容的检索需求。本文工作针对淘宝首猜全屏页、逛逛等内容场景,采用文本-视频跨模态检索的方法,实现淘宝大规模内容标签和视频的挂靠[1,3]。
内容文本检索标签;
图像序列检索标签;
视频多模态内容检索标签。
相关工作
文本侧分解文本的字词,图像侧切分图像区域,基于交互注意力实现局部特征细粒度对齐[9]。
分别对文本侧字词和图像侧图像区域构建图网络结构,结合GCN学习局部特征之间相关性[10][11]。
文本和图像的相互生成,通过对抗训练实现局部语义的对齐[12]。
算法
LXMERT双流架构
Uniter单流架构
本文工作在经典双塔模型的技术上嵌入GraphSAGE图神经网络模型,在大规模图上学习结点embedding,集团的GraphLearning图学习框架为本文的算法提供了框架基础。整体的图网络学习框架如下,其中输入特征分别来自文本编码和视频编码的输出特征。
建图的合理性和准确性是影响图结点特征学习的重要因素,从提升结点覆盖率和构边置信度两个目标出发,本文采用先验特征相似和后验点击行为对视频和主题标签构建图网络。
图结点邻居采样的方式常用包括:随机采样,随机广度采度,随机游走采样Random Walk。考虑到经典随机游走算法对于度大节点的偏向性问题,本文采用修正改进版本的游走策略,降低度大节点的游走概率, 结点对邻居结点采样概率为:
其中,表示结点的邻结点集,、分别表示结点和的度数。
在图结点特征聚合上本文采用pooling聚合,先对每个邻居结点上一层embedding进行非线性转换,再按维度应用 max/mean pooling,捕获邻居集上的显著特征以此表示目标结点embedding。具体pipeline如下:
在特征聚合策略上,考虑跨模态检索的目的是实现不同模态数据在高维空间的语义对齐,消除数据模态差异的存在,因此本文根据聚合邻结点的类型,尝试采用实验了三种不同的聚合策略:
同构聚合,目标结点只聚合同模态的邻结点
异构聚合,目标结点只聚合不同模态的邻结点
混合聚合,目标结点随机聚合邻结点
在第四小节的实验对比可以看出同构聚合策略性能最佳。
跨模态训练任务的视频-文本异构正样本通过异构边直接获取,异构负样本的选择采用自适应五元组损失AOQ Loss[16]采用Batch内在线难样本挖掘Online Hard Sample和离线难样本挖掘Offline Hard Sample选择在线局部负样本和离线全局负样本。
单模态训练任务的视频-视频、文本-文本的同构正样本分别来自同构边的一跳和二跳游走采样邻结点,负样本在全图进行随机采样。
本文设计的损失函数包括两部分:
同模态度量损失和有无边二分类损失。同模态度量损失是距离约束,保证在高维度量空间拉近正样本距离,拉远负样本对距离;有无边二分类损失本质是根据图的结构构建正负样本的相关性约束。
跨模态自适应五元组度量损失。在线难样本挖掘有两个主要不足:
负样本选择策略具有局部性、"难度"不足;
对于正样本对和负样本对的惩罚力度一致,不同难度的样本对应有不同的优化更新力度。
本文采用自适应五元组损失损失,自适应调整正样本对、在线负样本对、离线负样本对的更新权重,达到在相似度方面正样本对>在线负样本对>离线负样本对的目的。
损失公式表达:
同模态度量损失:
同模态有无边二分类损失:
跨模态度量损失:
其中表示文本768维特征向量,表示视频768维特征向量,表示文本正样本,表示视频正样本,表示文本局部负样本,表示视频局部负样本,表示文本全局负样本,表示视频全局负样本,、为超参数,表示文本同构边, 表示文本同构边, 表示指示函数,表示距离间隔,表示负样本数量。
实验
检索衡量指标采用检索召回准确率Top1,Top5,Top20 以及Mean Rank值。1K淘宝样本对检索性能如下。基于预训练Roberta文本特征的视频文本-标签文本检索方式与基于多模态特征的视频多模态-标签文本的检索方式性能有明显差距,视频多模态信息的互补增益更好地实现淘宝视频内容理解。视频多模态-标签文本的检索方式在引入图神经网络算法后在Top1准确率上有超过9.0%的性能提升,图结构信息的引入进一步提升了视频和文本结点的语义表征能力。模型在度量学习上结合离线全局负样本采样和在线局部负样本采样的方式在Top1准确率上提升2.0%,采样不同难度的负样本使模型收敛到更优点。本文尝试通过半监督的方式扩量训练集召回更多伪匹配样本,对模型性能有更佳的增益。
本文算法应用于MSCOCO Retrieval数据集做性能测试。MSCOCO Retrieval数据集的5K检索任务性能结果对比如下,其中对比方法主要限定采用双塔模型结构、特征提取无需模态间交互对齐计算、适用于大规模检索的方法。本文工作达到了于同期前沿工作具有竞争力的性能。
图结点表示的三种不同的聚合策略性能结果对比如表所示,本小节实验结果在模型[Uniter | transformers | GNN]实现,检索衡量指标同样采用检索召回准确率Top1,Top5,Top20 以及Mean Rank值。
异构聚合策略比同构聚合策略在Top1准确率跌落几个百分点,存在的原因有:
图网络构建准确率还不够高,采样的异构结点与目标结点存在语义不配现象;
不同模态数据在聚合过程中非线性变换处理没有根据模态差异设置不同的优化参数,目前采用的聚合过程的线性层采用共享参数。
本文抽取部分测试样本,模型提取文本特征和视频特征并进行进行T-SNE处理可视化,如下图所示,其中蓝色表示文本样本,红色表示视频样本,可以看出同内容语义的文本视频来高维空间得到很好的聚类效应,并且同其他不同内容语义的样本保持一定间隔距离。GNN的引入使得同模态正样本之间的距离更加拉近。
主题标签在千万级首猜精品视频池进行向量检索,手淘全屏页[3]主题标签召回示例case:
讨论和展望
本文对淘宝内容场景下的文本视频跨模态检索问题进行了研究和讨论,指出跨模态检索当前存在的训练样本稀疏均衡问题、跨模态度量学习的技术挑战和高效检索问题,并对此做出了深入分析,提出了结合GraphSAGE图网络算法的双塔跨模态检索模型,分别对同模态和跨模态进行多目标学习,保证同模态判别性的同时,实现跨模态特征的对齐,线下实验验证和业务评测验证了本文算法有效性。本文对文本-视频跨模态检索技术的研究主要通过文本和视频全局特征构建双塔度量模型,后续会继续深耕:
探索文本-视频的特征细粒度对齐,解构视频多模态特征,实现不同模态特征与文本的解耦对齐。
探索文本-视频特征度量学习,实现精度更细的局部度量。
参考文献
[1] 让机器读懂视频,淘宝短视频超大规模标签理解
[2] 短视频全屏页的认知理解和运用
[3] 多模态内容的表达学习及应用
[4] 多模态表征学习在短视频推荐场景上的应用探索
[5] PAI-EasyMM: 通用多模态学习框架
[6] 多模态学习在夸克图搜中的应用
[7] 跨模态检索初探-躺平搜索首图挑选
[8] 基于多模语义相关性的智能短视频封图挑选
[9] Lee K H, Chen X, Hua G, et al. Stacked cross attention for image-text matching[C]//Proceedings of the European Conference on Computer Vision (ECCV). 2018: 201-216.
[10] Wen K, Gu X, Cheng Q. Learning Dual Semantic Relations with Graph Attention for Image-Text Matching[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2020.
[11] Liu Y, Wan B, Zhu X, et al. Learning cross-modal context graph for visual grounding[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2020, 34(07): 11645-11652.
[12] Gu J, Cai J, Joty S R, et al. Look, imagine and match: Improving textual-visual cross-modal retrieval with generative models[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018: 7181-7189.
[13] Tan H, Bansal M. Lxmert: Learning cross-modality encoder representations from transformers[J]. arXiv preprint arXiv:1908.07490, 2019.
[14] Chen Y C, Li L, Yu L, et al. Uniter: Universal image-text representation learning[C]//European Conference on Computer Vision. Springer, Cham, 2020: 104-120.
[15] Hamilton W L, Ying R, Leskovec J. Inductive representation learning on large graphs[J]. arXiv preprint arXiv:1706.02216, 2017.
[16] Chen T, Deng J, Luo J. Adaptive Offline Quintuplet Loss for Image-Text Matching[C]//European Conference on Computer Vision. Springer, Cham, 2020: 549-565.
[17] Faghri F, Fleet D J, Kiros J R, et al. Vse++: Improving visual-semantic embeddings with hard negatives[J]. arXiv preprint arXiv:1707.05612, 2017.
[18] Zhang Y, Lu H. Deep cross-modal projection learning for image-text matching[C]//Proceedings of the European Conference on Computer Vision (ECCV). 2018: 686-701.
[19] Huang Y, Wu Q, Song C, et al. Learning semantic concepts and order for image and sentence matching[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018: 6163-6171.
[20] Song Y, Soleymani M. Polysemous visual-semantic embedding for cross-modal retrieval[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2019: 1979-1988.