近日,内蒙古大学计算机学院(软件学院)蒙古文智能信息处理技术国家地方联合工程研究中心(蒙古文信息处理技术自治区重点实验室)张怀文研究员课题组与中国科学院自动化研究所徐常胜研究员团队合作在国际多媒体领域顶级期刊《IEEE Transactions on Multimedia》上发表了题为“Robust Video-Text Retrieval via Noisy Pair Calibration”的论文(DOI: 10.1109/TMM.2023.3239183)。
随着移动设备的普及,视频数据的规模不断扩大,视频-文本检索变得越来越重要。现有主流的方法是将视频和文本的样本映射到一个共同的表示空间,在该空间中,语义相似的样本具有较近的距离。然而,现有的方法在构建共同表示空间时,可能会受到以下噪声的影响:一是正样本对的视频-文本可能不是精确匹配的;二是视频-文本表示的学习基于随机抽样的负样本对。语义上与查询相似的样本可能被错误地归类为负样本。为了缓解这些噪声数据对训练造成的负面影响,论文提出了一种新颖的鲁棒视频文本检索方法。首先设计了一个不确定性估计模块,通过估计视频-文本对的不确定性分数,来识别噪声数据,其次又提出了自适应边界的三元损失和加权的对比损失函数。通过噪声数据的不确定性,对训练过程中的两类噪声数据进行校正,从而缓解噪声数据带来的不利影响。为了验证所提方法的有效性,论文在广泛使用的视频-文本检索数据集上进行了大量的实验。
《IEEE Transactions on Multimedia》是多媒体技术及多媒体应用研究的国际顶级期刊,被列为JCR一区TOP期刊,影响因子为8.182。内蒙古大学计算机学院(软件学院)张怀文研究员为该论文的第一作者,内蒙古大学计算机学院(软件学院)2021级博士生杨洋为第二作者,该课题受到内蒙古大学骏马计划资助。
(编辑:郑佳琦 审核:包革命)
近日,内蒙古大学计算机学院(软件学院)蒙古文智能信息处理技术国家地方联合工程研究中心(蒙古文信息处理技术自治区重点实验室)张怀文研究员课题组与中国科学院自动化研究所徐常胜研究员团队合作在国际多媒体领域顶级期刊《IEEE Transactions on Multimedia》上发表了题为“Robust Video-Text Retrieval via Noisy Pair Calibration”的论文(DOI: 10.1109/TMM.2023.3239183)。
随着移动设备的普及,视频数据的规模不断扩大,视频-文本检索变得越来越重要。现有主流的方法是将视频和文本的样本映射到一个共同的表示空间,在该空间中,语义相似的样本具有较近的距离。然而,现有的方法在构建共同表示空间时,可能会受到以下噪声的影响:一是正样本对的视频-文本可能不是精确匹配的;二是视频-文本表示的学习基于随机抽样的负样本对。语义上与查询相似的样本可能被错误地归类为负样本。为了缓解这些噪声数据对训练造成的负面影响,论文提出了一种新颖的鲁棒视频文本检索方法。首先设计了一个不确定性估计模块,通过估计视频-文本对的不确定性分数,来识别噪声数据,其次又提出了自适应边界的三元损失和加权的对比损失函数。通过噪声数据的不确定性,对训练过程中的两类噪声数据进行校正,从而缓解噪声数据带来的不利影响。为了验证所提方法的有效性,论文在广泛使用的视频-文本检索数据集上进行了大量的实验。
《IEEE Transactions on Multimedia》是多媒体技术及多媒体应用研究的国际顶级期刊,被列为JCR一区TOP期刊,影响因子为8.182。内蒙古大学计算机学院(软件学院)张怀文研究员为该论文的第一作者,内蒙古大学计算机学院(软件学院)2021级博士生杨洋为第二作者,该课题受到内蒙古大学骏马计划资助。
(编辑:郑佳琦 审核:包革命)