ICME会议简介
ICME 2025 是多媒体领域中的高水平国际学术会议之一,专注于图像、音频、视频及其处理与应用的前沿研究。会议由国际多媒体工程协会(IEEE)主办,汇聚了全球前沿的学者、研究人员和工业专家,共同探讨多媒体技术的发展与应用。

CCF分级:CCF-B
Core分类: A类
官网地址:

包括但不限于:
· 3D多媒体、增强现实/虚拟现实及沉浸式媒体
· 新兴多媒体应用和技术
· 基于人工智能/机器学习的多媒体
· 图像和视频处理
· 多媒体分析与生成
· 多媒体通信、网络与移动性
· 多媒体数据库与数据挖掘
· 多媒体质量评估与度量
· 多媒体安全、隐私与取证
IEEE International Conference on Multimedia & Expo (ICME) 国际多媒体与博览会将于2025年6月30日-7月4日在法国南特举办。
论文简介
01.摘要
动态场景的深度估计是计算机视觉中的一个关键问题,但由于动态区域导致多视图一致性被破坏,这一任务仍然充满挑战。尽管近期的研究通过隐式融合帧内关系特征取得了显著进展,但在复杂动态场景中仍存在局限性。本文提出了一种新的帧内关系特征融合方法,并通过显式的三维场景流线索进行正则化,显著提升了融合质量。本文首先引入了一种双交叉线索融合(Dual Cross-Cue Fusion, D-CCF)模块用于深度预测,并进一步引入了一种三维场景流估计方法,作为显式的三维时空对应先验来正则化深度预测。通过联合无监督学习深度预测和三维场景流估计,实现了更准确的动态场景深度估计,尤其是在时空一致性方面。在 KITTI 和 DDAD 等具有挑战性的基准数据集上的广泛评估表明,本文的方法在静态和动态区域的深度估计结果均优于现有先进方法。
The framework of the proposed approach, which mainly contains two key components:
(1) a D-CCF module to predict depth map using multiple frame feature fusion, and
(2) a 3D scene flow estimation module, which is used to effectively regularize the depth prediction learning.
02.研究目的
本文的主要研究目的是解决动态场景中深度估计的时空一致性问题。传统方法在处理动态场景时,由于动态区域导致的多视图一致性被破坏,往往无法准确估计深度。尽管一些方法通过引入语义或实例分割线索来改善深度预测质量,但这些线索在动态场景中仍存在不准确的问题。因此,本文旨在提出一种新的方法,通过显式利用三维场景流线索来正则化深度预测,从而实现更准确、更一致的动态场景深度估计。
03.研究方法
以本文提出了一种基于三维场景流正则化的动态深度估计方法,主要包括以下三个关键部分:
双交叉线索融合模块(D-CCF)
该模块通过融合连续帧的特征来预测深度图。与传统方法不同,D-CCF 模块直接在图像域中融合特征,而无需从预训练模型中计算深度先验。具体来说,通过双方向的帧间对齐和交叉线索注意力机制,生成目标融合特征,用于深度预测。
三维场景流估计
为了更有效地处理动态区域,本文使用了一种基于超点(superpoints)的迭代端到端场景流估计框架。首先将深度图提升到三维空间,生成点云,并利用特征编码器提取邻近点云的特征。通过流引导的超点生成和超点引导的流优化两个步骤,实现点云之间的三维场景流估计。
联合学习
为了提升 D-CCF 模块中特征融合的质量,本文将深度预测和三维场景流估计联合学习。通过引入深度重投影损失(Depth Warping Loss)和流重投影损失(Flow Warping Loss),优化深度预测和场景流估计的网络参数,从而实现更准确的深度估计。
04.研究结果
本文在 KITTI 和 DDAD 两个具有挑战性的动态场景数据集上进行了广泛的实验评估,使用的评测指标包括平方相对误差(SqRel)、均方根误差(RMSE)、对数均方根误差(RMSElog),以及不同阈值下的准确率(δ < 1.25、δ < 1.25²、δ < 1.25³,分别表示预测深度与真实深度的比例误差小于1.25、1.5625、1.953125的比例)。结果表明,深度估计精度优于现有先进方法。具体结果如下:


kitti数据集结果对比


DDAD数据集结果对比
推荐理由
本文提出了一种创新的动态场景深度估计方法,通过显式利用三维场景流线索来正则化深度预测,显著提升了动态场景的时空一致性。该方法在多个基准数据集上均取得了优异的性能,为动态场景深度估计领域提供了新的研究思路和技术方案。对于从事自动驾驶、增强现实等领域研究的学者和工程师来说,本文的研究成果具有重要的参考价值。


