Hana's Blog
Paper Reading: CV 2Blur image
评分准则
平平无奇的论文
正常的论文
广受认可或者让我眼前一亮的论文
奠基性的论文或者我非常喜欢的论文
毋庸置疑的最棒的论文

前言#

计算机视觉基础模型关注从图像、视频和点云中学习可迁移的表征与几何结构。相关工作覆盖经典视觉骨干、自监督预训练、开放词表检测、通用分割、点云表征与视觉几何,核心作用是为分类、检测、分割、三维理解、场景重建和机器人感知等任务提供稳定的基础感知能力。

VGGT#

Arxiv ID 2503.11651
幻觉翻译 2503.11651
publication CVPR2025

前馈式视觉几何模型,可从一张或多张图像预测相机、深度、点图和 3D 点轨迹。

推荐指数:

DUSt3R#

Arxiv ID 2312.14132
幻觉翻译 2312.14132
publication CVPR2024

直接从任意图像对预测统一坐标系下的 3D 点图,降低了传统多视图几何对相机标定和位姿初始化的依赖。

推荐指数:

MASt3R#

Arxiv ID 2406.09756
幻觉翻译 2406.09756
publication ECCV2024

在 DUSt3R 的 3D 点图表示上加入匹配能力,把局部图像匹配、定位和重建统一到 3D Grounding 框架中。

推荐指数:

Spann3R#

Arxiv ID 2408.16061
幻觉翻译 2408.16061
publication 3DV2025

使用 Spatial Memory 做前馈式全局 3D 重建,减少 DUSt3R 类方法对后处理全局对齐的依赖。

推荐指数:

MonST3R#

Arxiv ID 2410.03825
幻觉翻译 2410.03825
publication ICLR2025

将 DUSt3R 的点图思路扩展到动态场景,用几何优先的方式处理视频深度、相机位姿和 4D 重建。

推荐指数:

CUT3R#

Arxiv ID 2501.12387
幻觉翻译 2501.12387
publication CVPR2025

连续 3D 感知模型,通过持久状态在流式观测中更新场景几何,适合长序列重建和机器人在线感知。

推荐指数:

3D Gaussian Splatting#

Arxiv ID 2308.04079
幻觉翻译 2308.04079
publication SIGGRAPH2023

用 3D Gaussian 作为显式可微场景表示,实现实时高质量新视角渲染,是近年 3D 表示和重建方向的核心基线。

推荐指数:

Depth Anything#

Arxiv ID 2401.10891
幻觉翻译 2401.10891
publication CVPR2024

通过大规模无标注数据和自动标注数据引擎训练通用单目深度模型,是当前深度估计生态的高影响力基础工作。

推荐指数:

Depth Anything V2#

Arxiv ID 2406.09414
幻觉翻译 2406.09414
publication NeurIPS2024

进一步提升 Depth Anything 的细节、鲁棒性和推理效率,开源仓库和模型生态热度很高。

推荐指数:

Depth Anything 3#

Arxiv ID 2511.10647
幻觉翻译 2511.10647
publication pending

用单一 Transformer 从任意视角输入恢复空间一致的几何结构,将深度、位姿和多视图视觉空间建模进一步统一。

推荐指数:

Video Depth Anything#

Arxiv ID 2501.12375
幻觉翻译 2501.12375
publication CVPR2025

面向超长视频的时序一致深度估计,在 Depth Anything V2 基础上解决逐帧深度闪烁问题。

推荐指数:

Metric3D V2#

Arxiv ID 2404.15506
幻觉翻译 2404.15506
publication pending

面向零样本 metric depth 和 surface normal 的单目几何基础模型,强调从单图恢复可度量 3D 结构。

推荐指数:

UniDepth#

Arxiv ID 2403.18913
幻觉翻译 2403.18913
publication CVPR2024

直接从单张图像预测 metric 3D points 和相机表示,目标是跨域泛化的通用单目 metric depth。

推荐指数:

MoGe#

Arxiv ID 2410.19115
幻觉翻译 2410.19115
publication CVPR2025

开放域单目几何估计模型,用 point map 表示和几何监督提升单图 3D 恢复的细节与泛化能力。

推荐指数:

FoundationStereo#

Arxiv ID 2501.09898
幻觉翻译 2501.09898
publication CVPR2025

零样本 stereo matching 基础模型,通过大规模合成数据和单目深度先验提升跨场景立体深度泛化。

推荐指数:

Florence-2#

Arxiv ID 2311.06242
幻觉翻译 2311.06242
publication CVPR2024

统一 prompt-based 视觉基础模型,用 FLD-5B 标注体系支持 caption、detection、segmentation、OCR 等多种任务。

推荐指数:

YOLO-World#

Arxiv ID 2401.17270
幻觉翻译 2401.17270
publication CVPR2024

实时开放词表检测模型,在 YOLO 框架中加入视觉语言预训练,兼顾开放类别识别和推理速度。

推荐指数:

Grounding DINO 1.5#

Arxiv ID 2405.10300
幻觉翻译 2405.10300
publication pending

Grounding DINO 的增强版本,继续推进开放集检测在性能和边缘部署上的能力。

推荐指数:

OWL-ViT#

Arxiv ID 2205.06230
幻觉翻译 2205.06230
publication ECCV2022

经典开放词表检测模型,直接用图文预训练 ViT 做文本条件目标定位,是后续 open-vocabulary detection 的重要基线。

推荐指数:

GLIP#

Arxiv ID 2112.03857
幻觉翻译 2112.03857
publication CVPR2022

将目标检测和短语 grounding 统一为 grounded language-image pre-training,是开放词表检测的高引用代表工作。

推荐指数:

SEEM#

Arxiv ID 2304.06718
幻觉翻译 2304.06718
publication NeurIPS2023

通用交互式分割模型,支持点、框、scribble、mask、文本等多模态提示,拓展了 SAM 式分割接口。

推荐指数:

X-Decoder#

Arxiv ID 2212.11270
幻觉翻译 2212.11270
publication CVPR2023

统一 pixel、image 和 language 的解码框架,把开放词表分割、referring segmentation 和视觉语言生成放到同一解码器中。

推荐指数:

Sapiens#

Arxiv ID 2408.12569
幻觉翻译 2408.12569
publication ECCV2024

面向人体视觉的基础模型族,覆盖 2D pose、part segmentation、depth 和 normal,突出高分辨率人类中心视觉能力。

推荐指数:

InternImage#

Arxiv ID 2211.05778
幻觉翻译 2211.05778
publication CVPR2023

用 deformable convolution 构建可规模化 CNN 视觉基础模型,在检测和分割等 dense prediction 任务上表现强。

推荐指数:

V-JEPA#

Arxiv ID 2404.08471
幻觉翻译 2404.08471
publication pending

Meta 的视频自监督表征模型,用 latent feature prediction 学习视频中的时空表示,不依赖文本、负样本或像素重建。

推荐指数:
Paper Reading: CV 2
https://hana-blog.pages.dev/blog/paper-reading-cv2
Author 菊花花
Published at December 26, 2025
Comment seems to stuck. Try to refresh?✨