

前言#
计算机视觉基础模型关注从图像、视频和点云中学习可迁移的表征与几何结构。相关工作覆盖经典视觉骨干、自监督预训练、开放词表检测、通用分割、点云表征与视觉几何,核心作用是为分类、检测、分割、三维理解、场景重建和机器人感知等任务提供稳定的基础感知能力。
VGGT#
前馈式视觉几何模型,可从一张或多张图像预测相机、深度、点图和 3D 点轨迹。
DUSt3R#
直接从任意图像对预测统一坐标系下的 3D 点图,降低了传统多视图几何对相机标定和位姿初始化的依赖。
MASt3R#
在 DUSt3R 的 3D 点图表示上加入匹配能力,把局部图像匹配、定位和重建统一到 3D Grounding 框架中。
Spann3R#
使用 Spatial Memory 做前馈式全局 3D 重建,减少 DUSt3R 类方法对后处理全局对齐的依赖。
MonST3R#
将 DUSt3R 的点图思路扩展到动态场景,用几何优先的方式处理视频深度、相机位姿和 4D 重建。
CUT3R#
连续 3D 感知模型,通过持久状态在流式观测中更新场景几何,适合长序列重建和机器人在线感知。
3D Gaussian Splatting#
用 3D Gaussian 作为显式可微场景表示,实现实时高质量新视角渲染,是近年 3D 表示和重建方向的核心基线。
Depth Anything#
通过大规模无标注数据和自动标注数据引擎训练通用单目深度模型,是当前深度估计生态的高影响力基础工作。
Depth Anything V2#
进一步提升 Depth Anything 的细节、鲁棒性和推理效率,开源仓库和模型生态热度很高。
Depth Anything 3#
用单一 Transformer 从任意视角输入恢复空间一致的几何结构,将深度、位姿和多视图视觉空间建模进一步统一。
Video Depth Anything#
面向超长视频的时序一致深度估计,在 Depth Anything V2 基础上解决逐帧深度闪烁问题。
Metric3D V2#
面向零样本 metric depth 和 surface normal 的单目几何基础模型,强调从单图恢复可度量 3D 结构。
UniDepth#
直接从单张图像预测 metric 3D points 和相机表示,目标是跨域泛化的通用单目 metric depth。
MoGe#
开放域单目几何估计模型,用 point map 表示和几何监督提升单图 3D 恢复的细节与泛化能力。
FoundationStereo#
零样本 stereo matching 基础模型,通过大规模合成数据和单目深度先验提升跨场景立体深度泛化。
Florence-2#
统一 prompt-based 视觉基础模型,用 FLD-5B 标注体系支持 caption、detection、segmentation、OCR 等多种任务。
YOLO-World#
实时开放词表检测模型,在 YOLO 框架中加入视觉语言预训练,兼顾开放类别识别和推理速度。
Grounding DINO 1.5#
Grounding DINO 的增强版本,继续推进开放集检测在性能和边缘部署上的能力。
OWL-ViT#
经典开放词表检测模型,直接用图文预训练 ViT 做文本条件目标定位,是后续 open-vocabulary detection 的重要基线。
GLIP#
将目标检测和短语 grounding 统一为 grounded language-image pre-training,是开放词表检测的高引用代表工作。
SEEM#
通用交互式分割模型,支持点、框、scribble、mask、文本等多模态提示,拓展了 SAM 式分割接口。
X-Decoder#
统一 pixel、image 和 language 的解码框架,把开放词表分割、referring segmentation 和视觉语言生成放到同一解码器中。
Sapiens#
面向人体视觉的基础模型族,覆盖 2D pose、part segmentation、depth 和 normal,突出高分辨率人类中心视觉能力。
InternImage#
用 deformable convolution 构建可规模化 CNN 视觉基础模型,在检测和分割等 dense prediction 任务上表现强。
V-JEPA#
Meta 的视频自监督表征模型,用 latent feature prediction 学习视频中的时空表示,不依赖文本、负样本或像素重建。