Awesome Video Object Segmentation

A list of video object segmentation (VOS) papers.

Any suggestions and requests are always welcomed :)

1. Semi-Supervised VOS Papers

2. Unsupervised VOS Papers

3. Interactive VOS Papers

4. Referring VOS Papers

5. Other Related Papers

6. Popular Datasets

Semi-Supervised VOS Papers

2023

[XMem++] XMem++: Production-level Video Segmentation From Few Annotated Frames, ICCV [arXiv]
[ISVOS] Look Before You Match: Instance Understanding Matters in Video Object Segmentation, CVPR [Paper] [arXiv]
[CorrLearn] Boosting Video Object Segmentation via Space-time Correspondence Learning, CVPR [Paper] [arXiv] [Code]
[MobileVOS] MobileVOS: Real-Time Video Object Segmentation Contrastive Learning meets Knowledge Distillation, CVPR [Paper] [arXiv]
[TSVOS] Two-shot Video Object Segmentation, CVPR [Paper] [arXiv] [Code]
[LLB] Learning to Learn Better for Video Object Segmentation, AAAI [Paper] [arXiv] [Code]

2022

[DeAOT] Decoupling Features in Hierarchical Propagation for Video Object Segmentation, NeurIPS [Paper] [arXiv] [Code]
[BATMAN] BATMAN: Bilateral Attention Transformer in Motion-Appearance Neighboring Space for Video Object Segmentation, ECCV [Paper] [arXiv]
[XMem] XMem: Long-Term Video Object Segmentation with an Atkinson-Shiffrin Memory Model, ECCV [Paper] [arXiv] [Code]
[QDMN] Learning Quality-aware Dynamic Memory for Video Object Segmentation, ECCV [Paper] [arXiv] [Code]
[TBD] Tackling Background Distraction in Video Object Segmentation, ECCV [Paper] [arXiv] [Code]
[GSFM] Global Spectral Filter Memory Network for Video Object Segmentation, ECCV [Paper] [arXiv] [Code]
[AOC] Towards Robust Video Object Segmentation with Adaptive Object Calibration, ACMMM [Paper] [arXiv] [Code]
[RDE-VOS] Recurrent Dynamic Embedding for Video Object Segmentation, CVPR [Paper] [arXiv] [Code]
[PCVOS] Per-Clip Video Object Segmentation, CVPR [Paper] [arXiv] [Code]
[CoVOS] Accelerating Video Object Segmentation with Compressed Video, CVPR [Paper] [arXiv] [Code]
[SWEM] SWEM: Towards Real-Time Video Object Segmentation with Sequential Weighted Expectation-Maximization, CVPR [Paper] [arXiv] [Code]
[RPCMVOS] Reliable Propagation-Correction Modulation for Video Object Segmentation, AAAI [Paper] [arXiv] [Code]
[SITVOS] Siamese Network with Interactive Transformer for Video Object Segmentation, AAAI [Paper] [arXiv]
[BMVOS] Pixel-Level Bijective Matching for Video Object Segmentation, WACV [Paper] [arXiv] [Code]

2021

[AOT] Associating Objects with Transformers for Video Object Segmentation, NeurIPS [Paper] [arXiv] [Code]
[STCN] Rethinking Space-Time Networks with Improved Memory Coverage for Efficient Video Object Segmentation, NeurIPS [Paper] [arXiv] [Code]
[JOINT] Joint Inductive and Transductive Learning for Video Object Segmentation, ICCV [Paper] [arXiv] [Code]
[HMMN] Hierarchical Memory Matching Network for Video Object Segmentation, ICCV [Paper] [arXiv] [Code]
[DMN-AOA] Video Object Segmentation with Dynamic Memory Networks and Adaptive Object Alignment, ICCV [Paper] [Code]
[RMNet] Efficient Regional Memory Network for Video Object Segmentation, CVPR [Paper] [arXiv] [Code]
[LCM] Learning Position and Target Consistency for Memory-Based Video Object Segmentation, CVPR [Paper] [arXiv]
[GIEL] Video Object Segmentation Using Global and Instance Embedding Learning, CVPR [Paper]
[SwiftNet] SwiftNet: Real-time Video Object Segmentation, CVPR [Paper] [arXiv] [Code]
[SSTVOS] SSTVOS: Sparse Spatiotemporal Transformers for Video Object Segmentation, CVPR [Paper] [arXiv] [Code]
[Reuse-VOS] Learning Dynamic Network Using a Reuse Gate Function in Semi-Supervised Video Object Segmentation, CVPR [Paper] [arXiv] [Code]
[STG-Net] Spatiotemporal Graph Neural Network Based Mask Reconstruction for Video Object Segmentation, AAAI [Paper] [arXiv]
[QMRA] Query-Memory Re-Aggregation for Weakly-Supervised Video Object Segmentation, AAAI [Paper]

2020

[STM-cycle] Delving into the Cyclic Mechanism in Semi-supervised Video Object Segmentation, NeurIPS [Paper] [arXiv] [Code]
[AFB-URR] Video Object Segmentation with Adaptive Feature Bank and Uncertain-Region Refinement, NeurIPS [Paper] [arXiv] [Code]
[e-OSVOS] Make One-Shot Video Object Segmentation Efficient Again, NeurIPS [Paper] [arXiv] [Code]
[LWL] Learning What to Learn for Video Object Segmentation, ECCV [Paper] [arXiv] [Code]
[EGMN] Video Object Segmentation with Episodic Graph Memory Networks, ECCV [Paper] [arXiv] [Code]
[CFBI] Collaborative Video Object Segmentation by Foreground-Background Integration, ECCV [Paper] [arXiv] [Code]
[GC] Fast Video Object Segmentation using the Global Context Module, ECCV [Paper] [arXiv]
[KMN] Kernelized Memory Network for Video Object Segmentation, ECCV [Paper] [arXiv]
[SAT] State-Aware Tracker for Real-Time Video Object Segmentation, CVPR [Paper] [arXiv] [Code]
[FRTM] Learning Fast and Robust Target Models for Video Object Segmentation, CVPR [Paper] [arXiv] [Code]
[TVOS] A Transductive Approach for Video Object Segmentation, CVPR [Paper] [arXiv] [Code]
[TAN-DTTM] Fast Video Object Segmentation With Temporal Aggregation Network and Dynamic Template Matching, CVPR [Paper] [arXiv]
[FTMU] Fast Template Matching and Update for Video Object Tracking and Segmentation, CVPR [Paper] [arXiv] [Code]
[DIPNet] DIPNet: Dynamic Identity Propagation Network for Video Object Segmentation, WACV [Paper]

2019

[DMM-Net] DMM-Net: Differentiable Mask-Matching Network for Video Object Segmentation, ICCV [Paper] [arXiv] [Code]
[AGSS-VOS] AGSS-VOS: Attention Guided Single-Shot Video Object Segmentation, ICCV [Paper] [Code]
[RANet] RANet: Ranking Attention Network for Fast Video Object Segmentation, ICCV [Paper] [arXiv] [Code]
[DTN] Fast Video Object Segmentation via Dynamic Targeting Network, ICCV [Paper]
[CapsuleVOS] CapsuleVOS: Semi-Supervised Video Object Segmentation Using Capsule Routing, ICCV [Paper] [arXiv] [Code]
[STM] Video Object Segmentation Using Space-Time Memory Networks, ICCV [Paper] [arXiv] [Code]
[MHP-VOS] MHP-VOS: Multiple Hypotheses Propagation for Video Object Segmentation, CVPR [Paper] [arXiv] [Code]
[STCNN] Spatiotemporal CNN for Video Object Segmentation, CVPR [Paper] [arXiv] [Code]
[RVOS] RVOS: End-To-End Recurrent Network for Video Object Segmentation, CVPR [Paper] [arXiv] [Code]
[A-GAME] A Generative Appearance Model for End-To-End Video Object Segmentation, CVPR [Paper] [arXiv] [Code]
[FEELVOS] FEELVOS: Fast End-To-End Embedding Learning for Video Object Segmentation, CVPR [Paper] [arXiv] [Code]
[SiamMask] Fast Online Object Tracking and Segmentation: A Unifying Approach, CVPR [Paper] [arXiv] [Code]
[TIS] Tukey-Inspired Video Object Segmentation, WACV [Paper] [arXiv] [Code]

2018

[S2S] YouTube-VOS: Sequence-to-Sequence Video Object Segmentation, ECCV [Paper] [arXiv] [Code]
[PReMVOS] PReMVOS: Proposal-generation, Refinement and Merging for Video Object Segmentation, ACCV [arXiv] [Code]
[OSMN] Efficient Video Object Segmentation via Network Modulation, CVPR [Paper] [arXiv] [Code]
[RGMP] Fast Video Object Segmentation by Reference-Guided Mask Propagation, CVPR [Paper] [Code]
[FAVOS] Fast and Accurate Online Video Object Segmentation via Tracking Parts, CVPR [Paper] [arXiv] [Code]

2017

[SegFlow] SegFlow: Joint Learning for Video Object Segmentation and Optical Flow, ICCV [Paper] [arXiv] [Code]
[OSVOS] One-Shot Video Object Segmentation, CVPR [Paper] [arXiv] [Code]
[MaskTrack] Learning Video Object Segmentation from Static Images, CVPR [Paper] [arXiv] [Code]

Unsupervised VOS Papers

2023

[Isomer] Isomer: Isomerous Transformer for Zero-Shot Video Object Segmentation, ICCV [Code]
[PMN] Unsupervised Video Object Segmentation via Prototype Memory Network, WACV [Paper] [arXiv] [Code]
[TMO] Treating Motion as Option to Reduce Motion Dependency in Unsupervised Video Object Segmentation, WACV [Paper] [arXiv] [Code]

2022

[HFAN] Hierarchical Feature Alignment Network for Unsupervised Video Object Segmentation, ECCV [Paper] [arXiv] [Code]
[IMP] Iteratively Selecting an Easy Reference Frame Makes Unsupervised Video Object Segmentation Easier, AAAI [Paper] [arXiv]
[D2Conv3D] D2Conv3D: Dynamic Dilated Convolutions for Object Segmentation in Videos, WACV [Paper] [arXiv] [Code]
[CFAM] Video Salient Object Detection via Contrastive Features and Attention Modules, WACV [Paper] [arXiv]

2021

[FSNet] Full-Duplex Strategy for Video Object Segmentation, ICCV [Paper] [arXiv] [Code]
[TransportNet] Deep Transport Network for Unsupervised Video Object Segmentation, ICCV [Paper]
[AMC-Net] Learning Motion-Appearance Co-Attention for Zero-Shot Video Object Segmentation, ICCV [Paper] [Code]
[RTNet] Reciprocal Transformations for Unsupervised Video Object Segmentation, CVPR [Paper] [Code]
[F2Net] F2Net: Learning to Focus on the Foreground for Unsupervised Video Object Segmentation, AAAI [Paper] [arXiv] [Code]
[FrameSelect] Mask Selection and Propagation for Unsupervised Video Object Segmentation, WACV [Paper] [Code]

2020

[3DC-Seg] Making a Case for 3D Convolutions for Object Segmentation in Videos, BMVC [Paper] [arXiv] [Code]
[WCS-Net] Unsupervised Video Object Segmentation with Joint Hotspot Tracking, ECCV [Paper] [Code]
[DFNet] Learning Discriminative Feature with CRF for Unsupervised Video Object Segmentation, ECCV [Paper] [arXiv]
[MATNet] Motion-Attentive Transition for Zero-Shot Video Object Segmentation, AAAI [Paper] [arXiv] [Code]
[UnOVOST] UnOVOST: Unsupervised Offline Video Object Segmentation and Tracking, WACV [Paper] [arXiv] [Code]
[EpO-Net] EpO-Net: Exploiting Geometric Constraints on Dense Trajectories for Motion Saliency, WACV [Paper] [arXiv] [Code]

2019

[AD-Net] Anchor Diffusion for Unsupervised Video Object Segmentation, ICCV [Paper] [arXiv] [Code]
[AGNN] Zero-Shot Video Object Segmentation via Attentive Graph Neural Networks, ICCV [Paper] [arXiv] [Code]
[AGS] Learning Unsupervised Video Object Segmentation Through Visual Attention, CVPR [Paper] [Code]
[COSNet] See More, Know More: Unsupervised Video Object Segmentation With Co-Attention Siamese Networks, CVPR [Paper] [arXiv] [Code]
[SSAV] Shifting More Attention to Video Salient Object Detection, CVPR [Paper] [Code]
[MOTAdapt] Video Object Segmentation using Teacher-Student Adaptation in a Human Robot Interaction (HRI) Setting, ICRA [Paper] [arXiv] [Code]

2018

[PDB] Pyramid Dilated Deeper ConvLSTM for Video Salient Object Detection, ECCV [Paper] [Code]

Interactive VOS Papers

2021

[IVOS-W] Learning to Recommend Frame for Interactive Video Object Segmentation in the Wild, CVPR [Paper] [arXiv] [Code]
[GIS] Guided Interactive Video Object Segmentation Using Reliability-Based Attention Maps, CVPR [Paper] [arXiv] [Code]
[MiVOS] Modular Interactive Video Object Segmentation: Interaction-to-Mask, Propagation and Difference-Aware Fusion, CVPR [Paper] [arXiv] [Code]

2020

[ScribbleBox] ScribbleBox: Interactive Annotation Framework for Video Object Segmentation, ECCV [Paper] [arXiv] [Page]
[ATNet] Interactive Video Object Segmentation Using Global and Local Transfer Modules, ECCV [Paper] [arXiv] [Code]
[MA-Net] Memory Aggregation Networks for Efficient Interactive Video Object Segmentation, CVPR [Paper] [arXiv] [Code]

2019

[IPNet] Fast User-Guided Video Object Segmentation by Interaction-And-Propagation Networks, CVPR [Paper] [arXiv] [Code]

Referring VOS Papers

2023

[OnlineRefer] OnlineRefer: A Simple Online Baseline for Referring Video Object Segmentation, ICCV [arXiv] [Code]
[SgMg] Spectrum-guided Multi-granularity Referring Video Object Segmentation, ICCV [arXiv] [Code]
[R2VOS] Towards Robust Referring Video Object Segmentation with Cyclic Relational Consistency, ICCV [arXiv] [Code]

2022

[MANet] Multi-Attention Network for Compressed Video Referring Object Segmentation, ACMMM [Paper] [arXiv] [Code]
[MTTR] End-to-End Referring Video Object Segmentation with Multimodal Transformers, CVPR [Paper] [arXiv] [Code]
[ReferFormer] Language as Queries for Referring Video Object Segmentation, CVPR [Paper] [arXiv] [Code]
[LBDT] Language-Bridged Spatial-Temporal Interaction for Referring Video Object Segmentation, CVPR [Paper] [arXiv] [Code]
[MLRL] Multi-Level Representation Learning with Semantic Alignment for Referring Video Object Segmentation, CVPR [Paper]
[YOFO] You Only Infer Once: Cross-Modal Meta-Transfer for Referring Video Object Segmentation, AAAI [Paper]

2020

[URVOS] URVOS: Unified Referring Video Object Segmentation Network with a Large-Scale Benchmark, ECCV [Paper] [Code]

Other Related Papers

2023

[RCF] Bootstrapping Objectness from Videos by Relaxed Common Fate and Visual Grouping, CVPR [Paper] [arXiv] [Code]
[VOST] Breaking the “Object” in Video Object Segmentation, CVPR [Paper] [arXiv] [Page]
[InstMove] InstMove: Instance Motion for Object-centric Video Segmentation, CVPR [Paper] [arXiv] [Code]
[SSL-VOS] A Simple and Powerful Global Optimization for Unsupervised Video Object Segmentation, WACV [Paper] [arXiv] [Code]
[BURST] BURST: A Benchmark for Unifying Object Recognition, Segmentation and Tracking in Video, WACV [Paper] [arXiv] [Code]

2022

[EPIC-KITCHENS] EPIC-KITCHENS VISOR Benchmark: VIdeo Segmentations and Object Relations, NeurIPS [Paper] [arXiv] [Page]
[SaVos] Self-supervised Amodal Video Object Segmentation, NeurIPS [Paper] [arXiv]
[YouMVOS] YouMVOS: An Actor-centric Multi-shot Video Object Segmentation Dataset, CVPR [Paper] [Page]
[Wnet] Wnet: Audio-Guided Video Object Segmentation via Wavelet-Based Cross-Modal Denoising Networks, CVPR [Paper] [Code]

2021

[DUL] Dense Unsupervised Learning for Video Segmentation, NeurIPS [Paper] [arXiv] [Code]
[AMD] The Emergence of Objectness: Learning Zero-Shot Segmentation from Videos, NeurIPS [Paper] [arXiv] [Code]
[MotionGroup] Self-supervised Video Object Segmentation by Motion Grouping, ICCV [Paper] [arXiv] [Code]
[GMB] Generating Masks from Boxes by Mining Spatio-Temporal Consistencies in Videos, ICCV [Paper] [arXiv] [Code]
[DANet] Delving Deep Into Many-to-Many Attention for Few-Shot Video Object Segmentation, CVPR [Paper] [Code]
[ContrastCorr] Contrastive Transformation for Self-supervised Correspondence Learning, AAAI [Paper] [arXiv] [Code]
[TAO-VOS] Reducing the Annotation Effort for Video Object Segmentation Datasets, WACV [Paper] [arXiv] [Page]

2020

[CRW] Space-Time Correspondence as a Contrastive Random Walk, NeurIPS [Paper] [arXiv] [Code]
[ODMS] Learning Object Depth from Camera Motion and Video Object Segmentation, ECCV [Paper] [arXiv] [Code]
[MAST] MAST: A Memory-Augmented Self-Supervised Tracker, CVPR [Paper] [arXiv] [Code]
[MuG] Learning Video Object Segmentation From Unlabeled Videos, CVPR [Paper] [arXiv] [Code]

2019

[TimeCycle] Learning Correspondence from the Cycle-Consistency of Time, CVPR [Paper] [arXiv] [Code]
[BubbleNets] BubbleNets: Learning to Select the Guidance Frame in Video Object Segmentation by Deep Sorting Frames, CVPR [Paper] [arXiv] [Code]

Popular Datasets

[DAVIS] Densely Annotated VIdeo Segmentation Dataset [Page]
[YouTube-VOS] A Large-Scale Benchmark for Video Object Segmentation Dataset [Page]
[Long Videos] Long Videos in Real-World Tasks [Page]
[BL30K] A Large-Scale Synthetic Dataset Based on Blender Engine [Page]
[FBMS] Freiburg-Berkeley Motion Segmentation Dataset [Page]
[YouTube-Objects] A Large-Scale Database of Object Videos from YouTube [Page]

suhwan-cho/awesome-video-object-segmentation

suhwan-cho

Reviews

Repository Details

Awesome Video Object Segmentation

Contents

Semi-Supervised VOS Papers

2023

2022

2021

2020

2019

2018

2017

Unsupervised VOS Papers

2023

2022

2021

2020

2019

2018

Interactive VOS Papers

2021

2020

2019

Referring VOS Papers

2023

2022

2020

Other Related Papers

2023

2022

2021

2020

2019

Popular Datasets

More Repositories