FightingCV-Paper-Reading
Hello,大家好,我是小马
作为研究生,读论文一直都是都是一件非常费时费脑的事情,因为帮助大家用5分钟的时间就能知道某篇论文的大致内容,我会把我看过的论文做好解析分享在这里。
本项目的宗旨是
(最新还更新了【Attention、MLP、Conv、MLP、Backbone的代码复现项目】,欢迎大家学习交流)
技术交流
欢迎大家关注公众号:FightingCV
FightingCV公众号 | 小助手微信 (备注【公司/学校+方向+ID】) |
---|---|
-
公众号每天都会进行论文、算法和代码的干货分享哦~
-
交流群每天分享一些最新的论文和解析,欢迎大家一起学习交流哈~~~
- 强烈推荐大家关注知乎账号和FightingCV公众号,可以快速了解到最新优质的干货资源。
总结性文章
CV知识点汇总与解析
MM 2022
-
MM2022 | 用StyleGAN进行数据增强,真的太好用了
【Paired Cross-Modal Data Augmentation for Fine-Grained Image-to-Text Retrieval】 -
MM2022 | 在特征空间中的多模态数据增强方法
【A Feature-space Multimodal Data Augmentation Technique for Text-video Retrieval】 【Code】
NeurIPS 2022
- NeurIPS2022 | SegNeXt,重新思考卷积注意力设计
【SegNeXt: Rethinking Convolutional Attention Design for Semantic Segmentation】 【Code】
ICLR 2022
- ICLR22 | 将Anchor box重新引入DETR,提供query可解释性并加速收敛
【DAB-DETR: Dynamic Anchor Boxes are Better Queries for DETR】
TPAMI 2022
CBMI 2022
- CBMI 2022 | 蒸馏细粒度对齐分数以实现高效的图文匹配和检索
【ALADIN: Distilling Fine-grained Alignment Scores for Efficient Image-Text Matching and Retrieval】
ECCV 2022
-
ECCV2022 Oral | 任务范式大统一,微软提出UniTAB用Seq2Seq模式统一多模态任务!
【UniTAB: Unifying Text and Box Outputs for Grounded Vision-Language Modeling】 -
ECCV2022 Oral | MaskCLIP
【Extract Free Dense Labels from CLIP】 -
ECCV2022|合工大&商汤&澳国大提出新任务和数据集,用于分割视频中发出声音的物体!
【Audio−Visual Segmentation】 -
ECCV2022 | 人大提出轻量级基于注意力的特征融合机制,在多个公开数据集上有效!代码已开源!
【Lightweight Attentional Feature Fusion: A New Baseline for Text-to-Video Retrieval】 【Code】 -
ECCV2022 Oral | 任务范式大统一,微软提出UniTAB用Seq2Seq模式统一多模态任务!
【UniTAB: Unifying Text and Box Outputs for Grounded Vision-Language Modeling】 -
ECCV2022 | 时尚领域的多模态预训练预训练模型FashionViL,在五个下游任务中SOTA!代码已开源!
【FashionViL: Fashion-Focused Vision-and-Language Representation Learning】 【Code】 -
ECCV22|只能11%的参数就能优于Swin,微软提出快速预训练蒸馏方法TinyViT
【TinyViT: Fast Pretraining Distillation for Small Vision Transformers】 -
ECCV2022 | RU&谷歌提出用CLIP进行zero-shot目标检测!
【Exploiting Unlabeled Data with Vision and Language Models for Object Detection】
CVPR 2022
-
CVPR2022|比VinVL快一万倍!人大提出交互协同的双流视觉语言预训练模型COTS,又快又好!
【COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for Cross-Modal Retrieval】 -
CVPR2022 | 中科大&华为提出用于非对称图像检索的上下文相似性蒸馏
【Contextual Similarity Distillation for Asymmetric Image Retrieval】 -
CVPR22 Oral|通过多尺度token聚合分流自注意力,代码已开源
【Shunted Self-Attention via Multi-Scale Token Aggregation】
AAAI 2022
ArXiv 2022
-
多边形战士模型!微软提出19亿参数的超大通用模型BEIT-3,刷榜多个CV和多模态任务!
【Image as a Foreign Language: BEIT Pretraining for All Vision and Vision-Language Tasks】 -
超越所有MIM模型的BEiT v2来了!微软使用矢量量化视觉Tokenizers的掩码图像建模!
【BEIT V2: Masked Image Modeling with Vector-Quantized Visual Tokenizers】 -
何恺明团队提出探索用于目标检测的不分层ViT Backbone
【Exploring Plain Vision Transformer Backbones for Object Detection】 -
数据标注太昂贵?这个方法可以用有限的数据训练模型实现基于文本的ReID!
【Text-Based Person Search with Limited Data】 -
南信大提出TIPCB,一个简单但有效的用于基于文本的人员搜索的基于部分的卷积baseline
【TIPCB: A Simple but Effective Part-based Convolutional Baseline for Text-based Person Search】 -
兼顾Accuracy和Diversity!用于Image Captioning的变分Transformer模型!
【Variational Transformer: A Framework Beyond the Trade-off between Accuracy and Diversity for Image Captioning】
ICLR 2021
- 动态卷积效率低?UCSD&微软用矩阵分解的方法解决了这个问题,性能还更高!(ICLR2021)
【Revisiting Dynamic Convolution via Matrix Decomposition】
NeurIPS2021
Transformer
-
NeurIPS2021-《HRFormer》-HRNet又出续作啦!国科大&北大&MSRA提出高分辨率Transformer,代码已开源!
【HRFormer: High-Resolution Transformer for Dense Prediction】 -
NeurIPS2021-ViT现在可以做目标检测任务啦!华科提出目标检测新方法YOLOS
【You Only Look at One Sequence: Rethinking Transformer in Vision through Object Detection】 -
NeurIPS2021-没有残差连接的ViT准确率只有0.15%!!!北大&华为提出用于Vision Transformer的Augmented Shortcuts,涨点显著!
【Augmented Shortcuts for Vision Transformers】 -
NeurIPS2021- Transformer部署难?北大&华为诺亚提出Vision Transformer的后训练量化方法
【Post-Training Quantization for Vision Transformer】 -
Multi-Scale Densenet续作?动态ViT
【Not All Images are Worth 16x16 Words: Dynamic Vision Transformers with Adaptive Sequence Length】 -
微软新作Focal Self-Attention:具备Local和Global交互能力的Transformer
【Focal Self-attention for Local-Global Interactions in Vision Transformers】 -
显著提高Transformer在小规模数据集的性能,特伦托大学&腾讯提出新的损失函数,涨点显著!(NeurIPS2021)
【Efficient Training of Visual Transformers with Small-Size Datasets】 -
ImageNet准确率超过90%!谷歌大脑开源V-MoE,用稀疏条件计算来训练目前最大的视觉模型!(NeurIPS 2021)
【Scaling Vision with Sparse Mixture of Experts】
多模态
-
NeurIPS2021-《MBT》-多模态数据怎么融合?谷歌提出基于注意力瓶颈的方法,简单高效还省计算量
【Attention Bottlenecks for Multimodal Fusion】 -
NeurIPS2021-快来刷榜吧!微软提出新的视频多模态benchmark,同时包含检索、caption、QA等多个任务!
【VALUE: A Multi-Task Benchmark for Video-and-Language Understanding Evaluation】 -
NeurIPS 2021-《ALBEF》-先对齐再融合,Salesforce Research提出ALBEF,用动量蒸馏进行多模态表示学习!多个下游任务性能SOTA!
【Align before Fuse: Vision and Language Representation Learning with Momentum Distillation】
动态网络
- NeurIPS2021-用多大分辨率的图像做分类更适合?浙大&华为&国科大提出Dynamic Resolution Network,降低计算量还能提性能!
【Dynamic Resolution Network】
其他
- MoCo不适用于目标检测?MSRA提出对象级对比学习的目标检测预训练方法SoCo!性能SOTA!(NeurIPS 2021)
【Aligning Pretraining for Detection via Object-Level Contrastive Learning】
ACL2021
- 扔掉目标检测器,实现真正的端到端多模态预训练!阿里提出E2E-VLP(ACL2021)
【E2E-VLP: End-to-End Vision-Language Pre-training Enhanced by Visual Learning】
ICCV2021
多模态(Multi-Modal)
-
ICCV2021 | 你以为这是一个填色模型?其实我是检索模型!
【LapsCore: Language-guided Person Search via Color Reasoning】 -
ICCV2021 Oral-MDETR:图灵奖得主Yann LeCun的团队&Facebook提出端到端多模态理解的目标检测器
【MDETR -- Modulated Detection for End-to-End Multi-Modal Understanding】 -
ICCV2021-NTU用多样性的query生成,涨点基于文本的实例分割(已开源)
【Vision-Language Transformer and Query Generation for Referring Segmentation】 -
ICCV2021-如何高效视频定位?北大&Adobe&QMUL强强联手提出弱监督CRM,性能SOTA
【Cross-Sentence Temporal and Semantic Relations in Video Activity Localisation】 -
ICCV2021-TACo-微软&CMU提出Token感知的级联对比学习方法,在视频文本对齐任务上“吊打”其他SOTA方法
【TACo: Token-aware Cascade Contrastive Learning for Video-Text Alignment】 -
ICCV2021 Oral-新任务!新数据集!康奈尔大学提出了类似VG但又不是VG的PVG任务
【Who’s Waldo? Linking People Across Text and Images】 -
ICCV2021-新任务!NTU&港中文提出以对话的方式进行细粒度的图片编辑 【Talk-to-Edit: Fine-Grained Facial Editing via Dialog】
-
ICCV2021-用DETR的方法做Dense Video Captioning!港大&南科大提出端到端PDVC,简化训练流程。 【End-to-End Dense Video Captioning with Parallel Decoding】
-
ICCV2021-北大&FAIR&自动化所&快手提出基于动量对比学习的层次Transformer——HiT,用于视频文本检索!代码已开源!
【HiT: Hierarchical Transformer with Momentum Contrast for Video-Text Retrieval】 -
ICCV2021 视频领域的纯Transformer方案!谷歌提出ViViT,在多个视频分类基准上SOTA!代码已开源!
【ViViT: A Video Vision Transformer】 -
Transformer开始往动态路由的方向前进了!厦大&华为提出TRAR,在VQA、REC上性能SOTA!(ICCV 2021)
【TRAR: Routing the Attention Spans in Transformer for Visual Question Answering】
对比学习(Contrastive Learning)
- ICCV2021-DetCo:性能优于何恺明等人提出的MoCo v2,为目标检测定制任务的对比学习。
【DetCo: Unsupervised Contrastive Learning for Object Detection】
可解释性(Interpretability)
-
ICCV2021 Oral-TAU&Facebook提出了通用的Attention模型可解释性
【Generic Attention-model Explainability for Interpreting Bi-Modal and Encoder-Decoder Transformers】 -
ICCV2021 -为什么深度学习模型能够分类正确?SCOUTER能够“正”“反”两个方面说服你。
【SCOUTER: Slot Attention-based Classifier for Explainable Image Recognition】
主干网络(Backbone,CNN,Transformer)
-
ICCV2021-iRPE-还在魔改Transformer结构吗?微软&中山大学提出超强的图片位置编码,涨点显著
【Rethinking and Improving Relative Position Encoding for Vision Transformer】 -
ICCV2021 | 池化操作不是CNN的专属,Vision Transformer说:“我也可以”;南大提出池化视觉Transformer(PiT)
【Rethinking Spatial Dimensions of Vision Transformers】 -
ICCV2021 | CNN+Transformer=Better,国科大&华为&鹏城实验室 出Conformer,84.1% Top-1准确率
【Conformer: Local Features Coupling Global Representations for Visual Recognition】 -
ICCV2021 | MicroNets-更小更快更好的MicroNet,三大CV任务都秒杀MobileNetV3
【MicroNet: Improving Image Recognition with Extremely Low FLOPs】 -
ICCV2021-MIT-IBM AI Lab开源CrossViT,Transformer开始走向多分支、多尺度(附目前多尺度ViT的异同点对比)
【CrossViT: Cross-Attention Multi-Scale Vision Transformer for Image Classification】
多任务(Multi-Task)
-
ICCV2021-MuST-还在特定任务里为刷点而苦苦挣扎?谷歌的大佬们都已经开始玩多任务训练了
【Multi-Task Self-Training for Learning General Representations】 -
ICCV2021-CV多任务新进展!一节更比三节强的MultiTask CenterNet,用一个网络同时完成目标检测、语义分割和人体姿态估计三个任务
【MultiTask-CenterNet (MCN): Efficient and Diverse Multitask Learning using an Anchor Free Approach】
数据增强
-
ICCV 2021|“白嫖”性能的MixMo,一种新的数据增强or模型融合方法
【MicroNet: Improving Image Recognition with Extremely Low FLOPs】 -
ICCV2021 Oral-简单高效的数据增强!华为提出了一种简单的鲁棒目标检测自适应方法
【SimROD: A Simple Adaptation Method for Robust Object Detection】
其他
-
ICCV'21 Oral|拒绝调参,显著提点!检测分割任务的新损失函数RS Loss开源
【Rank & Sort Loss for Object Detection and Instance Segmentation】 -
ICCV21 | 大道至简,仅需4行代码提升多标签分类性能! 南大提出Residual Attention
【Residual Attention: A Simple but Effective Method for Multi-Label Recognition】 -
ICCV2021 Oral-UNO-用于Novel Class Discovery 的统一目标函数,简化训练流程!已开源!
【A Unified Objective for Novel Class Discovery】 -
ICCV2021-别魔改网络了,模型精度不高,是你Resize的方法不够好!Google提出基于DL的调整器模型学习更好的Resize方法
【Learning to Resize Images for Computer Vision Tasks】 -
ICCV2021-《GroupFormer》-商汤&港理工提出基于聚类的联合建模时空关系的GroupFormer用于解决群体活动识别问题,性能SOTA
【GroupFormer: Group Activity Recognition with Clustered Spatial-Temporal Transformer】 -
ICCV2021-去除冗余token的DETR效果怎么样?NUS颜水成大佬团队给出了答案!
【PnP-DETR: Towards Efficient Visual Analysis with Transformers】 -
ICCV2021-还在用大量数据暴力train模型?主动学习,教你选出数据集中最有价值的样本
【Active Learning for Deep Object Detection via Probabilistic Modeling】 -
ICCV2021-比MoCo更通用的对比学习范式,中科大&MSRA提出对比学习新方法MaskCo
【Self-Supervised Visual Representations Learning by Contrastive Mask Prediction】
ACM MM2021
主干网络(Backbone,CNN,Transformer)
-
ACM MM2021-还在用ViT的16x16 Patch分割方法吗?中科院自动化所提出Deformable Patch-based方法,涨点显著!
【DPT: Deformable Patch-based Transformer for Visual Recognition】 -
ACMMM 2021-多模态宝藏!京东梅涛团队重磅开源第一个适用于多个任务的多模态代码库x-modaler!
【X-modaler: A Versatile and High-performance Codebase for Cross-modal Analytics】 -
ACMMM 2021-性能SOTA!用GNN和GAN的方式来强化Video Captioning的学习!
【Discriminative Latent Semantic Graph for Video Captioning】
多模态
-
ACM MM2021-从局部到整体的检索!阿里提出用于视频文本检索的分层对齐网络HANet!代码已开源!
【HANet: Hierarchical Alignment Networks for Video-Text Retrieval】 -
CLIP还能做视频字幕任务!腾讯&清华提出CLIP4Caption,ACM MM2021挑战赛第二名!
【CLIP4Caption: CLIP for Video Caption】
ICML2021
预训练(pre-train)
-
ICML2021-《ALIGN》-大力出奇迹,谷歌用18亿的图像-文本对训练了一个这样的模型。
【Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision】 -
追求极致速度,极简多模态预训练模型ViLT,推理速度比UNITER快60倍!(ICML2021)
【ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision】
CVPR2021
多模态(Multi-Modal)
-
Less is More-CVPR2021最佳学生论文提名
【Less is More: CLIPBERT for Video-and-Language Learning via Sparse Sampling】 -
CVPR2021-RSTNet:自适应Attention的“看图说话”模型
【RSTNet: Captioning With Adaptive Attention on Visual and Non-Visual Words】 -
CVPR2021 Oral《Seeing Out of the Box》北科大&中山大学&微软提出端到端视觉语言表征预训练方法
【Seeing Out of the Box: End-to-End Pre-Training for Vision-Language Representation Learning】 -
CVPR2021-开放式的Video Captioning,中科院自动化所提出基于“检索-复制-生成”的网络
【Open-book Video Captioning with Retrieve-Copy-Generate Network】 -
CVPR2021-多模态任务新进展!哥大&Facebook提出VX2TEXT模型,实现了“视频+X”到“文本”的任务
【VX2TEXT: End-to-End Learning of Video-Based Text Generation From Multimodal Inputs】 -
CVPR2021-人大提出新模型,将Two Stage的Video Paragraph Captioning变成One Stage,性能却没下降
【Towards Diverse Paragraph Captioning for Untrimmed Videos】 -
CVPR2021-用更好的目标检测器提取视觉特征!微软提出VinVL,基于更好的视觉特征,达到更强的多模态性能。
【VinVL: Revisiting Visual Representations in Vision-Language Models】 -
CVPR2021 Oral-不再需要后处理步骤!Kakao提出端到端的Human-Object交互检测模型
【HOTR: End-to-End Human-Object Interaction Detection with Transformers】 -
CVPR2021-《T2VLAD》-浙大&百度&悉尼科技提出用局部全局对齐来进行视频文本检索!效果优于MMT!
【T2VLAD: Global-Local Sequence Alignment for Text-Video Retrieval】
主干网络(Backbone,CNN,Transformer)
-
谷歌新作HaloNet:Transformer一作用Self-Attention的方式进行卷积
【Scaling Local Self-Attention for Parameter Efficient Visual Backbones】 -
Involution(附对Involution的思考):港科大、字节跳动、北大提出“内卷”神经网络算子,在CV三大任务上提点明显
【Involution: Inverting the Inherence of Convolution for Visual Recognition】 -
CVPR2021-比CNN和Transformer更好的Backbone?UC Berkeley&Google Research,提出BoTNet,ImageNet上精度达84.7%
【Bottleneck Transformers for Visual Recognition】
目标检测(Detection)
-
CVPR2021 Oral-收敛更快!精度更高!南科大&腾讯微信团队重磅开源无监督预训练的UP-DETR
【UP-DETR: Unsupervised Pre-training for Object Detection with Transformers】 -
CVPR Oral | 谷歌&斯坦福(李飞飞组)提出TIRG,用组合的文本和图像来进行图像检索
【Composing Text and Image for Image Retrieval - An Empirical Odyssey】
SIGIR 2021
多模态(Multi-Modal)
-
SIGIR 2021 最佳学生论文-图像文本检索的动态模态交互建模
【Dynamic Modality Interaction Modeling for Image-Text Retrieval】 -
SimVLM-拒绝各种花里胡哨!CMU&Google提出弱监督极简VLP模型,在多个多模态任务上性能SOTA
【SimVLM: Simple Visual Language Model Pretraining with Weak Supervision】
EMNLP2021
多模态(Multi-Modal)
-
多模态Transformer真的多模态了吗?论多模态Transformer对跨模态的影响
【Vision-and-Language or Vision-for-Language? On Cross-Modal Inflfluence in Multimodal Transformers】 -
EMNLP2021-“Transformer+预训练”再下一城,港科大开源高效的多模态摘要总结网络
【Vision Guided Generative Pre-trained Language Models for Multimodal Abstractive Summarization】
TPAMI
压缩加速
- TPAMI2021-华为诺亚&悉尼大学陶大程团队提出多功能卷积,助力轻量级网络
【Learning Versatile Convolution Filters for Efficient Visual Recognition】
ArXiv
主干网络(Backbone,CNN,Transformer)
-
OutLook Attention:具有局部信息感知能力的ViT
【VOLO: Vision Outlooker for Visual Recognition】 -
CoAtNet:卷积+注意力=???
【CoAtNet: Marrying Convolution and Attention for All Data Sizes】 -
CSWin-T:微软、中科大提出十字形注意力的CSWin Transformer
【CSWin Transformer: A General Vision Transformer Backbone with Cross-Shaped Windows】 -
Circle Kernel:清华黄高团队、康奈尔大学提出圆形卷积,进一步提升卷积结构的性能
【Integrating Circle Kernels into Convolutional Neural Networks】 -
视觉解析器ViP:牛津大学&字节跳动提出Visual Parser,显式建模高级语义信息
【Visual Parser: Representing Part-whole Hierarchies with Transformers】 -
LG-Transformer:全局和局部建模Transformer结构新作
【Local-to-Global Self-Attention in Vision Transformers】 -
CoTNet-重磅开源!京东AI Research提出新的主干网络CoTNet,在CVPR上获得开放域图像识别竞赛冠军
【Contextual Transformer Networks for Visual Recognition】 -
S²-MLPv2-百度提出目前最强的视觉MLP架构,超越MLP-Mixer、Swin Transformer、CycleMLP等,达到83.6% Top-1准确率
【S²-MLPv2: Improved Spatial-Shift MLP Architecture for Vision】 -
更深和更宽的Transformer,那个比较好?NUS团队给出了给出“Go Wider Instead of Deeper”的结论
【Go Wider Instead of Deeper】 -
在目标检测任务上怒涨8.6 AP,微软新作MobileFormer
【Mobile-Former: Bridging MobileNet and Transformer】 -
又简单又好用的Transformer变体!清华&MSRA开源线性复杂度的Fastformer!
【Fastformer: Additive Attention Can Be All You Need】 -
《Visformer》-对视觉任务更友好的Transformer,北航团队开源Visformer!
【Visformer: The Vision-friendly Transformer】 -
《CrossFormer》-简单高效!浙大CAD&腾讯&哥大开源跨尺度的Transformer,显著涨点检测、分割、分类三大CV任务
【CrossFormer: A Versatile Vision Transformer Based on Cross-scale Attention】 -
你见过长得像CNN的MLP吗?UO&UIUC提出了用于视觉任务的层次卷积MLP
【ConvMLP: Hierarchical Convolutional MLPs for Vision】 -
Self-Attention真的是必要的吗?微软&中科大提出Sparse MLP,降低计算量的同时提升性能!
【Sparse MLP for Image Recognition: Is Self-Attention Really Necessary?】 -
目标检测再次革新!图灵奖得主Hinton团队提出Pix2Seq,将Detection变成了Image Captioning
【Pix2seq: A Language Modeling Framework for Object Detection】 -
它来了!轻量、通用、适用于移动设备的Transformer!苹果公司提出了MobileViT
【MobileViT: Light-weight, General-purpose, and Mobile-friendly Vision Transformer】 -
《UFO-ViT》-Transformer可以不需要Softmax?Kakao提出了UFO-ViT,性能高,计算量还小
【UFO-ViT: High Performance Linear Vision Transformer without Softmax】 -
McGill&微软将卷积操作加入到Vision Transformer中,捕获更详细的局部信息!预训练下ImageNet Top-1准确率达到87.7%!代码已开源!
【CvT: Introducing Convolutions to Vision Transformers】
分割(Segmentation)
-
MaskFormer:语义分割、实例分割“大一统”:Facebook&UIUC提出MaskFormer
【Per-Pixel Classification is Not All You Need for Semantic Segmentation】 -
新的通道和空间注意力建模结构Polarized Self-Attention,霸榜COCO人体姿态估计和Cityscapes语义分割
【Polarized Self-Attention: Towards High-quality Pixel-wise Regression】 -
全景分割第一名!南大&港大&NVIDIA提出Panoptic SegFormer,霸榜全景分割
【Panoptic SegFormer】 -
中科院&西交&旷视(孙剑团队)提出用于语义分割的动态路由网络,精确感知多尺度目标,代码已开源!
【Learning Dynamic Routing for Semantic Segmentation】
检测(Detection)
-
《Anchor DETR》-加了Anchor Point能够让DETR又快又好?旷视孙剑团队提出Anchor DETR
【Anchor DETR: Query Design for Transformer-Based Detector】 -
加了Anchor Point能够让DETR又快又好?旷视孙剑大佬团队提出Anchor DETR
【Anchor DETR: Query Design for Transformer-Based Detector】
增量学习(Incremental Learning)
- 让模型实现“终生学习”,佐治亚理工学院提出Data-Free的增量学习
【Always Be Dreaming: A New Approach for Data-Free Class-Incremental Learning】
多模态(Multi-Modal)
-
国科大提出用于VideoQA的跨模态交互时间金字塔Transformer
【Temporal Pyramid Transformer with Multimodal Interaction for Video Question Answering】 -
10亿参数!别只玩GPT,来看看这个已经落地的国产模型BriVL!人大&中科院联手打造第一个大规模多模态中文预训练模型
【WenLan: Bridging Vision and Language by Large-Scale Multi-Modal Pre-Training】 -
CLIP对视觉和语言任务有多大的好处?UC Berkeley&UCLA团队给出了答案!
【How Much Can CLIP Benefit Vision-and-Language Tasks?】 -
消除预训练模型的语言限制!Google提出跨语言的多模态、多任务检索模型MURAL
【MURAL: Multimodal, Multitask Retrieval Across Languages】 -
微软提出VLMO,用“模态混合专家”进行统一的视觉语言预训练!即将开源!
【VLMO: Unifified Vision-Language Pre-Training with Mixture-of-Modality-Experts】
视频(Video)
-
Video Swin Transformer-既Swin Transformer之后,MSRA开源Video Swin Transformer,在视频数据集上SOTA
【Video Swin Transformer】 -
基于时空混合attention的视频Transformer,大幅度降低计算复杂度
【Space-time Mixing Attention for Video Transformer】 -
视频动作识别不是分类问题,而是检索问题?基于CLIP,浙大提出ActionCLIP,用检索的思想做视频动作识别!性能SOTA!代码已开源!
【ActionCLIP: A New Paradigm for Video Action Recognition】
压缩加速
-
DynamicViT-还在用全部token训练ViT?清华&UCLA提出token的动态稀疏化采样,降低inference时的计算量
【DynamicViT: Effificient Vision Transformers with Dynamic Token Sparsifification】 -
加速了DeiT-S 60%+的吞吐量!自动化所&上交&优图提出Evo-ViT,用Slow-Fast的方式更新token
【Evo-ViT: Slow-Fast Token Evolution for Dynamic Vision Transformer】 -
压缩之后神经网络忘记了什么?Google研究员给出了答案
【What Do Compressed Deep Neural Networks Forget?】
动态网络
-
浙大&华为诺亚&西湖大学提出用于目标检测的动态特征金字塔DyFPN,减少40%的FLOPs!
【Dynamic Feature Pyramid Networks for Object Detection】 -
《Dynamic Routing》-中科院&西交&旷视(孙剑团队)提出用于语义分割的动态路由网络,精确感知多尺度目标,代码已开源!
【Learning Dynamic Routing for Semantic Segmentation】 -
普林斯顿大学&英伟达&Facebook提出基于深度神经网络的全动态推理,助力轻量级网络!
【Fully Dynamic Inference with Deep Neural Networks】
多模态检索
-
CLIP再创辉煌!西南交大&MSRA提出CLIP4Clip,进行端到端的视频文本检索!
【CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip Retrieval】 -
腾讯PCG提出CLIP2Video,基于CLIP解决视频文本检索问题,性能SOTA!代码已开源!
【CLIP2Video: Mastering Video-Text Retrieval via Image CLIP】 -
视频预训练界的HERO!微软提出视频-语言全表示预训练模型HERO,代码已开源!
【HERO: Hierarchical Encoder for Video+Language Omni-representation Pre-training】 -
同时利用字幕、音频、视频进行检索!Inria&谷歌提出MMT用于高效跨模态视频检索,代码已开源!
【Multi-modal Transformer for Video Retrieval】 -
《CLIP2TV》-用CLIP和动量蒸馏来做视频文本检索!腾讯提出CLIP2TV,性能SOTA,涨点4.1%!
【CLIP2TV: An Empirical Study on Transformer-based Methods for Video-Text Retrieval】
其他
-
拒绝Prompt Engineering,NTU提出CoOp,自适应学习不同下游任务的Prompt,性能碾压手工设计的Prompt
【Learning to Prompt for Vision-Language Models】 -
深度神经网络其实并不需要那么深!普林斯顿大学&Intel提出ParNet,12层的网络就能达到80%以上的准确率!
【Non-deep Networks】 -
NeurIPS2021-港大&腾讯AI Lab&牛津大学提出CARE,让CNN和Transformer能在对比学习中“互帮互助”!
【Revitalizing CNN Attentions via Transformers in Self-Supervised Visual Representation Learning】 -
FAIR三神Kaiming,Piotr,Ross新作,MAE才是YYDS!仅用ImageNet1K,Top-1准确率87.8%,封神!
【Masked Autoencoders Are Scalable Vision Learners】 -
Swin Transformer V2!MSRA原班人马探究了Swin在超大参数下的拓展!提出了30亿参数版本的Swin Transformer!
【Swin Transformer V2: Scaling Up Capacity and Resolution】 -
《BEIT》-基于图像重建进行预训练!微软提出BEIT,Top-1准确率达86.3%!代码已开源!
【BEIT: BERT Pre-Training of Image Transformers】 -
RANet:MSDNet加强版!清华黄高团队提出分辨率自适应的高效推理网络RANet!
【Resolution Adaptive Networks for Efficient Inference】 -
字节&约翰斯·霍普金斯&上交提出iBOT框架,基于MIM进行自监督训练,在ImageNet-1K上达到86.3%的微调精度!
【iBOT: Image BERT Pre-Training with Online Tokenizer】 -
清华&MBZUAI&CMU&牛津提出DenseCLIP,用上下文感知的提示进行语言引导密集预测!
【DenseCLIP: Language-Guided Dense Prediction with Context-Aware Prompting】 -
微软提出第一个端到端的Video Captioning方法:SWIN BERT,涨点显著!
【SWIN BERT: End-to-End Transformers with Sparse Attention for Video Captioning】 -
用CLIP增强视频语言的理解,在VALUE榜单上SOTA!
【A CLIP-Enhanced Method for Video-Language Understanding】 -
中科大&快手提出多模态交叉注意力模型:MMCA,促进图像-文本多模态匹配!
【Multi-Modality Cross Attention Network for Image and Sentence Matching】 -
《AFTrans》来自ViT的免费午餐!北大&阿里提出用于细粒度视觉识别的自适应注意多尺度融合Transformer
【A free lunch from ViT- Adaptive Attention Multi-scale Fusion Transformer for Fine-grained Visual Recognition】 -
《ELF》即插即用!解决长尾问题!GT&UIUC联合提出基于Early-Exiting的网络框架,涨点并加速!
【ELF: An Early-Exiting Framework for Long-Tailed Classification】 -
SemVLP 单流和双流Transformer哪个好?阿里:我全都要!提出带可插拔模块的Transformer结构
【SemVLP: Vision-Language Pre-training by Aligning Semantics at Multiple Levels】 -
经典重温:FAIR提出SlowFast,用双分支非对称网络处理不同采样率的视频!代码开源!
【SlowFast Networks for Video Recognition】 -
全能型AI!用通用预训练感知模型处理多模态多任务!商汤&西交&港中文提出:Uni-Perceiver
【Uni-Perceiver: Pre-training Unified Architecture for Generic Perception for Zero-shot and Few-shot Tasks】 -
视频数据训练太慢?试试UT-Austin&FAIR提出的多重网格训练,加速4.5倍,还能提点!
【A Multigrid Method for Efficiently Training Video Models】 -
一个既能做CV任务,也能做NLP任务的Transformer模型!谷歌&UCLA提出统一的基础模型
【Towards a Unified Foundation Model: Jointly Pre-Training Transformers on Unpaired Images and Text】 -
图本检索的Zero-Shot超过CLIP模型!FILIP用细粒度的后期交互获得更好的预训练效率。
【FILIP: Fine-grained Interactive Language-Image Pre-Training】 -
Align and Prompt:Salesforce&ANU提出ALPRO,进行细粒度的视频文本对齐!代码已开源!
【Align and Prompt: Video-and-Language Pre-training with Entity Prompts】 -
用不匹配的图文对也能进行多模态预训练?百度提出统一模态的预训练框架:UNIMO(ACL2021)
【UNIMO: Towards Unified-Modal Understanding and Generation via Cross-Modal Contrastive Learning】 -
CPT:刷爆少样本REC任务!清华刘知远团队提出跨模态预训练Prompt Tuning
【CPT: Colorful Prompt Tuning for Pre-trained Vision-Language Models】 -
KD-VLP:知识蒸馏和预训练还能这么结合?上科大&Intel&MSRA提出基于知识蒸馏的端到端多模态预训练模型
【KD-VLP: Improving End-to-End Vision-and-Language Pretraining with Object Knowledge Distillation】 -
又一任务被Transformer攻陷!NVIDIA开源HORST,用Transformer解决早期动作识别和动作预期任务
【Higher Order Recurrent Space-Time Transformer for Video Action Prediction】 -
【经典回顾】静态结构不能满足模型部署性能需求?微软提出动态卷积结构,Top-1准确率提高2.9%!(附复现代码)
【Dynamic Convolution: Attention over Convolution Kernels】 -
VideoCLIP-Facebook&CMU开源视频文本理解的对比学习预训练,性能SOTA!适用于零样本学习!
【VideoCLIP: Contrastive Pre-training for Zero-shot Video-Text Understanding】 -
【经典重温】所有数据无需共享同一个卷积核!谷歌提出条件参数化卷积CondConv(附Pytorch复现代码)
【CondConv: Conditionally Parameterized Convolutions for Efficient Inference】 -
ConvMixer:7行PyTorch代码实现的网络,就能在ImageNet上达到80%+的精度!
【Patches Are All You Need?】 -
Facebook AI&牛津提出带“轨迹注意力”的Video Transformer,在视频动作识别任务中性能SOTA!
【Keeping Your Eye on the Ball: Trajectory Attention in Video Transformers】 -
Score-CAM|用kernel加权解释CNN的预测结果
【Score-CAM: Score-Weighted Visual Explanations for Convolutional Neural Networks】 -
全尺度表示的上下文非局部对齐,南科大&优图提出NAFS解决基于文本的Re ID
【Contextual Non-Local Alignment over Full-Scale Representation for Text-Based Person Search】 -
用GAN的方法来进行图片匹配!休斯顿大学提出用于文本图像匹配的对抗表示学习,消除模态差异!
【Adversarial Representation Learning for Text-to-Image Matching】 -
图灵奖得主LeCun提出让Mask策略也能应用于基于ViT的孪生网络,进行自监督学习!
【Masked Siamese ConvNets】 -
图灵奖得主LeCun提出让Mask策略也能应用于基于ViT的孪生网络,进行自监督学习!
【Masked Siamese ConvNets】 -
ECCV2018 | 大工(卢湖川团队)提出用于图像-文本匹配的深度跨模态投影学习
【Deep Cross-Modal Projection Learning for Image-Text Matching】 -
经典回顾 | 检索任务的经典工作VSE++
【VSE++: Improving Visual-Semantic Embeddings with Hard Negatives】 【Code】 -
还能这么玩?将Prompt Tuning用于细粒度的图像检索!
【Fine-grained Retrieval Prompt Tuning】
多模态ReID
- TIP | 自动化所谭铁牛院士团队提出用带注意力机制的图神经网络GARN,多个数据集上SOTA!
【Learning Aligned Image-Text Representations Using Graph Attentive Relational Network】