目前主要还是论文阅读。
Frustratingly Simple Few-Shot Object Detection
背景简介
两大分支Meta-Learning、Fine-tune:
- Meta-Learning指的是通过一个Meta-Learner学习类别无关信息的方法。
- Fine-tune指的是在base类上学习base类信息,然后在few-shot数据上额外学习novel类。
值得注意的是,Meta-Learning很多时候也需要finetune,即先在base类上训练meta-learner,然后在base+novel的few shot dataset上finetune meta-learner。
Fine-tune方法比Meta-Learning方法的区别在于没有Meta-Learner,它所学习的是类别相关的,比如本文采用的“给base fc层增加输出维度”。
方法介绍
方法很简单,使用Faster-RCNN在Base类别上预训练,然后给最后的输出层增加N个维度,对应N个Novel类,再在base+novel的k-shot数据上finetune。
不直接使用FC,而是将FC视作“类别中心”,使用cos相似度来区分类别。
实验
Pascal VOC 在全部类别上测试
k-shot | 1 | 2 | 3 | 5 | 10 |
---|---|---|---|---|---|
mAP | 30.8 | 34.8 | 42.8 | 49.5 | 49.8 |
MS COCO 在Novel类别上测试
k-shot | 10 | 30 |
---|---|---|
AP50 | 10.0 | 13.7 |
AP75 | 9.3 | 13.4 |