De beeldclassificatiemodellen die we tot nu toe hebben behandeld, namen een afbeelding en produceerden een categorisch resultaat, zoals de klasse 'nummer' in een MNIST-probleem. Echter, in veel gevallen willen we niet alleen weten dat een afbeelding objecten toont - we willen ook hun exacte locatie bepalen. Dit is precies het doel van objectdetectie.
Afbeelding van YOLO v2 website
Stel dat we een kat op een afbeelding willen vinden, een zeer eenvoudige aanpak voor objectdetectie zou als volgt zijn:
- Verdeel de afbeelding in een aantal tegels.
- Voer beeldclassificatie uit op elke tegel.
- De tegels die een voldoende hoge activatie opleveren, kunnen worden beschouwd als tegels die het betreffende object bevatten.
Afbeelding uit Exercise Notebook
Deze aanpak is echter verre van ideaal, omdat het algoritme de begrenzingskaders van het object slechts zeer onnauwkeurig kan bepalen. Voor een nauwkeurigere locatie moeten we een vorm van regressie uitvoeren om de coördinaten van begrenzingskaders te voorspellen - en daarvoor hebben we specifieke datasets nodig.
Deze blogpost biedt een uitstekende introductie tot het detecteren van vormen.
Je kunt de volgende datasets tegenkomen voor deze taak:
- PASCAL VOC - 20 klassen
- COCO - Common Objects in Context. 80 klassen, begrenzingskaders en segmentatiemaskers
Bij beeldclassificatie is het eenvoudig om te meten hoe goed het algoritme presteert, maar bij objectdetectie moeten we zowel de juistheid van de klasse als de precisie van de voorspelde locatie van het begrenzingskader meten. Voor dat laatste gebruiken we de zogenaamde Intersection over Union (IoU), die meet hoe goed twee kaders (of twee willekeurige gebieden) overlappen.
Figuur 2 uit deze uitstekende blogpost over IoU
Het idee is simpel - we delen het gebied van de overlap tussen twee figuren door het gebied van hun unie. Voor twee identieke gebieden zou IoU 1 zijn, terwijl voor volledig gescheiden gebieden IoU 0 is. Anders varieert het van 0 tot 1. We beschouwen doorgaans alleen die begrenzingskaders waarvoor IoU boven een bepaalde waarde ligt.
Stel dat we willen meten hoe goed een bepaalde klasse van objecten
- Beschouw de Precision-Recall-curve die de nauwkeurigheid toont afhankelijk van een detectiedrempelwaarde (van 0 tot 1).
- Afhankelijk van de drempelwaarde worden meer of minder objecten gedetecteerd in de afbeelding, met verschillende waarden voor precisie en recall.
- De curve ziet er als volgt uit:
Afbeelding van NeuroWorkshop
De gemiddelde precisie voor een bepaalde klasse
We beschouwen alleen die detecties waarvoor IoU boven een bepaalde waarde ligt. Bijvoorbeeld, in de PASCAL VOC-dataset wordt doorgaans
Afbeelding van NeuroWorkshop
De belangrijkste metric voor objectdetectie wordt Gemiddelde Gemiddelde Precisie, of mAP, genoemd. Dit is de waarde van de gemiddelde precisie, gemiddeld over alle objectklassen, en soms ook over
Er zijn twee brede categorieën van objectdetectie-algoritmen:
- Region Proposal Networks (R-CNN, Fast R-CNN, Faster R-CNN). Het belangrijkste idee is om Regions of Interest (ROI) te genereren en CNN eroverheen te laten lopen, op zoek naar maximale activatie. Het lijkt een beetje op de eenvoudige aanpak, met als uitzondering dat ROI's op een slimmere manier worden gegenereerd. Een van de grootste nadelen van dergelijke methoden is dat ze traag zijn, omdat we veel passes van de CNN-classificator over de afbeelding nodig hebben.
- One-pass (YOLO, SSD, RetinaNet) methoden. In deze architecturen ontwerpen we het netwerk om zowel klassen als ROI's in één keer te voorspellen.
R-CNN gebruikt Selective Search om een hiërarchische structuur van ROI-regio's te genereren, die vervolgens door CNN-feature extractors en SVM-classificators worden geleid om de objectklasse te bepalen, en lineaire regressie om de coördinaten van begrenzingskaders te bepalen. Officiële paper
Afbeelding van van de Sande et al. ICCV’11
Afbeeldingen uit deze blog
Deze aanpak lijkt op R-CNN, maar regio's worden gedefinieerd nadat convolutielagen zijn toegepast.
Afbeelding uit de officiële paper, arXiv, 2015
Het belangrijkste idee van deze aanpak is om een neuraal netwerk te gebruiken om ROI's te voorspellen - de zogenaamde Region Proposal Network. Paper, 2016
Afbeelding uit de officiële paper
Dit algoritme is zelfs sneller dan Faster R-CNN. Het belangrijkste idee is als volgt:
- We extraheren features met behulp van ResNet-101.
- Features worden verwerkt door Position-Sensitive Score Map. Elk object uit
$C$ klassen wordt verdeeld in$k\times k$ regio's, en we trainen om delen van objecten te voorspellen. - Voor elk deel uit
$k\times k$ regio's stemmen alle netwerken op objectklassen, en de objectklasse met de meeste stemmen wordt geselecteerd.
Afbeelding uit officiële paper
YOLO is een realtime one-pass algoritme. Het belangrijkste idee is als volgt:
- De afbeelding wordt verdeeld in
$S\times S$ regio's. - Voor elke regio voorspelt CNN
$n$ mogelijke objecten, begrenzingskader-coördinaten en vertrouwen=waarschijnlijkheid * IoU.
Afbeelding uit officiële paper
- RetinaNet: officiële paper
- SSD (Single Shot Detector): officiële paper
Ga verder met leren in het volgende notebook:
In deze les heb je een snelle rondleiding gekregen langs de verschillende manieren waarop objectdetectie kan worden uitgevoerd!
Lees deze artikelen en notebooks over YOLO en probeer ze zelf uit:
- Goede blogpost over YOLO
- Officiële site
- Yolo: Keras-implementatie, stap-voor-stap notebook
- Yolo v2: Keras-implementatie, stap-voor-stap notebook
- Objectdetectie door Nikhil Sardana
- Een goede vergelijking van objectdetectie-algoritmen
- Review van deep learning-algoritmen voor objectdetectie
- Een stapsgewijze introductie tot de basisobjectdetectie-algoritmen
- Implementatie van Faster R-CNN in Python voor objectdetectie











