ਜੋ ਇਮੇਜ ਕਲਾਸੀਫਿਕੇਸ਼ਨ ਮਾਡਲਾਂ ਨਾਲ ਅਸੀਂ ਹੁਣ ਤੱਕ ਡੀਲ ਕੀਤਾ ਹੈ, ਉਹ ਇੱਕ ਤਸਵੀਰ ਲੈਂਦੇ ਹਨ ਅਤੇ ਇੱਕ ਸ਼੍ਰੇਣੀਕਰਣ ਨਤੀਜਾ ਪੈਦਾ ਕਰਦੇ ਹਨ, ਜਿਵੇਂ ਕਿ MNIST ਸਮੱਸਿਆ ਵਿੱਚ 'ਨੰਬਰ' ਸ਼੍ਰੇਣੀ। ਹਾਲਾਂਕਿ, ਕਈ ਕੇਸਾਂ ਵਿੱਚ ਅਸੀਂ ਸਿਰਫ ਇਹ ਨਹੀਂ ਜਾਣਨਾ ਚਾਹੁੰਦੇ ਕਿ ਤਸਵੀਰ ਵਿੱਚ ਵਸਤੂਆਂ ਹਨ - ਅਸੀਂ ਇਹ ਵੀ ਜਾਣਨਾ ਚਾਹੁੰਦੇ ਹਾਂ ਕਿ ਉਹਨਾਂ ਦੀ ਸਹੀ ਸਥਿਤੀ ਕੀ ਹੈ। ਇਹੀ ਆਬਜੈਕਟ ਡਿਟੈਕਸ਼ਨ ਦਾ ਮੁੱਖ ਉਦੇਸ਼ ਹੈ।
ਤਸਵੀਰ YOLO v2 ਵੈਬਸਾਈਟ ਤੋਂ
ਮੰਨ ਲਓ ਕਿ ਅਸੀਂ ਇੱਕ ਤਸਵੀਰ ਵਿੱਚ ਬਿੱਲੀ ਨੂੰ ਲੱਭਣਾ ਚਾਹੁੰਦੇ ਹਾਂ, ਤਾਂ ਆਬਜੈਕਟ ਡਿਟੈਕਸ਼ਨ ਲਈ ਇੱਕ ਬਹੁਤ ਹੀ ਸਧਾਰਨ ਪਹੁੰਚ ਇਹ ਹੋਵੇਗੀ:
- ਤਸਵੀਰ ਨੂੰ ਕਈ ਟਾਈਲਾਂ ਵਿੱਚ ਵੰਡੋ।
- ਹਰ ਟਾਈਲ 'ਤੇ ਇਮੇਜ ਕਲਾਸੀਫਿਕੇਸ਼ਨ ਚਲਾਓ।
- ਉਹ ਟਾਈਲਾਂ ਜਿਨ੍ਹਾਂ ਵਿੱਚ ਕਾਫ਼ੀ ਉੱਚੀ ਐਕਟੀਵੇਸ਼ਨ ਹੁੰਦੀ ਹੈ, ਉਹਨਾਂ ਨੂੰ ਉਹ ਵਸਤੂ ਸ਼ਾਮਲ ਕਰਨ ਵਾਲੇ ਮੰਨਿਆ ਜਾ ਸਕਦਾ ਹੈ।
ਤਸਵੀਰ ਐਕਸਰਸਾਈਜ਼ ਨੋਟਬੁੱਕ ਤੋਂ
ਹਾਲਾਂਕਿ, ਇਹ ਪਹੁੰਚ ਆਦਰਸ਼ ਤੋਂ ਦੂਰ ਹੈ, ਕਿਉਂਕਿ ਇਹ ਐਲਗੋਰਿਦਮ ਨੂੰ ਵਸਤੂ ਦੇ ਬਾਊਂਡਿੰਗ ਬਾਕਸ ਨੂੰ ਬਹੁਤ ਹੀ ਅਸਪਸ਼ਟ ਤਰੀਕੇ ਨਾਲ ਸਥਿਤ ਕਰਨ ਦੀ ਆਗਿਆ ਦਿੰਦੀ ਹੈ। ਹੋਰ ਸਹੀ ਸਥਿਤੀ ਲਈ, ਸਾਨੂੰ ਰੇਗ੍ਰੈਸ਼ਨ ਦੀ ਕਿਸੇ ਤਰ੍ਹਾਂ ਦੀ ਲੋੜ ਹੈ ਜੋ ਬਾਊਂਡਿੰਗ ਬਾਕਸ ਦੇ ਕੋਆਰਡੀਨੇਟਸ ਦੀ ਪੇਸ਼ਗੂਈ ਕਰ ਸਕੇ - ਅਤੇ ਇਸ ਲਈ ਸਾਨੂੰ ਵਿਸ਼ੇਸ਼ ਡੇਟਾਸੈਟ ਦੀ ਲੋੜ ਹੈ।
ਇਹ ਬਲੌਗ ਪੋਸਟ ਸ਼ੇਪਸ ਦੀ ਪਛਾਣ ਕਰਨ ਲਈ ਇੱਕ ਵਧੀਆ ਸਧਾਰਨ ਜਾਣਕਾਰੀ ਦਿੰਦੀ ਹੈ।
ਤੁਹਾਨੂੰ ਇਸ ਕੰਮ ਲਈ ਹੇਠਾਂ ਦਿੱਤੇ ਡੇਟਾਸੈਟ ਮਿਲ ਸਕਦੇ ਹਨ:
- PASCAL VOC - 20 ਕਲਾਸਾਂ
- COCO - ਸਧਾਰਨ ਵਸਤੂਆਂ ਸੰਦਰਭ ਵਿੱਚ। 80 ਕਲਾਸਾਂ, ਬਾਊਂਡਿੰਗ ਬਾਕਸ ਅਤੇ ਸੈਗਮੈਂਟੇਸ਼ਨ ਮਾਸਕ
ਜਦੋਂ ਕਿ ਇਮੇਜ ਕਲਾਸੀਫਿਕੇਸ਼ਨ ਲਈ ਇਹ ਮਾਪਣਾ ਆਸਾਨ ਹੈ ਕਿ ਐਲਗੋਰਿਦਮ ਕਿੰਨਾ ਚੰਗਾ ਕੰਮ ਕਰਦਾ ਹੈ, ਆਬਜੈਕਟ ਡਿਟੈਕਸ਼ਨ ਲਈ ਸਾਨੂੰ ਕਲਾਸ ਦੀ ਸਹੀਤਾ ਦੇ ਨਾਲ-साथ ਅਨੁਮਾਨਿਤ ਬਾਊਂਡਿੰਗ ਬਾਕਸ ਸਥਿਤੀ ਦੀ ਸ਼ੁੱਧਤਾ ਨੂੰ ਮਾਪਣਾ ਪੈਂਦਾ ਹੈ। ਇਸ ਲਈ, ਅਸੀਂ ਇੰਟਰਸੈਕਸ਼ਨ ਓਵਰ ਯੂਨੀਅਨ (IoU) ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹਾਂ, ਜੋ ਮਾਪਦਾ ਹੈ ਕਿ ਦੋ ਬਾਕਸ (ਜਾਂ ਦੋ ਮਨਮਾਨੇ ਖੇਤਰ) ਕਿੰਨੇ ਚੰਗੇ ਤਰੀਕੇ ਨਾਲ ਓਵਰਲੈਪ ਕਰਦੇ ਹਨ।
ਫਿਗਰ 2 ਇਹ ਸ਼ਾਨਦਾਰ ਬਲੌਗ ਪੋਸਟ IoU 'ਤੇ ਤੋਂ
ਵਿਚਾਰ ਸਧਾਰਨ ਹੈ - ਅਸੀਂ ਦੋ ਆਕ੍ਰਿਤੀਆਂ ਦੇ ਵਿਚਕਾਰ ਇੰਟਰਸੈਕਸ਼ਨ ਦੇ ਖੇਤਰ ਨੂੰ ਉਹਨਾਂ ਦੇ ਯੂਨੀਅਨ ਦੇ ਖੇਤਰ ਨਾਲ ਵੰਡਦੇ ਹਾਂ। ਦੋ ਇਕਸਾਰ ਖੇਤਰਾਂ ਲਈ, IoU 1 ਹੋਵੇਗਾ, ਜਦੋਂ ਕਿ ਪੂਰੀ ਤਰ੍ਹਾਂ ਅਲੱਗ-ਅਲੱਗ ਖੇਤਰਾਂ ਲਈ ਇਹ 0 ਹੋਵੇਗਾ। ਨਹੀਂ ਤਾਂ ਇਹ 0 ਤੋਂ 1 ਤੱਕ ਵੱਖ-ਵੱਖ ਹੋਵੇਗਾ। ਅਸੀਂ ਆਮ ਤੌਰ 'ਤੇ ਉਹਨਾਂ ਬਾਊਂਡਿੰਗ ਬਾਕਸਾਂ ਨੂੰ ਹੀ ਮੰਨਦੇ ਹਾਂ ਜਿਨ੍ਹਾਂ ਲਈ IoU ਇੱਕ ਨਿਰਧਾਰਿਤ ਮੁੱਲ ਤੋਂ ਵੱਧ ਹੈ।
ਮੰਨ ਲਓ ਕਿ ਅਸੀਂ ਮਾਪਣਾ ਚਾਹੁੰਦੇ ਹਾਂ ਕਿ ਦਿੱਤੀ ਗਈ ਵਸਤੂਆਂ ਦੀ ਸ਼੍ਰੇਣੀ
- ਪ੍ਰਿਸੀਜ਼ਨ-ਰੀਕਾਲ ਕਰਵ ਸਹੀਤਾ ਨੂੰ ਦਿਖਾਉਂਦਾ ਹੈ ਜੋ ਡਿਟੈਕਸ਼ਨ ਥ੍ਰੈਸ਼ਹੋਲਡ ਮੁੱਲ (0 ਤੋਂ 1) 'ਤੇ ਨਿਰਭਰ ਕਰਦਾ ਹੈ।
- ਥ੍ਰੈਸ਼ਹੋਲਡ ਦੇ ਅਧਾਰ 'ਤੇ, ਸਾਨੂੰ ਤਸਵੀਰ ਵਿੱਚ ਹੋਰ ਜਾਂ ਘੱਟ ਵਸਤੂਆਂ ਮਿਲਣਗੀਆਂ, ਅਤੇ ਪ੍ਰਿਸੀਜ਼ਨ ਅਤੇ ਰੀਕਾਲ ਦੇ ਵੱਖ-ਵੱਖ ਮੁੱਲ ਮਿਲਣਗੇ।
- ਕਰਵ ਇਸ ਤਰ੍ਹਾਂ ਦੇਖਾਈ ਦੇਵੇਗਾ:
ਤਸਵੀਰ NeuroWorkshop ਤੋਂ
ਦਿੱਤੀ ਗਈ ਸ਼੍ਰੇਣੀ
ਅਸੀਂ ਸਿਰਫ ਉਹਨਾਂ ਡਿਟੈਕਸ਼ਨ ਨੂੰ ਮੰਨਾਂਗੇ, ਜਿਨ੍ਹਾਂ ਲਈ IoU ਇੱਕ ਨਿਰਧਾਰਿਤ ਮੁੱਲ ਤੋਂ ਵੱਧ ਹੈ। ਉਦਾਹਰਣ ਲਈ, PASCAL VOC ਡੇਟਾਸੈਟ ਵਿੱਚ ਆਮ ਤੌਰ 'ਤੇ
ਤਸਵੀਰ NeuroWorkshop ਤੋਂ
ਆਬਜੈਕਟ ਡਿਟੈਕਸ਼ਨ ਲਈ ਮੁੱਖ ਮੈਟ੍ਰਿਕਸ ਮੀਨ ਐਵਰੇਜ ਪ੍ਰਿਸੀਜ਼ਨ, ਜਾਂ mAP ਕਿਹਾ ਜਾਂਦਾ ਹੈ। ਇਹ ਐਵਰੇਜ ਪ੍ਰਿਸੀਜ਼ਨ ਦਾ ਮੁੱਲ ਹੈ, ਜੋ ਸਾਰੀਆਂ ਵਸਤੂਆਂ ਦੀਆਂ ਸ਼੍ਰੇਣੀਆਂ 'ਤੇ ਐਵਰੇਜ ਕੀਤਾ ਜਾਂਦਾ ਹੈ, ਅਤੇ ਕਈ ਵਾਰ
ਆਬਜੈਕਟ ਡਿਟੈਕਸ਼ਨ ਐਲਗੋਰਿਦਮਾਂ ਦੀਆਂ ਦੋ ਵੱਡੀਆਂ ਸ਼੍ਰੇਣੀਆਂ ਹਨ:
- ਰੀਜਨ ਪ੍ਰੋਪੋਜ਼ਲ ਨੈਟਵਰਕਸ (R-CNN, Fast R-CNN, Faster R-CNN)। ਮੁੱਖ ਵਿਚਾਰ Regions of Interests (ROI) ਪੈਦਾ ਕਰਨਾ ਹੈ ਅਤੇ CNN 'ਤੇ ਚਲਾਉਣਾ ਹੈ, ਵੱਧ ਤੋਂ ਵੱਧ ਐਕਟੀਵੇਸ਼ਨ ਦੀ ਭਾਲ ਕਰਨਾ। ਇਹ ਸਧਾਰਨ ਪਹੁੰਚ ਦੇ ਸਮਾਨ ਹੈ, ਸਿਵਾਏ ਇਸਦੇ ਕਿ ROI ਹੋਰ ਚਤੁਰ ਤਰੀਕੇ ਨਾਲ ਪੈਦਾ ਕੀਤੇ ਜਾਂਦੇ ਹਨ। ਇਸ ਤਰ੍ਹਾਂ ਦੇ ਤਰੀਕਿਆਂ ਦਾ ਇੱਕ ਮੁੱਖ ਨੁਕਸਾਨ ਇਹ ਹੈ ਕਿ ਇਹ ਹੌਲੀ ਹੁੰਦੇ ਹਨ, ਕਿਉਂਕਿ ਸਾਨੂੰ ਤਸਵੀਰ 'ਤੇ CNN ਕਲਾਸੀਫਾਇਰ ਦੇ ਕਈ ਪਾਸੇ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ।
- ਵਨ-ਪਾਸ (YOLO, SSD, RetinaNet) ਤਰੀਕੇ। ਉਹਨਾਂ ਆਰਕੀਟੈਕਚਰਾਂ ਵਿੱਚ ਅਸੀਂ ਨੈਟਵਰਕ ਨੂੰ ਇੱਕ ਪਾਸ ਵਿੱਚ ਕਲਾਸਾਂ ਅਤੇ ROI ਦੀ ਪੇਸ਼ਗੂਈ ਕਰਨ ਲਈ ਡਿਜ਼ਾਈਨ ਕਰਦੇ ਹਾਂ।
R-CNN Selective Search ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ ROI ਖੇਤਰਾਂ ਦੀ ਹਾਇਰਾਰਕੀਕਲ ਸਟ੍ਰਕਚਰ ਪੈਦਾ ਕਰਨ ਲਈ, ਜੋ ਫਿਰ CNN ਫੀਚਰ ਐਕਸਟ੍ਰੈਕਟਰ ਅਤੇ SVM-ਕਲਾਸੀਫਾਇਰਾਂ ਦੁਆਰਾ ਪਾਸ ਕੀਤੇ ਜਾਂਦੇ ਹਨ ਵਸਤੂਆਂ ਦੀ ਸ਼੍ਰੇਣੀ ਨੂੰ ਨਿਰਧਾਰਤ ਕਰਨ ਲਈ, ਅਤੇ ਬਾਊਂਡਿੰਗ ਬਾਕਸ ਕੋਆਰਡੀਨੇਟਸ ਨੂੰ ਨਿਰਧਾਰਤ ਕਰਨ ਲਈ ਲੀਨੀਅਰ ਰੇਗ੍ਰੈਸ਼ਨ। ਆਧਿਕਾਰਿਕ ਪੇਪਰ
ਤਸਵੀਰ ਵੈਨ ਡੇ ਸੈਂਡ ਆਦਿ ICCV’11 ਤੋਂ
ਤਸਵੀਰਾਂ ਇਸ ਬਲੌਗ ਤੋਂ
ਇਹ ਪਹੁੰਚ R-CNN ਦੇ ਸਮਾਨ ਹੈ, ਪਰ ਖੇਤਰ ਕਨਵੋਲੂਸ਼ਨ ਲੇਅਰਾਂ ਦੇ ਲਾਗੂ ਹੋਣ ਤੋਂ ਬਾਅਦ ਨਿਰਧਾਰਤ ਕੀਤੇ ਜਾਂਦੇ ਹਨ।
ਤਸਵੀਰ ਆਧਿਕਾਰਿਕ ਪੇਪਰ, arXiv, 2015 ਤੋਂ
ਇਸ ਪਹੁੰਚ ਦਾ ਮੁੱਖ ਵਿਚਾਰ ROI ਦੀ ਪੇਸ਼ਗੂਈ ਕਰਨ ਲਈ ਨਿਊਰਲ ਨੈਟਵਰਕ ਦੀ ਵਰਤੋਂ ਕਰਨਾ ਹੈ - ਜਿਸਨੂੰ Region Proposal Network ਕਿਹਾ ਜਾਂਦਾ ਹੈ। ਪੇਪਰ, 2016
ਤਸਵੀਰ ਆਧਿਕਾਰਿਕ ਪੇਪਰ ਤੋਂ
ਇਹ ਐਲਗੋਰਿਦਮ Faster R-CNN ਤੋਂ ਵੀ ਤੇਜ਼ ਹੈ। ਮੁੱਖ ਵਿਚਾਰ ਹੇਠਾਂ ਦਿੱਤਾ ਗਿਆ ਹੈ:
- ਅਸੀਂ ResNet-101 ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਫੀਚਰ ਐਕਸਟ੍ਰੈਕਟ ਕਰਦੇ ਹਾਂ।
- ਫੀਚਰ ਪੋਜ਼ੀਸ਼ਨ-ਸੈਂਸਿਟਿਵ ਸਕੋਰ ਮੈਪ ਦੁਆਰਾ ਪ੍ਰੋਸੈਸ ਕੀਤੇ ਜਾਂਦੇ ਹਨ।
$C$ ਕਲਾਸਾਂ ਵਿੱਚੋਂ ਹਰ ਵਸਤੂ ਨੂੰ$k\times k$ ਖੇਤਰਾਂ ਦੁਆਰਾ ਵੰਡਿਆ ਜਾਂਦਾ ਹੈ, ਅਤੇ ਅਸੀਂ ਵਸਤੂਆਂ ਦੇ ਹਿੱਸਿਆਂ ਦੀ ਪੇਸ਼ਗੂਈ ਕਰਨ ਲਈ ਟ੍ਰੇਨਿੰਗ ਕਰਦੇ ਹਾਂ। -
$k\times k$ ਖੇਤਰਾਂ ਵਿੱਚੋਂ ਹਰ ਹਿੱਸੇ ਲਈ ਸਾਰੇ ਨੈਟਵਰਕ ਵਸਤੂਆਂ ਦੀਆਂ ਕਲਾਸਾਂ ਲਈ ਵੋਟ ਕਰਦੇ ਹਨ, ਅਤੇ ਵਧੇਰੇ ਵੋਟ ਵਾਲੀ ਵਸਤੂ ਦੀ ਕਲਾਸ ਚੁਣੀ ਜਾਂਦੀ ਹੈ।
ਤਸਵੀਰ ਆਧਿਕਾਰਿਕ ਪੇਪਰ ਤੋਂ
YOLO ਇੱਕ ਰੀਅਲਟਾਈਮ ਵਨ-ਪਾਸ ਐਲਗੋਰਿਦਮ ਹੈ। ਮੁੱਖ ਵਿਚਾਰ ਹੇਠਾਂ ਦਿੱਤਾ ਗਿਆ ਹੈ:
- ਤਸਵੀਰ ਨੂੰ
$S\times S$ ਖੇਤਰਾਂ ਵਿੱਚ ਵੰਡਿਆ ਜਾਂਦਾ ਹੈ। - ਹਰ ਖੇਤਰ ਲਈ, CNN
$n$ ਸੰਭਾਵਿਤ ਵਸਤੂਆਂ, ਬਾਊਂਡਿੰਗ ਬਾਕਸ ਕੋਆਰਡੀਨੇਟਸ ਅਤੇ ਕਾਨਫਿਡੈਂਸ=ਪ੍ਰੋਬੈਬਿਲਿਟੀ * IoU ਦੀ ਪੇਸ਼ਗੂਈ ਕਰਦਾ ਹੈ।
ਤਸਵੀਰ ਆਧਿਕਾਰਿਕ ਪੇਪਰ ਤੋਂ
- RetinaNet: ਆਧਿਕਾਰਿਕ ਪੇਪਰ
- SSD (Single Shot Detector): ਆਧਿਕਾਰਿਕ ਪੇਪਰ
ਹੇਠਾਂ ਦਿੱਤੇ ਨੋਟਬੁੱਕ ਵਿੱਚ ਆਪਣੀ ਸਿੱਖਿਆ ਜਾਰੀ ਰੱਖੋ:
ਇਸ ਪਾਠ ਵਿੱਚ ਤੁਸੀਂ ਆਬਜੈਕਟ ਡਿਟੈਕਸ਼ਨ ਨੂੰ ਪੂਰਾ ਕਰਨ ਦੇ ਵੱਖ-ਵੱਖ ਤਰੀਕਿਆਂ ਦਾ ਇੱਕ ਤੇਜ਼ ਦੌਰਾ ਕੀਤਾ!
ਇਹ ਲੇਖਾਂ ਅਤੇ ਨੋਟਬੁੱਕਾਂ ਨੂੰ YOLO ਬਾਰੇ ਪੜ੍ਹੋ ਅਤੇ ਉਹਨਾਂ ਨੂੰ ਖੁਦ ਅਜ਼ਮਾਓ:
- YOLO ਬਾਰੇ ਵਧੀਆ ਬਲੌਗ ਪੋਸਟ
- ਆਧਿਕਾਰਿਕ ਸਾਈਟ
- YOLO: Keras ਇੰਪਲੀਮੈਂਟੇਸ਼ਨ, ਸਟੈਪ-ਬਾਈ-ਸਟੈਪ ਨੋਟਬੁੱਕ
- YOLO v2: [Keras ਇੰਪਲੀਮੈਂਟ











