โมเดลการจำแนกภาพที่เราได้ศึกษาไปก่อนหน้านี้จะรับภาพและให้ผลลัพธ์เป็นหมวดหมู่ เช่น คลาส 'ตัวเลข' ในปัญหา MNIST อย่างไรก็ตาม ในหลายกรณีเราไม่ได้ต้องการแค่รู้ว่าภาพนั้นมีวัตถุอะไรบ้าง แต่เราต้องการทราบตำแหน่งที่แน่นอนของวัตถุเหล่านั้นด้วย ซึ่งนี่คือจุดประสงค์ของ การตรวจจับวัตถุ
ภาพจาก เว็บไซต์ YOLO v2
สมมติว่าเราต้องการค้นหาแมวในภาพ วิธีการพื้นฐานที่ง่ายที่สุดสำหรับการตรวจจับวัตถุอาจเป็นดังนี้:
- แบ่งภาพออกเป็นหลายๆ ส่วน
- ใช้การจำแนกภาพในแต่ละส่วน
- ส่วนที่มีการกระตุ้นสูงพอสมควรสามารถพิจารณาได้ว่ามีวัตถุที่เราต้องการอยู่
ภาพจาก สมุดบันทึกการฝึกฝน
อย่างไรก็ตาม วิธีนี้ยังไม่เหมาะสม เพราะมันทำให้การระบุตำแหน่งกรอบของวัตถุไม่แม่นยำมากนัก หากต้องการตำแหน่งที่แม่นยำยิ่งขึ้น เราจำเป็นต้องใช้ การถดถอย (regression) เพื่อทำนายพิกัดของกรอบวัตถุ และสำหรับสิ่งนี้ เราต้องการชุดข้อมูลเฉพาะ
บทความนี้ มีการแนะนำเบื้องต้นเกี่ยวกับการตรวจจับรูปร่างที่เข้าใจง่าย
คุณอาจพบชุดข้อมูลต่อไปนี้สำหรับงานนี้:
- PASCAL VOC - 20 คลาส
- COCO - Common Objects in Context. มี 80 คลาส, กรอบวัตถุ และหน้ากากการแบ่งส่วน
ในขณะที่การจำแนกภาพสามารถวัดผลได้ง่ายว่าประสิทธิภาพของอัลกอริทึมเป็นอย่างไร สำหรับการตรวจจับวัตถุ เราต้องวัดทั้งความถูกต้องของคลาส และความแม่นยำของตำแหน่งกรอบวัตถุที่คาดการณ์ได้ สำหรับอย่างหลัง เราใช้ตัวชี้วัดที่เรียกว่า Intersection over Union (IoU) ซึ่งวัดว่าพื้นที่สองส่วน (หรือพื้นที่ใดๆ) ซ้อนทับกันได้ดีเพียงใด
รูปที่ 2 จาก บทความที่ยอดเยี่ยมเกี่ยวกับ IoU
แนวคิดง่ายๆ คือ เราแบ่งพื้นที่ที่ซ้อนทับกันระหว่างสองรูปด้วยพื้นที่รวมของทั้งสองรูป สำหรับพื้นที่ที่เหมือนกัน IoU จะเท่ากับ 1 ในขณะที่พื้นที่ที่ไม่ซ้อนทับกันเลย IoU จะเท่ากับ 0 ในกรณีอื่นๆ ค่า IoU จะอยู่ระหว่าง 0 ถึง 1 โดยปกติเราจะพิจารณาเฉพาะกรอบวัตถุที่มีค่า IoU สูงกว่าค่าที่กำหนด
สมมติว่าเราต้องการวัดว่าคลาสของวัตถุ
- พิจารณา Precision-Recall curve ที่แสดงความแม่นยำขึ้นอยู่กับค่าธรณีการตรวจจับ (threshold) (จาก 0 ถึง 1)
- ขึ้นอยู่กับ threshold เราจะได้วัตถุที่ตรวจจับได้มากหรือน้อย และค่าความแม่นยำและการเรียกคืนที่แตกต่างกัน
- กราฟจะมีลักษณะดังนี้:
ภาพจาก NeuroWorkshop
ค่า Average Precision สำหรับคลาส
เราจะพิจารณาเฉพาะการตรวจจับที่มีค่า IoU สูงกว่าค่าที่กำหนด ตัวอย่างเช่น ในชุดข้อมูล PASCAL VOC มักจะกำหนด
ภาพจาก NeuroWorkshop
ตัวชี้วัดหลักสำหรับการตรวจจับวัตถุเรียกว่า Mean Average Precision หรือ mAP ซึ่งเป็นค่า Average Precision ที่เฉลี่ยในทุกคลาสของวัตถุ และบางครั้งยังเฉลี่ยในค่าของ
มีสองกลุ่มใหญ่ของอัลกอริทึมการตรวจจับวัตถุ:
- Region Proposal Networks (R-CNN, Fast R-CNN, Faster R-CNN) แนวคิดหลักคือการสร้าง Regions of Interests (ROI) และใช้ CNN กับ ROI เหล่านั้นเพื่อค้นหาการกระตุ้นสูงสุด วิธีนี้คล้ายกับวิธีพื้นฐาน แต่ ROI ถูกสร้างขึ้นอย่างชาญฉลาดมากขึ้น ข้อเสียหลักของวิธีนี้คือช้า เพราะต้องใช้ CNN หลายครั้งกับภาพ
- One-pass (YOLO, SSD, RetinaNet) วิธีการเหล่านี้ออกแบบเครือข่ายให้ทำนายทั้งคลาสและ ROI ในครั้งเดียว
R-CNN ใช้ Selective Search เพื่อสร้างโครงสร้างลำดับชั้นของ ROI ซึ่งจะถูกส่งผ่าน CNN เพื่อดึงคุณลักษณะ และใช้ SVM-classifiers เพื่อกำหนดคลาสของวัตถุ และการถดถอยเชิงเส้นเพื่อกำหนดพิกัดของ กรอบวัตถุ เอกสารอย่างเป็นทางการ
ภาพจาก van de Sande et al. ICCV’11
ภาพจาก บทความนี้
วิธีนี้คล้ายกับ R-CNN แต่ ROI ถูกกำหนดหลังจากที่เลเยอร์คอนโวลูชันถูกประยุกต์ใช้แล้ว
ภาพจาก เอกสารอย่างเป็นทางการ, arXiv, 2015
แนวคิดหลักของวิธีนี้คือการใช้เครือข่ายประสาทเพื่อทำนาย ROI ที่เรียกว่า Region Proposal Network เอกสาร, 2016
ภาพจาก เอกสารอย่างเป็นทางการ
อัลกอริทึมนี้เร็วกว่าวิธี Faster R-CNN แนวคิดหลักคือ:
- ดึงคุณลักษณะโดยใช้ ResNet-101
- คุณลักษณะถูกประมวลผลโดย Position-Sensitive Score Map วัตถุแต่ละตัวจาก
$C$ คลาสถูกแบ่งออกเป็น$k\times k$ พื้นที่ และเราฝึกให้ทำนายส่วนต่างๆ ของวัตถุ - สำหรับแต่ละส่วนจาก
$k\times k$ พื้นที่ เครือข่ายทั้งหมดจะโหวตให้คลาสของวัตถุ และคลาสที่มีคะแนนโหวตสูงสุดจะถูกเลือก
ภาพจาก เอกสารอย่างเป็นทางการ
YOLO เป็นอัลกอริทึมแบบเรียลไทม์ที่ทำงานในครั้งเดียว แนวคิดหลักคือ:
- ภาพถูกแบ่งออกเป็น
$S\times S$ พื้นที่ - สำหรับแต่ละพื้นที่ CNN ทำนายวัตถุ
$n$ ชนิด, พิกัด กรอบวัตถุ และ ความมั่นใจ=ความน่าจะเป็น * IoU
ภาพจาก เอกสารอย่างเป็นทางการ
- RetinaNet: เอกสารอย่างเป็นทางการ
- การใช้งาน PyTorch ใน Torchvision
- การใช้งาน Keras
- การตรวจจับวัตถุด้วย RetinaNet ในตัวอย่าง Keras
- SSD (Single Shot Detector): เอกสารอย่างเป็นทางการ
เรียนรู้เพิ่มเติมในสมุดบันทึกต่อไปนี้:
ในบทเรียนนี้ คุณได้สำรวจวิธีการต่างๆ ในการตรวจจับวัตถุอย่างรวดเร็ว!
อ่านบทความและสมุดบันทึกเกี่ยวกับ YOLO และลองใช้งานด้วยตัวคุณเอง
- บทความที่ดี ที่อธิบาย YOLO
- เว็บไซต์อย่างเป็นทางการ
- Yolo: การใช้งาน Keras, สมุดบันทึกแบบทีละขั้นตอน
- Yolo v2: การใช้งาน Keras, สมุดบันทึกแบบทีละขั้นตอน
- การตรวจจับวัตถุ โดย Nikhil Sardana
- การเปรียบเทียบอัลกอริทึมการตรวจจับวัตถุที่ดี
- การทบทวนอัลกอริทึม Deep Learning สำหรับการตรวจจับวัตถุ
- การแนะนำทีละขั้นตอนเกี่ยวกับอัลกอริทึมการตรวจจับวัตถุพื้นฐาน
- การใช้งาน Faster R-CNN ใน Python สำหรับการตรวจจับวัตถุ











