VGG-16 هي شبكة حققت دقة بنسبة 92.7% في تصنيف ImageNet top-5 في عام 2014. تحتوي على الهيكل الطبقي التالي:
كما ترى، تتبع VGG هيكل الهرم التقليدي، وهو عبارة عن سلسلة من طبقات الالتفاف والتجميع.
الصورة من Researchgate
ResNet هي عائلة من النماذج التي اقترحتها Microsoft Research في عام 2015. الفكرة الرئيسية لـ ResNet هي استخدام الكتل المتبقية:
الصورة من هذه الورقة البحثية
السبب وراء استخدام المسار الهوية هو جعل الطبقة تتنبأ بالفرق بين نتيجة الطبقة السابقة ومخرجات الكتلة المتبقية - ومن هنا جاء اسم المتبقية. هذه الكتل أسهل بكثير في التدريب، ويمكن بناء شبكات تحتوي على مئات من هذه الكتل (أكثر الأنواع شيوعًا هي ResNet-52، ResNet-101 و ResNet-152).
يمكنك أيضًا التفكير في هذه الشبكة على أنها قادرة على ضبط تعقيدها وفقًا لبيانات المجموعة. في البداية، عندما تبدأ تدريب الشبكة، تكون قيم الأوزان صغيرة، ومعظم الإشارة تمر عبر طبقات الهوية. مع تقدم التدريب وزيادة الأوزان، تزداد أهمية معلمات الشبكة، وتتكيف الشبكة لتلبية القوة التعبيرية المطلوبة لتصنيف الصور التدريبية بشكل صحيح.
معمارية Google Inception تأخذ هذه الفكرة خطوة أبعد، وتبني كل طبقة في الشبكة كمزيج من عدة مسارات مختلفة:
الصورة من Researchgate
هنا، يجب أن نؤكد على دور الالتفافات 1x1، لأنه في البداية قد لا تبدو منطقية. لماذا نحتاج إلى تمرير الصورة عبر مرشح 1x1؟ ومع ذلك، يجب أن تتذكر أن مرشحات الالتفاف تعمل أيضًا مع عدة قنوات عمق (في الأصل - ألوان RGB، وفي الطبقات اللاحقة - قنوات لمرشحات مختلفة)، ويتم استخدام الالتفاف 1x1 لدمج تلك القنوات المدخلة معًا باستخدام أوزان قابلة للتدريب. يمكن أيضًا اعتباره كعملية تقليل (تجميع) على بُعد القناة.
إليك مقالة جيدة حول الموضوع، والورقة الأصلية.
MobileNet هي عائلة من النماذج ذات الحجم الصغير، مناسبة للأجهزة المحمولة. استخدمها إذا كنت تعاني من نقص في الموارد، ويمكنك التضحية بقليل من الدقة. الفكرة الرئيسية وراءها هي ما يسمى الالتفاف القابل للفصل حسب العمق، والذي يسمح بتمثيل مرشحات الالتفاف من خلال تركيب الالتفافات المكانية والالتفاف 1x1 على قنوات العمق. هذا يقلل بشكل كبير من عدد المعلمات، مما يجعل الشبكة أصغر حجمًا، وأسهل في التدريب مع بيانات أقل.
إليك مقالة جيدة عن MobileNet.
في هذه الوحدة، تعلمت المفهوم الرئيسي وراء الشبكات العصبية للرؤية الحاسوبية - الشبكات التلافيفية. المعماريات الواقعية التي تدعم تصنيف الصور، واكتشاف الكائنات، وحتى شبكات توليد الصور كلها تعتمد على CNNs، فقط مع المزيد من الطبقات وبعض الحيل الإضافية في التدريب.
في الدفاتر المرفقة، هناك ملاحظات في الأسفل حول كيفية تحقيق دقة أكبر. قم ببعض التجارب لترى ما إذا كان بإمكانك تحقيق دقة أعلى.
بينما تُستخدم CNNs غالبًا لمهام الرؤية الحاسوبية، فهي عمومًا جيدة في استخراج الأنماط ذات الحجم الثابت. على سبيل المثال، إذا كنا نتعامل مع الأصوات، فقد نرغب أيضًا في استخدام CNNs للبحث عن بعض الأنماط المحددة في الإشارة الصوتية - وفي هذه الحالة ستكون المرشحات أحادية البعد (وتسمى هذه الشبكة 1D-CNN). أيضًا، يتم أحيانًا استخدام 3D-CNN لاستخراج الميزات في الفضاء متعدد الأبعاد، مثل أحداث معينة تحدث في الفيديو - يمكن لـ CNN التقاط أنماط معينة لتغير الميزات مع مرور الوقت. قم ببعض المراجعة والدراسة الذاتية حول المهام الأخرى التي يمكن القيام بها باستخدام CNNs.
في هذا المختبر، يتم تكليفك بتصنيف سلالات مختلفة من القطط والكلاب. هذه الصور أكثر تعقيدًا من مجموعة بيانات MNIST وأعلى في الأبعاد، وهناك أكثر من 10 فئات.



