تطبيق كشط موقع Yanfaa

تطبيق ويب شامل لكشط موقع Yanfaa باستخدام Crawl4AI مع إدارة المصادقة والجلسات وحفظ الكوكيز.

المميزات

✅ تسجيل الدخول التلقائي مع حفظ الجلسات والكوكيز
✅ كشط شامل لجميع الصفحات المتاحة في الموقع
✅ استخراج جميع أنواع البيانات (HTML, Markdown, الروابط, الصور, الميتاداتا)
✅ حفظ النتائج في تنسيقات متعددة (JSON, HTML, Markdown)
✅ تجنب تكرار الصفحات
✅ معالجة الأخطاء وإعادة المحاولة

المتطلبات

Python 3.8 أو أحدث
pip (مدير حزم Python)

التثبيت

1. استنساخ المشروع أو تحميل الملفات

تأكد من وجود جميع الملفات التالية في مجلد المشروع:

app.py
auth.py
scraper.py
config.py
requirements.txt

2. إنشاء بيئة افتراضية (موصى به)

# على Windows
python -m venv venv
venv\Scripts\activate

# على Linux/Mac
python3 -m venv venv
source venv/bin/activate

3. تثبيت المكتبات المطلوبة

pip install -r requirements.txt

4. تثبيت Playwright Browsers

playwright install chromium

الإعدادات

يمكنك تعديل الإعدادات في ملف config.py:

EMAIL: البريد الإلكتروني لتسجيل الدخول
PASSWORD: كلمة المرور
HEADLESS: False لعرض المتصفح، True للإخفاء
DELAY_BETWEEN_REQUESTS: وقت الانتظار بين طلبات الكشط (بالثواني)
MAX_PAGES_TO_SCRAPE: الحد الأقصى لعدد الصفحات المراد كشطها

الاستخدام

التشغيل الأساسي

python app.py

سير العمل

التحقق من الجلسة: يتحقق التطبيق من وجود كوكيز محفوظة
تسجيل الدخول: إذا لم تكن هناك جلسة محفوظة، يقوم بتسجيل الدخول تلقائياً
- ⚠️ ملاحظة مهمة: قد تحتاج إلى حل reCAPTCHA يدوياً في المتصفح عند أول تسجيل دخول
حفظ الجلسة: يتم حفظ الكوكيز في ملف cookies.json
بدء الكشط: يبدأ التطبيق في كشط جميع الصفحات المتاحة
حفظ النتائج: يتم حفظ جميع النتائج في مجلد output/

ملفات الإخراج

بعد اكتمال العملية، ستجد:

output/
├── scraped_data.json      # ملف JSON شامل بجميع البيانات
└── pages/                 # مجلد يحتوي على صفحات HTML و Markdown
    ├── index.html
    ├── index.md
    └── ...

scraped_data.json

يحتوي على:

عدد الصفحات المكشوطة
قائمة بجميع الروابط الزارعة
بيانات كل صفحة (HTML, Markdown, الروابط, الصور، إلخ)

pages/

يحتوي على:

ملف .html لكل صفحة مكشوطة
ملف .md (Markdown) لكل صفحة مكشوطة

البنية البرمجية

auth.py

إدارة المصادقة والجلسات:

YanfaaAuth: فئة لإدارة تسجيل الدخول
login(): تسجيل الدخول وحفظ الكوكيز
load_cookies(): تحميل الكوكيز المحفوظة
save_cookies(): حفظ الكوكيز في ملف

scraper.py

منطق الكشط:

YanfaaScraper: فئة للكشط الشامل
scrape_page(): كشط صفحة واحدة
scrape_site(): كشط تلقائي لجميع الصفحات
scrape_multiple_pages(): كشط صفحات محددة

app.py

التطبيق الرئيسي:

دالة main() التي تنسق بين المصادقة والكشط
معالجة الأخطاء وعرض الإحصائيات

config.py

الإعدادات المركزية:

بيانات تسجيل الدخول
مسارات الملفات
إعدادات المتصفح والكشط

استكشاف الأخطاء

مشكلة: فشل تسجيل الدخول

الحل:

تأكد من صحة بيانات تسجيل الدخول في config.py
تأكد من وجود اتصال بالإنترنت
قد تحتاج إلى حل reCAPTCHA يدوياً (قم بتعيين HEADLESS = False في config.py)

مشكلة: خطأ في تثبيت Playwright

الحل:

playwright install --help
playwright install chromium

مشكلة: بطء في الكشط

الحل:

قلل قيمة MAX_PAGES_TO_SCRAPE في config.py
زد قيمة DELAY_BETWEEN_REQUESTS لتقليل الضغط على الخادم

مشكلة: صفحات لم يتم كشطها

الحل:

تحقق من أن الصفحات قابلة للوصول بدون تسجيل دخول إضافي
تأكد من أن الكوكيز لم تنته صلاحيتها (قم بإعادة تسجيل الدخول)

ملاحظات مهمة

احترم شروط الاستخدام: تأكد من الامتثال لشروط استخدام موقع Yanfaa
لا تسيء الاستخدام: استخدم التطبيق بشكل مسؤول وبدون إرهاق الخادم
الكوكيز: ملف cookies.json يحتوي على بيانات حساسة - لا تشاركه مع أحد
reCAPTCHA: قد تحتاج إلى حل reCAPTCHA يدوياً في أول مرة

الترخيص

هذا المشروع للأغراض التعليمية فقط. استخدمه بشكل مسؤول واحترم حقوق الموقع.

المساهمة

للإبلاغ عن مشاكل أو اقتراح تحسينات، يرجى فتح issue في المستودع.

الدعم

إذا واجهت أي مشاكل:

تحقق من قسم "استكشاف الأخطاء" أعلاه
تأكد من تثبيت جميع المتطلبات بشكل صحيح
تحقق من سجلات الأخطاء في وحدة التحكم

تم التطوير باستخدام:

Crawl4AI - مكتبة الكشط الرئيسية
Playwright - محرك المتصفح
Python 3.8+

Name		Name	Last commit message	Last commit date
Latest commit History 2 Commits
output		output
.gitignore		.gitignore
FULL_AUTO_DOWNLOAD_GUIDE.md		FULL_AUTO_DOWNLOAD_GUIDE.md
PROXY_SETUP_SUMMARY.md		PROXY_SETUP_SUMMARY.md
README.md		README.md
app.py		app.py
auth.py		auth.py
auto_click_all_lessons.py		auto_click_all_lessons.py
auto_click_lessons_extract_ids.py		auto_click_lessons_extract_ids.py
auto_extract_all_lessons.py		auto_extract_all_lessons.py
auto_extract_all_videos.py		auto_extract_all_videos.py
auto_open_all_lessons.py		auto_open_all_lessons.py
capture_videos_from_browser.py		capture_videos_from_browser.py
click_all_lessons.py		click_all_lessons.py
collect_all_video_ids_from_api.py		collect_all_video_ids_from_api.py
complete_extract_and_download.py		complete_extract_and_download.py
config.py		config.py
continue_scraping_videos.py		continue_scraping_videos.py
dashboard.py		dashboard.py
download_all_lessons.py		download_all_lessons.py
download_all_parallel_turbo.py		download_all_parallel_turbo.py
download_from_browser.py		download_from_browser.py
download_hls_direct.py		download_hls_direct.py
download_videos_from_network.py		download_videos_from_network.py
download_videos_now.py		download_videos_now.py
download_videos_optimized.py		download_videos_optimized.py
download_videos_using_yanfaa_api.py		download_videos_using_yanfaa_api.py
download_videos_with_api.py		download_videos_with_api.py
download_with_ytdlp_final.py		download_with_ytdlp_final.py
extract_all_29_videos.py		extract_all_29_videos.py
extract_all_video_ids.py		extract_all_video_ids.py
extract_all_video_ids_auto.py		extract_all_video_ids_auto.py
extract_all_video_ids_browser.py		extract_all_video_ids_browser.py
extract_all_video_ids_from_api.py		extract_all_video_ids_from_api.py
extract_all_videos_final.py		extract_all_videos_final.py
extract_all_videos_from_courses_endpoint.py		extract_all_videos_from_courses_endpoint.py
extract_and_download_all_turbo.py		extract_and_download_all_turbo.py
extract_and_download_hls.py		extract_and_download_hls.py
extract_and_save_video_id.py		extract_and_save_video_id.py
extract_video_ids.py		extract_video_ids.py
extract_video_ids_from_browser_network.py		extract_video_ids_from_browser_network.py
extract_video_ids_from_network.py		extract_video_ids_from_network.py
extract_videos_from_browser.py		extract_videos_from_browser.py
extract_videos_js.py		extract_videos_js.py
extract_videos_with_browser_automation.py		extract_videos_with_browser_automation.py
find_and_click_all_lessons.py		find_and_click_all_lessons.py
full_auto_download.py		full_auto_download.py
get_all_lessons_from_api.py		get_all_lessons_from_api.py
get_all_videos.py		get_all_videos.py
get_course_videos.py		get_course_videos.py
get_videos_from_browser.py		get_videos_from_browser.py
open_all_lessons.js		open_all_lessons.js
open_all_lessons.py		open_all_lessons.py
proxy_helper.py		proxy_helper.py
requirements.txt		requirements.txt
save_cookies_session.py		save_cookies_session.py
scan_all_video_ids.py		scan_all_video_ids.py
scan_all_video_ids_api.py		scan_all_video_ids_api.py
scan_video_ids_for_course.py		scan_video_ids_for_course.py
scrape_all_28_lessons.py		scrape_all_28_lessons.py
scrape_all_lessons_browser.py		scrape_all_lessons_browser.py
scrape_course_lessons.py		scrape_course_lessons.py
scraper.py		scraper.py
test_all_lessons.py		test_all_lessons.py
test_proxy.py		test_proxy.py
test_proxy_playwright.py		test_proxy_playwright.py
test_scraping_with_proxy.py		test_scraping_with_proxy.py
test_streamlit.py		test_streamlit.py
update_extracted_ids.py		update_extracted_ids.py
update_video_ids_from_network.py		update_video_ids_from_network.py

Folders and files

Latest commit

History

Repository files navigation

تطبيق كشط موقع Yanfaa

المميزات

المتطلبات

التثبيت

1. استنساخ المشروع أو تحميل الملفات

2. إنشاء بيئة افتراضية (موصى به)

3. تثبيت المكتبات المطلوبة

4. تثبيت Playwright Browsers

الإعدادات

الاستخدام

التشغيل الأساسي

سير العمل

ملفات الإخراج

scraped_data.json

pages/

البنية البرمجية

auth.py

scraper.py

app.py

config.py

استكشاف الأخطاء

مشكلة: فشل تسجيل الدخول

مشكلة: خطأ في تثبيت Playwright

مشكلة: بطء في الكشط

مشكلة: صفحات لم يتم كشطها

ملاحظات مهمة

الترخيص

المساهمة

الدعم

About

Topics

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages