MyDataProvider » المدونة » تجريف الويب Wget

تجريف الويب Wget

Wget هو برنامج كمبيوتر مشتق من الويب والحصول على ، والذي يسترد المحتوى من خوادم الويب التي تدعم التنزيل باستخدام HTTP و FTP و HTTPS. يدعم Wget أيضًا الوكلاء وتحويل الروابط لعرض HTML المحلي دون اتصال بالإنترنت. كما أنه يعمل بشكل جيد على اتصال غير مستقر يساعد في الحصول على المستندات حتى يتم استردادها بالكامل. تساعد الخوادم الوكيلة على تخفيف سرعة الاسترداد ، وتوفر الوصول إلى جدران الحماية ، كما تخفف من حمل الشبكة.

نظرًا لأن Wget غير تفاعلي ، فيمكنه العمل بشكل جيد في الخلفية أثناء عدم تسجيل الدخول مما يسمح باسترداد البيانات دون فقد أي معلومات.

أمثلة على كشط ويب Wget

يمكن لـ Wget التعامل مع الكثير من المواقف المعقدة بما في ذلك التنزيلات المتكررة والتنزيلات غير التفاعلية وتنزيلات الملفات الكبيرة وكذلك تنزيلات الملفات المتعددة. ستساعد الأمثلة الواردة أدناه في مراجعة الاستخدامات المختلفة لـ Wget.

  • تنزيل ملفات متعددة

قبل تنزيل ملفات متعددة ، نحتاج إلى إنشاء ملف بجميع عناوين URL ثم استخدام المعلمة "-l" وإدخال عناوين URL باستخدام سطر واحد. سيقوم -l url.txt بتنزيل الملفات المذكورة في عنوان URL واحدًا تلو الآخر.

  • تنزيل ملف في الخلفية

إذا كنت ترغب في تنزيل ونقل ملف ضخم في الخلفية ، يمكنك القيام بذلك باستخدام المعلمة â € ˜-b ثم سيتم حفظ الملف في وضع عدم الاتصال.

  • تحميل ملف واحد

لتنزيل ملف واحد ، نستخدم نواة Nagios في النظام أثناء التنزيل لمعرفة النسبة المئوية المكتملة وعدد الملفات المستخدمة للتنزيل والوقت المتبقي للتنزيل والسرعة الحالية المستخدمة.

  • الحصول على دليل الموقع في ملف HTML

يمكنك معرفة قائمة الدليل من موقع وتخزينها في وضع عدم الاتصال. كل ما تحتاجه هو استخدام هذه الأوامر ؛ Wget FTP URL الذي سيؤدي إلى HTML.

  • أمر للتحقق من إصدار جديد من الملف وإحضاره.

بعد تنزيل الملف ، يمكنك التحقق مع الخادم من أحدث إصدار متاح والمستخدمين للاستفادة من أوامر الطابع الزمني Wget. في بعض الأحيان ، قد يفوتك الطابع الزمني من موقع الويب ولكن لا داعي للقلق لأنه سيؤدي إلى جلب الملف.

  • حد التنزيل إذا كنت غير متأكد من حجم الملف

يساعد هذا عندما لا تكون لديك فكرة عن حجم الملف وفي الغالب لا تكون على اتصال محدود. يمكنك دائمًا التنزيل متى تم إعادة تعيين الحدود. في هذا المثال ، تنبه Q1m إلى أن التنزيل سيتوقف بعد تنزيل 1 ميغابايت من الملف.

  • تنزيل ملف يعيد محاولة الاتصال عدة مرات عند قطع الاتصال

يحدث هذا عند بدء التنزيل ولكن تأكد من اتصال الشبكة وبالتالي أتمتة عمليات إعادة المحاولة باستخدام الأمر الذي يحاول بشكل أساسي التنزيل عن بُعد. يمكن تطبيق Wget - محاولات = 115 <أو URL-of -the - الملف & get.

  • تنزيل ملف يتطلب مجال إحالة محدد

للاستهزاء بمجال الإحالة من خلال تنزيل الملف ، يمكن استخدام الأمر Wget على بعض الملفات الترويجية لتنزيل مجال الإحالة المحدد.

الأمثلة المختصرة المغطاة هي أكثر الأوامر المفيدة التي يمكن استخدامها بسهولة لأمر Wget. هذه أداة برمجية مجانية سهلة الاستخدام.

كيف تكون لطيفًا في الخدمة عند استخدام Wget web Scraper

Wget scraper هو عنكبوت يقشط صفحات الويب. لسوء الحظ ، قد تمنع بعض صفحات الويب هذه العناكب باستخدام سمات ملفات الروبوت. يمكنك إدارة تجاهل الروبوتات بنجاح عن طريق إضافة مفتاح لجميع أوامر Wget الخاصة بك.

إذا كانت صفحات الويب تحظر طلب إلغاء Wget على الويب من خلال النظر في سلسلة الوكيل للمستخدم ، فيجب عليك تزوير ذلك باستخدام مفتاح. على سبيل المثال –user-agent = Mozilla

يؤدي استخدام أداة تجريف الويب Wget إلى زيادة الضغط على خادم موقع الويب