MyDataProvider » المدونة » كشط الويب للصحفيين

كشط الويب للصحفيين

القشط هو الحصول على جهاز كمبيوتر لجمع المعلومات من مواقع ويب متعددة عبر الإنترنت مما يسمح لهم بجمع بيانات كبيرة وهو الطريقة الأكثر فعالية للصحفيين للوصول إلى القصة أولاً والعثور على حصريات لا يمتلكها أي شخص آخر. إنها أيضًا أداة رائعة للصحفيين الذين يعرفون كيفية البرمجة حيث أن المزيد والمزيد من المؤسسات العامة تنشر الآن بياناتها على مواقعها على الويب.

الشرعية

ومع ذلك ، هناك تساؤلات أثيرت حول ماهية البيانات التي يمكن للصحفي الوصول إليها دون خرق القانون أو بدون اختراق "على ما يبدو". هناك خط رفيع جدًا هنا ، ويتم توجيه معظم الصحفيين وفقًا لمدونة قواعد الأخلاق. إنه أيضًا افتراض معقول أنه في الحالات التي تنشر فيها مؤسسة بيانات على موقعها على الويب ، فإن هذا ليس عامًا بالضرورة.

تستضيف الخوادم الحكومية معلومات خاصة عن مواطنيها. الوصول إلى هذا سيكون انتهاكًا لقوانين الخصوصية. هناك خط رفيع جدًا بين القشط والقرصنة ، وهذا هو احترام القانون. لا ينبغي سرقة البيانات المحمية.

إذا لم يكن متاحًا للجمهور ، فلن يكون متاحًا للصحفيين أيضًا. حتى في مثل هذه المهنة المليئة بالحيوية حيث تحطيم القصة التي لم يمتلكها أي شخص آخر ، لا يزال احترام القانون ساريًا.

كشط الويب لأدوات الصحفيين

هناك عدد قليل من أدوات تجريف الويب التي تعتبر مثالية لكشط الويب للصحفيين.

مكشطة

مكشطة هي امتداد Chrome مجاني. الأداة سهلة الاستخدام عندما تحتاج إلى استخراج بيانات عادية من موقع الويب. بعد تنزيل البرنامج وتثبيته في متصفحك ، قم بتمييز موقع الويب الذي تريد إلغاءه. انقر بزر الماوس الأيمن وانقر فوق الزر المشابه. ستظهر نافذة تحتوي على معلومات مشابهة لما حددته.

مكشطة هي أفضل أداة تجريف على الويب لاستخراج نص عادي. لا يمكنك كشط الصور أو الكائنات المعقدة باستخدام الأداة. لا يحصد حجمًا كبيرًا من النص ولكنه سهل الاستخدام والأنسب للمبتدئين. تستخدم الأداة XPath لتحديد المعلومات المطلوب كشطها. باستخدام هذه الأداة ، يمكنك التنقل بسهولة إذا كانت لديك معرفة بالترميز.

يخدعوا المحور

Outwit hub هي أداة أخرى لكشط الويب يمكنك الحصول عليها مجانًا. هذه الأداة هي امتداد لمتصفح فايرفوكس. يمكن للمبتدئين والخبراء استخدام الأداة بسهولة. باستخدام هذه الأداة ، يمكنك بسهولة كشط الصور والمستندات وملفات PDF.

بعد كشط البيانات ، تقوم الأداة بإرجاع البيانات في عرض تقديمي مرئي. هذا يساعد غير المبرمجين على وقت سهل لفهم البيانات التي يتم إرجاعها. يتم تصدير البيانات المستخرجة بتنسيقات مختلفة بينما يتم حفظ الصور والمستندات في القرص الصلب.

سكرابرويكي

تم تحديث منصة ويكي الكاشطة مؤخرًا. سمحت المنصة للمبرمجين ذوي الخبرة بتشغيل الأكواد الخاصة بهم في المتصفح. في الآونة الأخيرة ، انتقلت المنصة إلى أدوات مخصصة أو مسبقة الصنع تعمل بشكل أفضل للمبتدئين.

شوربة جميلة

الحساء الجميل مختلف تمامًا عن الخيارات المذكورة أعلاه. تتعامل أداة القشط بشكل أكبر مع معرفة الترميز. على الرغم من ذلك ، فإن الأداة سهلة الاستخدام والتنقل خلالها. عند استخدام هذه الأداة ، لا يتطلب منك الكثير من التعليمات البرمجية لاستخراج البيانات من الويب.

يقوم موقع BeautifulSoup بعمل جيد في جلب البيانات من URL ويسمح لك بتحليل البيانات دون أي متاعب. إذا كنت تبحث عن أداة يمكنك من خلالها إنشاء أكواد لاستخراج ما تحتاجه ، فهذه هي الأداة المناسبة لك.

Scrapy

أداة تجريف الويب Scrapy مشابهة لـ BeautifulSoup. إنه يعمل عن طريق إنشاء الكود الخاص بك والذي يمكنك استخدامه لاستخراج البيانات التي تريدها. ومع ذلك ، فإن أداة تجريف الويب Scrapy أكثر قوة من BeautifulSoup. يمكن أن يكون بمثابة إطار عمل ويب كشط كامل. يعد Scrapy مثالاً على حزمة Python ويتم تثبيته عبر نقطة.

CODING

هناك عدد لا بأس به من المهارات التي يجب على الصحفيين إتقانها. الترميز هو واحد من هؤلاء. يضمن بقاء الصحفي في الطليعة. كما أنه يمنحهم فرصة ليصبحوا أكثر ذكاءً في استخدام الكمبيوتر بطريقة غير مكلفة. هناك الكثير من أدوات التدريس المجانية المتاحة على الإنترنت. يمكنك استخدامها لمعرفة كيفية كشط البيانات. كل ما هو مطلوب هو الثقة بالنفس! مع التكنولوجيا اليوم ، أصبح تجريف الويب للصحفيين أسهل حيث يمكن لأي شخص القيام بذلك.