MyDataProvider » المدونة » مكتبات TOP لتطوير مكشطة الويب

مكتبات TOP لتطوير مكشطة الويب

بايثون

Scrapy

إطار عمل مفتوح المصدر وتعاوني لاستخراج البيانات التي تحتاجها من مواقع الويب.

موقع مشروع سكرابى:http://scrapy.org/

httpv: //www.youtube.com/watch؟ v = embed / 1EFnX1UkXVU

httpv: //www.youtube.com/watch؟ v = embed / eEK2kmmvIdw

النوع الإطار
تاريخ الإصدار الأول 2008
عدد القضايا 221
رخصة الخصوصية رخصة بي إس دي
لغة برمجة بايثون
النسخة الحالية 1
تاريخ الإصدار الأخير 2015
المصدر المفتوح نعم

 

شوربة جميلة

بطريقة سريعة وبسيطة وقابلة للتوسيع.

موقع مشروع BeautifulSoup على الويب: http://www.crummy.com/software/BeautifulSoup/

httpv: //www.youtube.com/watch؟ v = embed / 3xQTJi2tqgk
httpv: //www.youtube.com/watch؟ v = embed / BCJ4afDX4L4
httpv: //www.youtube.com/watch؟ v = embed / U2y6deNKyFM
httpv: //www.youtube.com/watch؟ v = embed / keefYknSbt4

تاريخ الإصدار الأخير 2015
المصدر المفتوح نعم
النوع المكتبة
تاريخ الإصدار الأول 2004
عدد القضايا 58
رخصة الخصوصية رخصة بي إس دي
لغة برمجة بايثون
النسخة الحالية 4.4.1

 

مكننة (بايثون)

تصفح الويب الآلي الدقيق في Python ، بعد وحدة Perl الخاصة بـ Andy Lester's WWW :: Mechanize.

جعل موقع مشروع (Python) على الويب: https://github.com/jjlee/mechanize/

httpv: //www.youtube.com/watch؟ v = embed / p4dOPXWaeLI
httpv: //www.youtube.com/watch؟ v = embed / Z1t97ISrXRg
httpv: //www.youtube.com/watch؟ v = embed / krSnRV830es

تاريخ الإصدار الأول 2010
عدد القضايا 60
رخصة الخصوصية رخصة على غرار BSD
لغة برمجة بايثون
النسخة الحالية 0.2.5
تاريخ الإصدار الأخير 2011
المصدر المفتوح نعم
النوع المكتبة

 

الطلبات (بايثون)

طلبات Python HTTP للبشر

موقع ويب مشروع الطلبات (Python): https://github.com/kennethreitz/requests/

httpv: //www.youtube.com/watch؟ v = embed / UrsUuVAJh5U
httpv: //www.youtube.com/watch؟ v = embed / 1H7_drSRvm8
httpv: //www.youtube.com/watch؟ v = embed / i7f0O1eIjEg

النسخة الحالية 2.9.1
تاريخ الإصدار الأخير 2015
المصدر المفتوح نعم
لغة برمجة بايثون
تاريخ الإصدار الأول 2011
عدد القضايا 70
رخصة الخصوصية ترخيص Apache 2

html5lib

html5lib مكتبة بيثون خالصة لتحليل HTML. تم تصميمه ليتوافق مع مواصفات WHATWG HTML ، كما هو مطبق من قبل جميع متصفحات الويب الرئيسية.

موقع مشروع html5lib على الويب: https://github.com/html5lib/html5lib-python

httpv: //www.youtube.com/watch؟ v = embed / dWlhrL1l3QU

النوع المكتبة
تاريخ الإصدار الأول 2013
عدد القضايا 56
رخصة الخصوصية أي
لغة برمجة بايثون
النسخة الحالية 1.0b8
تاريخ الإصدار الأخير 2015
المصدر المفتوح نعم

 

أورليب 2

مكتبة urllib2 القابلة للتوسيع لفتح عناوين URL
موقع مشروع urllib2 على الويب: https://docs.python.org/2/library/urllib2.html

httpv: //www.youtube.com/watch؟ v = embed / Ap_DlSrT-iE
httpv: //www.youtube.com/watch؟ v = embed / M_4UIPLaIII

تاريخ الإصدار الأول 1990
المصدر المفتوح نعم
لغة برمجة بايثون
النسخة الحالية مستقر
تاريخ الإصدار الأخير 2015
رخصة الخصوصية ترخيص مؤسسة برامج Python
النوع المكتبة

 

PHP

الطلبات (PHP)

طلبات PHP هي مكتبة طلبات HTTP متواضعة. إنه يبسط كيفية تفاعلك مع المواقع الأخرى ويزيل كل ما يقلقك.

موقع ويب مشروع الطلبات (PHP): https://github.com/rmccue/Requests

النوع المكتبة
تاريخ الإصدار الأول 2012
عدد القضايا 29
رخصة الخصوصية رخصة مركز الدراسات الدولي
لغة برمجة PHP
النسخة الحالية 1.6.1
تاريخ الإصدار الأخير 2015
المصدر المفتوح نعم

شرب حتى الثمالة

Buzz هي مكتبة PHP 5.3 خفيفة الوزن لإصدار طلبات HTTP.

موقع مشروع Buzz على الويب: https://github.com/kriswallsmith/Buzz

النوع المكتبة
تاريخ الإصدار الأول 2010
عدد القضايا 44
رخصة الخصوصية MIT الترخيص
لغة برمجة PHP
النسخة الحالية 0,15
تاريخ الإصدار الأخير 2015
المصدر المفتوح نعم

أسرف في الشراب

إنها Â مكشطة ويب PHP بسيطة

موقع ويب مشروع أسرف في الشراب: https://github.com/guzzle/guzzle

لغة برمجة PHP
النسخة الحالية 6.1.1
رخصة الخصوصية أي
النوع المكتبة
المصدر المفتوح نعم

يسقط

Goutte هي مكتبة تجريف على الويب. يوفر واجهة برمجة تطبيقات لطيفة للزحف إلى مواقع الويب واستخراج البيانات من استجابات HTML / XML.

موقع مشروع Goutte على الويب: https://github.com/FriendsOfPHP/Goutte

تاريخ الإصدار الأول 2012
عدد القضايا 40
رخصة الخصوصية MIT الترخيص
لغة برمجة PHP
النسخة الحالية 3.1.0
تاريخ الإصدار الأخير 2015
المصدر المفتوح نعم
النوع المكتبة

 

روبي

عامل منجم البيانات

قم بتنزيل وفك ضغط من أرشيف ZIP / TAR / GZ / BZ2 ، وتحليل ، وتصحيح ، وتحويل الوحدات واستيراد جداول بيانات Google ، و XLS ، و ODS ، و XML ، و CSV ، و HTML ، وما إلى ذلك في نماذج ActiveRecord الخاصة بك. يستخدم جوهرة RemoteTable داخليًا.

موقع مشروع data_miner على الويب: https://github.com/seamusabshere/data_miner

النوع المكتبة
تاريخ الإصدار الأول 2009
عدد القضايا 8
رخصة الخصوصية MIT الترخيص
لغة برمجة روبي
النسخة الحالية 3.0.0
تاريخ الإصدار الأخير 2014
المصدر المفتوح نعم

بيسمو

بيسمو - تحليل محتوى صفحة الويب واستخراج البيانات الوصفية

موقع مشروع بيسمو على شبكة الإنترنت: https://github.com/peterc/pismo

عدد القضايا 11
رخصة الخصوصية MIT الترخيص
لغة برمجة روبي
النسخة الحالية 0.7.4
تاريخ الإصدار الأخير 2013
المصدر المفتوح نعم
النوع المكتبة
تاريخ الإصدار الأول 2010

نوكوجيري

نوكوجيري (é ‹¸) هو محلل HTML و XML و SAX و Reader مع دعم محدد XPath و CSS

موقع مشروع نوكوجيري على شبكة الإنترنت: https://github.com/sparklemotion/nokogiri

تاريخ الإصدار الأخير 2015
المصدر المفتوح نعم
النوع المكتبة
تاريخ الإصدار الأول 2008
عدد القضايا 180
رخصة الخصوصية MIT الترخيص
لغة برمجة روبي
النسخة الحالية 1.6.8.rc1