MeinDatenanbieter » Blog » TOP-Bibliotheken für die Web-Scraper-Entwicklung

TOP-Bibliotheken für die Web-Scraper-Entwicklung

  • by

Python

Scrapy

Ein Open-Source- und kollaboratives Framework zum Extrahieren der benötigten Daten aus Websites.

Website des Scrapy-Projekts:http://scrapy.org/

httpv://www.youtube.com/watch?v=embed/1EFnX1UkXVU

httpv://www.youtube.com/watch?v=embed/eEK2kmmvIdw

Typ Rahmen
Datum der ersten Veröffentlichung 2008
Probleme zählen 221
Lizenz BSD-Lizenz
Programmiersprache Python
Aktuelle Version 1
Letztes Veröffentlichungsdatum 2015
Open Source Ja

 

BeautifulSuppe

Auf schnelle, einfache und dennoch erweiterbare Weise.

Website des BeautifulSoup-Projekts: http://www.crummy.com/software/BeautifulSoup/

httpv://www.youtube.com/watch?v=embed/3xQTJi2tqgk
httpv://www.youtube.com/watch?v=embed/BCJ4afDX4L4
httpv://www.youtube.com/watch?v=embed/U2y6deNKyFM
httpv://www.youtube.com/watch?v=embed/keefYknSbt4

Letztes Veröffentlichungsdatum 2015
Open Source Ja
Typ Bibliothek
Datum der ersten Veröffentlichung 2004
Probleme zählen 58
Lizenz BSD-Lizenz
Programmiersprache Python
Aktuelle Version 4.4.1

 

mechanisieren (Python)

Zustandsbehaftetes programmgesteuertes Web-Browsing in Python nach Andy Lesters Perl-Modul WWW::Mechanize .

mechanize (Python) Projekt-Website: https://github.com/jjlee/mechanize/

httpv://www.youtube.com/watch?v=embed/p4dOPXWaeLI
httpv://www.youtube.com/watch?v=embed/Z1t97ISrXRg
httpv://www.youtube.com/watch?v=embed/krSnRV830es

Datum der ersten Veröffentlichung 2010
Probleme zählen 60
Lizenz Lizenz im BSD-Stil
Programmiersprache Python
Aktuelle Version 0.2.5
Letztes Veröffentlichungsdatum 2011
Open Source Ja
Typ Bibliothek

 

Anfragen (Python)

Python-HTTP-Anforderungen für Menschen

Requests (Python) Projekt-Website: https://github.com/kennethreitz/requests/

httpv://www.youtube.com/watch?v=embed/UrsUuVAJh5U
httpv://www.youtube.com/watch?v=embed/1H7_drSRvm8
httpv://www.youtube.com/watch?v=embed/i7f0O1eIjEg

Aktuelle Version 2.9.1
Letztes Veröffentlichungsdatum 2015
Open Source Ja
Programmiersprache Python
Datum der ersten Veröffentlichung 2011
Probleme zählen 70
Lizenz Apache 2 Lizenz

html5lib

html5lib ist eine reine Python-Bibliothek zum Analysieren von HTML. Es wurde entwickelt, um der WHATWG-HTML-Spezifikation zu entsprechen, wie sie von allen gängigen Webbrowsern implementiert wird.

Website des html5lib-Projekts: https://github.com/html5lib/html5lib-python

httpv://www.youtube.com/watch?v=embed/dWlhrL1l3QU

Typ Bibliothek
Datum der ersten Veröffentlichung 2013
Probleme zählen 56
Lizenz Jedes
Programmiersprache Python
Aktuelle Version 1.0b8
Letztes Veröffentlichungsdatum 2015
Open Source Ja

 

urllib2

urllib2 erweiterbare Bibliothek zum Öffnen von URLs
Website des Projekts urllib2: https://docs.python.org/2/library/urllib2.html

httpv://www.youtube.com/watch?v=embed/Ap_DlSrT-iE
httpv://www.youtube.com/watch?v=embed/M_4UIPLaIII

Datum der ersten Veröffentlichung 1990
Open Source Ja
Programmiersprache Python
Aktuelle Version Stabil
Letztes Veröffentlichungsdatum 2015
Lizenz Python Software Foundation-Lizenz
Typ Bibliothek

 

PHP

Anfragen (PHP)

Requests for PHP ist eine bescheidene Bibliothek für HTTP-Anforderungen. Es vereinfacht die Interaktion mit anderen Websites und nimmt Ihnen alle Sorgen.

Requests (PHP) Projekt-Website: https://github.com/rmccue/Requests

Typ Bibliothek
Datum der ersten Veröffentlichung 2012
Probleme zählen 29
Lizenz ISC-Lizenz
Programmiersprache PHP
Aktuelle Version 1.6.1
Letztes Veröffentlichungsdatum 2015
Open Source Ja

Summen

Buzz ist eine leichtgewichtige PHP 5.3-Bibliothek zum Ausgeben von HTTP-Anforderungen.

Website des Buzz-Projekts: https://github.com/kriswallsmith/Buzz

Typ Bibliothek
Datum der ersten Veröffentlichung 2010
Probleme zählen 44
Lizenz MIT-Lizenz
Programmiersprache PHP
Aktuelle Version 0,15
Letztes Veröffentlichungsdatum 2015
Open Source Ja

Fressen

Es ist ein einfacher PHP Web Scraper

Webseite des Guzzle-Projekts: https://github.com/guzzle/guzzle

Programmiersprache PHP
Aktuelle Version 6.1.1
Lizenz Jedes
Typ Bibliothek
Open Source Ja

fallen

Goutte ist eine Web-Scraping-Bibliothek. Es bietet eine nette API zum Crawlen von Websites und Extrahieren von Daten aus den HTML/XML-Antworten.

Website des Goutte-Projekts: https://github.com/FriendsOfPHP/Goutte

Datum der ersten Veröffentlichung 2012
Probleme zählen 40
Lizenz MIT-Lizenz
Programmiersprache PHP
Aktuelle Version 3.1.0
Letztes Veröffentlichungsdatum 2015
Open Source Ja
Typ Bibliothek

 

Rubin

Datengräber

Laden Sie herunter, entpacken Sie aus einem ZIP/TAR/GZ/BZ2-Archiv, analysieren, korrigieren, konvertieren Sie Einheiten und importieren Sie Google Spreadsheets, XLS, ODS, XML, CSV, HTML usw. in Ihre ActiveRecord-Modelle. Verwendet intern das RemoteTable-Gem.

Website des data_miner-Projekts: https://github.com/seamusabshere/data_miner

Typ Bibliothek
Datum der ersten Veröffentlichung 2009
Probleme zählen 8
Lizenz MIT-Lizenz
Programmiersprache Rubin
Aktuelle Version 3.0.0
Letztes Veröffentlichungsdatum 2014
Open Source Ja

pismo

pismo – Webseiteninhaltsanalyse und Metadatenextraktion

Website des Pismo-Projekts: https://github.com/peterc/pismo

Probleme zählen 11
Lizenz MIT-Lizenz
Programmiersprache Rubin
Aktuelle Version 0.7.4
Letztes Veröffentlichungsdatum 2013
Open Source Ja
Typ Bibliothek
Datum der ersten Veröffentlichung 2010

Nokogiri

Nokogiri (鋸) ist ein HTML-, XML-, SAX- und Reader-Parser mit Unterstützung für XPath- und CSS-Selektoren

Website des Nokogiri-Projekts: https://github.com/sparklemotion/nokogiri

Letztes Veröffentlichungsdatum 2015
Open Source Ja
Typ Bibliothek
Datum der ersten Veröffentlichung 2008
Probleme zählen 180
Lizenz MIT-Lizenz
Programmiersprache Rubin
Aktuelle Version 1.6.8.rc1