MijnDataProvider » Blog » TOP-bibliotheken voor ontwikkeling van webschrapers

TOP-bibliotheken voor ontwikkeling van webschrapers

  • by

Python

Scrapy

Een open source en samenwerkingskader voor het extraheren van de gegevens die u nodig hebt van websites.

Scrapy-projectwebsite:http://scrapy.org/

httpv://www.youtube.com/watch?v=embed/1EFnX1UkXVU

httpv://www.youtube.com/watch?v=embed/eEK2kmmvIdw

Type Kader
Eerste releasedatum 2008
Problemen tellen mee 221
Vergunningen BSD-licentie
Programmeertaal Python
Huidige versie 1
Laatste releasedatum 2015
Open source Ja

 

Mooie soep

Op een snelle, eenvoudige en toch uitbreidbare manier.

BeautifulSoup project website: http://www.crummy.com/software/BeautifulSoup/

httpv://www.youtube.com/watch?v=embed/3xQTJi2tqgk
httpv://www.youtube.com/watch?v=embed/BCJ4afDX4L4
httpv://www.youtube.com/watch?v=embed/U2y6deNKyFM
httpv://www.youtube.com/watch?v=embed/keefYknSbt4

Laatste releasedatum 2015
Open source Ja
Type Bibliotheek
Eerste releasedatum 2004
Problemen tellen mee 58
Vergunningen BSD-licentie
Programmeertaal Python
Huidige versie 4.4.1

 

mechaniseren (Python)

Stateful programmatisch surfen op het web in Python, naar de Perl-module van Andy Lester WWW::Mechanize .

mechaniseren (Python) project website: https://github.com/jjlee/mechanize/

httpv://www.youtube.com/watch?v=embed/p4dOPXWaeLI
httpv://www.youtube.com/watch?v=embed/Z1t97ISrXRg
httpv://www.youtube.com/watch?v=embed/krSnRV830es

Eerste releasedatum 2010
Problemen tellen mee 60
Vergunningen Licentie in BSD-stijl
Programmeertaal Python
Huidige versie 0.2.5
Laatste releasedatum 2011
Open source Ja
Type Bibliotheek

 

Verzoeken (Python)

Python HTTP-verzoeken voor mensen

Aanvragen (Python) project website: https://github.com/kennethreitz/requests/

httpv://www.youtube.com/watch?v=embed/UrsUuVAJh5U
httpv://www.youtube.com/watch?v=embed/1H7_drSRvm8
httpv://www.youtube.com/watch?v=embed/i7f0O1eIjEg

Huidige versie 2.9.1
Laatste releasedatum 2015
Open source Ja
Programmeertaal Python
Eerste releasedatum 2011
Problemen tellen mee 70
Vergunningen Apache 2-licentie

html5lib

html5lib is een pure-python-bibliotheek voor het ontleden van HTML. Het is ontworpen om te voldoen aan de WHATWG HTML-specificatie, zoals geïmplementeerd door alle belangrijke webbrowsers.

html5lib projectwebsite: https://github.com/html5lib/html5lib-python

httpv://www.youtube.com/watch?v=embed/dWlhrL1l3QU

Type Bibliotheek
Eerste releasedatum 2013
Problemen tellen mee 56
Vergunningen Elke
Programmeertaal Python
Huidige versie 1.0b8
Laatste releasedatum 2015
Open source Ja

 

urllib2

urllib2 uitbreidbare bibliotheek voor het openen van URL's
urllib2 projectwebsite: https://docs.python.org/2/library/urllib2.html

httpv://www.youtube.com/watch?v=embed/Ap_DlSrT-iE
httpv://www.youtube.com/watch?v=embed/M_4UIPLaIII

Eerste releasedatum 1990
Open source Ja
Programmeertaal Python
Huidige versie Stabiel
Laatste releasedatum 2015
Vergunningen Licentie voor Python Software Foundation
Type Bibliotheek

 

PHP

Verzoeken (PHP)

Requests for PHP is een bescheiden HTTP-verzoekbibliotheek. Het vereenvoudigt uw interactie met andere sites en neemt al uw zorgen weg.

Aanvragen (PHP) project website: https://github.com/rmccue/Requests

Type Bibliotheek
Eerste releasedatum 2012
Problemen tellen mee 29
Vergunningen ISC-licentie
Programmeertaal PHP
Huidige versie 1.6.1
Laatste releasedatum 2015
Open source Ja

Gezoem

Buzz is een lichtgewicht PHP 5.3-bibliotheek voor het uitgeven van HTTP-verzoeken.

Buzz-projectwebsite: https://github.com/kriswallsmith/Buzz

Type Bibliotheek
Eerste releasedatum 2010
Problemen tellen mee 44
Vergunningen MIT-licentie
Programmeertaal PHP
Huidige versie 0,15
Laatste releasedatum 2015
Open source Ja

zuipen

Het is Âeen eenvoudige PHP Web Scraper

website van het guzzle-project: https://github.com/guzzle/guzzle

Programmeertaal PHP
Huidige versie 6.1.1
Vergunningen Elke
Type Bibliotheek
Open source Ja

drop

Goutte is een webscraping-bibliotheek. Het biedt een mooie API om websites te crawlen en gegevens uit de HTML/XML-reacties te extraheren.

Projectwebsite Goutte: https://github.com/FriendsOfPHP/Goutte

Eerste releasedatum 2012
Problemen tellen mee 40
Vergunningen MIT-licentie
Programmeertaal PHP
Huidige versie 3.1.0
Laatste releasedatum 2015
Open source Ja
Type Bibliotheek

 

Robijn

data mijner

Download, pak uit een ZIP/TAR/GZ/BZ2-archief, parseer, corrigeer, converteer eenheden en importeer Google Spreadsheets, XLS, ODS, XML, CSV, HTML, enz. in uw ActiveRecord-modellen. Maakt intern gebruik van RemoteTable gem.

data_miner project website: https://github.com/seamusabshere/data_miner

Type Bibliotheek
Eerste releasedatum 2009
Problemen tellen mee 8
Vergunningen MIT-licentie
Programmeertaal Robijn
Huidige versie 3.0.0
Laatste releasedatum 2014
Open source Ja

brief

pismo – Inhoudsanalyse van webpagina's en extractie van metagegevens

pismo project website: https://github.com/peterc/pismo

Problemen tellen mee 11
Vergunningen MIT-licentie
Programmeertaal Robijn
Huidige versie 0.7.4
Laatste releasedatum 2013
Open source Ja
Type Bibliotheek
Eerste releasedatum 2010

Nokogiri

Nokogiri (鋸) is een HTML-, XML-, SAX- en Reader-parser met ondersteuning voor XPath en CSS-selector

Website van het Nokogiri-project: https://github.com/sparklemotion/nokogiri

Laatste releasedatum 2015
Open source Ja
Type Bibliotheek
Eerste releasedatum 2008
Problemen tellen mee 180
Vergunningen MIT-licentie
Programmeertaal Robijn
Huidige versie 1.6.8.rc1