Mon fournisseur de données » Blog » TOP Bibliothèques pour le développement de grattoirs Web

TOP Bibliothèques pour le développement de grattoirs Web

  • by

Python

Scrapy

Un cadre open source et collaboratif pour extraire les données dont vous avez besoin à partir de sites Web.

Site web du projet Scrapy :http://scrapy.org/

httpv://www.youtube.com/watch?v=embed/1EFnX1UkXVU

httpv://www.youtube.com/watch?v=embed/eEK2kmmvIdw

Catégorie Framework
Première date de sortie 2008
Les problèmes comptent 221
Licence Licence BSD
Langage de programmation Python
Version actuelle 1
Dernière date de sortie 2015
Open source Oui

 

BeautifulSoup

D'une manière rapide, simple, mais extensible.

Site web du projet BeautifulSoup : http://www.crummy.com/software/BeautifulSoup/

httpv://www.youtube.com/watch?v=embed/3xQTJi2tqgk
httpv://www.youtube.com/watch?v=embed/BCJ4afDX4L4
httpv://www.youtube.com/watch?v=embed/U2y6deNKyFM
httpv://www.youtube.com/watch?v=embed/keefYknSbt4

Dernière date de sortie 2015
Open source Oui
Catégorie de Médias
Première date de sortie 2004
Les problèmes comptent 58
Licence Licence BSD
Langage de programmation Python
Version actuelle 4.4.1

 

mécaniser (Python)

Navigation web programmatique avec état en Python, d'après le module Perl d'Andy Lester WWW::Mechanize .

Mécaniser le site web du projet (Python): https://github.com/jjlee/mechanize/

httpv://www.youtube.com/watch?v=embed/p4dOPXWaeLI
httpv://www.youtube.com/watch?v=embed/Z1t97ISrXRg
httpv://www.youtube.com/watch?v=embed/krSnRV830es

Première date de sortie 2010
Les problèmes comptent 60
Licence Licence de type BSD
Langage de programmation Python
Version actuelle 0.2.5
Dernière date de sortie 2011
Open source Oui
Catégorie de Médias

 

Requêtes (Python)

Requêtes HTTP Python pour les humains

Site Web du projet Requests (Python): https://github.com/kennethreitz/requests/

httpv://www.youtube.com/watch?v=embed/UrsUuVAJh5U
httpv://www.youtube.com/watch?v=embed/1H7_drSRvm8
httpv://www.youtube.com/watch?v=embed/i7f0O1eIjEg

Version actuelle 2.9.1
Dernière date de sortie 2015
Open source Oui
Langage de programmation Python
Première date de sortie 2011
Les problèmes comptent 70
Licence Licence Apache 2

html5lib

html5lib est une bibliothèque pure-python pour l'analyse HTML. Il est conçu pour se conformer à la spécification WHATWG HTML, telle qu'elle est implémentée par tous les principaux navigateurs Web.

Site Web du projet html5lib : https://github.com/html5lib/html5lib-python

httpv://www.youtube.com/watch?v=embed/dWlhrL1l3QU

Catégorie de Médias
Première date de sortie 2013
Les problèmes comptent 56
Licence Toute
Langage de programmation Python
Version actuelle 1.0b8
Dernière date de sortie 2015
Open source Oui

 

urllib2

bibliothèque extensible urllib2 pour ouvrir des URL
Site Web du projet urllib2 : https://docs.python.org/2/library/urllib2.html

httpv://www.youtube.com/watch?v=embed/Ap_DlSrT-iE
httpv://www.youtube.com/watch?v=embed/M_4UIPLaIII

Première date de sortie 1990
Open source Oui
Langage de programmation Python
Version actuelle Stable
Dernière date de sortie 2015
Licence Licence Python Software Foundation
Catégorie de Médias

 

PHP

Requêtes (PHP)

Requests for PHP est une humble bibliothèque de requêtes HTTP. Il simplifie la façon dont vous interagissez avec d'autres sites et élimine tous vos soucis.

Site web du projet Requests (PHP): https://github.com/rmccue/Requests

Catégorie de Médias
Première date de sortie 2012
Les problèmes comptent 29
Licence Licence ISC
Langage de programmation PHP
Version actuelle 1.6.1
Dernière date de sortie 2015
Open source Oui

Bourdonnement

Buzz est une bibliothèque PHP 5.3 légère pour émettre des requêtes HTTP.

Site web du projet Buzz : https://github.com/kriswallsmith/Buzz

Catégorie de Médias
Première date de sortie 2010
Les problèmes comptent 44
Licence MIT License
Langage de programmation PHP
Version actuelle 0,15
Dernière date de sortie 2015
Open source Oui

Bouffer

C'est un simple PHP Web Scraper

Site web du projet Guzzle : https://github.com/guzzle/guzzle

Langage de programmation PHP
Version actuelle 6.1.1
Licence Toute
Catégorie de Médias
Open source Oui

Goutte

Goutte est une bibliothèque de scraping web. Il fournit une belle API pour explorer les sites Web et extraire les données des réponses HTML/XML.

Site web du projet Goutte : https://github.com/FriendsOfPHP/Goutte

Première date de sortie 2012
Les problèmes comptent 40
Licence MIT License
Langage de programmation PHP
Version actuelle 3.1.0
Dernière date de sortie 2015
Open source Oui
Catégorie de Médias

 

Ruby

data_miner

Téléchargez, décompressez à partir d'une archive ZIP/TAR/GZ/BZ2, analysez, corrigez, convertissez des unités et importez des feuilles de calcul Google, XLS, ODS, XML, CSV, HTML, etc. dans vos modèles ActiveRecord. Utilise la gemme RemoteTable en interne.

Site Web du projet data_miner : https://github.com/seamusabshere/data_miner

Catégorie de Médias
Première date de sortie 2009
Les problèmes comptent 8
Licence MIT License
Langage de programmation Ruby
Version actuelle 3.0.0
Dernière date de sortie 2014
Open source Oui

pismo

pismo - Analyse de contenu de page Web et extraction de métadonnées

site web du projet pismo : https://github.com/peterc/pismo

Les problèmes comptent 11
Licence MIT License
Langage de programmation Ruby
Version actuelle 0.7.4
Dernière date de sortie 2013
Open source Oui
Catégorie de Médias
Première date de sortie 2010

Nokogiri

Nokogiri (鋸) est un analyseur HTML, XML, SAX et Reader avec prise en charge des sélecteurs XPath et CSS

Site Internet du projet Nokogiri : https://github.com/sparklemotion/nokogiri

Dernière date de sortie 2015
Open source Oui
Catégorie de Médias
Première date de sortie 2008
Les problèmes comptent 180
Licence MIT License
Langage de programmation Ruby
Version actuelle 1.6.8.rc1