MiProveedorDeDatos » Blog » Bibliotecas TOP para el desarrollo de raspadores web

Bibliotecas TOP para el desarrollo de raspadores web

  • by

Python

Scrapy

Un marco colaborativo y de código abierto para extraer los datos que necesita de los sitios web.

Sitio web del proyecto Scrapy:http://scrapy.org/

httpv://www.youtube.com/watch?v=embed/1EFnX1UkXVU

httpv://www.youtube.com/watch?v=embed/eEK2kmmvIdw

Tipo Framework
Primera fecha de lanzamiento 2008
Número de problemas 221
Licencia Licencia BSD
Lenguaje de programación Python
Versión actual 1
última fecha de lanzamiento 2015
Fuente abierta

 

BeautifulSoup

De una manera rápida, simple, pero extensible.

Sitio web del proyecto BeautifulSoup: http://www.crummy.com/software/BeautifulSoup/

httpv://www.youtube.com/watch?v=embed/3xQTJi2tqgk
httpv://www.youtube.com/watch?v=embed/BCJ4afDX4L4
httpv://www.youtube.com/watch?v=embed/U2y6deNKyFM
httpv://www.youtube.com/watch?v=embed/keefYknSbt4

última fecha de lanzamiento 2015
Fuente abierta
Tipo Biblioteca
Primera fecha de lanzamiento 2004
Número de problemas 58
Licencia Licencia BSD
Lenguaje de programación Python
Versión actual 4.4.1

 

mecanizar (Python)

Navegación web programática con estado en Python, después del módulo Perl de Andy Lester WWW::Mechanize .

sitio web del proyecto mechanize (Python): https://github.com/jjlee/mechanize/

httpv://www.youtube.com/watch?v=embed/p4dOPXWaeLI
httpv://www.youtube.com/watch?v=embed/Z1t97ISrXRg
httpv://www.youtube.com/watch?v=embed/krSnRV830es

Primera fecha de lanzamiento 2010
Número de problemas 60
Licencia Licencia estilo BSD
Lenguaje de programación Python
Versión actual 0.2.5
última fecha de lanzamiento 2011
Fuente abierta
Tipo Biblioteca

 

Solicitudes (Python)

Solicitudes HTTP de Python para humanos

Sitio web del proyecto Requests (Python): https://github.com/kennethreitz/requests/

httpv://www.youtube.com/watch?v=embed/UrsUuVAJh5U
httpv://www.youtube.com/watch?v=embed/1H7_drSRvm8
httpv://www.youtube.com/watch?v=embed/i7f0O1eIjEg

Versión actual 2.9.1
última fecha de lanzamiento 2015
Fuente abierta
Lenguaje de programación Python
Primera fecha de lanzamiento 2011
Número de problemas 70
Licencia Licencia Apache 2

html5lib

html5lib es una biblioteca de Python puro para analizar HTML. Está diseñado para cumplir con la especificación HTML de WHATWG, tal como lo implementan los principales navegadores web.

sitio web del proyecto html5lib: https://github.com/html5lib/html5lib-python

httpv://www.youtube.com/watch?v=embed/dWlhrL1l3QU

Tipo Biblioteca
Primera fecha de lanzamiento 2013
Número de problemas 56
Licencia Año
Lenguaje de programación Python
Versión actual 1.0b8
última fecha de lanzamiento 2015
Fuente abierta

 

urllib2

Biblioteca extensible urllib2 para abrir URL
sitio web del proyecto urllib2: https://docs.python.org/2/library/urllib2.html

httpv://www.youtube.com/watch?v=embed/Ap_DlSrT-iE
httpv://www.youtube.com/watch?v=embed/M_4UIPLaIII

Primera fecha de lanzamiento 1990
Fuente abierta
Lenguaje de programación Python
Versión actual Estable
última fecha de lanzamiento 2015
Licencia Licencia de la Fundación de Software de Python
Tipo Biblioteca

 

PHP

Solicitudes (PHP)

Requests for PHP es una humilde biblioteca de solicitudes HTTP. Simplifica la forma en que interactúa con otros sitios y elimina todas sus preocupaciones.

Solicitudes (PHP) sitio web del proyecto: https://github.com/rmccue/Requests

Tipo Biblioteca
Primera fecha de lanzamiento 2012
Número de problemas 29
Licencia Licencia ISC
Lenguaje de programación PHP
Versión actual 1.6.1
última fecha de lanzamiento 2015
Fuente abierta

zumbido

Buzz es una biblioteca ligera de PHP 5.3 para emitir solicitudes HTTP.

Sitio web del proyecto Buzz: https://github.com/kriswallsmith/Buzz

Tipo Biblioteca
Primera fecha de lanzamiento 2010
Número de problemas 44
Licencia MIT License
Lenguaje de programación PHP
Versión actual 0,15
última fecha de lanzamiento 2015
Fuente abierta

Engullir

Es un Web Scraper de PHP simple

Sitio web del proyecto Guzzle: https://github.com/guzzle/guzzle

Lenguaje de programación PHP
Versión actual 6.1.1
Licencia Año
Tipo Biblioteca
Fuente abierta

Soltar

Goutte es una biblioteca de web scraping. Proporciona una buena API para rastrear sitios web y extraer datos de las respuestas HTML/XML.

Sitio web del proyecto Goutte: https://github.com/FriendsOfPHP/Goutte

Primera fecha de lanzamiento 2012
Número de problemas 40
Licencia MIT License
Lenguaje de programación PHP
Versión actual 3.1.0
última fecha de lanzamiento 2015
Fuente abierta
Tipo Biblioteca

 

Rubí

minero de datos

Descargue, descomprima desde un archivo ZIP/TAR/GZ/BZ2, analice, corrija, convierta unidades e importe hojas de cálculo de Google, XLS, ODS, XML, CSV, HTML, etc. a sus modelos ActiveRecord. Utiliza la gema RemoteTable internamente.

sitio web del proyecto data_miner: https://github.com/seamusabshere/data_miner

Tipo Biblioteca
Primera fecha de lanzamiento 2009
Número de problemas 8
Licencia MIT License
Lenguaje de programación Rubí
Versión actual 3.0.0
última fecha de lanzamiento 2014
Fuente abierta

pismo

pismo: análisis de contenido de páginas web y extracción de metadatos

sitio web del proyecto pismo: https://github.com/peterc/pismo

Número de problemas 11
Licencia MIT License
Lenguaje de programación Rubí
Versión actual 0.7.4
última fecha de lanzamiento 2013
Fuente abierta
Tipo Biblioteca
Primera fecha de lanzamiento 2010

Nokogiri

Nokogiri (mi) es un analizador HTML, XML, SAX y Reader con soporte para selector XPath y CSS

Sitio web del proyecto Nokogiri: https://github.com/sparklemotion/nokogiri

última fecha de lanzamiento 2015
Fuente abierta
Tipo Biblioteca
Primera fecha de lanzamiento 2008
Número de problemas 180
Licencia MIT License
Lenguaje de programación Rubí
Versión actual 1.6.8.rc1