MeuProvedor de Dados » Blog » Principais bibliotecas para desenvolvimento de raspadores da Web

Principais bibliotecas para desenvolvimento de raspadores da Web

  • by

Python

Escamoso

Uma estrutura de código aberto e colaborativa para extrair os dados que você precisa de sites.

Site do projeto Scrapy:http://scrapy.org/

httpv://www.youtube.com/watch?v=embed/1EFnX1UkXVU

httpv://www.youtube.com/watch?v=embed/eEK2kmmvIdw

Tipo Quadro
Primeira data de lançamento 2008
Contagem de problemas 221
licença Licença BSD
Linguagem de programação Python
Versão Atual 1
Última data de lançamento 2015
Código aberto Sim

 

Linda Sopa

De forma rápida, simples, mas extensível.

Site do projeto BeautifulSoup: http://www.crummy.com/software/BeautifulSoup/

httpv://www.youtube.com/watch?v=embed/3xQTJi2tqgk
httpv://www.youtube.com/watch?v=embed/BCJ4afDX4L4
httpv://www.youtube.com/watch?v=embed/U2y6deNKyFM
httpv://www.youtube.com/watch?v=embed/keefYknSbt4

Última data de lançamento 2015
Código aberto Sim
Tipo Biblioteca
Primeira data de lançamento 2004
Contagem de problemas 58
licença Licença BSD
Linguagem de programação Python
Versão Atual 4.4.1

 

mecanizar (Python)

Navegação na Web programática com estado em Python, após o módulo Perl de Andy Lester WWW::Mechanize .

mechanize (Python) site do projeto: https://github.com/jjlee/mechanize/

httpv://www.youtube.com/watch?v=embed/p4dOPXWaeLI
httpv://www.youtube.com/watch?v=embed/Z1t97ISrXRg
httpv://www.youtube.com/watch?v=embed/krSnRV830es

Primeira data de lançamento 2010
Contagem de problemas 60
licença Licença estilo BSD
Linguagem de programação Python
Versão Atual 0.2.5
Última data de lançamento 2011
Código aberto Sim
Tipo Biblioteca

 

Solicitações (Python)

Solicitações HTTP do Python para humanos

Site do projeto Requests (Python): https://github.com/kennethreitz/requests/

httpv://www.youtube.com/watch?v=embed/UrsUuVAJh5U
httpv://www.youtube.com/watch?v=embed/1H7_drSRvm8
httpv://www.youtube.com/watch?v=embed/i7f0O1eIjEg

Versão Atual 2.9.1
Última data de lançamento 2015
Código aberto Sim
Linguagem de programação Python
Primeira data de lançamento 2011
Contagem de problemas 70
licença Licença Apache 2

html5lib

html5lib é uma biblioteca python pura para analisar HTML. Ele foi projetado para estar em conformidade com a especificação HTML WHATWG, conforme implementado por todos os principais navegadores da web.

site do projeto html5lib: https://github.com/html5lib/html5lib-python

httpv://www.youtube.com/watch?v=embed/dWlhrL1l3QU

Tipo Biblioteca
Primeira data de lançamento 2013
Contagem de problemas 56
licença Qualquer
Linguagem de programação Python
Versão Atual 1.0b8
Última data de lançamento 2015
Código aberto Sim

 

urllib2

biblioteca extensível urllib2 para abrir URLs
site do projeto urllib2: https://docs.python.org/2/library/urllib2.html

httpv://www.youtube.com/watch?v=embed/Ap_DlSrT-iE
httpv://www.youtube.com/watch?v=embed/M_4UIPLaIII

Primeira data de lançamento 1990
Código aberto Sim
Linguagem de programação Python
Versão Atual Estável
Última data de lançamento 2015
licença Licença Python Software Foundation
Tipo Biblioteca

 

PHP

Solicitações (PHP)

Requests for PHP é uma humilde biblioteca de solicitações HTTP. Ele simplifica a forma como você interage com outros sites e elimina todas as suas preocupações.

Site do projeto Requests (PHP): https://github.com/rmccue/Requests

Tipo Biblioteca
Primeira data de lançamento 2012
Contagem de problemas 29
licença Licença ISC
Linguagem de programação PHP
Versão Atual 1.6.1
Última data de lançamento 2015
Código aberto Sim

Zumbido

Buzz é uma biblioteca PHP 5.3 leve para emitir solicitações HTTP.

Site do projeto Buzz: https://github.com/kriswallsmith/Buzz

Tipo Biblioteca
Primeira data de lançamento 2010
Contagem de problemas 44
licença MIT License
Linguagem de programação PHP
Versão Atual 0,15
Última data de lançamento 2015
Código aberto Sim

Beber

É um simples Web Scraper PHP

site do projeto guzzle: https://github.com/guzzle/guzzle

Linguagem de programação PHP
Versão Atual 6.1.1
licença Qualquer
Tipo Biblioteca
Código aberto Sim

Solta

Goutte é uma biblioteca de web scraping. Ele fornece uma boa API para rastrear sites e extrair dados das respostas HTML/XML.

Site do projeto Goutte: https://github.com/FriendsOfPHP/Goutte

Primeira data de lançamento 2012
Contagem de problemas 40
licença MIT License
Linguagem de programação PHP
Versão Atual 3.1.0
Última data de lançamento 2015
Código aberto Sim
Tipo Biblioteca

 

Rubi

Minerador de dados

Baixe, descompacte de um arquivo ZIP/TAR/GZ/BZ2, analise, corrija, converta unidades e importe Planilhas Google, XLS, ODS, XML, CSV, HTML, etc. para seus modelos ActiveRecord. Usa gem RemoteTable internamente.

Site do projeto data_miner: https://github.com/seamusabshere/data_miner

Tipo Biblioteca
Primeira data de lançamento 2009
Contagem de problemas 8
licença MIT License
Linguagem de programação Rubi
Versão Atual 3.0.0
Última data de lançamento 2014
Código aberto Sim

pismo

pismo – análise de conteúdo de páginas da Web e extração de metadados

site do projeto pismo: https://github.com/peterc/pismo

Contagem de problemas 11
licença MIT License
Linguagem de programação Rubi
Versão Atual 0.7.4
Última data de lançamento 2013
Código aberto Sim
Tipo Biblioteca
Primeira data de lançamento 2010

Nokogiri

Nokogiri (鋸) é um analisador HTML, XML, SAX e Reader com suporte a seletores XPath e CSS

Site do projeto Nokogiri: https://github.com/sparklemotion/nokogiri

Última data de lançamento 2015
Código aberto Sim
Tipo Biblioteca
Primeira data de lançamento 2008
Contagem de problemas 180
licença MIT License
Linguagem de programação Rubi
Versão Atual 1.6.8.rc1