Python
Scrapy
Un cadre open source et collaboratif pour extraire les données dont vous avez besoin à partir de sites Web.
Site web du projet Scrapy :http://scrapy.org/
httpv://www.youtube.com/watch?v=embed/1EFnX1UkXVU
httpv://www.youtube.com/watch?v=embed/eEK2kmmvIdw
Catégorie | Framework |
Première date de sortie | 2008 |
Les problèmes comptent | 221 |
Licence | Licence BSD |
Langage de programmation | Python |
Version actuelle | 1 |
Dernière date de sortie | 2015 |
Open source | Oui |
BeautifulSoup
D'une manière rapide, simple, mais extensible.
Site web du projet BeautifulSoup : http://www.crummy.com/software/BeautifulSoup/
httpv://www.youtube.com/watch?v=embed/3xQTJi2tqgk
httpv://www.youtube.com/watch?v=embed/BCJ4afDX4L4
httpv://www.youtube.com/watch?v=embed/U2y6deNKyFM
httpv://www.youtube.com/watch?v=embed/keefYknSbt4
Dernière date de sortie | 2015 |
Open source | Oui |
Catégorie | de Médias |
Première date de sortie | 2004 |
Les problèmes comptent | 58 |
Licence | Licence BSD |
Langage de programmation | Python |
Version actuelle | 4.4.1 |
mécaniser (Python)
Navigation web programmatique avec état en Python, d'après le module Perl d'Andy Lester WWW::Mechanize .
Mécaniser le site web du projet (Python): https://github.com/jjlee/mechanize/
httpv://www.youtube.com/watch?v=embed/p4dOPXWaeLI
httpv://www.youtube.com/watch?v=embed/Z1t97ISrXRg
httpv://www.youtube.com/watch?v=embed/krSnRV830es
Première date de sortie | 2010 |
Les problèmes comptent | 60 |
Licence | Licence de type BSD |
Langage de programmation | Python |
Version actuelle | 0.2.5 |
Dernière date de sortie | 2011 |
Open source | Oui |
Catégorie | de Médias |
Requêtes (Python)
Requêtes HTTP Python pour les humains
Site Web du projet Requests (Python): https://github.com/kennethreitz/requests/
httpv://www.youtube.com/watch?v=embed/UrsUuVAJh5U
httpv://www.youtube.com/watch?v=embed/1H7_drSRvm8
httpv://www.youtube.com/watch?v=embed/i7f0O1eIjEg
Version actuelle | 2.9.1 |
Dernière date de sortie | 2015 |
Open source | Oui |
Langage de programmation | Python |
Première date de sortie | 2011 |
Les problèmes comptent | 70 |
Licence | Licence Apache 2 |
html5lib
html5lib est une bibliothèque pure-python pour l'analyse HTML. Il est conçu pour se conformer à la spécification WHATWG HTML, telle qu'elle est implémentée par tous les principaux navigateurs Web.
Site Web du projet html5lib : https://github.com/html5lib/html5lib-python
httpv://www.youtube.com/watch?v=embed/dWlhrL1l3QU
Catégorie | de Médias |
Première date de sortie | 2013 |
Les problèmes comptent | 56 |
Licence | Toute |
Langage de programmation | Python |
Version actuelle | 1.0b8 |
Dernière date de sortie | 2015 |
Open source | Oui |
urllib2
bibliothèque extensible urllib2 pour ouvrir des URL
Site Web du projet urllib2 : https://docs.python.org/2/library/urllib2.html
httpv://www.youtube.com/watch?v=embed/Ap_DlSrT-iE
httpv://www.youtube.com/watch?v=embed/M_4UIPLaIII
Première date de sortie | 1990 |
Open source | Oui |
Langage de programmation | Python |
Version actuelle | Stable |
Dernière date de sortie | 2015 |
Licence | Licence Python Software Foundation |
Catégorie | de Médias |
PHP
Requêtes (PHP)
Requests for PHP est une humble bibliothèque de requêtes HTTP. Il simplifie la façon dont vous interagissez avec d'autres sites et élimine tous vos soucis.
Site web du projet Requests (PHP): https://github.com/rmccue/Requests
Catégorie | de Médias |
Première date de sortie | 2012 |
Les problèmes comptent | 29 |
Licence | Licence ISC |
Langage de programmation | PHP |
Version actuelle | 1.6.1 |
Dernière date de sortie | 2015 |
Open source | Oui |
Bourdonnement
Buzz est une bibliothèque PHP 5.3 légère pour émettre des requêtes HTTP.
Site web du projet Buzz : https://github.com/kriswallsmith/Buzz
Catégorie | de Médias |
Première date de sortie | 2010 |
Les problèmes comptent | 44 |
Licence | MIT License |
Langage de programmation | PHP |
Version actuelle | 0,15 |
Dernière date de sortie | 2015 |
Open source | Oui |
Bouffer
C'est un simple PHP Web Scraper
Site web du projet Guzzle : https://github.com/guzzle/guzzle
Langage de programmation | PHP |
Version actuelle | 6.1.1 |
Licence | Toute |
Catégorie | de Médias |
Open source | Oui |
Goutte
Goutte est une bibliothèque de scraping web. Il fournit une belle API pour explorer les sites Web et extraire les données des réponses HTML/XML.
Site web du projet Goutte : https://github.com/FriendsOfPHP/Goutte
Première date de sortie | 2012 |
Les problèmes comptent | 40 |
Licence | MIT License |
Langage de programmation | PHP |
Version actuelle | 3.1.0 |
Dernière date de sortie | 2015 |
Open source | Oui |
Catégorie | de Médias |
Ruby
data_miner
Téléchargez, décompressez à partir d'une archive ZIP/TAR/GZ/BZ2, analysez, corrigez, convertissez des unités et importez des feuilles de calcul Google, XLS, ODS, XML, CSV, HTML, etc. dans vos modèles ActiveRecord. Utilise la gemme RemoteTable en interne.
Site Web du projet data_miner : https://github.com/seamusabshere/data_miner
Catégorie | de Médias |
Première date de sortie | 2009 |
Les problèmes comptent | 8 |
Licence | MIT License |
Langage de programmation | Ruby |
Version actuelle | 3.0.0 |
Dernière date de sortie | 2014 |
Open source | Oui |
pismo
pismo - Analyse de contenu de page Web et extraction de métadonnées
site web du projet pismo : https://github.com/peterc/pismo
Les problèmes comptent | 11 |
Licence | MIT License |
Langage de programmation | Ruby |
Version actuelle | 0.7.4 |
Dernière date de sortie | 2013 |
Open source | Oui |
Catégorie | de Médias |
Première date de sortie | 2010 |
Nokogiri
Nokogiri (鋸) est un analyseur HTML, XML, SAX et Reader avec prise en charge des sélecteurs XPath et CSS
Site Internet du projet Nokogiri : https://github.com/sparklemotion/nokogiri
Dernière date de sortie | 2015 |
Open source | Oui |
Catégorie | de Médias |
Première date de sortie | 2008 |
Les problèmes comptent | 180 |
Licence | MIT License |
Langage de programmation | Ruby |
Version actuelle | 1.6.8.rc1 |