Python
Scrapy
Een open source en samenwerkingskader voor het extraheren van de gegevens die u nodig hebt van websites.
Scrapy-projectwebsite:http://scrapy.org/
httpv://www.youtube.com/watch?v=embed/1EFnX1UkXVU
httpv://www.youtube.com/watch?v=embed/eEK2kmmvIdw
Type | Kader |
Eerste releasedatum | 2008 |
Problemen tellen mee | 221 |
Vergunningen | BSD-licentie |
Programmeertaal | Python |
Huidige versie | 1 |
Laatste releasedatum | 2015 |
Open source | Ja |
Mooie soep
Op een snelle, eenvoudige en toch uitbreidbare manier.
BeautifulSoup project website: http://www.crummy.com/software/BeautifulSoup/
httpv://www.youtube.com/watch?v=embed/3xQTJi2tqgk
httpv://www.youtube.com/watch?v=embed/BCJ4afDX4L4
httpv://www.youtube.com/watch?v=embed/U2y6deNKyFM
httpv://www.youtube.com/watch?v=embed/keefYknSbt4
Laatste releasedatum | 2015 |
Open source | Ja |
Type | Bibliotheek |
Eerste releasedatum | 2004 |
Problemen tellen mee | 58 |
Vergunningen | BSD-licentie |
Programmeertaal | Python |
Huidige versie | 4.4.1 |
mechaniseren (Python)
Stateful programmatisch surfen op het web in Python, naar de Perl-module van Andy Lester WWW::Mechanize .
mechaniseren (Python) project website: https://github.com/jjlee/mechanize/
httpv://www.youtube.com/watch?v=embed/p4dOPXWaeLI
httpv://www.youtube.com/watch?v=embed/Z1t97ISrXRg
httpv://www.youtube.com/watch?v=embed/krSnRV830es
Eerste releasedatum | 2010 |
Problemen tellen mee | 60 |
Vergunningen | Licentie in BSD-stijl |
Programmeertaal | Python |
Huidige versie | 0.2.5 |
Laatste releasedatum | 2011 |
Open source | Ja |
Type | Bibliotheek |
Verzoeken (Python)
Python HTTP-verzoeken voor mensen
Aanvragen (Python) project website: https://github.com/kennethreitz/requests/
httpv://www.youtube.com/watch?v=embed/UrsUuVAJh5U
httpv://www.youtube.com/watch?v=embed/1H7_drSRvm8
httpv://www.youtube.com/watch?v=embed/i7f0O1eIjEg
Huidige versie | 2.9.1 |
Laatste releasedatum | 2015 |
Open source | Ja |
Programmeertaal | Python |
Eerste releasedatum | 2011 |
Problemen tellen mee | 70 |
Vergunningen | Apache 2-licentie |
html5lib
html5lib is een pure-python-bibliotheek voor het ontleden van HTML. Het is ontworpen om te voldoen aan de WHATWG HTML-specificatie, zoals geïmplementeerd door alle belangrijke webbrowsers.
html5lib projectwebsite: https://github.com/html5lib/html5lib-python
httpv://www.youtube.com/watch?v=embed/dWlhrL1l3QU
Type | Bibliotheek |
Eerste releasedatum | 2013 |
Problemen tellen mee | 56 |
Vergunningen | Elke |
Programmeertaal | Python |
Huidige versie | 1.0b8 |
Laatste releasedatum | 2015 |
Open source | Ja |
urllib2
urllib2 uitbreidbare bibliotheek voor het openen van URL's
urllib2 projectwebsite: https://docs.python.org/2/library/urllib2.html
httpv://www.youtube.com/watch?v=embed/Ap_DlSrT-iE
httpv://www.youtube.com/watch?v=embed/M_4UIPLaIII
Eerste releasedatum | 1990 |
Open source | Ja |
Programmeertaal | Python |
Huidige versie | Stabiel |
Laatste releasedatum | 2015 |
Vergunningen | Licentie voor Python Software Foundation |
Type | Bibliotheek |
PHP
Verzoeken (PHP)
Requests for PHP is een bescheiden HTTP-verzoekbibliotheek. Het vereenvoudigt uw interactie met andere sites en neemt al uw zorgen weg.
Aanvragen (PHP) project website: https://github.com/rmccue/Requests
Type | Bibliotheek |
Eerste releasedatum | 2012 |
Problemen tellen mee | 29 |
Vergunningen | ISC-licentie |
Programmeertaal | PHP |
Huidige versie | 1.6.1 |
Laatste releasedatum | 2015 |
Open source | Ja |
Gezoem
Buzz is een lichtgewicht PHP 5.3-bibliotheek voor het uitgeven van HTTP-verzoeken.
Buzz-projectwebsite: https://github.com/kriswallsmith/Buzz
Type | Bibliotheek |
Eerste releasedatum | 2010 |
Problemen tellen mee | 44 |
Vergunningen | MIT-licentie |
Programmeertaal | PHP |
Huidige versie | 0,15 |
Laatste releasedatum | 2015 |
Open source | Ja |
zuipen
Het is Âeen eenvoudige PHP Web Scraper
website van het guzzle-project: https://github.com/guzzle/guzzle
Programmeertaal | PHP |
Huidige versie | 6.1.1 |
Vergunningen | Elke |
Type | Bibliotheek |
Open source | Ja |
drop
Goutte is een webscraping-bibliotheek. Het biedt een mooie API om websites te crawlen en gegevens uit de HTML/XML-reacties te extraheren.
Projectwebsite Goutte: https://github.com/FriendsOfPHP/Goutte
Eerste releasedatum | 2012 |
Problemen tellen mee | 40 |
Vergunningen | MIT-licentie |
Programmeertaal | PHP |
Huidige versie | 3.1.0 |
Laatste releasedatum | 2015 |
Open source | Ja |
Type | Bibliotheek |
Robijn
data mijner
Download, pak uit een ZIP/TAR/GZ/BZ2-archief, parseer, corrigeer, converteer eenheden en importeer Google Spreadsheets, XLS, ODS, XML, CSV, HTML, enz. in uw ActiveRecord-modellen. Maakt intern gebruik van RemoteTable gem.
data_miner project website: https://github.com/seamusabshere/data_miner
Type | Bibliotheek |
Eerste releasedatum | 2009 |
Problemen tellen mee | 8 |
Vergunningen | MIT-licentie |
Programmeertaal | Robijn |
Huidige versie | 3.0.0 |
Laatste releasedatum | 2014 |
Open source | Ja |
brief
pismo – Inhoudsanalyse van webpagina's en extractie van metagegevens
pismo project website: https://github.com/peterc/pismo
Problemen tellen mee | 11 |
Vergunningen | MIT-licentie |
Programmeertaal | Robijn |
Huidige versie | 0.7.4 |
Laatste releasedatum | 2013 |
Open source | Ja |
Type | Bibliotheek |
Eerste releasedatum | 2010 |
Nokogiri
Nokogiri (鋸) is een HTML-, XML-, SAX- en Reader-parser met ondersteuning voor XPath en CSS-selector
Website van het Nokogiri-project: https://github.com/sparklemotion/nokogiri
Laatste releasedatum | 2015 |
Open source | Ja |
Type | Bibliotheek |
Eerste releasedatum | 2008 |
Problemen tellen mee | 180 |
Vergunningen | MIT-licentie |
Programmeertaal | Robijn |
Huidige versie | 1.6.8.rc1 |