MijnDataProvider » Blog » Webscraping voor journalisten

Webscraping voor journalisten

  • by

Schrapen is ervoor zorgen dat een computer informatie van meerdere websites online verzamelt, waardoor ze grote gegevens kunnen verzamelen en is de meest effectieve manier voor journalisten om als eerste bij het verhaal te komen en exclusieve items te vinden die niemand anders heeft. Het is ook een geweldig hulpmiddel voor verslaggevers die weten hoe ze moeten coderen, aangezien steeds meer openbare instellingen hun gegevens nu op hun websites publiceren. Bestaat er webscraping voor journalisten?

De wettigheid

Er zijn echter vragen over tot welke gegevens een journalist toegang kan krijgen zonder de wet te overtreden of zonder â€schijnbaar’ te hacken. Er is hier een heel dunne lijn, en bijna alle journalisten laten zich leiden door een ethische code. Het is ook een redelijke aanname dat in gevallen waarin een instelling gegevens op hun website heeft gepubliceerd, dit niet per se openbaar is.

Overheidsservers hosten privé-informatie over hun burgers. Toegang tot dit zou een schending van de privacywetgeving zijn. Er is een heel dunne lijn tussen schrapen en hacken, en dat is het respecteren van de wet. Beveiligde gegevens mogen niet worden geopend.

Als het niet beschikbaar is voor het publiek, dan is het ook niet beschikbaar voor journalisten. Zelfs in zo'n moordende carrière waarin het verhaal dat niemand anders heeft, wordt doorbroken, geldt nog steeds respect voor de wet.

Webscraping voor journalisten Tools

Er zijn een paar webscraping-tools die perfect zijn voor webscraping van journalisten.

Krabber

Scraper is een gratis Chrome-extensie. De tool is gemakkelijk te gebruiken wanneer u gewone gegevens van de website moet extraheren. Nadat u de software in uw browser hebt gedownload en geïnstalleerd, markeert u de website die u wilt schrappen. Klik met de rechtermuisknop en klik op de vergelijkbare knop. Er verschijnt een venster met informatie die lijkt op wat u had gemarkeerd.

Scraper is de beste tool voor webschrapen voor het extraheren van platte tekst. U kunt met de tool geen afbeeldingen of gecompliceerde objecten schrapen. Het verzamelt geen grote hoeveelheid tekst, maar het is gemakkelijk te gebruiken en het meest geschikt voor beginners. De tool gebruikt XPath om te bepalen welke informatie moet worden verwijderd. Met deze tool kun je gemakkelijk navigeren als je codeerkennis hebt.

Wees Hub te slim af

Outwit hub is een andere tool voor webschrapen die u gratis kunt krijgen. Deze tool is een Firefox-extensie. De tool kan gemakkelijk worden gebruikt door beginners en experts. Met deze tool kunt u eenvoudig afbeeldingen, documenten en PDF's schrapen.

Na het schrapen van gegevens, retourneert de tool gegevens in een visuele presentatie. Dit helpt niet-codeerders om de geretourneerde gegevens gemakkelijk te begrijpen. De geëxtraheerde gegevens worden geëxporteerd in verschillende formaten, terwijl afbeeldingen en documenten op de harde schijf worden opgeslagen.

Schraperwiki

Het scraper wiki-platform is onlangs bijgewerkt. Dankzij het platform konden ervaren programmeurs hun eigen codes in de browser uitvoeren. Onlangs is het platform overgestapt op aangepaste of vooraf gemaakte tools die het beste werken voor beginners.

Mooie soep

Mooie soep is heel anders dan de bovenstaande opties. De scraping-tool houdt zich meer bezig met codeerkennis. Desondanks is de tool gemakkelijk te gebruiken en te navigeren. Wanneer u deze tool gebruikt, heeft u niet veel code nodig om gegevens van internet te extraheren.

BeautifulSoup haalt goed gegevens uit de URL en stelt u in staat om gegevens zonder problemen te ontleden. Als u op zoek bent naar een tool waarmee u codes kunt maken om te extraheren wat u nodig hebt, dan is dit de tool voor u.

Scrapy

Scrapy webscraping tool is vergelijkbaar met BeautifulSoup. Het werkt door uw eigen code te maken die u kunt gebruiken om de gewenste gegevens te extraheren. De Scrapy-webschraptool is echter robuuster dan BeautifulSoup. Het kan fungeren als een volledig webschraapraamwerk. Scrapy is een voorbeeld van een python-pakket en wordt geïnstalleerd via pip.

CODERING

Er zijn nogal wat vaardigheden die journalisten moeten beheersen. Coderen is er daar één van. Het zorgt ervoor dat een journalist voorop blijft lopen. Het geeft hen ook de kans om op een goedkope manier meer computervaardig te worden. Er zijn tal van gratis bijlestools online beschikbaar. U kunt ze gebruiken om te leren hoe u gegevens kunt schrapen. Het enige dat nodig is, is zelfvertrouwen! Met de technologie van vandaag is webscraping voor journalisten gemakkelijker gemaakt, omdat iedereen dit kan doen.