Le scraping bot est l’alter ego du Website Crawler.
Il n’est absolument pas débrouillard ! Vous devez le prendre par la main et lui indiquer où il peut trouver le titre d’un article, son image, etc.
Le Scraping bot se rendra sur la page que vous lui avez indiqué. Il ne s’intéressera pas à l’entièreté d’un site comme le crawler.
Si vous le lancez sur la page des communiqués de presse, il restera dans cette catégorie.
Quel avantage alors ?
Le Scraping bot, s’il est bien paramétré, offre une collecte impeccable et est entièrement personnalisable.
Créer un scrapping bot
Ressources > Sources > Create > Entrez une URL > Pas de RSS disponible pour ce site ou la partie que vous voulez scraper ? > Cliquez sur create
Vous pouvez choisir quel type de scraping bot vous voulez d’après le style de page que vous voulez suivre.
Choisir le bon robot
Textual changes
Vous souhaitez suivre les modifications textuelles apparaissant dans une partie spécifique d’une page web ?
Le robot Textual Changes est celui qu’il vous faut.
Il vous permettra de savoir si des modifications ont été apportées à une partie d’une page donnée.
Single Page Newsfeed
Voulez-vous collecter le nouveau contenu apparaissant sur une page web donnée ?
Le robot Single Page Newsfeed est celui qu’il vous faut.
Il vous permettra de collecter les articles sur un seul niveau seulement. Il restera sur la page donné et n’ira pas au delà.
Newsfeed “Read More”
Souhaitez-vous collecter le contenu intégral des nouveaux résumés apparaissant sur une page web donnée ?
Le robot Newsfeed “Read More” est celui qu’il vous faut.
Il vous permettra de collecter les publications ayant un contenu publié dans une autre page (un second niveau).
News aggregator
Voulez-vous collecter le contenu complet de différents sites web dont les nouveaux résumés apparaissent sur une page web donnée ?
Le robot News aggregator est celui qu’il vous faut.
Il va collecter les publications sur deux niveaux (même si le second niveau possède un nom de domaine différent).
Laissez votre avis sur ce sujet.