Il est:
- facile à mettre en place.
- débrouillard (ne nécessite aucun paramétrage ou très peu).
- sa collecte n’est pas toujours parfaite.
- idéal pour constituer rapidement un sourcing massif.
Crawl d’initialisation
Quelques erreurs de collectes peuvent apparaitre, comme une mauvaise date de publication de l’article. Par exemple, si plusieurs dates sont présentes sur l’article, le robot ne prendra pas forcément la bonne. De plus, toutes les pages d’un site ne sont pas datées. Le robot les datera comme étant “d’aujourd’hui”.
Cela peut provoquer le phénomène de “Crawl d’initialisation”.
Juste après avoir créé ce genre de robots, de nombreux articles seront créés et datés du jour même. Ils arriveront donc tous d’un bloc dans les résultats de vos thèmes. Ce phénomène est temporaire. Les nouvelles pages publiées dans les jours qui viennent seront datées avec un décalage maximum de six heures par rapport à l’original.
Cela ne vaut donc que pour les archives du site.
Fonctionnement du Crawler
Le Website crawler se rendra sur le lien URL que vous avez renseigné. Il se baladera ensuite de lien URL en lien URL, de page en page, en cliquant sur tous les boutons qu’il rencontrera.
Ce robot essaiera de créer un article par page rencontrée.
Créer un Website crawler
- Create source > entrer l'URL désirée et la vérifier > I would like to create my crawling bot now + Create.
- Remplisser le formulaire (seul le nom est obligatoire).
- Cliquer sur “créer”.
En effet, ce robot débrouillard ne nécessite pas vraiment de paramétrage.
Vous pouvez cependant filtrer grâce aux “must include” et le “add block”.
Collez les parties d’URL dans ces champs pour forcer le crawler à ne collecter que les pages possédants cette extension dans l’URL (Must Include), ou justement à les ignorer.
Exemple: https://www.floorcoveringweekly.com/
Sur ce site, on va collecter tous les articles qui possèdent /topnews/ dans leur URL.
Vous pouvez donc cocher et ajouter cela dans la case “Collect only the articles with an URL that includes” pour forcer leur robot à ne collecter que des articles.
N’oubliez pas de collez ce tronçon avec les slash “/ /” (voir exemple du dessus).
Laissez votre avis sur ce sujet.