Il est:

  • facile à mettre en place
  • débrouillard (ne nécessite aucun paramétrage ou très peu)
  • sa collecte n’est pas toujours parfaite
  • Idéal pour constituer rapidement un sourcing massif

Crawl d’initialisation

Quelques erreurs de collectes peuvent apparaitre, comme une mauvaise date de publication de l’article. Par exemple, si plusieurs dates sont présentes sur l’article, le robot ne prendra pas forcément la bonne. De plus, toutes les pages d’un site ne sont pas datées. Le robot les datera comme étant “d’aujourd’hui”.

Cela peut provoquer le phénomène de “Crawl d’initialisation”.

Juste après avoir créé ce genre de robots, de nombreux articles seront créés et datés du jour même. Ils arriveront donc tous d’un bloc dans les résultats de vos thèmes. Ce phénomène est temporaire. Les nouvelles pages publiées dans les jours qui viennent seront datées avec un décalage maximum de six heures par rapport à l’original.
Cela ne vaut donc que pour les archives du site.

Fonctionnement du Crawler

Le Website crawler se rendra sur le lien URL que vous avez renseigné. Il se baladera ensuite de lien URL en lien URL, de page en page, en cliquant sur tous les boutons qu’il rencontrera.

Ce robot essaiera de créer un article par page rencontrée.

Créer un Website crawler

  1. Source > Website Crawler > Collez l’URL d’une page du site qui vous intéresse
  2. Remplissez le formulaire (non-obligatoire)
  3. Cliquez sur “créer”

En effet, ce robot débrouillard ne nécessite pas vraiment de paramétrage.

Vous pouvez cependant filtrer grâce aux “must include” et le “add block”.

Collez les parties d’URL dans ces champs pour forcer le crawler à ne collecter que les pages possédants cette extension dans l’URL (Must Include), ou justement à les ignorer.

Exemple: https://www.lafermedigitale.fr

Sur ce site, tous les articles possèdent “/actualités/ dans leur URL.

Vous pouvez donc ajouter cela dans le MUST INCLUDE pour forcer leur robot à ne collecter que des articles.

N’oubliez pas de collez ce tronçon avec les slash “/ /” (voir exemple du dessus).

Créer un website crawler, en vidéo:

Revision: 10

Réaction

Était-ce utile?

Oui Non
Vous avez indiqué que ce sujet ne vous a pas été utile ...
Pouvez-vous SVP laisser un commentaire nous disant pourquoi? Merci!
Merci pour vos commentaires.

Laissez votre avis sur ce sujet.

Valider