Le scrapping bot est l’alter ego du Website Crawler.
Il n’est absolument pas débrouillard ! Vous devez le prendre par la main et lui indiquer où il peut trouver le titre d’un article, son image, etc.
Le Scrapping bot se rendra sur la page que vous lui avez indiqué. Il ne s’intéressera pas à l’entièreté d’un site comme le crawler.
Si vous le lancez sur la page des communiqués de presse, il restera dans cette catégorie.
Quel avantage alors ?
Le Scrapping bot, s’il est bien paramétré, offre une collecte impeccable et est entièrement personnalisable.
Créez un scrapping bot
- Source > Créer une source > Scrapping bot
- Coller l’URL de la page qui vous intéresse
- “Vérifier”
- Remplissez le formulaire
- Cliquez ensuite sur le bouton “Edit selectors”
Cikisi va essayer de vous présenter la page de ce site, comme sur un navigateur. Notez que vous êtes toujours sur Cikisi.
Le but est simple: Un article est composé de plusieurs éléments. Un titre, un lien URL, une date, etc.
A vous de montrez au robot où les trouver sur la page.
Pour se faire, cliquez sur le sélecteur à droite, puis sur son équivalent à gauche:
La plupart de ces sélecteurs sont évidents. Le tout premier mérite cependant une explication.
Qu’est-ce que le “wrapper” ?
Un wrapper est l’enveloppe d’un seul et unique article, n’importe lequel. Cela permettra au robot de distinguer un article d’un autre.
Point & click
- Cliquez sur un des sélecteurs à droite (ex. “Wrapper”)
- Il deviendra orange et clignotera. Cela signifie qu’il attend que vous cliquiez sur l’élément correspondant sur la page qui vous intéresse (à gauche).
- Bougez la souris sur la page du site: des boites oranges vont apparaitre.
- Cliquez sur la boite correspondante.
Premier et second niveau ?
Comme vous l’avez peut-être remarqué, les sélecteurs à droite sont répartis en deux groupes: le premier et le second niveau.
- Premier niveau: Il s’agit de la première page, du lien URL que vous avez indiqué lorsque vous avez créé le robot. Bien souvent, le premier niveau affiche une liste de plusieurs articles.
- Second niveau: Le second niveau correspond à ce qu’on trouve lorsque l’on clique sur “lire la suite” d’un article présenté sur le premier niveau, ou quand vous cliquez sur le titre d’une publication. Vous accédez à la page dédiée de l’article et à son contenu intégral.
Le scrapping bot va donc collecter une partie des éléments d’un “futur article Cikisi” au premier niveau, sur le lien que vous lui avez indiqué, puis il ira chercher le reste en suivant le lien de l’article pour accéder à l’ensemble de l’article.
Quel sélecteur correspond à quoi ?
Comme nous l’avons déjà mentionné, un article Cikisi comporte plusieurs éléments. Chaque élément est un sélecteur.
Wrapper: l’enveloppe d’un article unique. Permet au robot de distinguer une publication d’une autre.
Title: Le titre de l’article (servira également de titre dans Cikisi)
Link: Le lien URL pour lire l’intégralité de l’article. Dans Cikisi, lorsque vous cliquez sur le titre d’un item, vous êtes redirigé vers la page originale. Derrière le titre se trouve en fait les sélecteurs “title” et “link”. Si ce sélecteur n’est pas rempli, vos articles Cikisi ne renverrait vers aucun contenu particulier si ce n’est la page de départ du scrapping bot.
Description: description d’un article, présente au premier niveau. Si un article Cikisi n’en possède pas, nous en créons une sur base du début de l’article.
Image: L’image d’illustration
Date: La date de publication de l’article. Si celle-ci n’est pas affichée, nous daterons l’article comme étant “d’aujourd’hui”.
Pagination: Le système de navigation permettant de tourner les pages de résultats ou d’afficher plus d’articles au premier niveau. Vous pouvez apprendre à votre scrapping bot à tourner les pages et trouver les archives/vieux articles. Indiquez-lui simplement la zone où il peut trouver les numéro de page ou le bouton “load more” (prenez de quoi englober l’intégralité des numéros de pages) et indiquez au robot le format (numérique, un bouton simple de style “view more” ou un “scroll down”)
Content: Le reste de l’article que nous pouvons trouver au second niveau
PDF: Un bouton pour télécharger un document PDF. Celui-ci sera indexé à votre article dans Cikisi.
Author: L’auteur de la publication
Déplacez les sélecteurs
La date n’est pas indiquée au premier niveau mais au deuxième ? Vous pouvez déplacer les sélecteurs en maintenant le clique et le faisant glisser au second ou premier niveau.
Vous parlez l’HTML ? Notre robot aussi !
Vous pouvez inscrire manuellement vos sélecteurs dans la barre bleu du menu “edit selectors”:
Ou en cliquant sur “edit selectors manually” au menu précédant:
Le tuto suivant vous montre comment trouver vous-même vos sélecteurs et les règles d’écriture.
Les erreurs classiques du scrapping bot
- Le wrapper doit être mis sur un seul article ! Une erreur courante chez les débutant est de placer un wrapper large englobant l’intégralité des articles. 1 wrapper = 1 article.
- Un wrapper ne doit contenir que des articles, pas une zone qui n’a rien avoir: Recliquez sur le wrapper et vérifiez que seul le contenu d’intérêt est en bleu. Si du bruit est également pris (genre une pub), cela génèrera une erreur.
- Un des wrappers n’a pas de titre: Un article Cikisi a toujours besoin d’un titre !
- Le premier niveau est bien collecté mais je n’ai pas l’intégralité de l’article ? Votre sélecteur “link” est sans doute défectueux et le scrapping bot n’a donc pas accès au contenu intégral. Cliquez sur le lien d’un article Cikisi de votre robot. Etes-vous redirigé vers l’article original dans son intégralité ? Si pas, votre link est mal posé.
Laissez votre avis sur ce sujet.