Toutes les sources ne peuvent être insérées via la méthode “point & click” décrite dans le tutoriel précédent.

Cela peut être empêché:

  • car l’affichage ne se charge pas
  • que cliquer sur un élément d’article ne soit pas possible
  • que le robot ne comprenne pas quelle boite spécifique vous intéresse

Il est néanmoins bien souvent possible de rédiger manuellement ces sélecteurs.

Pour ce faire, il est nécessaire de connaitre quelques bases en HTML.
L’HTML est une langue de page web sous forme de balise.

Comment les développeurs conçoivent-ils une page web ?

Ils créent des boites, les imbriquent les unes dans les autres et y injectent ensuite du contenu (des liens URL, des images, du texte, etc.).
Le but du jeu est de retrouver quelle boite contient le contenu d’un sélecteur et de l’indiquer au robot Cikisi.

Ces boites sont de certains types, appelés “tag html”. Vous en utiliserez une douzaine tout au plus et bien souvent les mêmes pour les mêmes sélecteurs.

Voici les plus courantes:

  • h1, h2, h3, h4, h5 et h6 : h pour “header”. Ce sont des boites prévues pour les titres. “h1” sera le plus gros titre possible et h6 le plus petit.
  • p : pour “paragraph”, contient du texte
  • img : une boite pour y mettre des images (95% des sélecteurs “images”)
  • a : la boite prévue pour les liens URL. 100% des sélecteurs “link”.
  • div : une boite “fourre-tout”. Quand un développeur veut ranger du contenu quelque part, mais n’a pas d’idée d’où le mettre (car pas de type de boite dédié), il le range dans une “div”.
  • ul : une liste à puces de plusieurs éléments (une recette de cuisine par exemple)
  • li : à l’intérieur d’un “ul”, ce sont les points de la liste

Comment trouver le type de boite qui m’intéresse ?

  • Ouvrez la page qui vous intéresse.
  • Faites un click droit sur l’élément de votre choix (un titre par exemple)
  • Cliquez sur “inspecter” tout en bas
  • Les “boites” sont inscrites en rose sur le volet qui s’ouvre à droite

Dans l’exemple du dessus, vous voyez en rose (indiqués par des flèches) et de haut en bas le wrapper, puis h2 pour le titre et “a” pour le lien URL (link).

Il ne vous reste plus qu’à encoder le type de boite dans le scrapping bot au bon sélecteur.

Préciser un sélecteur

Parfois, indiquer la classe et le tag HTML ne suffit pas. En effet, plusieurs boites peuvent correspondre et toutes ne sont pas des articles. Cela provoquerait alors une erreur lors du processus de collecte.

Il existe plusieurs techniques pour préciser un sélecteur:

  • Indiquer le parent avec des “>
    Exemple: div > ul > li
    Cela indique au robot que vous souhaitez une boite de type “LI” qui se trouve dans un “UL” qui se trouve lui-même dans une “DIV”.
  • Indiquez le numéro de l’enfant avec :nth-child(X)
    Exemple: li:nth-child(3) indique que vous cherchez une boite “LI” étant le troisième enfant de la famille, pour le distinguer des frères d’un même parent. Les “frères” sont sur la même ligne par ordre croissant, le premier étant tout en haut, juste en dessous du parent.

Revision: 5

Réaction

Était-ce utile?

Oui Non
Vous avez indiqué que ce sujet ne vous a pas été utile ...
Pouvez-vous SVP laisser un commentaire nous disant pourquoi? Merci!
Merci pour vos commentaires.

Laissez votre avis sur ce sujet.

Valider