Une fois le document téléchargé et le balisage en cours, l’utilisateur peut appliquer l’analyse pour récupérer les données dans le document. Pour un parsing de meilleure qualité, les utilisateurs doivent suivre ces quelques bonnes pratiques :
1. Documenter le format original
L’analyseur utilisera le formatage du document d’origine comme modèle pour pouvoir traiter les données du document. Le résultat sera toujours plus optimal si le document original a un contenu structuré. Une attention particulière est requise pour : la hiérarchie des informations (h1, h2, etc.), les listes, les formats gras ou légers, les structures de tableau, etc.
2. Hiérarchie de marquage
Lors de la création d’un modèle ou du balisage d’un document pour la première fois, il est important de penser à la hiérarchie des données.
Lors du balisage du document, les utilisateurs doivent toujours valider les données dans le tableau Hiérarchie et association à gauche de l’écran.
3. Balisage des objets
Il est recommandé de baliser l’intégralité du texte en tant qu’objets. Les objets partiellement balisés peuvent entraîner des erreurs lors de l’exportation des données.
Exemple sur la façon de baliser le texte :
Texte original
Dans cet exemple, les numéros de séquence ont été marqués séparément et juste avant les noms d’objet. Il est important de taguer toute la description de l’objet mais en évitant toujours de taguer des espaces inutiles.
L’image suivante représente à quoi ressemble un mauvais balisage qui peut entraîner des erreurs de données. Dans cet exemple, les numéros de séquence sont fusionnés avec les noms d’objets et les espaces inutiles sont marqués à la fin du paragraphe.
Exemple sur la façon de baliser correctement les cellules d’un tableau pour l’analyse :
L’utilisateur ne peut baliser que la première ligne de cellules
Après avoir cliqué sur Parse, toutes les tables avec la même structure seront étiquetées en conséquence de ce qui a été indiqué dans la première ligne
4. Prise en charge des attributs et des types de catégorie
Tous les types d’attributs et de catégories sont désormais pris en charge dans Parser. Certains de ceux pris en charge sont : les champs à sélection multiple et les catégories avec des menus déroulants, les champs de valeur unique avec des menus déroulants et les champs de devise ou les champs doubles
Laissez votre avis sur ce sujet.