Un processus de validation est une séquence de tâches exécutées pour vérifier l’exactitude d’un ensemble de données annotées.
Le dictionnaire de Larousse définit le « processus » comme « enchaînement ordonné de faits ou de phénomènes, répondant à un certain schéma et aboutissant à quelque chose ». Dans le contexte de l’annotation des données, un processus de validation est donc un processus dont l’objectif est de vérifier le déroulement de l’annotation des données.
Nous disposons de quatre processus de validation pour évaluer l’exactitude des données annotées.
- Sans validation : Un labellisateur annote et il n’y a pas de vérification supplémentaire.
- Avec reviewing : Un expert « reviewer » vérifie l’annotation et donne son avis sur les annotations.
- Annotation par consensus : Plusieurs annotateurs annotent le même échantillon de données, ce qui n’est utilisé qu’en cas d’accord.
- Honeypot : Un expert (souvent le client) annote un extrait des données, qui est ensuite utilisé comme référence pour évaluer la qualité des annotations fournies ultérieurement par les annotateurs.
Les processus varient selon les acteurs impliqués, leur expérience, la complexité et la qualité requise pour chaque tâche. Ces flux sont établis au début du projet, en fonction de sa complexité.
Choix du processus de validation
Le processus de validation est un choix flexible qui dépend du client et de ses besoins (qualité, budget et délais). En d’autres termes, le client peut choisir le flux de validation qu’il souhaite appliquer à des échantillons ou à l’ensemble des données de production.
Il est important de souligner que le processus de travail n’est pas fixe pour toute la durée du projet. Pour les projets avec reviewing, s’appuyer uniquement sur un reviewing à 100% serait excessivement coûteux. Au lieu de cela, une approche adaptable est efficace, en commençant par un processus de review solide. Au fur et à mesure que les annotateurs améliorent leurs performances grâce au retour d’information des reviewers, la proportion de révisions diminue progressivement. De même, l’annotation par consensus, généralement appliqué à une fraction (e.g. 10 à 20 %) des annotations, suit ce principe.
Ensuite, l’agilité joue un rôle crucial dans ce processus. Elle permet des ajustements réactifs, qui ont un impact positif sur le coût, la rapidité et la qualité de l’annotation.
Enfin, un processus de validation est l’une des trois approches utilisées pour évaluer la qualité de l’annotation des données. Si vous souhaitez en savoir plus, n’hésitez pas à consulter notre article sur la qualité dans l’annotation de données.
Synonymes : Flux de validation; Workflow de validation