image of street being labelled

Annotation de données : 3 idées fausses à éviter

  • Auteur/autrice de la publication :

Vous n’apprenez rien de nouveau si je vous dis :

Garbage in, garbage out.

Tout le monde sait que la performance des algorithmes de Machine Learning dépend de la quantité des données d’apprentissage. Pourtant, nous n’entendons pas beaucoup parler des entreprises impliquées dans la création de jeux de données annotées. Cela s’explique par le fait qu’il s’agit d’un service dans lequel des entreprises se sont spécialisées depuis peu.

Comme le Data Labeling reste un domaine méconnu, de nombreux préjugés subsistent, ce qui ne facilite pas la communication entre les entreprises utilisant le Machine Learning et les entreprises annotant leurs données. 

Alors pour vous aider dans votre projet d’annotation de données, voici 3 idées reçues à éviter !

I – L’Annotation de Données est toujours facile

Pas vraiment.  Si certains projets sont triviaux (par ex. différencier chiens et chats), les algorithmes de ML détectent des évènements toujours plus complexes. Cela demande des annotateurs de mieux en mieux formés, un management toujours plus compétent et des outils d’annotations adaptés.  

Tous ces efforts permettent de réduire les erreurs et d’augmenter la vitesse d’annotation des données.

 

chien sur la plage annoté avec une bbox - annotation des données
L’annotation sur des animaux, un jeu d’enfant ? 

Même sur des projets apparemment triviaux, nous sommes souvent confrontés à certains des défis suivants :

Les besoins des clients :

  1. La définition exacte des objets à annoter et le traitement des edges-cases. Surveiller le concept drift. [Le concept drift se produit lorsque les définitions des objets annotés divergent lentement.]
  2. Comprendre les résultats attendus par le client (formatage des données de sortie).

Adaptation de l’outil d’annotation :

  1. Ajout de pré-annotations sur l’interface pour accélérer l’annotation.
  2. Mettre en œuvre l’apprentissage actif (quand le modèle d’IA ne vous donne que les images où les prédictions ont le taux de confiance le moins élevé). Aussi, il est possible d’utiliser des interpolations (entre les images d’une vidéo par exemple) ou des modèles d’IA pour annoter plus rapidement.

Nous recommandons Kili Technology comme outil d’annotation, car il permet de facilement intégrer les pré-annotations et l’apprentissage actif dans leur outil d’annotation.

Évaluer et améliorer la qualité :

  1. Définir des métriques de qualité bien adaptées, les surveiller et améliorer les annotations si nécessaire.
  2. Détection automatique des erreurs sur la base de calculs géométriques ou de règles logiques.

Autrement dit, votre projet rencontrera aussi fréquemment des difficultés spécifiques que nous vous aiderons à résoudre. 

———-

Enfin, et surtout, la complexité augmentera avec le nombre de classes et de règles dans les instructions. 

II – L’ Annotation de données est toujours rapide

L’annotation de données n’est pas toujours rapide. Ainsi, tous les défis précédents demandent du temps à l’expert en annotation. Également, il faut parfois consacrer du temps au développement informatique pour améliorer les outils.

Par ailleurs, l’affinement des instructions et la formation des annotateurs nécessitent souvent une interaction entre l’entreprise d’annotation et le client. Cela demande du temps supplémentaire.

En outre, plus votre projet d’annotation des données est complexe, long et fastidieux, plus il sera avantageux de commencer par une phase de POC (Proof of Concept). C’est-à-dire effectuer des tests et d’ajustements avant de passer à l’échelle supérieure.

Voyons pourquoi :

La balance Qualité/Vitesse

La définition du niveau de qualité approprié nécessite une interaction entre le client et l’entreprise d’annotation. À cette fin, les indicateurs de performance de la qualité peuvent parfois être utiles mais ne sont pas obligatoires.

Les instructions évolueront

Il est difficile d’avoir de bonnes instructions dès le départ. En outre, plus de données à annoter entraîne mécaniquement plus de questions et de cas limites. Clarifier les instructions dès que possible et autant que possible permet d’éviter le concept drift au cours du projet.

Adaptation et validation de l’outil d’annotation

L’annotateurs et les reviewers seront plus rapides si l’interface d’annotation est bien adaptée à la tâche. Des détections automatiques d’erreurs adhoc peuvent être ajoutées à l’outil pour augmenter la qualité.

L’outil doit également inclure des fonctionnalités de qualité et d’équipe : processus de révision, gestion de l’équipe, vue du client, Q/A, etc…

Il faut un certain temps pour constituer une équipe compétente.

Il est avantageux de commencer par former un expert d’une seule tâche. La formation est beaucoup plus facile une fois que les instructions et l’outil sont finalisés. Une organisation claire pour l’assurance qualité doit être mise en place.

———-

Cette phase de définition peut prendre du temps, mais elle vous aidera à long terme à développer votre projet d’annotation. De plus, vous apprendrez beaucoup sur votre propre projet d’annotation, ce qui est précieux pour vous comme pour nos annotateurs.

III – L’annotation de données est toujours un bon marché

Nous avons vu ci-dessus que l’annotation des données n’est pas toujours facile et rapide, donc, elle n’est pas toujours bon marché.

Pourtant le taux horaire d’un freelancer à l’autre bout du monde peut vous coûter 2€ par heure d’annotation.

Mais si votre projet est important et non trivial, il nécessitera une équipe organisée, avec un processus d’annotation complexe (formation, consensus, révision, etc.) et un outil adapté. Cela implique que vous aurez besoin de gestionnaires dédiés, d’experts en annotation et d’outils d’annotation précis disposant de fonctions de gestion d’équipe. 

Les freelancers ne peuvent pas annoter des projets importants et non triviaux car la proportion d’imprécisions/erreurs dans votre ensemble de données d’entraînement risque d’être très importante. Vous pouvez même essayer de compenser la mauvaise qualité de l’ensemble de données d’entraînement par des heures de raffinement et de paramétrage de votre modèle ML, mais cela peut créer des retards importants. De plus, l’affinage de vos modèles ML ne pourra pas compenser des imprécisions trop lourdes sur l’annotation. En d’autres termes, la seule solution qui pourrait vous rester pour mener votre projet à bout peut être de ré-annoter (en interne ou par une équipe compétente) votre ensemble de données.

Dernières réflexions sur l’annotation de données

Si vous confiez cette tâche à une entreprise d’annotation de données, votre projet aura une probabilité de réussite beaucoup plus élevée. Il sera plus facile de respecter vos délais avec la précision que vous attendez et que vous apporterez la valeur ajoutée souhaitée à votre entreprise.

Andrew Ng a récemment expliqué que si les ingénieurs en  Machine Learning se concentrent beaucoup sur les modèles et leur paramétrisation, le retour sur investissement le plus important aujourd’hui réside dans l’amélioration de la qualité des ensembles de données d’apprentissage.

Une IA de haute performance = Bon modèle + Données de qualité

Andrew Ng


En conclusion, la qualité, le prix et la rapidité sont des paramètres que seule une entreprise spécialisée dans l’annotation de données sera en mesure d’ajuster aux besoins de votre projet. Face à l’explosion de la complexité des projets d’IA, l’expertise en annotation de données est désormais nécessaire pour bien comprendre vos besoins et y répondre de la meilleure façon possible.

Rejoignez notre équipe

Nous sommes continuellement à la recherche de nouveaux talents pour étoffer notre équipe. Postulez simplement avec un CV et un e-mail à tous nos postes disponibles.

Laisser un commentaire