Introduction
L’annotation de Bounding Boxes 3D (boîtes englobantes 3D ou Bbox 3D) est une tâche essentielle pour entraîner les modèles de conduite autonome. Elle permet aux modèles d’IA de détecter, suivre et classifier avec précision les objets dans les nuages de points LiDAR et les ensembles de données multi-capteurs (data fusion). Cependant, l’efficacité et la précision du processus d’annotation dépendent fortement de l’outil utilisé.
Choisir le bon outil d’annotation 3D a un impact considérable sur la qualité de l’annotation, la rapidité du projet et son coût. Dans cet article, nous comparons deux outils populaires, BasicAI et CVAT, afin de vous aider à prendre une décision éclairée en fonction de la complexité et de l’ampleur de votre projet.
Principales différences entre BasicAI et CVAT pour l’annotation de Bounding Boxes 3D
1- Visualisation du nuage de points 3D
La qualité de l’annotation 3D dépend fortement des options de visualisation offertes par l’outil utilisé. Une bonne visualisation permet aux annotateurs d’interagir efficacement avec les nuages de points, d’améliorer la précision des annotations et de mieux distinguer les objets complexes. Les bons outils d’annotation 3D permettent de combiner et de changer facilement de type de visualisation pour faciliter l’annotation (par exemple, visualisation par rapport à la distance, l’élévation ou l’intensité).
CVAT : Absence de visualisation de l’intensité des points
CVAT ne permet pas d’afficher l’intensité des points LiDAR, ce qui complique la différenciation des objets dans le jeu de données. Or, cette fonctionnalité est essentielle pour la conduite autonome, car elle aide à distinguer les surfaces de la route, les piétons et les véhicules. Elle est particulièrement utile pour identifier des objets très réfléchissants, comme les panneaux métalliques, qui peuvent générer des artefacts.
BasicAI : Visualisation personnalisable
BasicAI permet aux annotateurs de mettre en avant certaines caractéristiques des objets, comme leur hauteur, leur distance ou encore l’intensité des points, afin d’améliorer la précision des annotations et de mieux comprendre les nuages de points LiDAR.

Bien que CVAT soit un outil open-source largement utilisé, cette fonctionnalité manquante réduit son utilité. Dans certains projets d’annotation, ce manque ralentira le processus d’annotation et pourra impacter la précision des annotations.
2- Annotation assistée par l’IA
L’IA peut rendre d’importants services lors de l’annotation de nuages de points. Elle permet d’accélérer l’annotation en comprenant ce que l’utilisateur souhaite annoter en 3D alors qu’il se sert d’un outil d’annotation sur un écran en 2D. BasicAI améliore l’efficacité de l’annotation grâce à des outils d’intelligence artificielle qui automatisent et optimisent l’annotation des 3D Bounding Boxes.
CVAT : Pas de génération automatique des Bbox 3D
Dans CVAT, la création et le positionnement de Bbox 3D sont manuels et doivent être ajustés à partir d’une forme cubique de base, ce qui entraîne une perte de temps significative. L’annotateur doit effectuer manuellement la translation, la rotation et le redimensionnement de la boîte, ce qui ralentit considérablement le travail.
BasicAI : Génération intelligente de Bbox 3D
Avec BasicAI, l’outil d’annotation assisté par l’IA génère une 3D bounding box initiale à partir d’une première Bbox dessinée par l’annotateur. Cette approche permet de centrer la boîte directement sur l’objet 3D réel et réduit drastiquement le temps d’annotation. Il n’y a plus que quelques corrections à effectuer à la marge avant d’envoyer à l’étape de review.
3- Édition et ajustements des annotations
Un bon outil d’annotation doit permettre des modifications fluides pour améliorer la précision de l’annotation.
BasicAI : Ajustements précis et rapides
- Rotation et translation optimisées grâce à des valeurs d’angle et de translation discrètes, accessibles via des boutons dédiés.
- Ajustements fluides et intuitifs permettant de modifier rapidement les Bbox sans perte de temps.
CVAT : Modifications manuelles laborieuses
- Rotation et translation nécessitent l’utilisation du curseur de la souris, ce qui peut rendre les modifications frustrantes et instables.
- La précision des ajustements est moindre, car il faut souvent chercher le bon point de transformation.
4- Interpolation et extrapolation
L’interpolation et l’extrapolation sont des fonctionnalités importantes qui facilitent l’annotation des séquences vidéo ou des nuages de points LiDAR dynamiques en avant dans le temps comme en arrière.
CVAT : Interpolation limitée
- CVAT ne permet que l’interpolation vers l’avant, ce qui signifie que les annotations ne peuvent pas être propagées en arrière dans les images précédentes.
- L’extrapolation IA est absente, obligeant les annotateurs à ajuster manuellement les 3D bounding boxes au fil du temps.
BasicAI : Interpolation avancée et extrapolation par IA
- Interpolation bidirectionnelle : BasicAI permet d’interpoler à la fois vers l’avant et vers l’arrière, optimisant ainsi l’annotation des objets en mouvement.
- Extrapolation par IA : L’outil prédit les positions des 3D bounding boxes au-delà des images annotées grâce à un modèle d’IA, réduisant ainsi considérablement le temps d’annotation.
Cas d’usage : Dans les datasets de conduite autonome, la meilleure visibilité d’un objet pour créer une bonne 3D bounding box est souvent lorsqu’un véhicule est le plus proche du capteur LiDAR. Avec BasicAI, les annotateurs peuvent fixer cette Bbox de référence et interpoler en avant et en arrière pour maximiser la précision et gagner du temps.
Conclusion
Le choix de l’outil d’annotation 3D dépend de la complexité, de l’échelle et des exigences d’efficacité de votre projet.
- CVAT est un bon outil open-source pour l’annotation basique de Bbox 3D sur un nombre restreint d’images. Toutefois, il manque d’outils IA, d’une interface d’édition des 3D Bbox intuitive et de fonctionnalités avancées d’interpolation/extrapolation, ce qui limite son usage pour des projets LiDAR de grande taille.
- BasicAI, conçu pour l’annotation LiDAR et la fusion de données, propose la génération automatique de Bbox 3D, une interface d’édition plus fluide et des outils avancés d’interpolation et d’extrapolation. Ces fonctionnalités en font l’outil idéal pour les projets nécessitant une annotation de haute précision et à grande échelle.
Tous ces facteurs nous ont amenés à lancer un projet de fusion de données et d’annotation LiDAR sur CVAT, mais finalement à migrer vers BasicAI pour son efficacité accrue.
🔎 Besoin d’annotations 3D de qualité ? People for AI fournit des services d’annotation experts utilisant BasicAI et d’autres outils de pointe. Contactez-nous dès aujourd’hui pour optimiser vos workflows d’annotation LiDAR, vidéo et image
📩 Contactez notre équipe chez People for AI.