Reconnaître les critères d'une donnée de qualité et les pièges les plus courants.
Avant d'analyser ou de nourrir une IA, il faut une donnée fiable. La bonne nouvelle : une donnée de qualité respecte quelques critères simples, que l'on peut vérifier sans être expert.
Les 5 critères à vérifier
Exacte : elle reflète la réalité, sans faute de saisie ni capteur déréglé.
Complète : pas de trous, pas de champs vides aux moments clés.
À jour : elle correspond à la bonne période, pas à un export d'il y a six mois.
Cohérente : même unité, même format partout (une date reste une date).
Unique : pas de doublons qui gonflent les comptages.
Donnée brute vs donnée exploitable
Donnée brute
Relevés en vrac, formats mélangés
Doublons, trous et valeurs aberrantes
Plusieurs versions qui se contredisent
Inexploitable telle quelle
Donnée exploitable
Nettoyée, normalisée, horodatée
Critères de qualité vérifiés
Une source unique qui fait foi
Prête pour l'analyse ou l'IA
Le nettoyage transforme un tas de relevés en une matière première fiable.
Le piège classique
Deux fichiers Excel « clients » qui ne se ressemblent pas : dates au format différent, noms en double, colonnes décalées. Les croiser sans les nettoyer produit des résultats faux — et on ne s'en rend souvent compte que trop tard.
Exemple usine
Un relevé de production où la pause déjeuner est tantôt comptée, tantôt non. Le rendement calculé devient ininterprétable : ce n'est pas un problème d'outil, mais de qualité de donnée.
Pourquoi la qualité passe avant l'outil
On rêve souvent du bon logiciel ou du bon modèle d'IA. Mais le meilleur outil appliqué à des données douteuses ne fait qu'accélérer la production d'erreurs. La qualité de la donnée plafonne la qualité de la décision.
≈ 80%
c'est l'ordre de grandeur souvent cité dans la profession : la part du temps d'un projet data passée à préparer et nettoyer les données
À retenir
Investir dans la qualité des données en amont, c'est éviter des décisions coûteuses prises sur de mauvaises bases. C'est le meilleur retour sur investissement d'un projet data.