PulsaFormation
Le cycle de vie de la donnée
Article 9 minLeçon 4/5

La qualité, avant tout

Reconnaître les critères d'une donnée de qualité et les pièges les plus courants.


Avant d'analyser ou de nourrir une IA, il faut une donnée fiable. La bonne nouvelle : une donnée de qualité respecte quelques critères simples, que l'on peut vérifier sans être expert.

Les 5 critères à vérifier

  • Exacte : elle reflète la réalité, sans faute de saisie ni capteur déréglé.
  • Complète : pas de trous, pas de champs vides aux moments clés.
  • À jour : elle correspond à la bonne période, pas à un export d'il y a six mois.
  • Cohérente : même unité, même format partout (une date reste une date).
  • Unique : pas de doublons qui gonflent les comptages.
Donnée brute vs donnée exploitable
Donnée brute
  • Relevés en vrac, formats mélangés
  • Doublons, trous et valeurs aberrantes
  • Plusieurs versions qui se contredisent
  • Inexploitable telle quelle
Donnée exploitable
  • Nettoyée, normalisée, horodatée
  • Critères de qualité vérifiés
  • Une source unique qui fait foi
  • Prête pour l'analyse ou l'IA
Le nettoyage transforme un tas de relevés en une matière première fiable.
Le piège classique
Deux fichiers Excel « clients » qui ne se ressemblent pas : dates au format différent, noms en double, colonnes décalées. Les croiser sans les nettoyer produit des résultats faux — et on ne s'en rend souvent compte que trop tard.
Exemple usine
Un relevé de production où la pause déjeuner est tantôt comptée, tantôt non. Le rendement calculé devient ininterprétable : ce n'est pas un problème d'outil, mais de qualité de donnée.

Pourquoi la qualité passe avant l'outil

On rêve souvent du bon logiciel ou du bon modèle d'IA. Mais le meilleur outil appliqué à des données douteuses ne fait qu'accélérer la production d'erreurs. La qualité de la donnée plafonne la qualité de la décision.

≈ 80%
c'est l'ordre de grandeur souvent cité dans la profession : la part du temps d'un projet data passée à préparer et nettoyer les données
À retenir
Investir dans la qualité des données en amont, c'est éviter des décisions coûteuses prises sur de mauvaises bases. C'est le meilleur retour sur investissement d'un projet data.