Bonjour,
Si vous trouvez cette newsletter utile, vous pouvez vous abonner et la partager. N'hésitez pas à me faire part de vos questions et vos feedbacks. Merci !
Depuis plusieurs mois, toute l’attention est portée sur les modèles de langage (aka LLMs : Large Language Models) et surtout leur taille, cependant la qualité de la data sur laquelle on entraîne ces modèles semble tomber dans les oubliettes.
Donc, il est important de rappeler que la performance d’un modèle dépend de la qualité de la data d’entraînement.
Le plus important dans un projet data c’est d’avoir de la data et de s’assurer qu’il y a un processus data quality qui garantit sa valorisation et son utilité pour les métiers ou pour le business.
Les principes clés de la data quality :
Exactitude : les données reflètent la réalité. Exemple : une adresse dans votre base de données ne doit pas être une adresse inventée mais vérifiable via La Poste ou Google Maps, etc.
Complétude : Aucune donnée ne manque. Des champs vides donnent par exemple une adresse incomplète : numéro ou code postale manquant.
Cohérence : les données de sources différentes ne doivent pas être en conflit.
Actualité : les données sont à jour.
Unicité : Les données ne contiennent pas de doublons.
Validité : Les données sont conformes au formatage attendu. Exemple : les dates doivent respecter ce format JOUR/MOIS/ANNEE
Selon le secteur, il peut y avoir d’autres principes qui s’ajoutent à cette liste comme la conformité réglementaire de la data dans les secteurs banque, finance et assurance.
Nettoyage des données :
Le nettoyage des données et l’un des moyens pour améliorer la qualité de la data.
Les datalakes regorgent de “dirty data” ET c’est une bonne nouvelle car une fois ces données nettoyées elles peuvent être transformées en asset.
Le processus de nettoyage des données est perçu comme une corvée ou comme une tâche chronophage, mais il est essentiel pour rendre les données exploitables par du machine ou deep learning et d’éviter le “garbage in, garbage out”.
C’est une étape cruciale dans un projet data et ce fameux ratio s’impose:
80 % de temps consacré au nettoyage et la préparation des données.
20 % pour la modélisation algorithmique.
Le nettoyage des données doit être un processus permanent.
C'est une maintenance qui permet de bien connaître la data et d'être sûr de sa fiabilité.
La confiance en la qualité de la data évite le stress et la peur des mauvaises prises de décisions qui engendrent une perte d'argent et de temps mais aussi la perte de confiance des métiers en ce que la data peut leur apporter comme valeur.
Merci de m’avoir lu.
N’hésiter pas à me faire un feedback ou me dire ce qui pourrait vous intéresser comme sujet.
A bientôt!
Sofia