Nettoyer ses données (gratos)

Vous avez aspiré ou téléchargé des données sur le web et vous frétillez à l'idée d'enfin les passer à la moulinette d'un logiciel d'analyse ! Minute padawan. Avant de faire quoi que ce soit, il faut d'abord s'assurer qu'elles sont utilisables, lisibles par un logiciel. Par exemple, lorsque l'on aspire une date d'instagram, elle arrive dans le tableau final sous forme de texte incompréhensible pour le commun des logiciels d'analyse.

Inutile de vous lancer dans une correction à la main : il existe des logiciels qui vous corrige tout ça en un clic et sans faute de frappe ! Le premier outil gratuit mais puissant, c'est OpenRefine qui est l'un des rares à nettoyer les typos et à consolider les données. Par exemple, si vous manipulez des tableaux tapés à la main, comme des rapports de police, où des fautes de frappe sont courantes notamment dans les adresses, OpenRefine détecte et à corriger les erreurs possibles.

Dans Google Sheets, il y a aussi des formules utiles pour nettoyer les données comme =clean; (qui retire les caractères non imprimables) =split(); (qui répartit le texte sur plusieurs colonnes), =concatenate(); (qui assemble le texte de deux colonnes) ou =googletranslate(); (qui traduit le contenu des colonnes). Il y a aussi =googlefinance(); qui permet de convertir, en temps réel, les sommes d'une monnaie à l'autre.

Il y a enfin Data Wrangler développé par Stanford qui permet d'intégrer des infos dans un tableau, d'éliminer les lignes inutiles, de créer des colonnes intéressantes et informatives en deux clics. La démo vidéo est explicite :

La version commercialisée et donc mise à jour de Data Wrangler est Trifacta.

#Outilsgratuits #nettoyer #données #OpenRefine #GoogleSheets #DataWrangler #Trifacta

Posts Récents
Archives
Rechercher par Tags
Pas encore de mots-clés.
Retrouvez-nous
  • Twitter Basic Square