Nettoyer ses données (gratos)

September 19, 2017

 

Vous avez aspiré ou téléchargé des données sur le web et vous frétillez à l'idée d'enfin les passer à la moulinette d'un logiciel d'analyse ! Minute padawan. Avant de faire quoi que ce soit, il faut d'abord s'assurer qu'elles sont utilisables, lisibles par un logiciel. Par exemple, lorsque l'on aspire une date d'instagram, elle arrive dans le tableau final sous forme de texte incompréhensible pour le commun des logiciels d'analyse. 

 

Inutile de vous lancer dans une correction à la main : il existe des logiciels qui vous corrige tout ça en un clic et sans faute de frappe ! Le premier outil gratuit mais puissant, c'est OpenRefine qui est l'un des rares à nettoyer les typos et à consolider les données. Par exemple, si vous manipulez des tableaux tapés à la main, comme des rapports de police, où des fautes de frappe sont courantes notamment dans les adresses, OpenRefine détecte et à corriger les erreurs possibles.

 

Dans Google Sheets, il y a aussi des formules utiles pour nettoyer les données comme =clean; (qui retire les caractères non imprimables) =split(); (qui répartit le texte sur plusieurs colonnes), =concatenate(); (qui assemble le texte de deux colonnes) ou =googletranslate(); (qui traduit le contenu des colonnes).  Il y a aussi =googlefinance(); qui permet de convertir, en temps réel, les sommes d'une monnaie à l'autre.  

 

Il y a enfin Data Wrangler développé par Stanford qui permet d'intégrer des infos dans un tableau, d'éliminer les lignes inutiles, de créer des colonnes intéressantes et informatives en deux clics. La démo vidéo est explicite : 

 

 

La version commercialisée et donc mise à jour de Data Wrangler est Trifacta.

 

 

 

Share on Facebook
Share on Twitter
Please reload

Posts Récents

December 15, 2017

December 8, 2017

Please reload

Archives
Please reload

Rechercher par Tags
Retrouvez-nous
  • Twitter Basic Square

© 2017 PAR LES TRANSMEDUSES.