23 août 2016

OpenRefine


Pour mes sites Web, en particulier IDSORTIE, je suis souvent amené à me battre avec des listes de données structurées mais nécessitant des corrections, des nettoyages, tris, traitements .... 
Bien sûr on peut utiliser Excel / LibreOffice pour ce genre de travail, mais on se rend bien compte que ces outils ne sont pas fait pour çà, et qu'on en est réduits à faire beaucoup d'acrobaties pour en arriver au résultat escompté.

Cà fait donc un moment que je cherche une alternative aux tableurs pour ce genre de travail, et grâce à ma précédente lecture je suis tombé sur OpenRefine. Cet outil (anciennement Google Refine !!) fait partie des " Interactive Data Transformation tools (IDTs)", on peut résumer ce genre d'outils comme un tableur nourri aux hormones, mais dépouillé de tout ce qui est inutile dans le traitement de données. 

Installation : OpenRefine se télécharge sur le site officiel, et nécessite comme pré-requis une version Java récente. L'application s'exécute en local et son IHM s'affiche dans le navigateur par défaut comme une page web.

Les principales fonctionnalités d'OpenRefine sont :
  • Import de données de tout poil (csv, excel, ...) par fichier, par copier/coller, par URL ...
  • Tri, filtrage
  • Traitements unitaires sur les données à base de différents langages (Python, GREL)
  • Création de données à partir d'API Web (par exemple géocoding d'adresses) automatiquement appliquées à tout un jeu de données
  • Regroupement de données similaires
  • Recherche d'anomalies sur les données
  • Recherche de doublons
....
Bref c'est l'outil que je cherchais depuis un moment.

Aucun commentaire :

Enregistrer un commentaire