Aspirer les données du web (gratos)

September 12, 2017

 

Le web est farci de données potentiellement utilisables et compilables dans un tableur. Certaines sont des bases de données à télécharger sur des portails, comme sur data.gouv.fr. D'autres sont des tableaux intégrés dans des pages web et que de fait il n'est pas aisé d'importer directement. Sauf quand on connaît deux trois astuces.

 

Dans Google Sheets par exemple, il y a quelques fonctionnalités bien pratiques comme la fonction =importHTML("url";"table";numéro du tableau dans la page) qui permet d'extraire les données d'un tableau présenté sur une page internet.

 

Pour générer des métadonnées, il y a aussi l'extension Chrome Web Scraper ou le service en ligne Portia. Ces logiciel de "web scraping" sont super utiles car ils permettent de réunir et d'ordonner des infos distribuées sur des forums, ou sur plusieurs pages web. De quoi économiser pas mal de temps en copier/coller ! Il y a plein de tutos sur le web et pas besoin de savoir coder. 

 

Un autre outil génial est IFTTT qui permet une quantité assez folle de choses dont créer sur Google Sheets un tableau réunissant tous les tweets (datés, nommés, etc) mentionnant un mot précis, ou toutes les températures observées à Narbonne Plage ou toutes les photos prises sur Instagram à New York ou rue Tartempion à Nevers. IFTTT est l'abréviation de "If this then that". Cela signifie en gros, "s'il se passe (la chose que l'on définit) sur internet, alors fais (la chose que l'on définit)." Vraiment cool.

 

Share on Facebook
Share on Twitter
Please reload

Posts Récents

December 15, 2017

December 8, 2017

Please reload

Archives
Please reload

Rechercher par Tags
Retrouvez-nous
  • Twitter Basic Square

© 2017 PAR LES TRANSMEDUSES.