CITICA a 27 ans – C’est quoi CITISTATS ? Un (nouvel) outil d’analyse de données (épisode 6).
L’épisode 5 expliquait l’historique et la construction d’une application d’étude de marché, dédiée aux tiers-lieux. Fort de ce premier développement, nous décidons de construire un outil associé à une marque, (ce sera CITISTATS) avec l’objectif d’intégrer dans les versions suivantes, (beaucoup) plus de données et (beaucoup) plus de fonctionnalités. Nous constituons début 2023 une équipe de développeurs et travaillons en 5 étapes.
🚩 Étape 1 : la définition d’un cahier des charges pour notre nouvel outil. Il s’appuie bien sûr sur l’existant mais il vise à développer de nouvelles fonctionnalités pour constituer des études plus ambitieuses et aussi plus larges. D’abord pour alimenter notre production interne en études territoriales et en études de marché, ensuite pour proposer de nouveaux services. Un plan de travail est défini. Il nous faut maintenant avoir une vision beaucoup plus précise des données disponibles et de leur mode de diffusion.
🚩 Étape 2 : un benchmark sur les données disponibles en opendata (uniquement des sources officielles).
Nous lançons donc un travail d’analyse de l’existant en matière d’opendata. Certaines de ces données sont facilement accessibles, sur data.gouv.fr notamment. D’autres sont mises à disposition de manière plus confidentielles par des organismes spécialisées, directement sur leur site. Les données recensées sont au minimum sur une échelle communale, voire parfois sur des mailles plus fines (ex. : IRIS). Elles sont bien sûr mises à disposition sur des licences ouvertes, permettant une réutilisation dans le cadre de notre projet. Résultat ?
Nous recensons plus d’une centaine de sources de données, avec une vraie valeur ajoutée et utilisables, soit quand même plusieurs gigaoctets de données. Avec des très bonnes surprises sur les types de données libres et accessibles … en cherchant un peu. Mais aussi quelques déceptions sur des organismes publics qui ne jouent pas tout à fait le jeu et « brident » certaines des ressources qu’ils mettent à disposition.
🚩 Étape 3 : un loooong travail de nettoyage et de réorganisation de ces bases avec la création de 150 tables spécifiques intégrées dans une base de données centralisée. Un référentiel de données a été mis en place pour faciliter la collecte, l’archivage, le stockage, la transformation et la distribution de ces données. Nous avons aussi défini un calendrier de mise à jour afin de pouvoir actualiser chaque base dès qu’une mise à jour est publiée. Nous utilisons donc systématiquement la dernière version disponible de chaque base.
🚩 Étape 4 : analyse des thèmes et des indicateurs pertinents. Au total, nous avons recensés plus de 1.300 indicateurs communaux sur une vingtaine de thèmes. Que des indicateurs utiles !
Ces indicateurs peuvent être :
– Des indicateurs bruts, directement extraits des tables (ex. : population communale) ;
– Des indicateurs calculés à partir du croisement des informations dans une table, mais aussi du croisement de plusieurs tables (ex. : ratio de progression moyen de la population sur 120 ans) ;
– Des indicateurs de comparaison pour positionner une commune par rapport à des communes similaires (ex. : ratios par départements, par régions, par groupe de communes de la même taille, …).
Au-delà de l’échelon communal, nous souhaitons aussi pouvoir analyser des données économiques sectorielles, permettant de dresser des portraits d’entreprises ou des analyses de marché. Nous avons donc intégré dans cette étape des bases économiques spécifiques, classées suivant le code NAF, et publiées soit par l’Europe, soit par des organismes publics nationaux.
🚩 Étape 5 : des outils d’analyse ont été développées en php, mysql, associées à des bibliothèques javascript avec, pour le traitement des données, du R et du Python. Certaines bases sont utilisées en temps réel grâce à une API (ex. : le SIRENE). D’autres sont mises à jour au fur et à mesure de la publication des données en opendata. Les tests démarrent en septembre 2023 et l’outil est déclaré fonctionnel en décembre.
🏁 CITISTATS est prêt mais que peut-on en faire (1) et qu’allons-nous en faire (2) ? Ce sera l’objet de notre épisode 7.
[…] Source : https://www.citica.com/2024/01/09/citica-a-27-ans-cest-quoi-citistats-un-nouvel-outil-danalyse-de-d… […]