#TeamOpenData

Banque et open data

Bonjour à toutes et à tous !

Nous sommes le Crédit Mutuel Arkéa, banque territoriale et mutualiste. Dans le cadre de notre raison d’être et de notre stratégie de bien commun (RSE), nous étudions la possibilité de mettre des données agrégées et anonymisées à disposition de nos territoires et de l’intérêt général, sous licence open data.

Nous vous soumettons ici les pistes initiales, nous serions heureux d’avoir vos retours sur la pertinence, l’intérêt, le risque, la perception ou toute considération que vous pourriez formuler sur le sujet.

Quelles données ?

En tant que dépositaire des flux et partenaire financier, nous disposons d’informations statistiques significatives sur les flux débiteurs et créditeurs.

Ces données mises à disposition seraient agrégées par commune (ou par code IRIS suivant faisabilité) et ne concerneraient aucunement des informations nominatives ou individuelles de nos clients, et ne pourraient être en aucun cas identifiantes. De même, des mécaniques de seuils seraient mises en place pour éviter toute possibilité de remonter spécifiquement à une personne. (ex : ne fournir des données pour une commune ou un IRIS qu’à partir d’un nombre minimum de clients sur l’unité géographique)

Nous pourrions par exemple proposer par commune (ou code IRIS) et de façon récurrente (suivie dans le temps) des agrégats pour les dépenses des ménages sur plusieurs thématiques :

  • Energie (électricité, gaz, eau)
  • Impôts, taxes
  • Logement (loyers, prêts)
  • Banque, Assurances, Mutuelles
  • Salaire, Pensions, Retraites, autres revenus
  • Allocations
  • ….

Cette liste n’est pas fermée, d’autres indicateurs portant par exemple sur des charges variables pourraient être étudiés suivant les besoins et les possibilités.

Question :

  • Quels indicateurs vous semblent les plus intéressants ?
  • Imaginez vous des cas d’usages pour l’utilisation de ces différentes données ?

Si vous êtes acteur local ou territorial et que certaines de ces données font écho à un besoin, n’hésitez pas à nous contacter par MP afin de développer plus avant d’éventuels partenariats.

Quelle licence ?

A ce stade, nous pensons que la licence ouverte serait un choix judicieux :

  • Exemption de responsabilité sur l’usage fait des données
  • Compatible avec les licences internationales
  • Impose le “sourcing” des données

Question : Confirmez-vous ce choix de licence ? Notamment sur l’exemption de responsabilité, nécessaire d’un point de vue juridique pour notre établissement ?

Merci d’avance pour vos retours !

4 Likes

Jetez un oeil sur le portail opendata du groupe BPCE:

Pour la licence, comme je n’imagine pas que vous envisagiez qu’on améliore ou corrige vos données, la Licence Ouverte va très bien. L’exemption de responsabilité est souvent inclue dans les licences à ce qu’il me semble.

2 Likes

Bonjour,

Merci pour ce retour sur la licence, cela nous conforte sur ce point. De même pour le portail BPCE dont nous avions pris connaissance. A ma connaissance, seule la BPCE et la banque des territoires (via la caisse des dépôts) sont des banques actives sur l’open data, n’hésitez pas si vous avez vent d’autres initiatives !

Bonjour,

sur la licence ouverte, je rejoins @cquest, c’est le choix qui s’impose (sauf à vouloir choisir une licence internationale comme la Open Data Commons Attribution License) pour une plus grande lisibilité à l’international, si c’est un enjeu fort pour vous).

S’agissant des données à ouvrir, il est plus compliqué d’y répondre à froid, cela mériterait sans doute d’associer des réutilisateurs potentiels pour mieux comprendre leurs attentes…

Bravo pour l’initiative en tout cas !

Bonjour,

Merci pour votre proposition ! C’est très appréciable de voir des acteurs privés se saisir de l’open data sous cet angle.

Pour donner un avis, et en mon nom propre et dans l’expérience de quelqu’un qui travaille dans une société qui utilise l’open data comme source principale :

  • Par principe, toutes les données peuvent être utiles. Les enjeux commerciaux ou d’affinage peuvent être créés a posteriori, donc il n’y a pas vraiment de restriction (de notre côté) à ce que nous (privé) conseillerions de mettre en ligne.
  • Les données les plus intéressantes seraient pour nous celles que l’on pourrait croiser avec d’autres bases de données (au bâtiment / à la zone géographique notamment) ; et qui ne ferait pas doublon avec d’autres. Par exemple, si les informations des salaires sont très intéressantes, elles sont déjà (ceci dit sous une forme moins fiable et moins régulière) publiées par l’INSEE dans ses bases RP ; les volumes consacrés aux charges de logement et banque seraient d’autant plus intéressantes qu’inédites pour qui n’utilisent que l’open data !

Sur un sujet annexe, avez-vous pensé à utiliser directement le carroyage INSEE ? C’est la grille « de référence » pour la diffusion des niveaux de vie de l’INSEE, utilisée pour livrer des informations financières à la maille la plus fine possible tout en garantissant l’anonymat. Et ce en étant à la fois plus fin que les IRIS sur certaines zones, et en offrant une solution aux communes non IRISées.

Sur les usages envisagés, ceux-là seraient nombreux car les données économiques proposées touchent beaucoup de secteurs (au moins en tant que ‘donnée complémentaire’).

On peut penser par exemple à la pression foncière, le volume de revenu disponible consacré à un loyer dans une zone géographique … mais aussi des éléments plus neufs comme des grades de précarité énergétique, des modèles de quotité de dépenses par type de chauffage croisables avec la typologie du bâti …

Souvent l’usage fait l’idée, donc beaucoup de choses peuvent encore survenir comme idées !

Quoi qu’il en soit, merci pour l’initiative !

Charles Hutin-Persillon

1 Like

Merci pour ce retour positif ! La question du carroyage INSEE versus IRIS est intéressante, cela va dépendre en partie des possibilités de geocoding que nous aurons à disposition.

Ça me permet d’ailleurs de relancer un débat récurrent ici (et ailleurs) qui est celui de la livraison de données ouvertes avec des stades d’amélioration vs le peaufinage pour fournir une base la plus propre possible.

Mon avis n’engage que moi, mais mon impression est que la première version est la plus souhaitable pour encourager les utilisations. Dans ce cas cela pourrait être « simplement » ouvrir d’abord la version IRISée si elle st déjà prête, et faire ensuite correspondre au carroyage dans un second temps si c’est techniquement plus chronophage. Cela permet d’ailleurs de récolter les premiers retours dans cette période, et habitue aux versions.

1 Like

Attention, le mieux (carreaux) est aussi l’ennemi du bien (IRIS)…

Le carroyage à 200m peut avoir très peu d’habitants (et encore moins de clients) et ne plus du tout respecter le secret statistique.

Mais dans ce cas il « suffit » de basculer au carreau supérieur non ? Mettre un seuil minimum de clients/habitants qui s’il n’est pas atteint fait basculer ce carreau et ses voisins dans un carreau de 1km, etc.

La documentation de la construction du carroyage faite pour les niveaux de vie le présente de manière (sensément) simple.

Si c’était si simple :wink:

L’INSEE regroupe des carreaux pour respecter le secret statistiques, mais il ne suffit pas de passer de 200m à 1km. Un carreau de 1km peut très bien n’avoir que peu d’habitants / clients.

Même au niveau commune, il doit y avoir des cas où le nombre de clients sera trop faible. Si l’on ne peut pas facilement faire des regroupements, le plus simple est de ne pas diffuser sur ces découpages trop petits.
C’est ce que fait la DGFiP pour certaines données sur les finances locales si ma mémoire est bonne.

Oui j’imagine que le seuil de 50 clients par découpage est vraiment le minimum.

Pour info, il me semble que côté Engie ils sont sur un seuil à 10 clients par code Iris. 50 me semble beaucoup, mais c’est à étudier !

Attention, le mieux (carreaux) est aussi l’ennemi du bien (IRIS)…

Le carroyage à 200m peut avoir très peu d’habitants (et encore moins de clients) et ne plus du tout respecter le secret statistique.

Je pense aussi. Du geocoding IRIS semble faisable, mais je n’ai pas trouvé grand chose pour le geocoding carroyage INSEE. Si quelqu’un à une piste, nous sommes preneurs !

Il suffit de géocoder l’adresse pour obtenir une position lat/lon, puis de croiser géométriquement avec les carreaux (ou tout autre zonage).

Toute la différence entre liens explicites et liens implicites (géo) qu’offre le monde de la donnée géographique (et ses outils).

Oui le géocodage est facile, l’algo permettant de s’assurer du respect du secret statistique un peu mois… pour rappel même l’Insee s’y est brûlé les ailes ! en réalité ça a surtout de l’intérêt en zone urbaine très dense. En dehors des centres urbains denses, d’autres formes d’agrégation plus simples et qui ont plus de sens peuvent être imaginées : canton (au sens INSEE), aire urbaine, zone d’emploi, bassin de vie…