Demande de valeurs foncières : indexation des données ?

Hello,

Aujourd’hui, ont été ouvertes les données sur les valeurs foncières permettant de connaitre les transactions immobilières intervenues au cours des cinq dernières années sur le territoire métropolitain. Félicitations à Etalab pour l’ouverture de ces données très utiles !

Les métadonnées indiquent que les réutilisations ne doivent pas permettre la ré-identification des personnes concernées (normal) mais aussi ne pas permettre l’indexation des données depuis les moteurs de recherche externes. Ca me parait compliqué à garantir et surtout très limitant en terme d’usages, qu’en pensez vous ?

C’est un point que @joel soulignait dans son analyse du guide CADA/CNIL :

Ensuite on rentre dans ce qui est controversé de mon point de vue : l’indexation des données identifiantes. Le document estime que l’indexation de ces données est possible (en clair, proposer un moteur de recherche) mais que l’indexation par un moteur de recherche externe devrait être proscrite . La justification avancée est que " toute consultation d’informations diffusées en open data doit résulter d’une démarche volontaire des internautes depuis les plateformes dédiées à l’ouverture des données ". Je suis preneur de l’avis des membres de ce forum sur ce point, @cquest a d’ailleurs commencé à soulever le débat.

2 « J'aime »

C’est contraignant en effet !

Donc si j’ai bien compris, une balise meta rel="noindex" sur la page du moteur de recherche devrait faire l’affaire, a condition de s’assurer que le moteur de recherche n’indexe pas directement les données de l’API ?

Question bonus : sur la page du dataset, la licence utilisée est la Licence Ouverte. Les clauses de non indexation sont compatibles avec cette licence ?

Les conditions générales d’utilisation semblent un peu plus précises sur ce point :

"Ces mesures peuvent consister, par exemple, en l’utilisation de règles d’indexation à destination
des moteurs de recherche correctement définies (robots.txt) ou de mécanismes visant à
s’assurer que l’émetteur d’une requête concernant un document est bien un internaute et non un
programme informatique (dispositif de captcha)."

Perso, je me suis contenté du fichier robots.txt avec un :
User-agent: *
Disallow: /chemin-de-la-page-dynamique*

Petit exotisme : le pipe (|) comme séparateur de champs dans le fichier

2 « J'aime »

On peut aussi parler des dates qui ne sont pas ISO, mais pas mal de problèmes sont résolus avec ce très bon travail réalisé par Etalab : https://www.data.gouv.fr/fr/datasets/5cc1b94a634f4165e96436c1/ . Et cerise sur le gateau, les parcelles sont géocodées, ce qui permet une indexation spatiale.

2 « J'aime »

Bonjour,

Pour information, Etalab a publié les datasets restructurés et géolocalisés.

C’est nettement plus simple pour la réutilisation.

Bonne journée,

2 « J'aime »

Bonjour,
Normalement avec cela suffira. Cépendant, le robots.txt gère l’accès aux ressources pas leur indexation (oui, les moteurs de recherche font cette différence très casse-pieds).

Vous avez peut-être déjà vu des résultats sur Google dont le snippet indique “La description de la page a été bloquée dans le robotos.txt…” ? Cela veut dire que la page a été indexée avant que l’accès à la page ne soit bloqué. Et bloquer l’accès à une URL ne désindèxe pas celle-ci, c’est même très difficile de idésindèxer des contenus.

Si vous voulez éviter des problèmes et être à l’abri de toute indexation, voici les 2 solutions :

  1. Balise meta robots comme dit plus haut par Nicolas.
    Exemple : <meta name="robots" content="noindex" />
  2. Header X-robots-tag : parfois plus simple à mettre en place que la meta, elle est très utile pour les ressources sur lesquelles on ne peut pas mettre la meta (images, PDFs, .doc, …). Créé par Google, je ne connais pas le support par les autres moteurs de recherche.
    Exemple PHP : header(“X-Robots-Tag: noindex”, true);

L’instruction noindex dans le robots.txt n’est pas officiellement supportée par Google, mais peut aussi marcher.

Bon à savoir, en cas d’indexation, si vous crééez un compte sur Google Search Console et que vous déclarez votre site, vous pouvez masquer dans les résultats de recherche de ce moteur les contenus indexés que vous souhaitez.

Le décret dit “ces informations ne peuvent faire l’objet d’une indexation sur les moteurs de recherche en ligne”.

Est-ce la responsabilité du site ou bien du moteur de recherche de ne pas indexer ?

Si le site ne se référence pas pour indexation auprès DES moteurs de recherche, si il ne publie pas de sitemap pointant vers les données en question, si en plus il fait l’effort de mettre un robots.txt, quelle est sa réelle responsabilité ?

Ce sera encore une fois au juge de trancher un texte quand même un peu flou… l’avis de la CNIL n’est pas beaucoup mieux.

1 « J'aime »

Je trouve que ce sujet est très intéressant.

Faire porter la responsabilité à l’éditeur du site et non au moteur d’indexation me semble sur le plan philosophique un retour en arrière, et un potentiel frein à la mise en ligne. Car comme souvent on préférera ne prendre aucun risque.

Quand aux données mises à disposition dans ce cas précis vu que les données sont à l’adresse (et même au lot) près comment penser qu’on en peux pas ré-identifier les personnes ? On ne peut sans doute pas le faire de façon massive et automatisée mais pas bien complexe de trouver son voisin.

2 « J'aime »

Je viens de découvrir l’existence du jeu de données dérivé DV3F produit par le Cerema: https://datafoncier.cerema.fr/donnees/donnee-dv3f
DV3F contient des informations des fichiers fonciers sur le type de biens, dont au moins certaines comme l’année de construction du bâtiment ou le nombre et le type de dépendances, ne me semblent pas être personnelles ou plus réidentifiantes que les informations déjà présentes dans DVF.
L’avis de la CADA de 2017 (https://www.cada.fr/20165891) semble aller dans ce sens.

DV3F est censé être accessible prochainement à l’ensemble des acteurs publics ayants-droits à la donnée “Demande de Valeurs Foncières” (DVF).
L’ouverture d’une version de DV3F, amputée des variables personnelles ou réidentifiantes, est-elle prévue? Sinon, pourquoi?

4 « J'aime »