Bonjour,
Suite à la réglementation de fermeture des centres commerciaux (> 20 000 m²), et par curiosité personnelle, j’ai consolidé un jeu de données géolocalisé des centres commerciaux depuis le site cncc.com (conseil national des centres commerciaux).
En particulier depuis sa carte interactive
Le robots.txt du site ne contre-indique apparemment pas le moissonnage des données
https://www.cncc.com/robots.txt :
User-agent: *
Disallow: /agenda/action~posterboard/
Disallow: /agenda/action~agenda/
Disallow: /agenda/action~oneday/
Disallow: /agenda/action~month/
Disallow: /agenda/action~week/
Disallow: /agenda/action~stream/
Je me dis que ce jeu de données pourrait intéresser pas mal de monde, car on y trouve la surface, mais aussi le statut du centre commercial (en projet ou pas), le nb de magasins, de places de parking,…
Malgré tout, cncc n’est pas à proprement parler une structure publique. Par conséquent, la diffusion de leurs infos est à considérer avec précaution.
En particulier, les mentions légales indiquent :
Ainsi, aucun des documents provenant du site cncc.com ne peut-être copié, reproduit, republié, téléchargé, posté, transmis ou distribué d’aucune manière que ce soit, sauf dans les conditions suivantes : il est possible de télécharger une copie des documents sur un micro-ordinateur pour votre utilisation personnelle et uniquement à des fins non commerciales, pourvu que vous ne modifiez pas les informations et que vous conserviez intacts tous les copyrights et autres mentions de propriété. La modification de ces documents ou leur utilisation dans un autre but constitue une infraction au droit de propriété intellectuelle du CICC.
Je lis : fins non commerciales, non dénaturation de l’information. Est-ce comparable à une licence CC-BY-NC ? Cela proscrit-il la diffusion selon vous ?
Auriez-vous connaissance de guides des bonnes pratiques du scraping ou du moissonnage de données depuis des sites sur le plan légal ?
De ce que je sais, la bonne pratique est de vérifier :
- la nature publique ou non du diffuseur
- le robots.txt
- les mentions légales
- les CGU.
Y a-t-il d’autres éléments à prendre en compte ?
Je sais que la question a été maintes fois débattue sur ce forum pour d’autres jeux de données, mais je serais curieux d’avoir votre sentiment sur cette base des centres commerciaux ?