Lancement de la plateforme DATAtourisme

vinber · Février 27, 2018, 9:54

Donc test rapide, voici 3 extraits (limité mais pas tout compris) en 3 formats (ttl, csv, rdf) :
https://framadrop.org/r/gmm-t65h00#KCIayDNiDPUClVjEbSTX6NJGp1UBkgv+4GLnCkM4RkQ=
https://framadrop.org/r/cq8x15L9bQ#VBuWG3nEs+N3RYGPPt6l6PQ4O2uQNJAC1lwwBcavRJg=
https://framadrop.org/r/rTPZ6WUVc8#TWfQ9xnFEiW5d01Tg6/oKb3E/+k/0m9GVFxhar/QlEA=

Il y a un éditeur visuel de requête et la possibilité de passer en expert. On peut générer des extraits (on est prévenu par mail lorsque c’est disponible). On peut ensuite programmer la génération des données, qui se ferra quotidiennement.

Un webservice est disponible.

cquest · Février 27, 2018, 7:45

Bravo Vincent pour avoir réussit à percer la vitre blindée.

On est quand même à 100 lieues de la notion d’opendata.

Si la licence le permet (tout est en LO, non ?) ça mériterai une bonne aspiration et publication… par exemple sur data.gouv

cquest · Février 27, 2018, 8:15

Il me semblait bien que ce portail avait été financé par le PIA (Plan d’Investissement d’Avenir) sur l’enveloppe “Industrialisation de la mise à disposition de données ouvertes”.

Il était prévu:

"L’ensemble des données brutes obtenues sur la plateforme DATAtourisme seront disponibles sous la
licence ouverte d’Etalab sur la plateforme data.gouv.fr. Afin de faciliter la réutilisation des données,
les données DATAtourisme seront mises à disposition dans de multiples jeux de données dont les
périmètres répondront aux attentes des usagers. L’API de data.gouv.fr servira de point d’entrée aux
données mise à disposition afin de ne pas engendrer de coûts de développements venant en doublon
avec ce qui existe déjà. Les services d’Etalab et de DATAtourisme travailleront en coordination aussi
sur la mise en avant des réalisations produites à partir des données DATAtourisme, sur les retours des
usagers et sur tout autre service que pourrait proposer data.gouv.fr."

J’ai cherché sur data.gouv… rien.

Budget: 490k€, dont 50% financés par le PIA (c’est pas le pire, là il y a au moins quelque chose d’opérationnel)

J’ai programmé la génération de CSV… wait and see.

samgoeta · Février 27, 2018, 9:33

J’ai l’impression que ce projet aura servi aux acteurs du tourisme à gagner du temps en attendant que l’obligation d’ouverture des données ne leur tombe dessus, je me trompe ?

ThomasG77 · Février 28, 2018, 12:21

En Pays de La Loire, la région a ouvert les vannes données tourisme depuis 3 ans mais je ne sais pas quelle réutilisations ont été faites (la région ayant changé de majorité, elle n’a pas eu trop d’actions ni “comm” OpenData depuis d’où le fait que cela reste assez confidentiel)
Une exemple d’extrait sur http://data.paysdelaloire.fr/donnees/detail/offre-touristique-lieux-de-patrimoine-naturel-en-pays-de-la-loire/ mais vous pouvez taper dans une API pour récupérer tout.

Personnellement, DataTourisme, pour le moment, c’est beaucoup de “comm”. Je n’ai rien vu de concret sauf “un truc pas très ouvert fait dans une tour d’ivoire” ignorant les besoins réutilisateurs car avant tout orienté acteurs producteurs de données tourisme. Savoir si c’est voulu, je m’abstiendrais pour rester poli…

cquest · Février 28, 2018, 9:00

Aucune idée.

Cette plateforme me semble avoir un avantage: agréger et harmoniser des données qui sinon serait comme d’habitude segmentées, peu homogènes et donc moins facilement réutilisables.

Il manque juste de mon point de vue la dernière étape: la diffusion opendata quotidienne de dumps des 4 grands ensembles de données… sans tout ce labyrinthe actuel pour accéder à ces données.

cquest · Février 28, 2018, 9:04

Je viens de regarder un des exports CSV demandé.

C’est du CSV… mais qui contient des triplets de linked data: subject,predicate,object

C’est beau sur le papier le LOD mais à l’usage quotidien c’est quand même encore bien éloigné des usages actuels.

CharlesNepote · Février 28, 2018, 11:38

J’approuve. Le LOD possède certains intérêts indéniables, notamment pour faire se parler les grands ensembles de données froides. J’apprécie les technos du web sémantique et les connais depuis longtemps, ayant co-fondé en 2004 (!) le défunt websemantique.org dont l’objectif était à l’époque de rassembler la communauté française du web sémantique.

Ces technos ont un sens mais il faut revenir à des choses plus réalistes si l’on ne veut pas que l’open data reste un sujet de spécialistes. Je suis ahuri de voir qu’on continue à promouvoir le diagramme des 5 étoiles de Tim Berners Lee : ce n’est pas réaliste de dire aux producteurs que c’est l’idéal, la plupart n’y arriveront jamais et ça n’a pas de sens ; ce n’est pas ce qu’attendent l’immense majorité des réutilisateurs actuels (même geeks) et, pire, c’est se couper de réutilisateurs futurs moins acculturés.

samgoeta · Février 28, 2018, 3:21

Ca vaudrait le coup d’écrire un billet de blog sur la fin du modèle de 5 étoiles, je partage votre constat : les usagers de données sémantiques sont extrêmement rares.

D’ailleurs, il y a un moyen simple de convertir ces triplets vers qqch de plus exploitable ?

nathann · Février 28, 2018, 3:50

Heuu. “Oui et non”. C’est possible, mais ca fait aussi mal au coeur que de devoir transformer du XML ou du JSON en CSV (perte du ‘nesting’ pour tout aplatir sur des colonnes)

C’est possible, mais on ne peut pas le faire en général sans détruire beaucoup (beaucoup) d’information.

Et, surtout, ca fait vraiment mal au coeur d’écrire un code pareil. Parce qu’il faut beaucoup de travail pour en arriver à une base propre composée de ces triplets.

cquest · Février 28, 2018, 5:17

Du json serait un bon compromis… j’ai commencé à regarder, j’en suis à mon deuxième Doliprane

joel · Février 28, 2018, 9:28

C’est vraiment une question de réutilisateurs et d’usages : c’est vrai dans la grande majorité des cas… mais ce n’est pas vrai pour des réutilisations qui peuvent avoir des effets leviers énormes, type wikidata. Par contre là où je te rejoins c’est que le 5-star model induit une forme de normativité sans doute inutile voire contre-productive. De manière générale j’en viens de plus en plus à penser qu’il faut qu’on se défasse d’un certain nombre de dogmes issus de la première période de l’open data (de Sebastopol au 5-star model, disons) pour aborder les choses avec beaucoup plus de pragmatisme - ce qui ne veut pas dire en rabattre sur les principes, mais garder en tête que l’open data est un moyen au service de fins, pas un fétiche. Mais c’est un autre débat

ThomasG77 · Mars 1, 2018, 3:10

C’est marrant cela rejoint plus ou moins cet avis d’un des co-créateurs de JSON-LD exprimé dans cet article “JSON-LD and Why I Hate the Semantic Web”. De manière dégrossie, il prône de partir des pratiques déjà maîtrisées par les développeurs et enrichir potentiellement du web sémantique avec du RDF (l’objet du JSON-LD)
Pourquoi? Parce que demander de réapprendre tout un écosystème pour atteindre les 5 stars ne marche pas au regard du taux d’adoption. Il faut être plus pragmatique et moins dogmatique et aller vers des solutions plus simples pour aller vers l’adoption

samgoeta · Mars 1, 2018, 7:56

Il y a un groupe de travail du W3C (qui a rendu ses conclusions je crois) qui a travaillé sur l’usage du CSV et du JSON pour lier des données, faire du 5 étoiles avec du CSV.

https://www.w3.org/2013/csvw/wiki/Main_Page
la charte du groupe : https://www.w3.org/2013/05/lcsv-charter

kokonet · Mars 2, 2018, 8:34

Même si je comprends l’éloignement du LOD par rapport à nos problématiques quotidiennes, ce serait bien de ne pas l’enterrer trop vite et de se dire que sur certaines thématiques comme le tourisme ou la botanique, ou apparemment les acteurs sont plus avancés que d’autres sur le sujet, il faudrait creuser un peu pour voir de quelle manière cela nous permettrai d’enrichir la donnée territoriale au profit des services. Un exemple : nous avons à Grenoble une base de données de arbres assez complète et riche et il pourrait être intéressant de pouvoir la croiser avec des bases botaniques pour enrichir des analyses qui sont déjà réalisées. Prêt à explorer avec vous ce genre de choses !

cquest · Mars 2, 2018, 2:48

Il ne s’agit pas d’enterrer le LOD, mais de proposer aussi une version non LOD de ces données dans une certaine mesure pour faciliter leur réutilisation.

Qui peut le plus peut le moins

Il y a des jeux de données sous ré-utilisés car le ticket d’entrée pour les utiliser est trop important.
Beaucoup de données de la DILA, disponibles uniquement en XML relativement sémantisé tombent dans cette catégorie.

J’ai répondu un grand nombre de fois à des demandes du genre “avez vous la liste des email des mairies”… et oui, c’est dans les milliers de fichiers XML en opendata de la DILA, mais ce type de réutilisateur serait bien mieux avancé avec un simple CSV (ou plutôt un .XLS dans leur cas).

OpenData_Montpellier · Mars 5, 2018, 8:41

Je viens de prendre connaissance de ce fil de discussion, pour info j’ai suivi le même parcours de création - validation de compte pour accéder aux données. Mon idée était de créer, via mon compte validé, une requête locale et journalière, autour de Montpellier car ces données ne sont pas diffusées ailleurs, pour ensuite les intégrer à notre portail open data, mais je ne sais pas si j’ai le “droit” ? Les données sont en LO du coup je dirais oui. J’ai quand même fait un mail à Etalab pour me confirmer la chose, mais je n’ai pas eu de réponse.

Au passage il n’y a pas de contact possible depuis la plateforme data.tourisme, c’est un peu dommage.

cquest · Mars 5, 2018, 11:33

Les données sont en Licence Ouverte. C’est clairement indiqué, donc aucun problème.

Pour info, j’ai créé un flux complet des événements et sites, que je rediffuse sur http://212.47.238.202/datatourisme/ (URL qui changera, c’est pour test).

Et c’est référencé sur data.gouv.fr: https://www.data.gouv.fr/fr/datasets/donnees-touristiques-de-la-base-datatourisme/

Le json-ld est le plus facile à manipuler, un peu à mi chemin entre le LOD pur et le json plus commun.
Je suis en train de faire un petit script python pour sortir les principales infos en CSV…

cquest · Mars 5, 2018, 2:30

Voilà le script, avec le moins de dépendances possibles : https://github.com/cquest/datatourisme/blob/master/jsonld2csv.py

Et le fichier CSV généré est lui aussi téléchargeable.

Il contient les champs suivants:

id : identifiant de l’événement (URI)
label : titre de l’événement
type : type d’événement (séparés par /)
theme : thème de l’événement (séparés par /)
startdate : date de début
enddate : date de fin
street : adresse
postalcode : code postal
city : ville
insee : code INSEE de la commune
latitude,longitude : position géographique (WGS84)
lastupdate : dernière mise à jour de la donnée
comment : texte détaillé décrivant l’événement

vinber · Mars 12, 2018, 4:01

Merci Christian,
effectivement, quand j’ai vu les fichiers produits, cela m’a un peu effrayé et quand je lis que tu as pris des dolipranes, du coup cela me terrorise

Le json semble être tombé, j’aimerai bien le brancher sur Osmose pour les sites ! Et du coup tu envoies les événements sur openeventdatabase ?