Publication en open data de fichiers texte

Bonjour à toutes et tous. Un service de ma collectivité s’apprêtant à expérimenter un outil d’intelligence artificielle sur des documents communicables que nous possédons, me sollicite pour les publier alors qu’elles sont au format word (ce sont des documents de marchés publics, débarrassés de secret des affaires et autres réserves légales). Pouvez-vous m’orienter sur l’état de l’art en matière de formats de texte qui répondent à l’obligation de publier dans un standard standard ouvert, aisément réutilisable et exploitable par un système de traitement automatisé? Toutes mes excuses pour une telle question, à force de me focaliser sur csv, json et autres formats, j’ai l’impression désagréable d’avoir perdu la vue à 180 degrés sur ce qu’il existait d’autre! Par avance merci pour votre regard. Et bonne fin de journée. Anthony Claverie

Le format Word ne répond pas aux critères, en particulier « standard ouvert ».

L’équivalent ouvert est le format Opendocument, utilisé entre autres par OpenOffice ou LibreOffice.

Il est listé dans le « Référentiel Général d’Interopérabilité » maintenu par la DINUM.

voir page 40 et suivantes.

Autre option complémentaire: le PDF.


Pour une conversion en masse, il faudrait jeter un oeil sur pandoc:

1 « J'aime »

Un grand merci. Je vous tiens informés dès que j’ai publié cet ensemble de données, que j’accompagnerai de la description du projet (sur lequel je sais peu de choses en définitive).

C’est là où le RGI commence à avoir du mal à cacher sa vieillesse… 2015 c’est avant l’âge d’or du format désormais inévitable pour produire du contenu éditorial : Markdown. Je ne reviendrais pas sur tous les avantages fonctionnels que ce format procure nativement (en plus d’être ouvert), je mettrais surtout l’accent sur le fait que c’est avec le fameux Pandoc, déjà cité par Christian, et avec Git qu’il prend tout son sens et coche toutes les cases imaginables.

  • texte.md + Pandoc = texte.docx
  • texte.md + Pandoc = texte.odt
  • texte.md + Pandoc = texte.pdf
  • texte.md + Git = texte versionné + diff
  • texte.md + SSG + Github/Gitlab = contenu web
  • texte.md + reveal-md / reveal.js (eux-mêmes basés sur Pandoc il me semble) + Github/Gitlab = slides de présentations (template)
  • etc.

Dans votre cas il faudrait commencer par un batch de texte.docxtexte.md, toujours avec Pandoc, afin de repartir sur des bonnes bases.

6 « J'aime »

Bonsoir,

Je serais très interéssé par un RETEX de cet outil ou démarche d’IA car à l’échelle de grandes collectivités produisant des centaines de documents par mois, ce serait un super outil facilitateur pour l’opendata et la transparence en général.
Est-ce que tu pourrais nous en dire plus (ici ou par MP si tu préfères)
Merci
Serge Fichet

Je pense en effet que le minimum, c’est libre office. Un document microsoft office, format word, est cependant tolérable (on a bien une énorme quantité de fichiers Excel…) au motif qu’il est ouvrable/exploitable par un logiciel libre. Il existe aussi le format .txt ou .rtf que l’on retrouve souvent.

Bonjour et merci pour votre réponse. Je suis sûr que c’est hyper pertinent mais malheureusement, c’est un niveau de technicité qui est hors de ma portée…Mais je vais m’y intéresser! Anthony

Merci pour ce conseil!

Bonjour. Ce serait avec plaisir si je disposais moi-même d’un degré d’information suffisant. Toutefois, je publierai ici tout ce que je serai en mesure de capter c’est promis!

Bonjour. Pour celles et ceux qui souhaitent en savoir plus (je ne dispose pas d’autres informations pour l’instant), ci-joint la délibération de notre conseil municipal à la source de mon questionnement initial. Pour information, je viens de publier les données utiles sur data.gouv.fr et datasud.fr Je reviendrai naturellement vers vous dès que je possèderai de plus amples informations. Bonne journée. Anthony Claverie
https://www.data.gouv.fr/fr/datasets/marches-publics-de-fournitures-courantes-de-la-ville-dantibes/
antibes_delib_29_1_IA_entrainement_donnees_com_pub.pdf (641,6 Ko)

Comment avez-vous finalement fait la conversion docx > odt ? Avec pandoc ou manuellement ?

Bonjour @Jaunedesienne ,
Bravo pour cette publication.

Je me permets juste d’attirer votre attention sur le format PDF de la délibération jointe: ce n’est pas un PDF natif (ou PDF « texte ») mais un PDF image.
On ne peut pas sélectionner le texte avec le curseur de la souris, et par conséquent on ne peut pas non plus extraire automatiquement le texte de façon fiable et directe pour, par exemple, indexer les délibérations.
La faute en revient à la façon dont la délibération est exportée, ici par le « Print to PDF » de Microsoft (Word?), qui contrairement au « Save as PDF » (ou « Export as PDF ») génère une image de chaque page.
Le texte n’est plus sélectionnable, les éventuels table des matières ou liens hypertexte sont perdus, etc.
C’est un choix parfois fortuit, parfois guidé par la volonté de diffuser la version signée et tamponnée par les élus, mais avec pour conséquence de bloquer les réutilisations par les tiers mais aussi la collectivité elle-même.
Donc un conseil serait de pousser, si vous le pouvez, pour que tous les PDF diffusés par votre collectivité soient bien des PDF natifs.
mm

Bonjour. Mon collègue du service producteur des données a réalisé des enregistrer sous odt directement depuis word. Pas idéal si je comprends bien?

Bonjour et merci. Je fais passer cette proposition au service du conseil municipal producteur des délibérations sous leur forme définitive, ce qui ne devrait pas poser de problème dans la mesure où les délibérations sont numériquement natives. Je vous tiens informé. Merci dans tous les cas!

1 « J'aime »

Je n’ai pas remarqué de problème, c’est plus pour le côté manuel et répétitif de l’opération (donc chronophage) que je posais la question par rapport à pandoc qui peut tout automatiser.
On perd du temps au début, mais on le récupèrera sur le long terme !

Un traitement automatisé a plus de chances de durer dans le temps et aura aussi l’avantage d’être stable dans ses résultats par rapport à des opérations manuelles qui peuvent dériver.

1 « J'aime »