Données du Grand Débat

Les scans des cahiers peuvent peser quelques To… pour l’OCR ça tient sûrement sur une clé USB !

L’excuse du volume est bien entendu bidon, quoique, l’agilité des administrations n’aide vraiment pas sur ce genre de chose qui sort de leur zone de confort.

Quand on veut pas, on peut pas :wink:

Ce qui est disponible aujourd’hui ce sont:

  • les contributions sur le site web officiel (hors questionnaires rapides donc)
  • les questionnaires « rapides » (non publiés pendant la consultation, ils sont maintenant disponibles, je ne sais pas depuis quand)
  • les documents issus des réunions locales (comptes rendus, etc) : https://granddebat.fr/pages/comptes-rendus-des-reunions-locales
1 « J'aime »

Et petit rappel sur la grand flou concernant les cahiers dans la version papier, puis numérisation / OCR et donc… qui archives L’Association des Archivistes Français c’était signalé.

La BnF et le Service Interministériel de France avaient demandé un droit de réponse.

Résultat ? Où sont donc ces documents et leur OCR ? Même quelques Téra ce n’est pas si qui doit faire peur à la BnF vu les volumes déjà stockés.

1 « J'aime »

J’ai complété mon archive sur http://data.cquest.org/grand_debat/granddebat.fr/

Il manquait les questionnaires rapides.

J’ai aussi archivé les documents provenant des réunions locales, soit 8147 fichiers et 3.2Go au total ce qui fait déjà de quoi lire !

http://data.cquest.org/grand_debat/granddebat.fr/media

La liste des documents (CSV et json) est dans http://data.cquest.org/grand_debat/granddebat.fr/2019-04-03

Partant ! A qui on fait la demande sur madada.fr du texte OCRisé ? Les services du Premier Ministre auxquels la mission du grand débat est rattachée?

Des infos que j’ai eu c’est sur le défi de la pseudonymisation des textes des cahiers de doléances océrisés que les organisateurs de ce « grand débat » ont buté, notamment par manque de moyens, d’ambition et surtout de volonté politique de publier ces contenus d’une manière ou d’une autre.

Quoi qu’il en soit, il y a dans les contributions aux cahiers de doléance beaucoup d’élements permettant d’identifier leurs auteurs.

1 « J'aime »

C’est le SIG (Service d’Information du Gouvernement) qui avait largement piloté ça… et qui existe encore.

https://lannuaire.service-public.fr/gouvernement/administration-centrale-ou-ministere_171834

1 « J'aime »

Bonjour ! Pourrais-tu nous expliquer comment tu as labellisé automatiquement les sujets extraits grâce au clustering ? Merci !

Le Monde Diplomatique entame dans son numéro de juin une série d’articles sur des recherches dans les cahiers du grand débat conservés aux Archives départementales de la Gironde.

« Bien qu’ils ne soient pas restreints aux seuls « gilets jaunes », les cahiers de doléances déposés en mairie constituent sans doute une expression plus directe de ce mouvement social. Ils n’ont jamais fait l’objet d’une analyse fine. En février 2020, pendant le mouvement contre la réforme des retraites, un «amphithéâtre alternatif» est organisé à Sciences Po Bordeaux. Dans le public, M. Marcel Guilhembet, engagé pour le référendum d’initiative citoyenne (RIC) avec le groupe On-the-Ric, fait parvenir un petit mot : « Savezvous où sont les doléances?» Une équipe de volontaires se met alors sur pied. Elle découvre que, dès février 2019, les archives départementales ont réceptionné et méticuleusement classé ces documents. Une collaboration s’instaure. Un groupe de « gilets jaunes » et de chercheurs procède à la patiente numérisation des doléances conservées aux archives départementales de la Gironde, qui soutient le projet, puis à la transcription intégrale des milliers de pages, pour enfin appliquer une méthode de comptage et d’analyse lexicométrique. » [Suite]

1 « J'aime »