Données du Grand Débat

Olivier_n · Mars 5, 2019, 6:50

Tu sais à quoi corresponds la variable “poids” dans le dataset que vous avez ouvert ?

fm89 · Mars 5, 2019, 7:00

Oui. C’est expliqué sur la page où tu as téléchargé le fichier https://grandeannotation.fr/data (comme toutes les autres colonnes). Et la page comporte un lien vers une explication détaillée des calculs : https://github.com/fm89/granddebat/blob/master/doc/MATH.md

ahmedbesbes · Mars 6, 2019, 11:11

Bonjour @mathieu

Merci pour ces retours. Je voulais également signaler que l’embedding Universal Sentence Encoder entraîné sur anglais et français marche très bien. il permet de construire des embeddings intéressants pour des documents (phrases, paragraphes courts). Je l’ai essayé pour faire du clustering (par réponse) et le résultat est vraiment bon.

Voici le lien du modèle à télécharger ou à tester sur Google Colab: https://tfhub.dev/google/universal-sentence-encoder-xling/en-fr/1

Ahmed

fm89 · Mars 7, 2019, 7:32

C’est très encourageant ! Pourrais-tu partager ton code ou tes résultats de classification ?

jgorene · Mars 15, 2019, 6:00

Toujours dans la série “des petites applis pratiques”… à confirmer le cas échéant
Une autre petite appli pour avoir un aperçu rapide par bulles de couleur et un nuage de mot-clés sur les réponses à une question.

https://jgorene.github.io/grand-debat-synthese/index.html

Ça marche bien pour les questions fermées et ça peut même être assez marrant selon la question posée.
Pour les questions ouvertes, c’est moins évident et le recours au nuage de mots-clés est bienvenu (encore de petits réglages sur le code d’ailleurs)
Pour l’anecdote, j’ai fait cette appli parce que c’est un bon exercice de travailler avec cette masse de données déjà mais aussi pour voir par moi-même ce qu’il pouvait ressortir de ce “grand-débat”…
Les données pré-traitées (du boulot tout ça) sont disponibles avec le code sur mon compte github pour les personnes intéressées.
On est toujours pas dans la grande analyse fait par les spécialistes en la matière mais ça peut donner une idée… les calculs étant en principe juste dans les grandes lignes en tout cas.
Si vous constatez des erreurs, bugs éventuels, omissions ou même vos impressions le cas échéant…
Merci d’avance pour vos retours éventuels

ahmedbesbes · Mars 15, 2019, 10:40

Voici une démo de l’outil:

nicolas-bonnel · Mars 15, 2019, 11:15

Nous avons chargé les données sur notre plateforme, nous sommes entrain de faire la mise à jour avec les données du 8 mars.

Pour chaque jeu de données, nous avons configuré une page qui a :

Un nuage de mot réalisé à partir de la colonne “titre des contrbutions”
Un moteur de recherche qui permet de chercher dans le contenu des réponses en plus du titre (sur le site officiel la recherche ne porte que sur le contenu du titre)
Un nuage de mots dynamique en fonction de la question sélectionnée, dans le mếmé esprit que ce qu’a présenté @jgorene , mais les résultats sont sans doutes différents car l’analyse est faite dynamiquement

Les pages sont les suivantes :

EDIT : Et une mauvaise surprise au passage : les dernières versions des fichiers CSV publiés sur le site officiel n’ont pas le même schéma que les premières versions : il y a maintenant un code à la place du numéro de question.

C’est bien de publer régulièrement les données en opendata. Ca serait mieux si elles pouvaient conserver le même format et les même noms de colonnes pour qu’on ne doive pas modifier les codes qui les analysent ou les applications qui les mettent en avant.

jgorene · Mars 15, 2019, 2:13

Oui, j’ai aussi eu cette mauvaise surprise sur les entêtes de colonne !
En fait le changement c’est fait entre les données livrées le 17/02 et celles du 02/03…

fm89 · Mars 15, 2019, 10:15

C’est évidemment désagréable. Mais les numéros n’ont pas changé : ils sont juste encodés https://www.base64decode.org/

ahmedbesbes · Mars 16, 2019, 1:13

Bonjour à tous,

Pour une analyse fine des contributions du Grand Débat, jetez un coup d’oeil à notre outil qui analyse ces données avec du clustering basé sur l’embedding Universal Sentence Encoder multilingue.

Tout est packagé dans une webapp Kibana avec du full text search géré par Elasticsearch derrière.

Demo en vidéo:

fm89 · Mars 17, 2019, 6:47

Bravo, ça a l’air prometteur ! Est-il possible d’accéder à l’application ? aux résultats de la classification ?

ahmedbesbes · Mars 19, 2019, 6:25

Bonjour!
Merci pour votre retour,
Il y aura prochainement une version en ligne.
Cordialement

cquest · Mars 25, 2019, 9:52

Pour le hackathon organisé à l’assemblée nationale, j’ai propose le projet de “Grande Lecture”…

J’ai généré un PDF personnalisé pour chaque député avec 100 contributions tirées au hasard sur sa circonscription. Ceci afin qu’ils puissent lire en direct, sans filtre une petite partie des opinions qui se sont exprimées.

Projet à rebrousse poil des analyses en tout genre que tout le monde veut faire (et qui me semblent fumeuses vu la non représentativité des répondants).

J’ai une ébauche de carte qui permet de visualiser le document produit pour chaque député sur sa circonscription.

https://umap.openstreetmap.fr/fr/map/la-grande-lecture-du-grand-debat-en-carte_307358

Retours appréciés sur le contenu des PDF… la carte va elle être intégrée sur le futur site www.grande-lecture.fr

Duna · Mars 25, 2019, 4:11

Bonjour,

J’ai vu passer ceci sur LinkedIn (et aïe, j’ai créé un topic alors qu’il vaut mieux alimenter celui-ci, mea culpa pour le doublon, n’ayant pas de droit de modération…)

https://grandeannotation.fr/

Merci aux équipes bénévoles de Data For Good !

https://dataforgood.fr/

joel · Mars 26, 2019, 5:34

Excellente initiative @cquest, qui permet d’éviter les bulles de filtre et (autant que possible) les biais cognitifs…

fBedecarrats · Avril 4, 2019, 7:46

Bonjour, J’arrive un peu tard sur ce fil. Il me semble qu’il y a un retour en force des analyses de données textuelles (intitulées textométries/lexicométrie) avec une multiplication des packages R et Python, mais qu’on réinvente un peu la roue par rapport à l’âge d’or de ces approches dans les années 1990 et 2000.

Version courte : regardez du côté du logiciel open source TXM, ça fonctionne hyper bien (ça tourne sur R) et c’est hyper ergonomique (Interface graphique point/clic conçue spécialement pour l’analyse de corpus de textes).

Version longue : Il y a eu toute une histoire d’analyse textuelles dans le monde de la recherche francophone. Aujourd’hui on a deux courants dominants : l’un structuré autour de l’EHESS, avec le logiciel Prospéro (propriétaire) et c[e blog de recherche](http://Francis Chateauraynaud). L’autre autour de l’ENS de Lyon et du projet textométrie mentionné plus haut.
Cette méthodo semble la plus adaptée pour faire une analyse pas trop absurde du corpus de contributions au grand débat. A savoir que toute analyse statistique textuelle sur corpus important/hétérogène doit impérativement s’appuyer sur une analyse qualitative approfondie d’un petit échantillon de textes, sinon on raconte n’importe quoi. Ce qu’on peut mettre en évidence par le biais d’une analyse statistique est beaucoup plus frustre que ce qu’on peut dire en analysant des textes, mais c’est un bon complément d’une analyse qualitative de texte, et cela permet de conforter une montée en généralité. Le gros avantage d’un logiciel comme TXM est que c’est du point-clic et que ça gère automatiquement (ou presque) des parties qui sinon sont autrement assez délicates, dès lors qu’on veut analyser les mots au-delà de leur forme orthographique : en particulier la lemmatisation (ex. chien et chienne, mais aussi canin et cynophile sont reconnus comme renvoyant au même lemme, bien qu’ils aient une forme orthographique très différente) ou l’identification de la fonction grammaticale (sujet, verbe, adverbe…), pour ensuite exploiter ces propriétés pour caractériser des énoncés, recenser leurs occurrence, leurs co-occurrence et voir comment cela varie dans le temps, par type de contributeur ou entre des localisatoin.

A votre disposition pour poursuivre la discussion.

mathieu · Avril 4, 2019, 12:53

Bonjour @fBedecarrats,

Il est vrai qu’on peut utiliser les logiciels de textométrie pour explorer des corpus de texte.
Cependant, les méthodes et les outils qui ont été discutés jusqu’à présent sur ce fil de discussion sont assez différents, par leur nature et leurs possibilités, de ces logiciels de textométrie.

Sur le plan méthodologique, les annotations humaines des contributions collectées dans le cadre de la “grande annotation” permettent justement d’avoir une vérité terrain, qualitative, à laquelle confronter les analyses automatiques de la masse des contributions.

Il est donc tout à fait possible de produire des analyses quantitativement et qualitativement solides sans utiliser les logiciels de textométrie, de la même façon que l’utilisation d’un logiciel de textométrie ne garantit aucunement de produire des analyses pertinentes ou robustes.

L’important reste que l’analyste humain maîtrise ses outils et méthodes, leurs capacités, leurs limites et leurs biais, et sache confronter les résultats qu’il obtient avec les données pour vérifier l’adéquation de leur mise en oeuvre et rectifier le cas échéant.

J.Benedetti · Janvier 15, 2020, 1:12

Bonjour,

Je vais un peu remonter le sujet après avoir lu et regarder ce reportage sur France 2, repris sur France Info.

Des « téra » de données ça doit pas faire peur à @cquest ? + une requête Madada pour @samgoeta et c’est parti.

J’aimerai vraiment voir le résultat des transcriptions de ce cahiers de doléances.

joel · Janvier 15, 2020, 4:40

En plus y a clairement pas des teras de données, c’est du pipeau…

J.Benedetti · Janvier 15, 2020, 5:16

De données effectivement peu de doute mais si il y a les images des cahiers… et comme souvent beaucoup de choses sont mélangées.