Données du Grand Débat


#41

Tu sais à quoi corresponds la variable “poids” dans le dataset que vous avez ouvert ?


(fm89) #42

Oui. C’est expliqué sur la page où tu as téléchargé le fichier https://grandeannotation.fr/data (comme toutes les autres colonnes). Et la page comporte un lien vers une explication détaillée des calculs : https://github.com/fm89/granddebat/blob/master/doc/MATH.md


(Ahmed Besbes) #43

Bonjour @mathieu

Merci pour ces retours. Je voulais également signaler que l’embedding Universal Sentence Encoder entraîné sur anglais et français marche très bien. il permet de construire des embeddings intéressants pour des documents (phrases, paragraphes courts). Je l’ai essayé pour faire du clustering (par réponse) et le résultat est vraiment bon.

Voici le lien du modèle à télécharger ou à tester sur Google Colab: https://tfhub.dev/google/universal-sentence-encoder-xling/en-fr/1

Ahmed


(fm89) #44

C’est très encourageant ! Pourrais-tu partager ton code ou tes résultats de classification ?


(jgorene) #45

Toujours dans la série “des petites applis pratiques”… à confirmer le cas échéant :wink:
Une autre petite appli pour avoir un aperçu rapide par bulles de couleur et un nuage de mot-clés sur les réponses à une question.

https://jgorene.github.io/grand-debat-synthese/index.html

Ça marche bien pour les questions fermées et ça peut même être assez marrant selon la question posée.
Pour les questions ouvertes, c’est moins évident et le recours au nuage de mots-clés est bienvenu (encore de petits réglages sur le code d’ailleurs)
Pour l’anecdote, j’ai fait cette appli parce que c’est un bon exercice de travailler avec cette masse de données déjà mais aussi pour voir par moi-même ce qu’il pouvait ressortir de ce “grand-débat”…
Les données pré-traitées (du boulot tout ça) sont disponibles avec le code sur mon compte github pour les personnes intéressées.
On est toujours pas dans la grande analyse fait par les spécialistes en la matière mais ça peut donner une idée… les calculs étant en principe juste dans les grandes lignes en tout cas.
Si vous constatez des erreurs, bugs éventuels, omissions ou même vos impressions le cas échéant…
Merci d’avance pour vos retours éventuels


(Ahmed Besbes) #46

Voici une démo de l’outil:


(Nicolas Bonnel) #47

Nous avons chargé les données sur notre plateforme, nous sommes entrain de faire la mise à jour avec les données du 8 mars.

Pour chaque jeu de données, nous avons configuré une page qui a :

  • Un nuage de mot réalisé à partir de la colonne “titre des contrbutions”
  • Un moteur de recherche qui permet de chercher dans le contenu des réponses en plus du titre (sur le site officiel la recherche ne porte que sur le contenu du titre)
  • Un nuage de mots dynamique en fonction de la question sélectionnée, dans le mếmé esprit que ce qu’a présenté @jgorene , mais les résultats sont sans doutes différents car l’analyse est faite dynamiquement

Les pages sont les suivantes :

EDIT : Et une mauvaise surprise au passage : les dernières versions des fichiers CSV publiés sur le site officiel n’ont pas le même schéma que les premières versions : il y a maintenant un code à la place du numéro de question.

C’est bien de publer régulièrement les données en opendata. Ca serait mieux si elles pouvaient conserver le même format et les même noms de colonnes pour qu’on ne doive pas modifier les codes qui les analysent ou les applications qui les mettent en avant.


(jgorene) #48

Oui, j’ai aussi eu cette mauvaise surprise sur les entêtes de colonne !
En fait le changement c’est fait entre les données livrées le 17/02 et celles du 02/03…


(fm89) #49

C’est évidemment désagréable. Mais les numéros n’ont pas changé : ils sont juste encodés https://www.base64decode.org/


(Ahmed Besbes) #50

Bonjour à tous,

Pour une analyse fine des contributions du Grand Débat, jetez un coup d’oeil à notre outil qui analyse ces données avec du clustering basé sur l’embedding Universal Sentence Encoder multilingue.

Tout est packagé dans une webapp Kibana avec du full text search géré par Elasticsearch derrière.

Demo en vidéo:


(fm89) #51

Bravo, ça a l’air prometteur ! Est-il possible d’accéder à l’application ? aux résultats de la classification ?


(Ahmed Besbes) #52

Bonjour!
Merci pour votre retour,
Il y aura prochainement une version en ligne.
Cordialement