Résumés TL;DR des jeux de données

samgoeta · Mars 28, 2024, 11:39

Repéré par @joel sur X (https://twitter.com/joelgombin/status/1773263775476351295) ce projet de résumé des jeux de données sous la forme d’un paragraphe TL;DR ( « trop long ; pas lu » : tl;dr — Wiktionnaire, le dictionnaire libre) pour résumer le contenu de la description d’un jeu de données complexes sur HuggingFace : davanstrien/dataset-tldr · Datasets at Hugging Face

Un exemple :

OpenAssistant/oasst1

tl;dr:*The OpenAssistant Conversations Dataset (OASST1) is a human-generated and annotated collection of 161,443 messages in 35 different languages, with over 10,000 fully annotated conversation trees, created through a worldwide crowd-sourcing effort involving over 13,500 volunteers. The dataset is structured as message trees with alternating prompter and assistant roles, and includes quality ratings, message labels, and metadata. It is available in both nested tree and flat list formats, with options for spam, deleted messages, and initial prompts.

Les résumés sont générés par un LLM (Mistral si j’ai bien suivi) et les prompts sont partagés ici : davanstrien/raw-tldr-dataset · Datasets at Hugging Face

J’aime bien l’idée pour résumer rapidement des jeux de données complexes. Après, il faudrait faire surement faire un contrôle qualité pour limiter les hallucinations ou l’oubli d’informations importantes. Mais je trouve que c’est une bonne inspiration… quand il y a une documentation complète des jeux de données ce qui n’est pas si courant

cmandron · Mars 28, 2024, 2:07

Ça donne des idées !

Pour le moment, le LLM utilise la description des jeux de données (dataset card).

Je rejoins @joel dans la suite de la discussion sur X, l’idée de pouvoir générer une description d’un jeu de données à partir des données elles-mêmes (et non de la documentation) est la piste la plus enthousiasmante

En effet, les descriptions des datasets de HF sont plus fournies que celles sur DGF.

J’ai repris les 500 jeux de données les plus téléchargés sur DGF (je n’ai pas réussi à l’uploader comme ressource communautaire, donc j’ai mis le fichier ici).

Le calcul des moyennes et médianes de la longueur de caractères des descriptions :

	HuggingFace	data.gouv
Moyenne	9323	1129
Médiane	6405	420