Repéré par @joel sur X (https://twitter.com/joelgombin/status/1773263775476351295) ce projet de résumé des jeux de données sous la forme d’un paragraphe TL;DR ( « trop long ; pas lu » : tl;dr — Wiktionnaire, le dictionnaire libre) pour résumer le contenu de la description d’un jeu de données complexes sur HuggingFace : davanstrien/dataset-tldr · Datasets at Hugging Face
Un exemple :
OpenAssistant/oasst1
tl;dr:*The OpenAssistant Conversations Dataset (OASST1) is a human-generated and annotated collection of 161,443 messages in 35 different languages, with over 10,000 fully annotated conversation trees, created through a worldwide crowd-sourcing effort involving over 13,500 volunteers. The dataset is structured as message trees with alternating prompter and assistant roles, and includes quality ratings, message labels, and metadata. It is available in both nested tree and flat list formats, with options for spam, deleted messages, and initial prompts.
Les résumés sont générés par un LLM (Mistral si j’ai bien suivi) et les prompts sont partagés ici : davanstrien/raw-tldr-dataset · Datasets at Hugging Face
J’aime bien l’idée pour résumer rapidement des jeux de données complexes. Après, il faudrait faire surement faire un contrôle qualité pour limiter les hallucinations ou l’oubli d’informations importantes. Mais je trouve que c’est une bonne inspiration… quand il y a une documentation complète des jeux de données ce qui n’est pas si courant