Common Corpus : un vaste corpus de données pour l'entrainement des LLMs basé sur le domaine public

@pierrecarl.langlais vient d’annoncer sur Linkedin le lancement de Common Corpus, le plus grand corpus de données d’entrainement des LLM basé sur le domaine public (500 milliards de mots) :

Aujourd’hui, avec Anastasia Stasenko et le Prof. Dr. Ivan Yamshchikov, nous sommes ravis d’annoncer le lancement de Common Corpus, le plus grand ensemble de données du domaine public jamais publié pour la formation des LLM (500 milliards de mots) !

Recueilli à partir d’un large éventail de dépôts et de sources du patrimoine culturel, le Common Corpus se distingue non seulement par sa taille, mais aussi par son engagement en faveur de l’inclusion multilingue, puisqu’il s’agit du plus grand corpus véritablement ouvert à ce jour en anglais, français, néerlandais, espagnol, allemand et italien.

Cette approche ouverte permet également la mise en œuvre d’un contrôle éthique des corpus de formation, ce qui conduit à un meilleur alignement et à une mise au point plus efficace tout au long de la chaîne de valeur.

Le corpus commun est le résultat d’une collaboration internationale, coordonnée par Pleias et impliquant des acteurs clés de la formation LLM, de l’éthique de l’IA et du patrimoine culturel. Cette initiative a reçu le soutien d’organisations majeures engagées dans une approche de science ouverte en IA, dont Hugging Face Occiglot, EleutherAI, Nomic AI et OpenLLM France :fr: avec le soutien de Lang:IA, une start-up d’Etat soutenue par le Ministère de la Culture et la Direction interministérielle du numérique (DINUM), ainsi que Scaleway qui nous a fourni une infrastructure critique pour ce projet.

Enfin, cette initiative remet en cause le statu quo défendu par les grandes entreprises d’IA, en prouvant qu’il est possible de former des LLM sur un corpus totalement ouvert et reproductible.

Common Corpus n’est que le début d’un projet à long terme visant à améliorer la qualité de l’information.

2 Likes

Sur ce sujet, lire aussi l’article de Martin Clavey dans NextInpact (enfin, Next maintenant) : Common Corpus : des textes du domaine public pour entrainer des IA (génératives) - Next