À propos du challenge du Ministère de l'Europe et des Affaires Etrangères

ArthurSz · Février 19, 2019, 9:47

Alimenter un algorithme open-source de détection de faux profils sur les réseaux sociaux pour lutter contre les fausses informations.

Vous trouverez dans cette catégorie tous les éléments pour mener à bien le challenge proposé par le Ministère des Affaires Etrangères. Vous trouverez ci-dessous un résumé du contexte macro du challenge, son objectif, les moyens mis à disposition par le partenaire pour l’atteindre, ainsi que quelques suggestions de livrables finaux.

Le contexte autour du challenge - Une désinformation qui se diffuse de manière artificielle et massive sur les réseaux sociaux

L’ambassadeur pour le numérique a reçu en décembre 2018 le mandat de déterminer la pertinence et la faisabilité de l’utilisation voire la création d’outils logiciels libres et souverains dans la détection, le suivi et l’investigation des manipulations de la transmission d’informations sur les réseaux sociaux. Le contenu visé comprend les informations fausses ou trompeuses, diffusées de manière massive et artificielle par des acteurs étrangers (étatiques et non étatiques) avec une intention de nuire.

Pour vous donner un ordre de grandeur de cette désinformation, des chercheurs de l’Université de l’Indiana (USA) ont analysé 14 millions de messages et 400 000 articles publiés sur Twitter entre la fin de la primaire républicaine et l’investiture de Donald Trump en 2017, pour découvrir que :

(Lors de la campagne présidentielle américaine) 6% des comptes Twitter repérés comme étant des bots sont parvenus à disséminer 31% des tweets renvoyant à des contenus « peu crédibles » sur ce réseau social et 34% des articles provenant de sources jugées peu crédibles par des organisations indépendantes.

L’objectif du challenge - Identifier la faisabilité, l’opportunité, les limites et les possibles conséquences d’une détection automatique des bots malveillants

Les données sont fondamentales dans la réponse à ce défi, puisque c’est la collecte à grande échelle
d’exemples de messages provenant de ces bots qui permettra de déterminer la
faisabilité d’une classification automatique. Il ne s’agira pas pour autant de la seule dimension du défi,
puisqu’il faudra également imaginer les conséquences d’un tel dispositif sur la société : réception
publique et message à envoyer, utilisateurs potentiels privés ou publics, conséquences diplomatiques
vis-à-vis des opérateurs de réseaux sociaux, usage potentiel par les régulateurs européens…

D’une certaine manière, ce challenge vise à estimer si, sur la base d’une grande quantité de messages publiés par des bots sur les réseaux sociaux, il est possible d’identifier des caractéristiques communes qu’une machine pourrait détecter et signaler automatiquement aux consommateurs d’information. Traduit dans l’univers fictionnel de la trilogie Matrix, c’est la faisabilité de la traque de Mr Smith que ce challenge vous propose.

Les moyens mis à disposition par le partenaire - Des banques de données sur la désinformation, des data-scientists expérimentés

Attention, ce défi est plus technique que la moyenne ! Vous bénéficierez pour cette raison d’un
accompagnement renforcé, avec la présence quotidienne d’un datascientist senior, d’un développeur
senior, et d’un responsable produit senior. Ils vous aideront à utiliser des outils permettant de classifier un message posté sur les réseaux sociaux et à entrainer des algorithmes de machine learning spécialisés dans l’identification de schémas récurrents parmi une grande quantité de données.

Les livrables finaux proposés par le partenaire

Votre partenaire vous guidera avec la plus grande attention des la réalisation des livrables finaux :

Un jeu de données réutilisable et anonymisé de messages pour chacune des catégories de comptes,

Un classifieur (algorithme de machine learning) entraîné sur ces données et réutilisable

Une interface logicielle permettant la classification simple d’un message sur un réseau social

Une évaluation de la qualité des résultats obtenus.

Une identification claire des conséquences éthiques et réputationnelles de la création d’un tel outil est attendue, ainsi que des pistes pour les mitiger.