Alimenter un algorithme open-source de détection de faux profils sur les réseaux sociaux pour lutter contre les fausses informations.
Vous trouverez dans cette catégorie tous les éléments pour mener à bien le challenge proposé par le Ministère des Affaires Etrangères. Vous trouverez ci-dessous un résumé du contexte macro du challenge, son objectif, les moyens mis à disposition par le partenaire pour l’atteindre, ainsi que quelques suggestions de livrables finaux.
Le contexte autour du challenge - Une désinformation qui se diffuse de manière artificielle et massive sur les réseaux sociaux
L’ambassadeur pour le numérique a reçu en décembre 2018 le mandat de déterminer la pertinence et la faisabilité de l’utilisation voire la création d’outils logiciels libres et souverains dans la détection, le suivi et l’investigation des manipulations de la transmission d’informations sur les réseaux sociaux. Le contenu visé comprend les informations fausses ou trompeuses, diffusées de manière massive et artificielle par des acteurs étrangers (étatiques et non étatiques) avec une intention de nuire.
Pour vous donner un ordre de grandeur de cette désinformation, des chercheurs de l’Université de l’Indiana (USA) ont analysé 14 millions de messages et 400 000 articles publiés sur Twitter entre la fin de la primaire républicaine et l’investiture de Donald Trump en 2017, pour découvrir que :
(Lors de la campagne présidentielle américaine) 6% des comptes Twitter repérés comme étant des bots sont parvenus à disséminer 31% des tweets renvoyant à des contenus « peu crédibles » sur ce réseau social et 34% des articles provenant de sources jugées peu crédibles par des organisations indépendantes.
L’objectif du challenge - Identifier la faisabilité, l’opportunité, les limites et les possibles conséquences d’une détection automatique des bots malveillants
Les données sont fondamentales dans la réponse à ce défi, puisque c’est la collecte à grande échelle
d’exemples de messages provenant de ces bots qui permettra de déterminer la
faisabilité d’une classification automatique. Il ne s’agira pas pour autant de la seule dimension du défi,
puisqu’il faudra également imaginer les conséquences d’un tel dispositif sur la société : réception
publique et message à envoyer, utilisateurs potentiels privés ou publics, conséquences diplomatiques
vis-à-vis des opérateurs de réseaux sociaux, usage potentiel par les régulateurs européens…
D’une certaine manière, ce challenge vise à estimer si, sur la base d’une grande quantité de messages publiés par des bots sur les réseaux sociaux, il est possible d’identifier des caractéristiques communes qu’une machine pourrait détecter et signaler automatiquement aux consommateurs d’information. Traduit dans l’univers fictionnel de la trilogie Matrix, c’est la faisabilité de la traque de Mr Smith que ce challenge vous propose.
Les moyens mis à disposition par le partenaire - Des banques de données sur la désinformation, des data-scientists expérimentés
Attention, ce défi est plus technique que la moyenne ! Vous bénéficierez pour cette raison d’un
accompagnement renforcé, avec la présence quotidienne d’un datascientist senior, d’un développeur
senior, et d’un responsable produit senior. Ils vous aideront à utiliser des outils permettant de classifier un message posté sur les réseaux sociaux et à entrainer des algorithmes de machine learning spécialisés dans l’identification de schémas récurrents parmi une grande quantité de données.
Les livrables finaux proposés par le partenaire
Votre partenaire vous guidera avec la plus grande attention des la réalisation des livrables finaux :
Un jeu de données réutilisable et anonymisé de messages pour chacune des catégories de comptes, |
Un classifieur (algorithme de machine learning) entraîné sur ces données et réutilisable |
Une interface logicielle permettant la classification simple d’un message sur un réseau social |
Une évaluation de la qualité des résultats obtenus. |
Une identification claire des conséquences éthiques et réputationnelles de la création d’un tel outil est attendue, ainsi que des pistes pour les mitiger. |