Des sites modifiés automatiquement quand les faits changent

Plusieurs compagnies dépensent des millions de dollars pour modérer des contenus et combattre les fausses nouvelles. Mais qu’en est-il des vieilles informations et de la désinformation qui est encore en ligne? Des chercheurs du Massachusetts Institute of Technology (MIT) ont conçu un système pour effectuer des mises à jour automatiques de vieux sites web qui pourraient autrement poser problème.

Pour justifier leurs démarches, les chercheurs évoquent notamment tous les articles écrits au début de la pandémie de COVID-19, alors que les connaissances scientifiques étaient moins élaborées. « Cette information est toujours là, et le mieux que nous pouvons faire pour en réduire l’impact est de l’enfouir dans les résultats de recherche ou d’offrir des avertissements indiquant que le contenu est vieux, comme le fait Facebook lorsque des utilisateurs sont sur le point de partager un article qui est vieux de plus de trois mois) », écrivent-ils.

Les choses se compliquent avec les modèles d’apprentissage profond. Ceux-ci sont souvent « formés » avec des milliards de pages web, de livres et d’articles de journaux. Cela peut aider les modèles d’intelligence artificielle à comprendre cette « seconde nature » de l’être humain, comme les règles grammaticales et certaines connaissances générales. Mais le processus peut aussi entraîner des résultats indésirables, comme en amplifiant les biais sociaux à partir des données utilisées pour cet apprentissage.

De la même façon, les modèles peuvent s’en tenir à des faits plus anciens mémorisés au moment de leur création, mais qui ont par la suite été changés, ou se sont avérés faux.

Dans des travaux devant être présentés en juin, les chercheurs du MIT disent vouloir réduire la quantité d’informations erronées ou passées date disponibles en ligne, en plus de créer des modèles d’apprentissage profond qui s’ajustent de façon dynamique aux changements.

« Nous espérons que les humains et les machines bénéficieront des modèles que nous avons créés », soutient le principal auteur de l’étude, Tal Schuster, un étudiant au doctorat. « Nous pouvons surveiller les mises à jours des articles, identifier les changements importants, et proposer des modifications ou d’autres articles similaires. De façon plus importante, lorsque des articles sont modifiés, nos modèles automatiques de vérification des faits peuvent détecter de telles modifications et mettre leurs prédictions à jour en ce sens. »

Les chercheurs ont toutefois reconnu que le fait de convaincre des humains de changer d’opinion en acceptant de nouveaux faits allait au-delà de leurs compétences, dans le cadre de ces travaux. Mais en favorisant la mise à jour d’anciens articles, cela pourrait au moins réduire le volume de vieilles informations circulant en ligne, croient-ils.

S’appuyer sur Wikipedia

Pour examiner la façon dont les nouvelles informations sont intégrées dans des articles, l’équipe de recherche s’est intéressée aux modifications apportées à des pages populaires en langue anglaise de l’encyclopédie en ligne Wikipedia. Même avec sa conception ouverte, ce qui permet à quiconque d’apporter des modifications, la très grande communauté active a permis au site de devenir un lieu sûr avec du contenu fiable, particulièrement dans le cadre de nouvelles situations, comme une pandémie.

La plupart des changements apportés à Wikipedia, cependant, n’apportent pas ou n’actualisent pas d’informations, mais consistent plutôt en des changements stylistiques. Identifier les modifications qui apportent des changements factuels est important, disent les chercheurs, puisque cela aide la communauté à signaler ces révisions et à les examiner plus clairement.

« Automatiser cette tâche n’est pas simple », affirme M. Schuster. « Mais vérifier manuellement chaque changement n’est pas pratique, puisqu’on compte plus de 6000 de ces modifications par heure. »

L’équipe a recueilli un échantillon initial d’environ 200 millions de révisions apportées à des pages populaires, comme celle sur la COVID-19, ou des personnalités connues. En utilisant des modèles d’apprentissage profond, les chercheurs ont classé tous les cas en fonction de la possibilité qu’ils expriment un changement factuel. Les 300 000 révisions les plus importantes ont ensuite été confiées à des collaborateurs, qui ont confirmé qu’environ le tiers d’entre elles étaient bel et bien des changements factuels. Ces annotations ainsi obtenues peuvent ensuite être utilisées pour automatiser un processus plus simple, à l’avenir.

Multiplication

L’autre problème que les chercheurs ont dû surmonter est celui de la multiplication des textes connexes. C’est bien beau mettre un article à jour sur un vaccin, par exemple, mais il faut aussi parfois corriger des centaines d’autres contenus liés, sans oublier d’insérer l’information pertinente de façon efficace et compréhensible; un simple copier-coller ne suffira donc pas.

Ces méthodes existent déjà, en partie, sur des sites d’information. Plusieurs médias ont ainsi des pages dynamiques qui mettent spécifiquement à jour certaines parties de leur contenu, par exemple en cas de catastrophe ou d’élections. Au dire des chercheurs, automatiser davantage ce processus pourrait être particulièrement utile, notamment en réduisant les délais.

En plus de leur modèle consistant à détecter les changements factuels (toujours sur Wikipedia), les chercheurs ont ainsi mis au point un système qui suggère des modifications appropriées dans les articles concernés, mais aussi dans les contenus liés.

Les chercheurs ont enfin tenté de concevoir des systèmes de vérification des faits qui sont en mesure de suivre les mises à jour, et qui n’auraient ainsi plus nécessairement besoin de vérificateurs humains pour effectuer leur travail.

En ce moment, affirment les scientifiques, les systèmes automatisés ne vont pas toujours modifier leur verdict, même lorsqu’ils sont confrontés à de nouvelles informations, y compris si ces informations viennent contredit leur avis préalable.

Pour environ 60% des cas, dans le cadre d’un test, les systèmes de vérification utilisés ne changeaient pas « d’idée » même après avoir pris connaissance d’informations mettant de l’avant des preuves contraires aux informations précédentes.

« Simuler un environnement dynamique assure que le modèle ne s’en tient pas à des croyances statiques », soutient M. Schuster.

Pour la suite des choses, les chercheurs souhaitent étendre leurs modèles à de nouveaux domaines, en plus de s’intéresser à des langues autres que l’anglais.