Des chercheurs enseignent aux neurones comment sexuer une personne à partir d'un texte

Un collectif de scientifiques de l’Université nationale de recherche nucléaire (MEPhI), du Centre national de recherche «Institut Kourtchatov» et de l’Université d’État de Voronej ont développé une méthode permettant à un ordinateur de définir le sexe d’une personne selon un texte qu'ils ont écrit dans 80% des cas.
Sputnik

Cette étude scientifique, qui se rapporte à la linguistique numérique, a été menée grâce à une bourse de la Fondation scientifique russe. Ses résultats ont été publiés par la revue Procedia Computer Science.

Comment a été créé le rayon laser, cette technologie aux capacités illimitées?
Beaucoup d'études scientifiques montrent qu'un texte écrit reflète inévitablement les caractéristiques de son auteur et notamment son sexe, ses particularités psychologiques ou son niveau d'éducation. Le langage est un outil précieux de diagnostic psychologique, utilisé par les experts en ressources humaines des grandes entreprises ou encore par les services de sécurité.

L'analyse du langage peut permettre de dépister la présence de certaines maladies (la démence ou la dépression) ou un penchant suicidaire. La nécessité d'établir les caractéristiques des auteurs de textes est de plus en plus importante dans le contexte du développement des communications par internet: il est notamment crucial pour les entreprises de savoir quels groupes préfèrent leurs produits ou leurs services.

Les scientifiques travaillant dans ce domaine (les linguistes, les psychologues, les informaticiens) s'appuient sur la signification de différents paramètres d'un texte pour créer des modèles mathématiques destinés à «diagnostiquer» telle ou telle caractéristique personnelle de son auteur.

Le collectif russe a examiné l'efficacité des différentes technologies d'apprentissage automatique recourant aux réseaux de neurones pour analyser les textes.

Comment les physiciens russes expliquent l'origine des trous noirs primordiaux
Pour cette étude, ils ont comparé la précision de la résolution du problème de l'identification du genre sur la base de deux approches des modèles de données: d'un côté ils ont essayé les algorithmes d'apprentissage automatique (la méthode des machines à vecteurs de support et le gradient boosting), de l'autre ils ont testé les réseaux de neurones d'apprentissage profond (les réseaux de neurones convolutifs et les réseaux de neurones récurrents ayant une longue mémoire à court terme).

«Nous avons obtenu des résultants considérables dans la définition du sexe de l'auteur du texte grâce aux modèles avancés des réseaux de neurones dans les conditions où l'auteur ne dissimule pas son sexe. Le prochain objectif est de définir le sexe dans des conditions où il est consciemment dissimulé», explique Alexandre Sboev, maître de conférences au MEPhI.

Ainsi, en analysant des textes publiés initialement sur un site de rencontres, le réseau de neurones trouve sans problème la tromperie dans dix cas sur dix, même si l'auteur signe son texte avec le nom d'une personne de l'autre sexe.

Comment les universités russes ont percé dans les classements mondiaux en 2017
Ce texte a été écrit par une jeune fille: «Je suis un homme joli et musclé de 30 ans. Je travaille dans une grande entreprise pétrogazière à un bon poste avec un salaire décent. J'habite dans mon propre appartement à Moscou et possède une petite maison sympathique dans un village italien. Je fais du sport, notamment du football. J'aime partir quelque part le week-end, je déteste les femmes casanières. Je cherche une fille discrète et jolie, qui doit avoir une silhouette attractive selon les standards modernes. Elle doit partager mes intérêts, ne pas être jalouse et ne pas tenter de susciter ma jalousie. Je n'ai aucune envie d'avoir une jeune femme à ma charge car, à mon avis, les deux membres d'un couple doivent travailler. Je préfère également que le budget familial soit géré séparément. Je ne tolérerait pas l'adultère».

Ce texte a été écrit par un homme: «Bonjour! Je suis très, très mécontente! Qu'est-ce que vous vous permettez avec nous?! Nous sommes nous aussi êtres humains, nous sommes égaux! Êtes-vous sexiste? Je ne vais plus le tolérer! Je vais casser ta voiture, la couvrir de peinture! Prépare-toi, porc! T'es fini!»

Les résultats de l'étude ont montré que l'approche se basant sur les réseaux de neurones convolutifs et les méthodes d'apprentissage profond était optimale pour définir le sexe de l'auteur d'un texte.

Les chercheurs travaillent actuellement à des méthodes qui permettront d'identifier l'âge de l'auteur.

Discuter