Cette étude scientifique, qui se rapporte à la linguistique numérique, a été menée grâce à une bourse de la Fondation scientifique russe. Ses résultats ont été publiés par la revue Procedia Computer Science.
L'analyse du langage peut permettre de dépister la présence de certaines maladies (la démence ou la dépression) ou un penchant suicidaire. La nécessité d'établir les caractéristiques des auteurs de textes est de plus en plus importante dans le contexte du développement des communications par internet: il est notamment crucial pour les entreprises de savoir quels groupes préfèrent leurs produits ou leurs services.
Les scientifiques travaillant dans ce domaine (les linguistes, les psychologues, les informaticiens) s'appuient sur la signification de différents paramètres d'un texte pour créer des modèles mathématiques destinés à «diagnostiquer» telle ou telle caractéristique personnelle de son auteur.
Le collectif russe a examiné l'efficacité des différentes technologies d'apprentissage automatique recourant aux réseaux de neurones pour analyser les textes.
«Nous avons obtenu des résultants considérables dans la définition du sexe de l'auteur du texte grâce aux modèles avancés des réseaux de neurones dans les conditions où l'auteur ne dissimule pas son sexe. Le prochain objectif est de définir le sexe dans des conditions où il est consciemment dissimulé», explique Alexandre Sboev, maître de conférences au MEPhI.
Ainsi, en analysant des textes publiés initialement sur un site de rencontres, le réseau de neurones trouve sans problème la tromperie dans dix cas sur dix, même si l'auteur signe son texte avec le nom d'une personne de l'autre sexe.
Ce texte a été écrit par un homme: «Bonjour! Je suis très, très mécontente! Qu'est-ce que vous vous permettez avec nous?! Nous sommes nous aussi êtres humains, nous sommes égaux! Êtes-vous sexiste? Je ne vais plus le tolérer! Je vais casser ta voiture, la couvrir de peinture! Prépare-toi, porc! T'es fini!»
Les résultats de l'étude ont montré que l'approche se basant sur les réseaux de neurones convolutifs et les méthodes d'apprentissage profond était optimale pour définir le sexe de l'auteur d'un texte.
Les chercheurs travaillent actuellement à des méthodes qui permettront d'identifier l'âge de l'auteur.