Dans une phrase, les grands modèles de langage comme GPT-4 arrivent mieux à prédire les mots à venir que les mots précédents. Cet effet de «flèche du temps» pourrait redéfinir notre compréhension de la structure du langage naturel et la manière dont ces modèles le comprennent.
Les grands modèles de langage (LLM) comme GPT-4 sont devenus indispensables pour des tâches telles que la création de texte, le codage, l’exploitation de robots conversationnels et la traduction. Ils prédisent le mot suivant d’une phrase en fonction des mots précédents – une idée simple mais efficace qui est à l’origine de la plupart de leurs fonctionnalités. Mais que se passe-t-il si l’on demande à ces modèles de prédire les mots d’un texte à rebours, c’est-à-dire de revenir en arrière et de déterminer le mot précédent à partir des mots suivants?
Cette question a amené Clément Hongler titulaire de la Chaire de théorie des champs statistiques de l’EPFL, et Jérémie Wenger de Goldsmiths (Londres) à étudier si les LLM pouvaient créer une histoire à l’envers, c’est-à-dire en commençant par la fin. En collaboration avec Vassilis Papadopoulos, chercheur en intelligence artificielle à l’EPFL, ils ont fait une découverte étonnante: les LLM sont systématiquement moins précis lorsqu’ils prédisent à l’envers.
Une asymétrie fondamentale
Les trois chercheurs ont testé des LLM de différentes architectures et tailles. Pour tous les modèles, un effet de biais de «flèche du temps» apparaît, révélant une asymétrie fondamentale dans la manière dont les LLM traitent les textes.
Clément Hongler explique: «Cette découverte montre que si les LLM sont assez efficaces pour prédire le mot suivant et le mot précédent dans un texte, ils sont toujours légèrement moins efficaces à l’envers. Leurs performances pour prédire le mot précédent sont toujours inférieures de quelques pourcents. Ce phénomène est universel: il apparaît dans toutes les langues et peut être observé avec n’importe quel grand modèle de langage.»
Ces travaux font écho à ceux de Claude Shannon, le père de la théorie de l’information, énoncée dans son article fondateur de 1951. Claude Shannon a cherché à savoir s’il était aussi facile de prédire la lettre suivante d’une séquence que la précédente. Il a découvert que, bien que les deux tâches soient théoriquement aussi difficiles l’une que l’autre, les êtres humains trouvaient la prédiction à rebours légèrement plus difficile.
Des agents intelligents
«En théorie, il ne devrait pas y avoir de différence entre l’avant et l’après, mais les LLM semblent être en quelque sorte sensibles au sens du temps dans lequel ils traitent le texte, explique Clément Hongler. Il est intéressant de noter que ce phénomène est lié à une propriété profonde de la structure du langage qui a été découverte seulement avec l’émergence des grands modèles de langage au cours des cinq dernières années.»
Les trois chercheurs associent cette propriété à la présence d’agents intelligents traitant l’information, ce qui signifie qu’elle pourrait servir d’outil pour détecter l’intelligence ou la vie, et aider à créer des LLM plus performants. Enfin, elle pourrait indiquer de nouvelles orientations pour comprendre un problème de longue date, le passage du temps en tant que phénomène émergent en physique.
Leurs travaux ont été présentés lors de la prestigieuse conférence ICML et sont également disponibles sur arXiv.
Références : Vassilis Papadopoulos, Jérémie Wenger, Clément Hongler.
Arrows of Time for Large Language Models. arXiv: 2401.17505v4