Les grands modèles de langage perçoivent le sens du temps

Dans une phrase, les grands modèles de langage comme GPT-4 arrivent mieux à prédire les mots à venir que les mots précédents. Cet effet de «flèche du temps» pourrait redéfinir notre compréhension de la structure du langage naturel et la manière dont ces modèles le comprennent.

Les grands modèles de langage (LLM) comme GPT-4 sont devenus indispensables pour des tâches telles que la création de texte, le codage, l’exploitation de robots conversationnels et la traduction. Ils prédisent le mot suivant d’une phrase en fonction des mots précédents – une idée simple mais efficace qui est à l’origine de la plupart de leurs fonctionnalités. Mais que se passe-t-il si l’on demande à ces modèles de prédire les mots d’un texte à rebours, c’est-à-dire de revenir en arrière et de déterminer le mot précédent à partir des mots suivants?

Cette question a amené Clément Hongler titulaire de la Chaire de théorie des champs statistiques de l’EPFL, et Jérémie Wenger de Goldsmiths (Londres) à étudier si les LLM pouvaient créer une histoire à l’envers, c’est-à-dire en commençant par la fin. En collaboration avec Vassilis Papadopoulos, chercheur en intelligence artificielle à l’EPFL, ils ont fait une découverte étonnante: les LLM sont systématiquement moins précis lorsqu’ils prédisent à l’envers.

Une asymétrie fondamentale

Les trois chercheurs ont testé des LLM de différentes architectures et tailles. Pour tous les modèles, un effet de biais de «flèche du temps» apparaît, révélant une asymétrie fondamentale dans la manière dont les LLM traitent les textes.

Clément Hongler explique: «Cette découverte montre que si les LLM sont assez efficaces pour prédire le mot suivant et le mot précédent dans un texte, ils sont toujours légèrement moins efficaces à l’envers. Leurs performances pour prédire le mot précédent sont toujours inférieures de quelques pourcents. Ce phénomène est universel: il apparaît dans toutes les langues et peut être observé avec n’importe quel grand modèle de langage.»

Ces travaux font écho à ceux de Claude Shannon, le père de la théorie de l’information, énoncée dans son article fondateur de 1951. Claude Shannon a cherché à savoir s’il était aussi facile de prédire la lettre suivante d’une séquence que la précédente. Il a découvert que, bien que les deux tâches soient théoriquement aussi difficiles l’une que l’autre, les êtres humains trouvaient la prédiction à rebours légèrement plus difficile.

Des agents intelligents

«En théorie, il ne devrait pas y avoir de différence entre l’avant et l’après, mais les LLM semblent être en quelque sorte sensibles au sens du temps dans lequel ils traitent le texte, explique Clément Hongler. Il est intéressant de noter que ce phénomène est lié à une propriété profonde de la structure du langage qui a été découverte seulement avec l’émergence des grands modèles de langage au cours des cinq dernières années.»

Les trois chercheurs associent cette propriété à la présence d’agents intelligents traitant l’information, ce qui signifie qu’elle pourrait servir d’outil pour détecter l’intelligence ou la vie, et aider à créer des LLM plus performants. Enfin, elle pourrait indiquer de nouvelles orientations pour comprendre un problème de longue date, le passage du temps en tant que phénomène émergent en physique.

Leurs travaux ont été présentés lors de la prestigieuse conférence ICML et sont également disponibles sur arXiv.

Du théâtre aux mathématiquesCette étude a une histoire fascinante, que Clément Hongler raconte : «En 2020, avec Jérémie [Wenger], nous avons travaillé avec l’école de théâtre La Manufacture à la création d’un robot conversationnel destiné à faire de l’improvisation avec des actrices et acteurs. Dans l’improvisation, on veut souvent poursuivre l’histoire, tout en sachant à quoi la fin devrait ressembler.»«Afin de créer des histoires qui se termineraient d’une manière spécifique, nous avons eu l’idée d’entraîner le robot conversationnel à parler “à rebours”, lui permettant ainsi de créer une histoire à partir de sa fin. Par exemple, si la fin est “et ils vécurent heureux et eurent beaucoup d’enfants”, le modèle pourrait vous raconter comment cela est arrivé. Nous avons donc entraîné des modèles à cet effet, et nous avons remarqué qu’ils étaient un peu moins efficaces à rebours.»«Avec Vassilis [Papadopoulos], nous nous sommes rendu compte plus tard qu’il s’agissait d’une caractéristique profonde du langage et d’un nouveau phénomène tout à fait général, qui est fortement associé au passage du temps, à l’intelligence et à la notion de causalité. Plutôt sympa pour un projet théâtral !»L’enthousiasme de Clément Hongler vis-à-vis de ce travail s’explique en grande partie par les surprises qui sont arrivées en cours de route: «Le temps nous dira si ce qui a commencé comme un projet théâtral finira par nous apporter de nouveaux outils pour comprendre des choses sur le monde.»

Financement : Blavatnik Family Foundation, Fondation Latsis, NCCR SwissMAP, EPFL

Références : Vassilis Papadopoulos, Jérémie Wenger, Clément Hongler.
Arrows of Time for Large Language Models. arXiv: 2401.17505v4

Dans une phrase, les grands modèles de langage comme GPT-4 arrivent mieux à prédire les mots à venir que les mots précédents. Cet effet de «flèche du temps» pourrait redéfinir notre compréhension de la structure du langage naturel et la manière dont ces modèles le comprennent.

Post navigation