Décoder le mystère de la parole : comment notre cerveau transforme le son en sens

Lorsqu’on lit la phrase « Il est parti au travail », nous distinguons clairement les différents mots qui la constituent, car ils sont séparés par un espace. Mais si, au lieu de lire, on entend la même phrase prononcée par quelqu’un, les différentes parties que l’on nomme les « unités linguistiques discrètes », comme les mots ou les syllabes, ne sont pas aussi directement et facilement accessibles.

En effet, ce qui parvient à l’oreille de l’auditeur, le « signal de parole », n’est pas organisé par unités discrètes et bien distinctes, mais plutôt comme un flot continu et ininterrompu. Comment donc transformons-nous ce signal continu en des unités linguistiques distinctes ? C’est cette question, qui anime depuis plusieurs décennies nombre de travaux de recherche sur la perception de la parole, que nous abordons dans un modèle mathématique original, présenté récemment dans le journal Frontiers in Systems Neuroscience.

Différents modèles de perception de la parole

Dans la littérature, il existe deux grandes classes de modèles de perception de la parole. Les modèles de la première catégorie, comme TRACE, le modèle classique du domaine, considèrent que la segmentation de la parole se fait tout naturellement avec le décodage du contenu acoustique de la parole : l’auditeur peut décoder directement le flux continu de la parole à partir des informations acoustiques contenues dans le signal, en utilisant ses connaissances sur les mots et les sons. La segmentation serait alors un simple produit du décodage.

Au contraire, pour la seconde classe de modèles, il y aurait bien un processus de segmentation (avec une détection des frontières des unités linguistiques) distinct d’un autre processus opérant l’association des segments ainsi obtenus à des unités lexicales. Cette segmentation s’appuierait sur la détection d’événements marqueurs des frontières entre segments. Ces deux processus distincts travailleraient de manière intégrée pour faciliter la compréhension et le traitement du flux continu de la parole.

De tels mécanismes sont observables chez les bébés qui, bien que n’ayant pas encore développé de vocabulaire de leur langue, sont quand même capables, jusqu’à un certain point, de segmenter la parole en unités distinctes.

En ligne avec cette seconde conception de la segmentation, les développements des neurosciences dans les 15 dernières années ont conduit à de nouvelles propositions concernant les processus de segmentation du flux de parole, en lien avec les processus de synchronisation et d’oscillations neuronales. Ces processus font référence aux activités cérébrales coordonnées qui se produisent à différentes fréquences dans notre cerveau. Lorsque nous écoutons la parole, notre cerveau doit synchroniser et organiser les différentes informations acoustiques qui arrivent à nos oreilles pour former une perception cohérente du langage. Les neurones dans les aires auditives du cerveau oscillent à des fréquences spécifiques, et cette oscillation rythmique facilite la segmentation du flux de parole en unités discrètes.

Un modèle phare dans ce domaine est le modèle neurobiologique TEMPO. TEMPO se concentre sur la détection temporelle des maxima d’amplitude dans le signal de parole pour déterminer les limites entre les segments.

Cette approche s’appuie sur des données neurophysiologiques montrant que les neurones du cortex auditif sont sensibles à la structure temporelle de la parole, et plus spécialement sur le fait qu’il existe des processus de synchronisation entre les oscillations neuronales et le rythme syllabique.

Comment comprendre une phrase dans le brouhaha

Toutefois, bien que ces modèles fournissent une perspective plus fine et plus précise sur la manière dont notre cerveau analyse et traite les signaux acoustiques complexes de la parole, ils n’expliquent pas encore tous les mécanismes liés à la perception de la parole. Une question en suspens concerne le rôle des connaissances de plus haut niveau, comme les connaissances lexicales, c’est-à-dire sur les mots qu’on connaît, dans le processus de segmentation de la parole. Plus précisément, on étudie encore la manière dont ces connaissances sont transmises et combinées avec les indices extraits du signal de parole pour parvenir à une segmentation de la parole la plus robuste possible.

Supposons par exemple qu’un locuteur nommé Bob prononce la phrase « il est parti au travail » à Alice. S’il n’y a pas trop de bruit ambiant, si Bob articule bien et ne parle pas trop vite, Alice ne rencontre alors aucune difficulté pour comprendre le message véhiculé par son interlocuteur. Sans effort apparent, elle aura su que Bob a prononcé les différents mots il, E, paRti, o, tRavaj (la transcription phonétique des mots prononcés dans le système de transcription SAMPA). Dans une telle situation « idéale », un modèle qui se baserait uniquement sur les fluctuations d’amplitude du signal sans faire appel à des connaissances supplémentaires suffirait pour la segmentation.

Cependant, dans la vie de tous les jours, le signal acoustique est « pollué », par exemple par les bruits des moteurs de voitures, ou les chants des oiseaux, ou la musique du voisin à côté. Dans ces conditions, Alice aura plus de mal pour comprendre Bob lorsqu’il prononce la même phrase. Dans ce cas, il est probable qu’Alice, dans cette situation, utiliserait ses connaissances sur la langue, pour avoir une idée de ce que Bob est susceptible de prononcer ou non. Ces connaissances lui permettraient de complémenter l’information fournie par les indices acoustiques pour une segmentation plus efficace.

En effet, Alice sait de nombreuses choses sur la langue. Elle sait que les mots s’enchaînent dans des séquences syntaxiquement et sémantiquement acceptables, que les mots sont constitués de syllabes, qui sont elles-mêmes constituées de plus petites unités linguistiques. Puisqu’elle parle la même langue que Bob, elle sait même très précisément les durées « classiques » pour réaliser et produire elle-même le signal de parole. Elle connaît donc les durées attendues des syllabes, et peut ainsi se reposer sur cette information pour aider son processus de segmentation, notamment lorsqu’elle rencontre une situation difficile, comme le brouhaha. Si le bruit ambiant « suggère » des frontières syllabiques qui ne correspondent pas à ses attentes, elle pourra les ignorer ; à l’inverse, si un bruit masque une frontière effectivement produite par Bob, elle pourra la récupérer si ses prédictions en suggèrent une à cet instant-là.

Dans notre article publié dans le journal scientifique « Frontiers in Systems Neuroscience », nous explorons ces différentes théories de la perception de la parole. Le modèle développé comporte un module de décodage du contenu spectral du signal parole et un module de contrôle temporel qui guide la segmentation du flux continu du signal parole. Ce module de contrôle temporel combine, de manière originale, les sources d’information provenant du signal même (en accord avec les principes des oscillations neuronales) et celles provenant des connaissances lexicales qu’a l’auditeur sur les durées des unités syllabiques et ce, que l’on soit dans un cas ou l’autre de perturbation du signal de parole (événement en trop ou événement manqué). Nous avons ainsi développé différents modèles de fusion qui permettent, soit d’éliminer des événements non pertinents dus au bruit acoustique, s’ils ne correspondent pas à des connaissances préalables cohérentes, soit de retrouver des événements manquants, grâce aux prédictions linguistiques. Les simulations avec le modèle confirment qu’utiliser les prédictions lexicales de durées des syllabes produit un système de perception plus robuste. Une variante du modèle permet de plus d’expliquer des observations comportementales obtenues dans une expérience récente, dans laquelle les durées de syllabes dans des phrases étaient manipulées, justement pour correspondre, ou non, aux durées naturellement attendues.

En conclusion, dans une situation de communication réelle, quand nous nous retrouvons dans un environnement où le signal parlé ne souffre d’aucune perturbation, se baser sur le signal seul suffit probablement à accéder aux syllabes, ainsi qu’aux mots le constituant. En revanche, lorsque ce signal est dégradé, nos travaux de modélisation expliquent comment le cerveau pourrait avoir recours à des connaissances complémentaires, comme ce que l’on sait sur les durées syllabiques habituelles qu’on produit, pour aider la perception de la parole.

Mamady Nabé, Docteur en informatique, Université Grenoble Alpes (UGA)

Cet article est republié à partir de The Conversation sous licence Creative Commons. Lire l’article original.

Différents modèles de perception de la parole

Comment comprendre une phrase dans le brouhaha

Post navigation