Des grammaires aléatoires à l’apprentissage linguistique

De nombreux processus naturels sont codés par des séquences d’éléments : L’ADN est une séquence de quatre nucléobases, les protéines sont des séquences d’acides aminés et les langues fonctionnent de la même manière : les mots sont des séquences de lettres et les phrases sont des séquences de mots. Mais pour qu’une séquence de mots forme un langage, on doit y adjoindre un ensemble de règles : une "grammaire". La construction d’une phrase à l’aide d’une grammaire peut être schématisée par un arbre dont les nœuds sont les règles grammaticales, et les feuilles les mots constituant la phrase. Dans ce cadre, est-il possible de distinguer les grammaires qui produisent des phrases aléatoires et celles qui créent des phrases structurées ?

Eric DeGiuli, post-doctorant à l’Institut Philippe Meyer du département de physique de l’ENS, a récemment développé un modèle de physique statistique pour décrire l’ensemble des grammaires du point de vue d’un physicien. Son "modèle linguistique aléatoire", publié dans Physical Review Letters, s’applique à un sous-ensemble spécifique de toutes les grammaires, les "grammaires sans contexte" (CFG), une catégorie qui contient en particulier tous les langages humains.

Dans ce sous-ensemble des CFG, DeGiuli a isolé une grandeur physique spécifique qui joue le rôle de la température en physique statistique, et qui mesure si les arbres de mots sont plutôt creux (sparse) ou denses. Baisser la température signifie en l’occurrence rendre l’intérieur des arbres de plus en plus creux. Il a montré qu’en dessous d’une certaine température critique, l’entropie du système change brusquement : le système subit une transition de phase entre une phase à haute entropie (des grammaires produisant des phrases aléatoires) et une phase ordonnée (grammaires produisant des phrases sensées). À ce moment-là, les mots cessent d’être de simples étiquettes et deviennent des ingrédients de phrases structurées et complexes.

Cette description en terme de transition de phase pourrait être utile pour comprendre le processus d’apprentissage d’une langue. Le cerveau des jeunes enfants commencerait dans la phase de haute température où toutes les langues sont possibles. À mesure qu’ils sont exposés à de nombreux arbres (phrases) construits avec une grammaire inconnue mais déterminée, la « température » du diminue, ce qui enclenche une transition de phase vers la phase des grammaires produisant des phrases structurées, jusqu’à converger vers la découverte de la grammaire sous-jacente. L’utilisation de l’inférence inductive et probabiliste dans la théorie de DeGiuli est cohérente avec ce qui est observé dans l’acquisition du langage chez les enfants [1]. Il espère que ce processus abstrait pourra finalement être relié à des observations au niveau neurologique.

[1] C. Yang, S. Crain, R. C. Berwick, N. Chomsky, and J. J. Bolhuis, “The growth of language : Universal Grammar, experience, and principles of computation”

En savoir plus :
Référence de l’article : DeGiuli, Random Language Model, Phys. Rev. Lett. 122, 128301 (2019)

Informations complémentaires :
Institut de Physique Théorique Philippe Meyer, École Normale Supérieure, PSL University, Sorbonne Université, CNRS, Paris, France

Auteur correspondant :

Contact communication :