Emmanuel Ponsot : « La prosodie est porteuse de sens »
Un simple mot, « bonjour », reproduit avec des intonations différentes, a permis à Emmanuel Ponsot, chercheur au Laboratoire des Systèmes Perceptifs de l’École Normale Supérieure de Paris, et ses collaborateurs de déterminer que la prosodie est vecteur d’informations sociales fortes. Ces travaux ouvrent des possibilités diagnostiques et thérapeutiques pour les victimes d’AVC ou encore pour les personnes souffrant de troubles autistiques.
– Qu’est-ce que la prosodie ?
Emmanuel Ponsot : C’est la petite musique qui accompagne nos paroles. Elle regroupe entre autres : le timbre, le rythme et l’intonation. La prosodie donne des informations sur notre état émotionnel ou social qui sont comprises et reçues de tous, sauf de certaines personnes, atteintes de pathologies neuropsychologiques ou victimes de lésions cérébrales. Nos recherches se sont notamment intéressées à l’intonation, qui selon ses inflexions, montantes ou descendantes, exprime des intentions et induit des interactions sociales différentes.
– Vous avez travaillé sur la prosodie d’un seul mot, « bonjour ». Quelle a été votre méthode ?
E. P. : Nous avons travaillé avec un logiciel nommé CLEESE, développé en collaboration avec Juan José Burred, chercheur en informatique musicale à l’Ircam (Institut de recherche et coordination Acoustique/Musique). Ce logiciel nous a permis de créer des dizaines de milliers d’occurrences du mot « bonjour », avec une intonation différente pour chacune.
Nous avons ensuite soumis ces différentes occurrences deux par deux à une quarantaine de volontaires, en leur demandant de juger deux critères : 1) Quelle voix est la plus dominante ? 2) Quelle voix est la plus digne de confiance ? Ces deux critères correspondent à des jugements que nous faisons de façon inconsciente mais spontanée sur les autres. Si une personne nous paraît à la fois dominante et digne de confiance, nous verrons en elle un meneur. En revanche, si une personne nous paraît dominante mais pas digne de confiance, nous verrons en elle une menace.
« L’intention sociale est perçue de façon similaire par tous, quel que soit le genre (homme ou femme) du locuteur ou de l’auditeur. »
– Qu’avez-vous constaté ?
E. P. : Grâce à ce simple mot, nous avons pu montrer qu’il existe un lien entre la prosodie d’une voix et sa perception sociale. Lorsqu’une personne prononce le mot « bonjour », l’intonation utilisée est vectrice d’intentions sociales, qui peuvent être décryptées par l’interlocuteur. Les résultats de nos expériences montrent notamment qu’il existe une forme « d’universalité » de ces perceptions : l’intention sociale est perçue de façon similaire par tous, quel que soit le genre (homme ou femme) du locuteur ou de l’auditeur par exemple. Pour le critère de « dominance », nous observons une forte corrélation entre l’intonation et le ressenti des personnes qui écoutent. Pour le critère « digne de confiance », la corrélation est un tout petit peu moins prononcée.
Nous avons commencé à travailler sur d’autres mots, la corrélation observée est un peu moins forte. Il semble que le sens du mot prononcé compte et que la syntaxe et la sémantique interagissent avec la prosodie.
– Peut-on appliquer ces constats à une phrase et sont-ils valables pour d’autres langues que le français ?
E. P. : Ce sont des recherches qu’il va encore falloir mener. Mon coéquipier sur cette étude, Pascal Belin de l’Institut de neurosciences de la Timone, travaille actuellement avec des chercheurs étrangers. Il semble que pour ces deux critères de « dominance » et de « digne de confiance », on retrouve de vraies similarités avec d’autres langues. Il existerait donc bien quelque chose d’universel dans la prosodie. Nous envisageons maintenant de tester les lignes mélodiques de la « dominance » et de la « confiance » sur des sons purs afin de savoir si un simple son peut également être vecteur de signaux sociaux, sans signification sémantique.
– On dit souvent qu’on peut « entendre un sourire », même au téléphone. Vos recherches montrent-elles que cette intuition est fondée ?
E.P : Quand on sourit, cela ne change pas seulement l’intonation de notre voix mais aussi son timbre, qui est une autre composante de la prosodie. Quand on sourit, on contracte ses zygomatiques ; la cavité résonnante de notre voix est alors modifiée, ce qui va changer sa couleur, son timbre. Cela s’entend et se perçoit. Pablo Arias et Jean-Julien Aucouturier travaillent sur ce thème à l’Ircam. Ils ont notamment montré qu’entendre une voix « souriante » provoquait une discrète contraction des zygomatiques chez l’auditeur. Le sourire serait perceptible mais aussi contagieux, même lorsqu’on ne voit pas son interlocuteur.
« Entendre une voix « souriante » provoquait une discrète contraction des zygomatiques chez l’auditeur. »
– Qu’en est-il de la possibilité d’utiliser ces découvertes dans le domaine médical ?
E.P : Une de mes motivations lorsque j’ai commencé ces recherches était la possibilité qu’elles puissent servir au diagnostic ou au traitement de pathologies où les patients rencontrent des difficultés à décoder l’information sociale contenue dans la voix, comme les troubles autistiques ou encore l’AVC (Accident Vasculaire Cérébral). Nous avons commencé des recherches en partenariat avec Marie Villain, orthophoniste à l’hôpital de la Pitié-Salpêtrière, sur des patients victimes d’un AVC au niveau de l’hémisphère droit. Chez ces personnes, les intentions sociales de la prosodie peuvent être très difficiles à percevoir et à reproduire. Nous testons chez eux la perception du mot « vraiment », selon deux intonations, interrogative ou affirmative : « vraiment ? » ou « vraiment. » Pour le moment, nous essayons de valider l’efficacité de notre outil sur ces populations. Dans un second temps, nous tâcherons de voir si l’étude de la prosodie permet d’évaluer l’efficacité de la rééducation orthophonique, et de l’adapter. L’idée serait d’avoir un jour un outil automatisé, qui corrigerait en temps réel la prononciation du patient et lui permettrait peu à peu de récupérer une prosodie proche de la normale.
De manière similaire, Jean-Julien Aucouturier travaille sur un logiciel qui pourrait être utilisé auprès de patients dépressifs. Ce logiciel est capable de transformer en temps réel une voix et de la rendre plus joyeuse. Le principe consisterait à faire entendre à des patients dépressifs leur propre voix modifiée pour agir sur leur humeur.
Le champ des possibles est immense. Nous réfléchissons également à la possibilité d’adapter nos recherches pour doter les robots compagnons d’un langage qui serait vecteur d’interactions sociales plus « naturelles » avec les patients qu’ils suivent.
Pour en savoir plus, découvrez ici une vidéo réalisée par le CNRS sur ces recherches : https://www.ircam.fr/article/comment-faire-bonne-impression-en-disant-bonjour/
©Recherches menées à l’Ircam (CNRS/IRCAM/Sorbonne Université – https://www.ircam.fr) dans le cadre du projet ERC CREAM « CRacking the EmotionAl code of Music » (http://cream.ircam.fr), publiées dans cet article : http://www.pnas.org/content/early/2018/03/20/1716090115