Agnès de Ribet
Contents

Comment douter de l’extraordinaire pouvoir de la voix ? Comment ne pas reconnaître sa capacité à toucher chacun d’entre nous ? Une image peut choquer. Une odeur, ou même un goût peuvent se heurter à la subjectivité culturelle. Quant au toucher, la crise sanitaire en définit dramatiquement les limites. Mais la voix, tout comme le son et la musique, a la faculté de franchir les frontières, de dépasser les clivages. Il n’est donc pas surprenant, dans une démarche de communication des entreprises, que son usage s’intensifie.

 

Émotions garanties

Les études l’ont montré : le pouvoir de la voix renvoie à quelque chose de viscéral, d’ancestral, à la nuit des temps. On est fasciné par un bébé qui babille, par un feu qui crépite, par le jour qui se lève. Autant d’instants répétés depuis l’aube de l’humanité. Dans le ventre de sa mère, l’enfant réagit à sa voix. L’audition du fœtus commence entre la 24e et la 26e semaine de grossesse avec les battements du cœur de la mère puis sa voix, à 30 décibels, comme un doux chuchotement. Ce n’est que le début.

La voix est un intense déclencheur d’émotions, un puissant générateur de mémoires vives. L’hôtesse de FIP, celle de la SNCF annonçant le départ imminent du train, le rire caractéristique de Woody Woodpecker… On grandit avec des voix devenues familières. Pas étonnant donc que l’Intelligence Artificielle et que les robots s’humanisent par la parole, au point de troubler les usagers.

Savez-vous quelle est la requête la plus fréquente faite à Alexa, l’assistant vocal d'Amazon ? « Alexa, veux-tu m’épouser ? »
Faites l’essai, vous constaterez que sa réponse, non dénuée d’humour, change toutes les semaines. Le robot qui parle est un fantasme. Il suffit de penser à la série K2000 ou plus récemment au film fascinant de Spike Jonze, « Her », dans lequel le récemment oscarisé Joachim Phoenix tombe amoureux d’une Intelligence Artificielle dont la voix suave et rassurante, l’aide à survivre dans un monde qu’il juge oppressant.

Application à usages multiples

À lire ces lignes, on pourrait penser que la voix a pour seule vertu le pouvoir de produire des émotions. Pas seulement. Commençons par une donnée pratique. En une minute, un stylo écrit 31 mots, un clavier 53. Dans le même temps, la voix en communiquera 160.
Redoutable d’efficacité.
La voix nécessite peu d’apprentissage (contrairement à la souris ou au pad) et autorise une grande rapidité d’échange.

Et c’est évidemment aux populations en difficulté qu’on s’intéresse ici. Les handicapés privés d’un autre sens essentiel (par exemple les malvoyants) mais aussi les personnes âgées. Qui n’a pas constaté la panique de ses grands-parents devant une déclaration d’impôts en ligne ? Ou encore la tristement récente prise de rendez-vous pour le vaccin ? Alors qu’un dialogue dissiperait bien des angoisses.

De là à imaginer que l’usage de la voix doit son développement à des considérations philanthropiques, il n’y a qu’un pas. Amazon ne s’en cache pas : son enceinte connectée doit vendre plus de produits. Les débuts furent erratiques.

Le marché n’a explosé qu’en 2017-2018 parce que le niveau de compréhension de la machine est passé à 93% (niveau humain). 24% des foyers américains en sont désormais équipés (11% en France) pour des usages primaires (Spotify, réveil, informations, météo) et secondaires (domotique, commandes de biens). Pour les experts du secteur, la prochaine révolution, ce sera la disparition du numéro de téléphone.

Comme une réponse au tube des Buggles (« Video killed the radio star »), les podcasts explosent et s’imposent là où l’écran n’est pas autorisé : en voiture par exemple, ou en cuisine… les mains dans la farine. L’image a perdu un peu de sa superbe.
D’ailleurs, que dit-on pendant une visio-conférence compromise par le manque de bande passante ? « Éteins-ta caméra que je puisse écouter ce que tu dis ».

Alexa, es-tu là ?

Toutes les marques font désormais un usage intensif de la voix afin d’enrichir l’expérience utilisateur. Starbucks permet de commander rapidement nos consommations les plus récurrentes. Disney propose une musique synchronisée avec l’histoire que raconte un père à sa petite fille. Pour acheter les couteaux Deedjo, on se fait apostropher par une vendeuse virtuelle qui n’a pas la langue dans sa poche.

La voix humanise le quotidien. Une enquête récente montre qu’une frange grandissante des français se détourne des médias télévisuels (via les chaînes d’information en continu) parce que répétitifs et anxiogènes. À cette débauche d’images, que la pandémie a rendu particulièrement agressive, ils préfèrent un podcast d’information qu’ils auront choisi et surtout, qu’ils pourront écouter au moment qu’ils jugeront le plus opportun.

La voix de l’IA est promise à un grand avenir. Il ne lui reste qu’à faire tomber quelques résistances : les soupçons d’espionnite relatifs aux enceintes connectées, le degré d’intimité que l’on peut avoir avec une IA (doit-on dire merci à un bot ? Vraiment ?) ou encore le fait que certains achats ne peuvent se passer de l’image.

En attendant, je vais contacter Amazon, leur demander si Alexa peut devenir Alexis… et je lui demanderai s’il veut m’épouser.