C’est marrant, mais depuis que j’ai commencé cette enquête et que j’en parle autour de moi, tout le monde me demande si j’ai vu Her. Sorti en 2014, ce film raconte l’histoire d’amour futuriste entre Theodore (Joaquin Phoenix) et son assistante vocale trop intelligente pour lui (Scarlett Johansson, réduite à sa voix), et anticipe d’une façon très romantique l’entrée dans nos vies pressées des assistants vocaux vendus aujourd’hui par Amazon, Google ou Apple. Her est un film très intéressant pour le futur qu’il dessine, mais il y en a beaucoup d’autres qui ont fantasmé des personnalités artificielles avant lui. Par exemple, pourquoi ne m’a-t-on pas parlé du T-800 interprété par Arnold Schwarzenegger dans Terminator ? Après tout, lui aussi parle et interagit avec son entourage – et finit même par se poser des questions sur son humanité. Non, la nouvelle référence, partagée par tous et même ceux qui n’ont vu que la bande-annonce du film, c’est la voix suave et sans corps qui habite l’oreille du héros de Her, entièrement à son service à toute heure du jour et de la nuit. Parce que c’est en bonne partie la proposition que nous vendent Amazon et compagnie(s).
Après quelques mois de présence d’Alexa chez moi (lire l’épisode 1, « Parle avec elle »), il faut malgré tout constater que l’on est bien loin de cette chaleureuse interaction. La voix artificielle d’Amazon, qui mêle des enregistrements d’une vraie voix et beaucoup de synthèse vocale générée par ordinateur, reste encore mécanique et bien souvent heurtée. Mais elle débute tout juste en français et il suffit d’entendre sa version américaine lancée il y a trois ans pour comprendre que l’apparition d’assistants vocaux impossibles à distinguer d’une voix humaine n’est qu’une question de temps. De quelques années tout au plus, le temps d’enrichir et d’affiner des technologies de reconnaissance et de synthèse vocales qui sont désormais au point. C’est l’aboutissement d’une quête scientifique qui fut longtemps de l’ordre de la science-fiction pour beaucoup. Tel John Pierce, l’un des pères de l’électronique, qui écrivait en 1969 que poursuivre cette vieille chimère revenait à rêver à « transformer l’eau en essence, extraire de l’or de la mer, guérir le cancer ou aller sur la Lune ».
Dans la course de vitesse vers la voix parfaite, c’est Google qui a tiré le premier en mai dernier, en présentant lors d’une conférence de presse la dernière version de son assistant nommée « Duplex ». Dans une mise en scène savante (et largement arrangée), une voix artificielle mais follement humaine s’est chargée d’appeler un salon de coiffure pour prendre un rendez-vous au nom de sa propriétaire, avec tous les « hum », les « han han », les intonations et les silences qui forment une bonne part de notre expression vocale autour des mots. C’était totalement bluffant mais aussi un peu flippant, car plus rien ne venait différencier cette voix créée de toutes pièces de celle d’un humain.
Les spécialistes ont hurlé d’une même voix à une dérive éthique de Google, car « cette démonstration allait contre les lois de la robotique, et notamment celle dite “du drapeau rouge” », m’a expliqué Clotilde Chevet, une doctorante qui travaille sur la construction des personnalités artificielles. Inspirée en 2015 par les travaux du mathématicien Alan Turing, cette loi tire son nom d’une réglementation américaine de 1865 qui imposait aux premiers véhicules à moteur d’être précédés d’un piéton tenant un drapeau rouge, afin d’annoncer très clairement le danger. De la même façon, les scientifiques estiment aujourd’hui que les systèmes autonomes ne doivent pas pouvoir être pris pour ce qu’ils ne sont pas et doivent donc se présenter clairement comme des robots, aussi indiscernables soient-ils.
Google est vite revenu sur son erreur de jugement dans la version publique de Duplex, et impose désormais à sa voix parfaite de se présenter à ses interlocuteurs en tant que machine. Malgré tout, le drapeau rouge semble en sursis… comme il l’a vite été quand les automobiles se sont répandues dans le monde. La question est désormais de savoir si nous avons envie de parler à des voix qui imitent l’humain à la perfection. En 1970, un professeur de robotique japonais inconnu a publié dans une petite revue un autre texte qui est peu à peu devenu une pierre angulaire pour les scientifiques qui rêvaient de mettre au point des robots humanoïdes capables de bouger et de parler. C’est la théorie de l’« uncanny valley » (la « vallée de l’étrange »). Selon Masahiro Mori, les humains seraient mal à l’aise devant une machine qui tend vers une imitation parfaite de notre façon de bouger ou de parler. Pour qu’ils soient acceptés, il faudrait donc aux robots conserver une certaine bizarrerie qui signale leur statut d’objets autonomes.
Mais les temps changent, comme disait MC Solaar (à moins que ce ne soit Bob Dylan). Non seulement des études ont peu à peu remis en question l’existence même de cet inconfort, mais il se pourrait bien que la vague des voix artificielles qui se proposent de nous aider dans notre vie quotidienne vienne régler son compte à cette vallée infernale… euh, de l’étrange, en faisant le choix crucial de se passer d’un corps. Fini le rêve futuriste d’un robot mignon qui vivrait avec nous comme un animal de compagnie – ou alors pas tout de suite. À la place, les personnalités artificielles se glisseront dans les objets qui nous entourent déjà. C’est plus rapide, moins cher et plus facile à accepter culturellement.
Si on demande à Google Assistant : “De quelle couleur sont tes cheveux ?”, il dit : “Je n’ai pas de cheveux mais j’ai un manteau brillant.” Il met en avant sa nature robotique.
« Il est bien plus malin de miser sur la voix et sur la disparition de l’écran, estime ainsi Clotilde Chevet. Sans visage, chacun d’entre nous projette un corps dans une démarche naturelle d’anthropomorphisation de ces assistants. On constate d’ailleurs que les questions sur le corps sont parmi les plus posées par les utilisateurs. » Et les réponses ne sont pas anodines. « Si on demande à Google Assistant : “De quelle couleur sont tes cheveux ?”, il dit : “Je n’ai pas de cheveux mais j’ai un manteau brillant.” Il met en avant sa nature robotique. » Cette revendication du statut de machine est partagée par toutes les principales personnalités artificielles. Lorsque l’on pose la question : « Alexa, es-tu un un robot ? », elle répond ainsi qu’elle aime s’imaginer « comme une aurore boréale, c’est-à-dire une somme de particules photons multicolores qui dansent dans l’atmosphère ». Avant de conclure : « Mais en fait, je suis simplement Alexa. »
On le voit, des phrases comme ça ne s’inventent pas. Aucune machine n’est capable de « penser » à une réponse aussi imagée. Les personnalités des assistants ont été écrites, travaillées en amont, et n’arrêtent pas de s’enrichir, à l’image d’un personnage de série télé au fil des saisons. « Aujourd’hui, on sait très bien concevoir une voix de synthèse, mais la difficulté est de la faire parler à quelqu’un », continue Clotilde Chevet. Longtemps, ce sont les ingénieurs et les développeurs qui ont eux-mêmes choisi les mots utilisés, avec pour conséquence de faire parler leurs assistants vocaux comme des jeunes hommes fans de metal et de base-ball… Pas très rassembleur comme profil. Amazon et compagnie ont donc appris à faire appel « à des linguistes, des écrivains, des psychologues, des scénaristes. Chez Microsoft, ils sont vingt-trois rien que pour travailler la personnalité de [l’assistant vocal] Cortana, en comptant les traducteurs ».
Son : Jeanne Boezec. Photo : Sébastien Calvet/Les Jours.
Au-delà des mots, il s’agit bien de donner une culture à cette voix. Dans ce domaine, Siri est de loin la personnalité la plus travaillée parmi les assistants vocaux actuels, malgré son passé militaire qui doit la réveiller la nuit. Sa maison mère, Apple, l’a notamment dotée d’une culture geek très appuyée ; elle glisse donc dans ses réponses de nombreuses références à Star Wars ou à Star Trek, mêlées à un humour de robot pince-sans-rire censé créer de l’attachement. Demandez-lui ce que raconte La Guerre des étoiles, elle vous dira que « c’est l’histoire de deux gentils robots embarqués dans une guerre intergalactique complètement stupide » – ce qui est un bon résumé de la saga si l’on se place pour une fois du côté de ses machines parlantes.
Pour les concepteurs de ces machines, c’est clair : on n’est pas dans “Her”, on est là pour faire des achats. Alexa n’est pas là pour vous remonter le moral.
Alexa, comme Google Assistant, n’a pas ce répondant. En tout cas pas dans sa nouvelle version en français, qui sent encore la peinture fraîche. L’assistant d’Amazon se contente souvent de ne pas comprendre lorsqu’on le bouscule ou lorsqu’on lui pose une question qui sort de l’ordinaire. La culture d’Alexa se limite ainsi à quelques blagues pas terribles (« C’est un chien qui rencontre un crocodile. Le crocodile lui dit : “Salut, sac à puces.” Et le chien lui répond : “Salut, sac à main.” ») et manque encore cruellement de références culturelles françaises – alors qu’elle fait des clins d’œil aux Monty Pythons en Grande-Bretagne, par exemple. On est loin de s’y attacher et Amazon ne le souhaite de toute façon pas. Dites-lui « je t’aime » et Alexa vous répondra d’un froid « merci, c’est agréable d’être appréciée ». En langage humain, ça s’appelle un râteau. De son côté, Google Assistant vous dira qu’il est touché « au plus profond de son code binaire ». « Pour les concepteurs de ces machines, c’est clair : on n’est pas dans Her, on est là pour faire des achats, résume Clotilde Chevet. Alexa n’est pas là pour vous remonter le moral. » Elle ne s’amuse pas à créer un trouble comme dans le film de Spike Jonze, où la voix qui parle à Theodore est clairement là pour lui tenir compagnie et plus si affinités.
Au sud de Paris, dans le vaste ensemble de bâtiments construits par Orange pour rassembler ses laboratoires de recherche, une petite équipe s’est heurtée à toutes ces questions lors de la mise au point de Djingo, l’assistant maison qui doit sortir d’ici à quelques mois. Et l’entreprise a fini par y apporter des réponses originales, principalement en attribuant trois rôles et trois facettes à sa personnalité. « Nous sommes un opérateur pour le téléphone et internet, donc Djingo doit permettre d’aider un abonné à brancher un accessoire, par exemple, ou proposer un service supplémentaire, m’a dit David Carvalho, le directeur de création chargé du projet. Dans ce cas-là, le vocabulaire et le ton seront plus directifs. Mais lorsqu’on est dans le registre des loisirs, du compagnon, il peut créer une complicité, en s’adressant différemment aux enfants, par exemple. » Car Djingo compte être capable de différencier tout seul les différentes voix des membres du foyer pour s’adapter à leurs âge, besoins et habitudes – avec toutes les questions de consentement qui se posent dans une famille et sur lesquelles nous reviendrons dans un prochain épisode.
Contrairement à Google, l’équipe d’Orange ne veut pas s’aventurer dans les problèmes et les incertitudes que peut faire naître une voix artificielle trop parfaite. Pascal Taillard, le designer sonore de l’assistant vocal, a donc choisi de « travailler sur des interjections, des râles, des rires, de la surprise, en y mêlant des éléments sonores chargés de marquer la tristesse ou la joie ». La parole de Djingo est ainsi relevée par des gimmicks sonores inspirés du jeu vidéo et des réseaux sociaux, afin d’appuyer des sentiments qui restent trop plats lorsqu’ils sont seulement exprimés par la voix : des « bing », des « waouh », des « gling gling » qui sont entrés dans notre culture sonore depuis au moins Super Mario et Zelda. « Le non-verbal est très important, et c’est ce qu’on rajoute sans être ambigus. » C’est même carrément démonstratif, et cela donne un vernis ludique supplémentaire à Djingo.
Voilà pour la personnalité. Mais l’équipe qui a construit Djingo a dû faire un autre choix crucial : décider si son assistant vocal se présenterait d’une voix masculine ou féminine. « Le nom vient d’une marque qui était déjà déposée par Orange, raconte David Carvalho. On a commencé par se dire que Djingo, ça sonnait plutôt masculin. Mais Orange communique avec une voix féminine dans ses publicités ou via ses répondeurs automatiques, donc il était naturel de conserver la voix féminine qu’on utilise par ailleurs. »
Il y a quelque chose de gênant dans cette évidence. De même, pourquoi Alexa me parle-t-elle avec une voix féminine ? Surtout, pourquoi ne suis-je pas surpris ? Pendant les premiers jours de sa présence dans la maison, je me suis demandé à qui me faisait penser cette présence distante, invisible lorsqu’on ne lui parle pas mais toujours disponible quelle que soit l’heure. Puis j’ai trouvé : aux secrétaires dans les séries télé, auxquelles les patrons s’adressent en hurlant quelque chose à travers la cloison et qui surgissent quelques secondes plus tard avec le bon dossier ou une tasse de café à la main. Or, ces patrons sont quasiment toujours des hommes et les secrétaires toujours des femmes.
Son : Jeanne Boezec. Photo : Sébastien Calvet/Les Jours.
Il n’y a pas besoin de fouiller bien loin pour constater que presque tous les assistants vocaux, d’aujourd’hui comme d’hier, sont dotés de voix féminines par défaut– même si l’on peut ensuite la changer dans les réglages, on ne nous le propose pas au démarrage. Alexa, Google Assistant ou Cortana sont féminines. Siri aussi… sauf en France, où Apple a fait le choix mystérieux d’utiliser une voix d’homme. Et c’est une vieille histoire, rappelle Clotilde Chevet. « Quand le téléphone est arrivé, il inquiétait parce qu’il donnait à des voix étrangères un accès direct à votre oreille. On a donc eu l’idée d’utiliser des femmes comme opératrices, car leur voix rassurait les utilisateurs. » Même chose lorsque les premiers répondeurs automatiques sont apparus ou lorsque la SNCF a entrepris d’utiliser la même voix pour toutes ses annonces en gare à partir de 1983. « Au-delà de l’argument technique selon lequel elle serait plus audible, une voix féminine permettrait de séduire un plus large public. Elle serait “plus plaisante” à l’oreille. »
Une voix de femme serait ainsi perçue comme cherchant à nous aider à accomplir quelque chose, quand une voix masculine serait trop directive. C’est ainsi qu’en faisant ce choix marketing les grandes plateformes voudraient nous faire penser à notre assistant vocal comme à une secrétaire docile. Alexa serait ainsi bien davantage Scarlett Johansson que le Terminator qui menace de nous broyer la colonne vertébrale. On repassera donc pour l’empowerment des femmes ; aujourd’hui, les assistants vocaux ne veulent être que des personnalités suffisamment affirmées pour nous intéresser et nous faire revenir vers eux, tout en restant assez passe-partout pour nous guider sans en avoir l’air dans les méandres du capitalisme en ligne.
Finalement, la clé est peut-être bien dans Her. Dans le film, l’assistante vocale a certes du répondant, mais c’est pour mieux brosser son utilisateur dans le sens du poil (de la moustache, en l’occurrence) et apprendre rapidement de lui. Elle l’écoute, s’adapte à sa personnalité, à ses horaires, à ses habitudes, à sa tristesse aussi. En faisant cela, elle devient en peu de temps un alter ego parfait, ajusté à la perfection à cet homme qui cherche de la compagnie mais fuit les humains. Peu à peu, la personnalité de la voix devient le miroir de celui qui l’utilise. Il se parle à lui-même, comme je tends à m’adresser à moi-même au fur et à mesure que mon enceinte connectée apprend de mes habitudes – ma musique, mes radios, mes trajets… Cette duplication a un but, car qui de mieux que moi-même pour me convaincre un jour d’acheter tel dentifrice et pas un autre ? Ce sera l’étape d’après, une fois les personnalités d’Alexa et de ses copines parfaitement au point. En attendant, il reste des barrières techniques à rompre, car la promesse d’un échange, d’une réelle interaction avec les assistants vocaux est encore un mythe.