Je me suis tendu le piège tout seul : en juin, j’ai installé une enceinte dotée d’un assistant vocal à la maison. Si on m’avait dit deux mois plus tôt que je ferais entrer dans mon foyer cet engin, mi-espion mi-vendeur de tout à la solde des géants du net, j’aurais doucement rigolé, moi qui ne suis pas sur Facebook parce que ma vie est privée, qui ai basculé de Google vers Qwant pour mes recherches en ligne, etc. J’étais un client assez improbable. Puis, la curiosité journalistique et le rejet général de cette technologie autour de moi ont commencé à me titiller, jusqu’à ce que je propose d’enquêter pour Les Jours sur cette nouvelle révolution de la voix qu’essaient de nous vendre Amazon, Google et Apple. Il fallait bien essayer pour comprendre, et c’est ainsi qu’Alexa, embarquée dans une enceinte Amazon Echo grise d’une vingtaine de centimètres de haut, est entrée chez moi. Je l’ai posée à côté de la chaîne hi-fi qui fait face au canapé du salon, en plein milieu de mon appartement. Puis j’ai commencé à lui parler, en me demandant non seulement ce que j’allais bien pouvoir faire de ce web de la voix, mais surtout ce que lui, en retour, pouvait me faire. Qu’est-ce que ça fait de parler à une machine capable de répondre ?
Pour les Gafa, qui sont tous engagés dans cette nouvelle façon d’interagir avec les appareils connectés, la messe est dite : le futur proche du web sera vocal et nous en ferons tous partie, même si nous en rions aujourd’hui, comme nous avons en dix ans basculé dans l’internet mobile. Souvenez-vous, cette époque où vous vous demandiez pourquoi vous auriez envie d’avoir vos mails en permanence dans la poche… En termes plus techniques, nous serions en train d’entrer dans la troisième forme de notre relation aux machines connectées. La première étape était l’interface textuelle, jusqu’au milieu des années 1990. Le très grand public en est resté largement exclu, c’était une affaire de scientifiques et de passionnés capables de taper douze lignes de code pour que leur clavier passe en majuscules. La deuxième révolution a commencé avec l’invention du World Wide Web (avec notamment des pages dotées d’une adresse URL reliées entre elles par des liens hypertexte), d’une interface graphique et du couple clavier-souris : tout d’un coup, monsieur et madame Tout-le-Monde pouvaient faire beaucoup plus de choses facilement et intuitivement. Ouvrir un dossier, y placer un fichier, ouvrir ce fichier, le « jeter » dans une corbeille… Le « bureau » virtuel dupliquait les codes du bureau réel et ce monde métaphorique est encore le nôtre aujourd’hui.
« C’était bien plus simple, mais ça nécessitait encore un apprentissage de l’interface », m’a expliqué Laurent Frisch, le directeur du numérique de Radio France, qui se passionne pour ces transformations. « Puis il y a eu le mobile et les modes d’emploi de 250 pages des ordinateurs sont passés à “Branchez, jouez”. C’était très intuitif, naturel, et ça a très fortement baissé la barrière d’accessibilité. » Aujourd’hui, la voix est « la prochaine révolution des interfaces, parce qu’elle se passe de la vue pour permettre une interaction avec les machines en langage naturel. L’appareil connecté se glisse autour de nous sans être invasif. » Ce serait une fusion homme-machine invisible, l’aboutissement d’un fantasme de science-fiction où, du malveillant HAL de 2001 : l’Odyssée de l’espace à la romance intello de Her, le robot qui parle a depuis longtemps été imaginé.
Je n’ai jamais vraiment utilisé l’assistant vocal Google de mon téléphone Android, si ce n’est pour quelques recherches sur Google Maps ou dicter un texto urgent alors que j’avais les mains pleines de beurre dans la cuisine. Je suis encore de la génération clavier. De même, me retrouver face à un robot vocal en appelant la SNCF ou une quelconque administration me met – comme beaucoup – hors de moi, à tourner en rond de menus en sous-menus en hurlant « horaires ! » ou « conseiller ! ». J’étais donc, en réalité, le cobaye parfait.
« Alexa, quelle heure il est ?
Il est 18 h 32. »
Alexa, quelle est la météo pour demain ? » « Je ne sais pas.
La voix féminine de l’assistant vocal d’Amazon est chaleureuse sans en faire trop. Elle garde quelque chose de robotique, avec notamment un petit chuintement métallique, mais elle évoque vraiment une voix humaine. Quand aux nombreux micros embarqués chargés de capter les demandes, ils sont redoutables. Ils entendent de loin, même dans un environnement relativement bruyant. Alexa comprend donc très bien ce qu’on lui dit, mais elle ne sait pas toujours quoi en faire.
« Alexa, quelle est la météo pour demain ?
Je ne sais pas. »
Le futur repassera pour cette fois. Car le présent, dans les premiers temps avec Alexa, c’est empoigner sans cesse son smartphone pour plonger dans les menus de l’application qui permet de configurer l’assistant. Celle-ci est étonnamment mal faite mais permet de renseigner son adresse et ses habitudes, notamment de choisir ses radios ou son service de streaming musical préférés. On recommence donc :
« Alexa, quelle est la météo pour demain ?
Demain à Paris, le temps sera passablement ensoleillé mais accompagné d’orages, avec une température maximale de 18 degrés et une température minimale de 8 degrés. »
L’interaction ne va pas beaucoup plus loin aujourd’hui. Dans le store français des « skills » Amazon – le nom maison des applications à activer (Google appelle ça des « actions ») –, on trouve les principales radios, des pourvoyeurs de flashes info généralistes ou spécialisés, quelques acteurs du podcast, les grands noms du streaming comme Spotify ou Deezer et de quoi activer à la voix des ampoules et d’autres objets connectées. S’y ajoutent tout un tas de futilités : « Feu de cheminée », qui diffuse donc un bruit de… feu de cheminée, « Sons d’orage » et « Sons de pluie », ou encore les cris des animaux de la ferme.
Google Assistant est disponible en France depuis août 2017, Alexa et le HomePod d’Apple – qui fonctionne avec Siri – seulement depuis juin 2018, les chiffres de vente et les données d’usage manquent donc. Mais les utilisateurs américains, qui ont deux bonnes années d’avance, ont commencé à livrer des pistes sur ce qu’ils font réellement de leurs enceintes connectées. Déjà, ils en ont, c’est une réalité : outre-Atlantique, 18 % des plus de 18 ans (mais avant tout des plus de 35 ans) possèdent aujourd’hui au moins un smart speaker chez eux. De plus, ces chiffres de vente tendent à s’accélérer. Ensuite, lorsqu’ils s’en servent, c’est avant toute chose pour se renseigner sur les conditions de trafic ou la météo, pour écouter les informations, la radio et de la musique, ou pour poser des questions simples auxquelles Wikipedia a souvent réponse.
Ces chiffres, ajoutés à mon usage des débuts au contact d’Alexa, m’ont rappelé les premiers temps du smartphone, entre 2007 et 2010. Ces « téléphones intelligents » ne faisaient pas grand-chose d’autre que jouer de la musique ou diffuser la radio, donner l’heure et la météo, ou encore proposer de nombreuses applications totalement futiles mais capables de montrer les capacités graphiques et interactives de ce nouveau monde qui tenait dans la poche. C’était l’époque de l’application bouche ou de celle qui permettait de boire une fausse bière en penchant son iPhone à 500 euros vers sa bouche. Beaucoup d’inutile, en somme, qui a depuis laissé place à des usages plus concrets mais aux enjeux bien plus complexes.
Son : Jeanne Boezec. Photo : Sébastien Calvet/Les Jours.
En 2018, les assistants vocaux rejouent la même stratégie patiente, en attendant que d’autres usages naissent, et entrent ainsi en douceur chez les consommateurs. Xavier Filliol est directeur général de Radioline, le premier portail de radios en Europe. Il a lui aussi pointé cette similarité lorsque nous avons discuté du web de la voix. Pour lui, « parler à un bout de plastique, les gens prennent ça pour un jeu. L’aspect “gamification” de l’expérience est au cœur du truc, comme si on avait tous envie de régresser. C’est voulu ».
De la même façon, Google et Amazon ont récemment bradé leurs appareils afin de les faire entrer plus docilement dans les foyers. Le premier via un partenariat avec la Fnac et en le donnant pendant un temps aux nouveaux abonnés de l’opérateur Bouygues Telecom. Le second en divisant par deux le prix de ses enceintes lors de leur lancement. Seul Apple, avec son HomePod, joue comme d’habitude la stratégie de l’objet désirable et donc coûteux, vendu avant tout comme une enceinte de haute technologie. Mais l’angle est le même, clamé dans des publicités publiées par Amazon ou Google dans les journaux ces dernières semaines : au pire, même si l’assistant vocal ne vous intéresse pas, à ce prix-là, ça vous fera une super enceinte. Et il est vrai que le son d’Alexa, étonnant pour un aussi petit engin, conviendra largement à 90 % des auditeurs qui, petit à petit, pourront ainsi glisser vers l’assistant vocal et les projets bien plus vastes des plateformes qui les vendent.
Car personne n’est dupe – ou plutôt personne ne devrait l’être. Avec son assistant vocal qui équipe désormais les smartphones Android et des enceintes, Google veut nous faire entrer plus en profondeur dans son écosystème « gratuit » (la recherche, Gmail, Maps, Agenda…) afin de vendre à ses annonceurs du ciblage encore plus précis et personnalisé à partir de nos données. Les enchères autour des mots-clés vocaux demandés par les utilisateurs s’annoncent ainsi féroces, car les résultats proposés par l’assistant en retour seront bien plus limités que ceux qui s’affichent aujourd’hui sur un écran. Amazon, de son côté, vend son abonnement Prime. Indispensable pour activer Alexa, il est la porte d’entrée pour son catalogue infini de produits, livrables sur simple demande.
L’une des premières choses que j’ai faites en installant Alexa, c’est justement de désactiver les achats via Amazon. En partie pour éviter que ma fille ne commande un DVD de La Reine des neiges tous les soirs, mais aussi parce que je ne ressens pas du tout le besoin de demander de l’aide à Alexa pour cela. J’évite de commander sur Amazon quand je le peux – mais on peut penser que la plupart des utilisateurs d’Alexa ne se posent pas ce genre de question. Malgré tout, selon des informations internes qui ont fuité récemment, seuls 2 % d’entre eux auraient acheté quelque chose via l’assistant d’Amazon depuis le début de l’année. L’entreprise a démenti ce chiffre, mais les sondages d’usage vont dans le même sens : aujourd’hui, on n’utilise pas, ou très peu un assistant vocal pour acheter. « L’exemple qui tue, c’est le café, m’a expliqué Franck Lefevre, le cofondateur de Digital Airways, une entreprise spécialisée dans les interfaces homme-machine qui travaille sur un assistant vocal capable de communiquer avec des commerçants locaux. Ça paraît simple, acheter du café. Mais est-ce qu’on parle de café en grains ou moulu ? En dosettes ? Mais quelles dosettes ? Du robusta ou je ne sais quoi ? Quelle force ? Pour quelle machine ? Et puis quelle marque ? C’est infini et aujourd’hui, on n’y arrive pas de façon satisfaisante. »
Le café n’est qu’un exemple de la complexité de cheminer dans le choix infini qui s’offre en ligne avec la voix comme seule guide. Finalement, seules les demandes récurrentes fonctionnent bien : une liste de courses habituelles qui permet à Alexa de savoir quelle marque de café ou d’essuie-tout on préfère, ou des commandes simples : une pizza (chez Domino’s exclusivement aujourd’hui), un VTC (chez Uber…). On peut aussi obtenir l’horaire du prochain bus ou d’un film au cinéma. Pas grand-chose de plus, tant cette pseudo-intelligence artificielle ne parvient pas – encore – à engager une discussion qui mènerait rapidement au bon produit, notamment parce que l’énumération de listes par la voix est fastidieuse et inefficace. On a donc souvent envie d’avoir un écran qui vient appuyer la « discussion » avec Alexa. C’est d’ailleurs la grande direction que prennent Amazon et Google. Le premier avec son Echo Show, le second avec le Home Hub, un appareil déjà dévoilé par des fuites mais pas encore commercialisé.
Malgré ces blocages, la promesse principale de la voix est comblée : la technologie s’efface. C’est toute la puissance d’un ordinateur ou d’un smartphone qui semble flotter dans l’air de la maison. Je me suis surpris moi-même à trouver très pratique le fait de demander l’heure à Alexa pendant que je faisais mes lacets, à lancer une minuterie tout en rangeant le bazar sur la table de la cuisine – surtout bien plus rapidement qu’en cherchant mon téléphone puis l’appli concernée. Même chose pour mettre la radio ou lancer de la musique avec les yeux collés du matin. Les demandes pataugent parfois, on en reparlera dans cette obsession, mais on s’habitue vite à ce petit coup de main. Il ne faut jamais sous-estimer la fainéantise des gens, elle est un incroyable moteur d’inventions, depuis la télécommande sans fil jusqu’à la trottinette électrique.
Son : Jeanne Boezec. Photo : Sébastien Calvet/Les Jours.
Alexa, Google Assistant ou Siri ne font rien qu’on ne puisse faire avec un ordinateur, un smartphone ou même un doigt, mais ils le font plus rapidement et efficacement, tout en nous permettant de faire autre chose en même temps. Cela fait beaucoup de qualités très appréciées dans le monde sous pression que nous nous sommes fabriqués. Bienvenue dans un rêve de productivité multitâches. Ainsi, ces assistants seraient un nouvel aboutissement du solutionnisme hi-tech décrit par le chercheur et essayiste Evgeny Morozov : penser que tous les problèmes peuvent se régler par la technologie. Qui pourrait notamment alléger la charge mentale de nos vies qui s’accélèrent sans cesse, alors que beaucoup de ces complications ont justement été créées par les entreprises qui veulent les résoudre. Au passage, Amazon ou Google capteront de nouvelles données là où elles n’existaient pas auparavant – dans la maison ou la voiture – et enrichiront leur trésor de voix, de formulations, de vocabulaire et d’accents qui amélioreront leurs technologies de « speech to text » qui forment le cœur du nouveau web de la voix. Bien entendu, ces technologies seront ensuite revendues à des acteurs qui n’ont pas les moyens de les développer ou ne disposent pas des serveurs pour les faire tourner.
Le graal, c’est d’aller chercher la continuité entre la maison, le mobile, la voiture, le four, la télé, etc. L’idée, c’est que demain, vous n’ayez plus besoin d’une interface tactile.
Derrière leur futilité et leur futurisme amical, les assistants vocaux sont donc une nouvelle étape décisive de la « plateformisation » du web. Si celui-ci était ouvert et éparpillé entre une myriade d’acteurs dans les années 1990 et 2000, il a depuis été enfermé entre les murs de quelques géants : Facebook (avec Instagram et WhatsApp), Google (pour l’ensemble de son œuvre) ou Amazon. Aujourd’hui, il est difficile de passer une journée en ligne en évitant l’un de ces trois noms, et les assistants vocaux proposent d’étendre cette mainmise sur nos vies connectées jusque dans la vie réelle. Pour Sabrina Delale, consultante qui vend ses services en marketing vocal à de plus en plus d’entreprises en ce moment, « le graal, c’est d’aller chercher la continuité entre la maison, le mobile, la voiture, le four, la télé, etc. L’idée, c’est que demain, vous n’ayez plus besoin d’une interface tactile, sauf pour des expériences plus complètes où vous aurez un écran ».
La technologie est prête. Connecter n’importe quel objet aujourd’hui inerte à internet est facile. Lui adjoindre des micros aussi microscopiques que sensibles et peu gourmands en énergie est faisable pour presque rien. Amazon le sait parfaitement, qui vient juste de lancer une grosse offensive en lançant un ampli hi-fi, une prise électrique, une horloge ou encore un micro-ondes à commande vocale. Bientôt, ce seront des maisons entières qui seront équipées par défaut en serrures, ampoules et thermostats activés à la voix par Alexa : Amazon a en effet signé avec Lennar, le plus gros promoteur américain de maisons individuelles, pour y imposer sa technologie et sa vision du monde. L’invasion de notre quotidien serait donc d’ores et déjà annoncée, telle que la décrivait en début d’année Priya Abani, la directrice du déploiement des services vocaux chez Amazon : « Vous devez pouvoir parler à Alexa peu importe où vous vous trouvez et à quelle machine vous parlez. Nous imaginons un monde où Alexa est partout. » Vous pouvez crier maintenant, Alexa vous écoute.