T’as mangé un clone ?

Il était pas loin de 19 h 30 à la Fête de l’Humanité, ce 17 septembre 2023, quand Angèle a expliqué à son public : « Ce matin, je me suis dit : “Et pourquoi je ne ferais pas ce que les gens me demandent depuis des semaines ?” » Et elle s’est lancée dans une reprise de Saiyan, un tube rap de Gazo et Heuss l’Enfoiré pourtant bien loin de sa pop acide. La foule est devenue folle d’un coup, excitée par ce qui est devenu l’un des moments musicaux les plus marquants de l’année 2023 parce que cette reprise insouciante signait l’entrée du clonage vocal par intelligence artificielle dans la musique populaire en France.

Car, avant qu’Angèle ne se saisisse de ce Saiyan, c’est sa voix qu’a utilisée un certain Lnkhey sur YouTube pour lui faire reprendre la chanson et encaisser plus d’un million de vues en même pas deux mois. Et on est très loin d’un robot qui chante : c’est une vraie chanson d’Angèle, mais sans Angèle. La voix est précise, l’intonation est là, le souffle aussi. C’est le début d’une nouvelle révolution dans laquelle le monde de la musique commence à entrer à pas mesurés, comme on rentre dans un bain encore trop chaud. Parce qu’il y a certainement beaucoup à y gagner, mais aussi beaucoup d’erreurs à commettre avec le clonage vocal, qui laisse déjà entrevoir la possibilité pour les artistes de chanter en plusieurs langues mais aussi la renaissance de voix décédées pour les essorer même dans la mort.

C’est ainsi que Warner Music, l’une des trois majors internationales du disque, a annoncé en novembre qu’un film d’animation sur la vie et la musique d’Édith Piaf sera narré par Piaf elle-même. Ou plutôt par son clone vocal, chargé de faire revenir la chanteuse morte en 1963, à 47 ans. Pour l’instant, il ne s’agit pas de recréer la voix chantée de la Môme, mais de se contenter de son parler du Paris populaire de l’entre-deux-guerres. « Dès le début de ce projet, raconte Julie Veille, la cofondatrice du studio parisien Seriously Happy qui en est à l’origine, on s’est dit : “Qui mieux qu’Édith Piaf pour raconter son histoire ?” On ne voulait pas que ce soit une comédienne, ou utiliser des interviews d’époque qui, de toute façon, ne sont pas assez nombreuses. C’est là que Warner Music nous a dit qu’ils travaillaient sur plusieurs techniques qui permettent de reproduire des voix. »

Warner, qui représente les enregistrements historiques d’Édith Piaf comme La Vie en rose, La Foule ou Non, je ne regrette rien, vient en effet de publier – sans grande publicité, étonnamment – un premier projet à base d’intelligence artificielle avec l’assentiment des ayants droit de la chanteuse, qui sont les deux sœurs de son dernier mari, Catherine Glavas Lamboukas et Christie Laume, âgées respectivement de 75 et 81 ans. Il s’agit d’un album entier pour lequel le chant d’Édith Piaf a été extrait de ses enregistrements des années 1940 et 1950 pour être réarrangés par un orchestre symphonique londonien. C’est la même technique que les Beatles ont utilisée pour leur documentaire Get Back puis Now and Then, leur nouvelle chanson laissée par John Lennon avant sa mort, qui permet de séparer chaque piste sonore d’un enregistrement où tout est mêlé dans le mix, pour enlever une guitare ou retravailler une voix par exemple. Les Beatles s’en sont servi pour sauver le chant de John Lennon, noyé dans un piano sur une cassette bricolée à la maison. Warner Music a pour sa part utilisé cette technologie pour magnifier la voix qui roule les R de Piaf, dans un tout nouveau cadre musical chargé de renouveler son vieux catalogue auprès d’une nouvelle génération.

Cette technologie de la séparation des sources par intelligence artificielle est aujourd’hui parfaitement au point, et c’est cette accélération soudaine qui est à son tour la clé de la révolution du clonage vocal qui s’élance. Axel Roebel est directeur de recherche à l’Ircam, le centre de recherche parisien pionnier dans la jonction entre l’informatique et la musique. Il a « clairement vu une accélération récente dans le secteur du traitement du signal sonore, notamment parce qu’on dispose désormais de bases de données assez énormes de voix qui servent de référence pour éduquer les réseaux de neurones. C’est une clé, parce qu’on ne peut pas cloner une voix si elle est mixée à des instruments ou s’il y a du bruit autour, parce que la machine va penser que cela fait partie de la voix ou trop s’éparpiller. » C’est avec cette idée de la séparation des pistes sonores qu’Axel Roebel était allé voir des maisons de disques il y a six ans déjà, pour leur présenter ces technologies prometteuses. « Je pensais qu’elles seraient intéressées, se rappelle-t-il, mais elles nous ont dit : “Non, c’est dangereux.” Il y avait chez elles la peur que ce ne soit pas bien vu par le public. »

Ces barrières ont sauté aujourd’hui, dans le secteur de la musique comme dans le cinéma. Ces dernières années, Axel Roebel et l’Ircam ont ainsi recréé les voix des acteurs du procès du maréchal Pétain pour un documentaire en 2015, celle du général de Gaulle lançant son appel du 18 Juin dont il ne reste pourtant aucune trace sonore, ou encore la voix de Louis de Funès pour un personnage du film Pourquoi j’ai pas mangé mon père. C’est aussi l’Ircam qui a travaillé avec Thierry Ardisson pour l’émission Hôtel du temps, qui utilise l’IA pour faire discuter l’animateur avec Jean Gabin ou Dalida, en essayant de retrouver leur phrasé si particulier.

Au fil de ces expérimentations qui ont fait pénétrer l’IA dans le quotidien télévisuel, tout s’est sans cesse accéléré techniquement. Surtout, la masse de données nécessaire au clonage d’une voix s’est sérieusement réduite. Pour le film consacré à Édith Piaf, l’entreprise ukrainienne Respeecher, l’un des leaders de l’IA appliquée aux arts, a « utilisé des sources audio vieilles de 80 ans, c’est il y a très longtemps, m’a expliqué Alex Serdiuk, son fondateur. Et c’étaient des séquences très courtes, quelque chose comme quarante secondes. C’est très peu, d’habitude on travaille avec trente minutes de matière pour être confortables ». Mais ça, c’est la version très professionnelle, exigeante et qualitative du clonage. Certains outils accessibles à tous, comme Covers.ai, permettent pour leur part d’obtenir une voix imparfaite mais qui fait complètement illusion avec quelques minutes d’enregistrement à peine. Et tous les spécialistes consultés pour cette enquête pensent qu’on va très rapidement tomber sous la minute, parce que les modèles vocaux connaissent désormais tellement bien les mécanismes du langage humain qu’ils n’ont plus besoin que d’une enveloppe de timbre pour imiter une voix très facilement.

Avec ces technologies, on arrive à avoir le bon timbre de voix mais pas l’intonation et la prosodie. On a donc développé l’idée d’utiliser des acteurs et des actrices qui interprètent le texte, avant que l’on remplace leur voix par la voix cible.
Axel Roebel, directeur de recherche à l’Ircam

Reste quand même une grosse difficulté sur laquelle bute encore le clonage vocal : « Avec ces technologies, on arrive à avoir le bon timbre de voix mais pas l’intonation et la prosodie », explique Axel Roebel. Il manque la personnalité de la voix, cette façon si humaine de poser les syllabes, les respirations et les infinies nuances vocales. « On a donc développé l’idée d’utiliser des acteurs et des actrices qui interprètent le texte, avant que l’on remplace leur voix par la voix cible. C’est un peu comme la motion capture au cinéma, où on utilise les mouvements d’un acteur pour faire un autre personnage. » Pour son film sur Édith Piaf, Julie Veille a elle aussi été confrontée à cette limite actuelle des technologies d’intelligence artificielle appliquées à la voix. « Dans ce que j’ai pu voir, il est clair que rien ne remplace à ce jour l’émotion et le jeu d’un acteur, tranche-t-elle. Je ne sais pas si dans quelques années, les comédiens seront remplacés, mais je ne vois pas aujourd’hui comment une machine pourrait recréer l’émotion que véhicule une personne. » Chez Respeecher, Alex Serdiuk estime que « théoriquement, on peut imaginer qu’une machine donne des émotions, mais ce ne sera qu’une copie, pas l’équivalent du jeu d’une vraie personne. Une machine ne peut pas aller plus loin que ce qu’elle imite ».

Ce n’est d’ailleurs qu’une quête secondaire aujourd’hui, tant l’IA et le clonage vocal s’annoncent aussi comme des outils de créativité supplémentaires capables de démultiplier les idées des artistes et ne seront pas qu’une foire aux idées lucratives qui ne manqueront pas d’envahir les plateformes ces prochaines années. Ces technologies pourraient même avoir pour conséquence de remettre les artistes les plus inventifs en avant car, en donnant à tout le monde des outils qui permettent de reproduire des musiques très facilement, il va devenir bien moins intéressant de sortir des chansons qui ressemblent à d’autres. « On ne va pas remplacer les artistes, avertit ainsi Michael Turbot, qui est « technology promotion manager » au sein du laboratoire Sony CSL du géant de l’électronique. Il faut plutôt que les maisons de disques embauchent plein de directeurs artistiques pour encaisser cette demande de créativité et donc de nouveaux artistes humains à identifier et signer. » C’est ce que racontent déjà les derniers mois de la musique, où Angèle n’est pas la seule à avoir été chahutée par le clonage vocal. À tel point que c’est aujourd’hui l’industrie de la musique qui doit lui courir après.

Eh oui, c’est un paywall.

C’est comme ça qu’aux Jours, on finance notre journalisme indépendant, sans pub et qui creuse, creuse, creuse. On n’a pas de milliardaire derrière nous, on ne compte que sur nos lecteurs et lectrices. Et là, on a une offre exceptionnelle pour vous.

-50% la 1^ère année en vous abonnant avec Subscribe with Google

S’abonner

Voir nos offres d’abonnement en direct

Pourquoi soutenir Les Jours ?

Parce qu’on révèle des infos exclusives, comme ces élus RN antiféministes planqués à la délégation aux droits des femmes. On vous emmène en Alabama, dans les mobil-homes où croupissent les oublié·es de l’Amérique. On décortique la loi de finances, sans se laisser berner par le jargon politicien.

On raconte des histoires vraies sur la durée… Des récits immersifs et des enquêtes en profondeur, comme notre saga « L’empire » sur Vincent Bolloré. Ou encore sur les violences sexistes et sexuelles, les coulisses du pouvoir… On vous propose aussi des chroniques originales, du dessin de presse avec Loïc Sécheresse, des face-à-face musicaux inattendus.

On traque les fausses informations, dément les rumeurs et dénonce ceux qui les colportent, dévoile des pratiques illégales, on rapporte des faits utiles pour vous aider à comprendre le monde… Et tout ça, avec un peu d’humour.

Bref, on fait du journalisme, du vrai.

Déjà abonné·e ? Connectez-vous

Découvrez les épisodes en accès libre