À la fin du mois d’avril, en plein confinement quasi mondialisé, une actualité a rattrapé cette obsession consacrée à l’entrée des technologies de l’intelligence artificielle (IA) dans la musique, et l’a fait accélérer d’un coup. OpenAI, une entreprise californienne partenaire de Microsoft, que l’on connaissait surtout dans le domaine des mains robotiques et qui ne s’était jusque-là pas aventurée dans la musique, a fait une percée spectaculaire. Nommé « Jukebox », son outil s’est nourri d’1,2 million de chansons enregistrées depuis un siècle pour apprendre à composer et chanter « à la façon de » Céline Dion, Elvis Presley ou Katy Perry. La machine a aussi écrit des paroles à partir de ressources en ligne, mais c’est la partie musicale qui est la plus intéressante et a d’un coup projeté jusqu’au grand public le champ de la musique assistée par intelligence artificielle (lire l’épisode 2, « IA, la créature du labo »).
Car le résultat est souvent surprenant et évoque ce que le secteur du deepfake a déjà fait à la vidéo depuis quelques années – à savoir utiliser la puissance de l’IA pour rendre toute séquence potentiellement trafiquée. La musique n’en est pas encore là, on se rend rapidement compte à l’écoute que les titres produits par OpenAI Jukebox – qui n’a pas donné suite à ma demande d’interview – ne sont que des brouillons régulièrement confus, des bouts de chansons cousus façon docteur Frankenstein. Que la voix d’Elvis Presley n’est pas la bonne, que la rythmique qui soutient celle d’Ella Fitzgerald flotte trop. De même, les questions éthiques et juridiques soulevées par OpenAI sont vastes. Mais l’entreprise californienne a cassé un plafond de verre et le pas n’est plus très grand avant que ces outils, qui se heurtent surtout à la gigantesque puissance de calcul qu’ils demandent, ne deviennent indécelables à leur tour. Qu’ils puissent fabriquer de nouvelles chansons qui imitent à la perfection celles d’artistes vivants ou morts. Bienvenue dans le monde de la « raw generation » par réseaux de neurones : la fabrication brute (« raw ») par un ordinateur à partir d’une source sonore, qui tente aujourd’hui de dépasser les expérimentations précédentes qui avaient besoin d’une partition écrite pour fonctionner (lire l’épisode 1, « L’intelligence artificielle dope la pop »).
Bienvenue dans le monde de la « raw generation » par réseaux de neurones : la fabrication brute par un ordinateur à partir d’une source sonore
— Illustration Sébastien Calvet/Les Jours.
Ashkan Kooshanejad est arrivé à Londres en 2009 dans des conditions compliquées.