La popularité des logiciels de voix sur IP (téléphonie par internet), tels que Skype a explosé ces dernières années. Cependant, une partie du signal audio disparaît en route. Trois chercheurs du Technion se sont intéressés à cette problématique et ont développé un algorithme permettant d’améliorer significativement la qualité de nos conversations.
Le fonctionnement de base d’un logiciel de voix sur IP comme Skype est relativement simple : le signal audio produit par l’émetteur est découpé en courtes portions, de 10 à 40 millisecondes, qui sont envoyées sous la forme de paquets sur internet. Le récepteur reconstruit ensuite le signal original à partir de ces paquets successifs. Voilà pour ce qui est de la théorie ! Dans la pratique, le monde réel est plus complexe et moins coopératif, obligeant les scientifiques et ingénieurs à faire preuve d´ingéniosité. Et notamment, sur internet, de nombreux paquets sont perdus en route. Les raisons peuvent être diverses : pannes réseaux, interférences dans les réseaux de téléphonie ou Wifi, ou plus souvent, embouteillages sur le réseau internet obligeant les serveurs guidant ces paquets à en oublier certains pour que le réseau continue à fonctionner dans son ensemble. Dans la plupart des cas d’utilisation d’internet, cette perte est bénigne : votre ordinateur ou téléphone simplement redemande à un serveur les paquets qu’il n’a pas reçus et tout rentre dans l’ordre. Dans le cas de la téléphonie par internet, cela pose un véritable problème. L’instantanéité de la conversation ne permet pas de renvoyer les morceaux manquants : la conversation est déjà passée à autre chose ! Le logiciel chargé du service doit donc faire sans, et en particulier, essayer de remplacer les morceaux manquants. Certes, quelques millisecondes, cela ne semble pas beaucoup ! Mais en réalité, on estime que si le taux de perte dépasse les vingt pour cent, la conversation devient inintelligible, rendant donc nécessaire l’élaboration d’algorithmes traitant ce problème.
Comment les remplacer ?
Trois chercheurs du Technion, Yuval Bahat, Yoav Y. Schechner et Michael Elad des facultés d’ingénierie électrique et de computer science se sont aperçus que la littérature scientifique sur le sujet ne traite en pratique que de la perte de très courtes séquences audio (maximum 20 ms). Pour ce type de pertes, des solutions simples et efficaces existent, reposant principalement sur une interpolation du signal à partir de la séquence précédemment reçue. Malheureusement, cette classe d’algorithmes devient complètement inopérante si les portions tombées dans l’oubli sont plus longues.
Pour s’attaquer à ce problème plus complexe, les trois scientifiques se sont inspirés d’une classe d’algorithmes utilisés en traitement d’image. Appelée inpainting, cette technique a pour objectif de compléter les partis manquantes d’une image en s’inspirant, au sens statistique, du reste. Il s’avère que dans le cas de parties manquantes dans un signal audio, il est possible de faire de même : on utilise les éléments constituant le signal déjà reçu pour compléter les blancs. En soit cette technique n’a rien de révolutionnaire, mais le principal défi pour les chercheurs fut de construire un algorithme permettant de réaliser toutes les opérations (collecte d’information sur le signal, comparaison avec le passé et reconstitution) en temps réel sur des machines relativement peu puissantes, condition nécessaire pour que cette innovation puisse être utilisée dans la pratique. Enfin pour valider leur méthodologie, ils ont réalisé une expérimentation en permettant à des personnes de noter de 1 à 5 la qualité d’un signal audio. Ainsi, en comparant les différents algorithmes classiques dans cette littérature et leur solution, ils ont clairement montré que cette dernière améliore significativement la qualité du signal audio. Et on ne peut que souhaiter que leur innovation se diffuse rapidement sur nos ordinateurs et nos téléphones !
Auteur : Paul Balança, VIA en Israël (Technion)
Angélique Toulon, chargée de mission scientifique et universitaire
Publication dans Signal Processing, décembre 2014
Source BVST Israël