Technion : des chercheurs élucident les bégaiements de Skype

[:fr]La popularité des logiciels de voix sur IP (téléphonie par internet), tels que Skype a explosé ces dernières années. Cependant, une partie du signal audio disparaît en route. Trois chercheurs du Technion se sont intéressés à cette problématique et ont développé un algorithme permettant d’améliorer significativement la qualité de nos conversations.

Le fonctionnement de base d’un logiciel de voix sur IP comme Skype est relativement simple : le signal audio produit par l’émetteur est découpé en courtes portions, de 10 à 40 millisecondes, qui sont envoyées sous la forme de paquets sur internet. Le récepteur reconstruit ensuite le signal original à partir de ces paquets successifs. Voilà pour ce qui est de la théorie ! Dans la pratique, le monde réel est plus complexe et moins coopératif, obligeant les scientifiques et ingénieurs à faire preuve d´ingéniosité. Et notamment, sur internet, de nombreux paquets sont perdus en route. Les raisons peuvent être diverses : pannes réseaux, interférences dans les réseaux de téléphonie ou Wifi, ou plus souvent, embouteillages sur le réseau internet obligeant les serveurs guidant ces paquets à en oublier certains pour que le réseau continue à fonctionner dans son ensemble. Dans la plupart des cas d’utilisation d’internet, cette perte est bénigne : votre ordinateur ou téléphone simplement redemande à un serveur les paquets qu’il n’a pas reçus et tout rentre dans l’ordre. Dans le cas de la téléphonie par internet, cela pose un véritable problème. L’instantanéité de la conversation ne permet pas de renvoyer les morceaux manquants : la conversation est déjà passée à autre chose ! Le logiciel chargé du service doit donc faire sans, et en particulier, essayer de remplacer les morceaux manquants. Certes, quelques millisecondes, cela ne semble pas beaucoup ! Mais en réalité, on estime que si le taux de perte dépasse les vingt pour cent, la conversation devient inintelligible, rendant donc nécessaire l’élaboration d’algorithmes traitant ce problème.

Comment les remplacer ?

Trois chercheurs du Technion, Yuval Bahat, Yoav Y. Schechner et Michael Elad des facultés d’ingénierie électrique et de computer science se sont aperçus que la littérature scientifique sur le sujet ne traite en pratique que de la perte de très courtes séquences audio (maximum 20 ms). Pour ce type de pertes, des solutions simples et efficaces existent, reposant principalement sur une interpolation du signal à partir de la séquence précédemment reçue. Malheureusement, cette classe d’algorithmes devient complètement inopérante si les portions tombées dans l’oubli sont plus longues.

Pour s’attaquer à ce problème plus complexe, les trois scientifiques se sont inspirés d’une classe d’algorithmes utilisés en traitement d’image. Appelée inpainting, cette technique a pour objectif de compléter les partis manquantes d’une image en s’inspirant, au sens statistique, du reste. Il s’avère que dans le cas de parties manquantes dans un signal audio, il est possible de faire de même : on utilise les éléments constituant le signal déjà reçu pour compléter les blancs. En soit cette technique n’a rien de révolutionnaire, mais le principal défi pour les chercheurs fut de construire un algorithme permettant de réaliser toutes les opérations (collecte d’information sur le signal, comparaison avec le passé et reconstitution) en temps réel sur des machines relativement peu puissantes, condition nécessaire pour que cette innovation puisse être utilisée dans la pratique. Enfin pour valider leur méthodologie, ils ont réalisé une expérimentation en permettant à des personnes de noter de 1 à 5 la qualité d’un signal audio. Ainsi, en comparant les différents algorithmes classiques dans cette littérature et leur solution, ils ont clairement montré que cette dernière améliore significativement la qualité du signal audio. Et on ne peut que souhaiter que leur innovation se diffuse rapidement sur nos ordinateurs et nos téléphones !

Auteur : Paul Balança, VIA en Israël (Technion)
Angélique Toulon, chargée de mission scientifique et universitaire

Publication dans Signal Processing, décembre 2014

Source BVST Israël[:en]

The popularity of voice over Internet protocol (VoIP) systems is continuously growing.
Such systems depend on unreliable Internet communication, in which chunks of data
often get lost during transmission. Various solutions to this problem were proposed, most
of which are better suited to small rates of lost data. This work addresses this problem by
filling in missing data using examples taken from prior recorded audio of the same user.
Our approach also harnesses statistical priors and data inpainting smoothing techniques.
The effectiveness of the proposed solution is demonstrated experimentally, even in large
data-gaps, which cannot be handled by the standard packet loss concealment techniques.
Voice over Internet protocol (VoIP) systems have become a basic tool with ever growing popularity. However, they commonly rely on an unreliable communication channel, such as the Internet, and are therefore subject to frequent events of data loss. These events are usually realized as lost data packets carrying audio information. This, in turn, leads to temporal gaps in the received audio sequences. Left untreated, such gaps create breaks in the audio (e.g. missing syllables in speech signals). High percentage of packet loss (above 20%) can often render speech unintelligible. For this reason, VoIP applications regularly incorporate a packet loss concealment (PLC) mechanism, to counter the degradation in audio quality, by filling in for the missing audio data, using various techniques. A PLC mechanism should not impose high computational loads or extensive memory usage. Specifically, PLC should operate in real-time. Moreover, intense computations consume more power, which is a limited resource in mobile devices.
Most existing PLC techniques have difficulties handling long audio gaps. This paper presents an approach for handling such gaps, corresponding to high packet loss rates. We suggest using an example-based principle that exploits audio examples collected from past audio signals. Once an audio gap is encountered, our algorithm harnesses the audio data surrounding this gap to look for the most suitable audio example to fill this gap. A mixture of audio features and prior knowledge on the statistical nature of the audio signal is used for finding the most appropriate set of examples that could be used for filling the gap. Once found, our solution presents a series of steps for isolating the best fitted example to use and pre-processing the exact portion of the audio to be extracted from the chosen example. This portion is smoothly inlaid to fill the audio gap. Inpainting is a term commonly used in the context of filling in missing pixels in images. It was borrowed by Adler et al. to describe filling short audio gaps in a signal, by using the intact portions surrounding each gap. Our work has a similar flavour, but it differs from in several important aspects. The novelty in our work lies in using a self-content-based approach, while exploiting a higher level model for the audio signal. These enable handling longer temporal audio gaps which cannot handle, as observed when experimenting with such long gaps.

Publication in Signal Processing, December 2014[:]