New applications such as Internet broadcast and communications, consumer multimedia products, digital AM broadcast and satellite networks are emerging. Those applications require moderate audio quality without annoying artifacts at bit rates below 16 kbit/s. Although speech coders provide high speech quality at bit rates around 8 kbit/s, they perform poorly when encoding audio signals. In this thesis, we present a novel transform coding paradigm based on the characteristics of the human hearing system. The proposed encoder, i.e., Narrowband Perceptual Audio Coder (NPAC), can accommodate a wide range of narrowband audio inputs without annoying artifacts at bit rates down to 8 kbit/s.NPAC employs a variety of algorithms to remove the perceptually irrelevant parts and statistical redundancies of the input signal. The new algorithms used in NPAC include a perceptual error measure in training the codebooks and selecting the best codewords, perceptually-based bit allocation algorithms and an adaptive predictive scheme to vector quantize the scale factors.The proposed encoder has moderate complexity and delivers good quality for narrowband audio inputs at around 1 bit/sample. Informal subjective tests have been conducted to compare the performance of NPAC with an 8 kbit/s commercially-available audio coder.The tests results show that NPAC performs better for both music and speech inputs.
iii RésuméDes nouvelles technologies telles que la diffusion par Internet, la diffusion AM numérique, et les réseaux satellites deviennent de plus en plus populaires et constituent la base de plusieurs nouvelles applications et produits multimédias. La réussite de ces produits sur la marché dépend de la qualité des signaux audio et vidéo ainsi que de la largeur de bande utilisée. Pour le signal audio, il est désirable que le débit soit en bas de 16 kbit/s tout en offrant une qualité acceptable, c'est-à-dire sans de distorsion remarquable.Il està noter que certains codeurs de parole permettent de transmettre le signal de parole au débit de 8 kbit/s avec une très bonne qualité. Toutefois, puisque ces codeurs profitent de la structure particulière de la parole, ils ne peuvent pas offrir la même qualité audio pour d'autres signaux comme la musique.Dans cette thèse, nous présentons une philosophie d'encodage des signaux audio qui tient compte de la structure du système auditif. Le codeur proposé se nomme Codeur Audio Perceptuelà bandeÉtroite (CAPE). CAPE permet d'encoder plusieurs types de signal audioà bandeétroite au débit de 8 kbit/s sans de distorsion remarquable.Plusieurs nouveaux algorithmes sont utilisés dans CAPE afins d'éliminer la redondance statistique ainsi que la partie sans importance perceptuel du signal d'entrée. Parmi les nouveautés de CAPE, il y a une mesure d'erreur perceptuelle qui est utilisée lors de l'entraînement des tableaux de quantification, et pour la sélection du meilleur vecteur de ces tableaux lors de l'encodage. De plus, l'allocation des bits pour les gains du spectre dans différentes bandes de fréque...