RWTH Aachen
University
Institut für Nachrichtengeräte
und Datenverarbeitung
Prof. Dr.-Ing. P. Vary
Direkt zum Inhalt
Direkt zur Navigation
Startseite
  • Deutsch
  • English
Zur Hauptseite

Sprach- und Audiocodierung – Grundlagen

Algorithmen zur Sprachcodierung können grundsätzlich in drei Klassen eingeteilt werden: Wellenform-Codierer, Vocoder und hybride Codierer. Diese grundlegenden Techniken werden hier kurz vorgestellt.

Wellenform-Codierer

Im Codierer wird durch feste oder adaptive Quantisierung eine Reduktion der Signaldynamik erreicht. Bessere Ergebnisse erzielt man, indem (feste oder adaptive) prädiktive Filterung gemäß den Korrelationseigenschaften des Signals vorgenommen wird. Unter bestimmen Voraussetzungen kann ein Prädiktionsgewinn zur Reduktion der Bitrate genutzt werden, indem anschließend das Prädiktionsfehler-Signal (Residual) anstelle des originalen Signals quantisiert wird. Weiterhin können die Parameter des Prädiktionsfilters mit Hilfe des rekonstruierten Signals adaptiert werden.

Ein bekanntes Beispiel eines Wellenform-Codierers ist das ADPCM (Adaptive Differential Pulse Code Modulation) Verfahren, welches eine gute Signalrekonstruktion mit einem Signal-zu-Rausch Abstand (SNR) von 30-35 dB bei einer typischen Bitrate von 32 kbit/s erreicht. Der entsprechende ITU-T Standard, G.726, wird im DECT (Digital European Cordless Telephony) System eingesetzt. Für hochqualitative ISDN Anwenfungen existiert der breitbandige (7 kHz) ITUT-T Standard G.722. Dieser basiert auf dem Prinzip der Teilbandcodierung, bei dem hier aus dem breitbandigen Sprachsignal zwei Teilbandsignale (0-4 and 4-7 kHz) durch eine Quadratur FIlterbank (quadrature mirror filterbank, QMF) erzeugt und jeweils durch das ADPCM Verfahren codiert werden.

Wellenform-Codierer basieren nicht explizit auf sprachspezifischen Signal-Charakteristika. Aus diesem Grund ist Wellenform-Codierung auch für generische Audiosignale wie Musik gut geeignet.

Vocoder

In Vocodern werden nicht die Abtastwerte des Sprachsignales, sondern Parameter eines Quelle-Filter Modells quantisiert und übertragen. Dies bedeutet, dass ein Vocoder eine rein parametrische Sprachcodierung realisiert. Die korrespondierende Darstellung der Quelle-Filter Synthese entspricht dabei dem Spracherzeugungsmodell.

  • Sprachsynthese mittels eines einfachen Vocoders.

Das zeitvariante Synthesefilter entspricht hier dem Vokaltrakt und beinhaltet ein akustisches Modell einer zeitvarianten Röhre und der Schall-Abstrahlung an den Lippen. Als gute Annäherung gilt dabei ein sog. Allpol-Modell. Die Nutzung eines solchen Filters korrespondiert mit dem Prinzip der linearen prädiktiven Codierung (LPC). Das (skalierte) "Anregungssignal" der Glottis enthält periodische Anteile, welche oft durch einen Impulsgenerator modelliert werden. Diese repräsentieren stimmhafte Laute. Rauschhafte Anregung hingegen führt zu stimmlosen Lauten. Statt hart zwischen stimmhafter und stimmloser Anregung umzuschalten, können erweiterte Modelle eine (ggf. spektral gewichtete) Mischung beider Anregungssignaltypen erzeugen (z.B. Multi-Band Excitation, MBE).

Reine Vocoder liefern keine natürlich klingende Rekonstruktion des Sprachsignals und werden daher insbesondere für sehr niedrige Bitraten (<0.5 Bit pro Abtastwert) eingesetzt.

Hybride Codierer

Diese zwischen Wellenform-Codierern und Vocodern anzusiedelnde Klasse von Sprachcodieren stellt den Stand der Technik für mittlere Bitraten (0.5-2 Bit pro Abtastwert) bei hoher Qualität dar. Anwendungen finden sich insbesondere in digitalen (Mobil-)Kommunikationssystemen. In hybriden Codierern werden, wie schon in Vocodern, die Parameter eines LPC Synthesefilters quantisiert und als Seiteninformation übertragen. Weiterhin werden periodische (stimmhafte) Abschnitte des Sprachsignals für gewöhnlich durch ein zweites Filter, das LTP Filter (LTP: long-term predictive), modelliert. Dieses wird im einfachsten Fall als Kammfilter realisiert.

Im Gegensatz zu Vocodern wird das Glottis-Anregungssignal jedoch in From des Prädiktionsfehlersignals quantisiert und übertragen. Dies kann beispielsweise nach dem Konzept der Wellenform-Codierung geschehen (siehe oben). Die Eigenschaften des menschlichen Gehörs erlauben dabei eine recht grobe Quantisierung.

Mittlerweile existiert eine große Anzahl von Varianten dieses Prinzips. Der ETSI-GSM Vollraten-Codec (GSM 06.10), der in den meisten GSM Mobilfunknetzen implementiert ist, ist ein Beispiel aus der Familie der RELP (Residual Excited Linear Prediction) codecs.

Die Mehrzahl des modernen hybriden Sprachcodierer basiert auf dem Prinzip der linear-prädiktiven Analyse-durch-Synthese Codierung, auch bekannt als CELP (Code-Excited Linear Prediction).

  • Grundlegendes Prinzip eines CELP Codierers. Die abgeschatteten Blöcke stellen den CELP Decodierer dar, der in der Analyse-durch-Synthese Schleife betrieben wird.

In einem CELP Codierer wird der optimale Anregungsvektor durch ein sog. "closed-loop" Kriterium bestimmt, welches den gewichteten mittleren quadratischen Fehler zwischen dem (originalen) Eingangssignal und der (decodierten) Ausgangssprache minimiert. Das Fehlergewichtungsfilter formt dabei das Spektrum des Rekonstruktionsfehlers derart, dass Maskierungseigenschaften des menschlichen Gehörs günstig ausgenutzt werden. Speziell wird in Formantbereichen des Kurzzeitspektrums des Signals ein größerer Fehler zugelassen. Folglich nutzt ein CELP Codierer nicht nur Quellredundanz (d.h. Kurz- und Langzeitkorrelation) mit Hilfe prädiktiver Filterung, sondern auch Irrelevanz bzgl. der Signalsenke, d.h. dem menschlichen Gehör.

Das Codebuch, d.h. der Anregungssignal-Generator, ist sowohl dem Codierer als auch dem Decodierer bekannt. Typischerweise setzt sich das Anregungssignal aus einem gewichteten Beitrag aus dem "adaptiven Codebuch" (Ersatz für das LTP Filter) und aus einem gewichteten Beitrag aus einem "festen Codebuch" zusammen. Nachdem die optimale Anregungssequenz gefunden wurde, müssen nur die Indizes der ausgewählten Einträge des adaptiven und des festen Codebuches übertragen werden. Es ist relativ offensichtlich, dass eine erschöpfende Suche für alle möglichen Anregungsvektoren der (oft sehr umfangreichen) Codebücher eine sehr hohe Komplexität bedingt. Sogar moderne Signalprozessoren bieten eine solche Leistungsfähigkeit nicht. Deshalb wurden in der Vergangenheit viele strukturierte Codebücher untersucht, die das Komplexitätsproblem lösen können. Verschiedene Varianten der Analysis-durch-Synthese Codierung wurden schließlich standardisiert. Dazu gehören Strukturen wie ACELP (Algebraic CELP), RPE (Regular Pulse Excitation), MPE (Multi Pulse CELP), VSELP (Vector-Sum Excited Linear Prediction).

Insbesondere ACELP Codierer wurden für verschiedene Standards ausgewählt. Dazu gehört, als prominentes Beispiel, der GSM Enhanced Full Rate Codec (ETSI-GSM 06.60), aber auch der IS-641 Codec für das amerikanische TDMA System IS-136 und schließlich die ITU-T G.729 "General-Purpose" Codec Familie. Weiterhin basieren auch die Multiratencodecs für den Mobilfunk, d.h. der GSM Adaptive Multirate (GSM-AMR) und der Adaptive Multirate Wideband (AMR-WB) Codec auf ACELP Technologie.