Forschung im Bereich der Sprachcodierung und entsprechenden Beiträge zu Standardisierungsaktivitäten gehören traditionell zu den Kernkompetenzen des IND. Neuerdings wird auch bestimmten Aspekte der Audiocodierung Aufmerksamkeit gewidmet.
In digitalen Sprachkommunikations- oder speichersystemen, werden analoge Sprachsignale für gewöhnlich abgetastet und quantisiert, was zu der entsprechenden digitalen Repräsentation als PCM Signal führt. Beispielsweise erfordert die Telefonbandsprache (0.3-3.4 kHz) im ISDN System eine Abtastrate von 8 kHz. Für eine ausreichend präzise Rekonstruktion wird eine A-law Quantisierung mit 8 bit pro Abtastwert genutzt, was zu einer Datenrate von 64 kbit/s führt.
Für eine bitrateneffiziente Übertragung oder Speicherung von Sprachsignalen ist jedoch oft eine weitere Kompression erforderlich, wie z.B. in der Mobilkommunikation. Algorithmen zur Sprachcodierung nutzen dazu sowohl im Signal enthaltene Redundanz als auch Irrelevanz aus. Dabei ist die bestmögliche Rekonstruktion (subjektive Sprachqualität) anzustreben. Dies gilt auch für eine Übertragung über gestörte Kanäle.
Bei der Enwicklung eines Algorithmus zur Codierung von Sprache sind folgende wichtige Anforderungen zu berücksichtigen:
Für eine vorgegebene Anwendung müssen diese - sich oft widersprechenden - Anforderungen in Einklang gebracht werden. Insbesondere in (öffentlichen) Sprachkommunikationssystemen, ist die Verwendung standardisierter Codieralgorithmen essenziell um die Interoperabilität zwischen den verschiedenen Produkten zu sichern. Aus diesem Grrund ist Forschung auf dem Gebiet der Sprachcodierung oft mit internationalien Standardisierungsaktivitäten verbunden. Diese werden meist im Rahmen einer der folgenden Organisationen betrieben: ITU-T, ETSI/3GPP oder auch ISO-MPEG.
Im Vergleich zu Audiosignalen, können Sprachsignale durch eine vergleichbar geringe analoge Bandbreite und durch bestimmte Modellannahmen charakterisiert werden. Dies kann bei der Entwicklung geeigneter Codier-Algorithmen berücksichtigt werden. In herkömmlichen Kommunikationssystemen erlaubt die Übertragung der Telefonbandbreite von 0.3-3.4 kHz die digitale Repräsentation bei einer Abtastrate von 8 kHz. Generische Audiosignale, wie z.B. Musik, weisen eine Bandbreite von 15-20 kHz auf und erfordern deshalb eine Abtastrate von 32-48 kHz. Als "Zwischenstufe" lassen sich "breitbandige" Sprachsignale (Bandbreite 7 kHz, Abtastrate 16 kHz) identifizieren. Diese sind insbesondere im Rahmen hochqualitativer Sprachübertragung von Interesse. Dazu gehören beispielsweise VoIP Telefonie oder Videokonferenzen. Momentan wird der Einsatz breitbandiger Sprachcodierung auch für GSM und UMTS Mobilfunknetze getestet.
Die meisten etablierten Algorithmen zur Sprachcodieren basieren explizit auf einem Spracherzeugungsmodell. Bei niedrigen und mittleren Bitraten (etwa 0.5-2 Bit pro Abtastwert, d.h. 4-16 kbit/s bei einer Abtastrate von 8 kHz) werden zusätzlich Eigenschaften des menschlichen Gehörs ausgenutzt. Im Gegensatz dazu, können Algorithmen zur Audiocodierung (siehe unten) nicht von einem allgemeingültigen Quellenmodell profitieren. Stattdessen werden Modelle für die menschliche Perzeption (insbesondere Maskierungseigenschaften des Gehörs) sehr stark genutzt.