Künstliche Bandbreitenerweiterung fügt schmalbandiger Sprache (wie z.B. "Telefonsprache" mit ihrer typischerweise stark begrenzten akustischen Bandbreite) synthetische (d.h. künstliche) Frequenzkomponenten hinzu. Damit wird eine natürlichere Sprachwiedergabe und eine bessere Sprachverständlichkeit erzielt.
Die Qualität heutiger Telefonsprache ist auf ausreichende Verständlichkeit hin ausgelegt. Deshalb spricht man auch von "Konversationsqualität". Die akustische Bandbreite ist üblicherweise auf einen Bereich von 300 Hz bis 3.4 kHz limitiert.

In bestimmten Situationen ist der Einfluss dieser Bandbegrenzung jedoch deutlich wahrnehmbar. Eine begrenzte Silbenverständlichkeit wird z.B. bei unbekannten Wörtern oder Namen deutlich. Oftmals wird in solchen Fällen auf ein Buchstabier-Alphabet zurückgegriffen, besonders um zwischen bestimmen stimmlosen oder plosiven Lauten wie /s/ und /f/ oder /p/ und /t/ unterscheiden zu können. Ein weiterer Nachteil ist, dass viele Sprecherspezifika durch eine schmalbandige Sprachübertragung nicht erhalten werden können. Aus diesem Grund ist es manchmal am Telefon schwierig, die Mutter von ihrer Tochter zu unterscheiden.
Hingegen ist die akustische Bandbreite einer "wideband" Übertragung (50 Hz bis 7 kHz) vergleichbar mit amplitudenmoduliertem Rundfunk (AM), was zu exzellenter Verständlichkeit und sehr guter Sprachqualität führt. Ein Beispiel für einen stimmlosen Laut mit einem erheblichem Anteil von Frequenzkomponenten jenseits der 3.4 kHz wird im Bild gezeigt. Dargestellt ist ein spektraler Vergleich von Originalsprache mit den entsprechenden schmal- und breitbandigen Pendants. Es ist auch zu erkennen, dass selbst eine breitbandige Sprachübertragung das Originalsignal u.U. nicht transparent wiedergeben kann. Um auch Komponenten jenseits der 7 kHz erfassen zu können wird eine "super-wideband" Übertragung (z.B. 50 Hz bis 15 kHz) erforderlich.
Dies kann unterschiedliche sog. "Erweiterungsbänder" betreffen. Am IND wurden und werden beispielsweise Bandbreitenerweiterungsalgorithmen für die Bereiche 50 Hz - 300 Hz (Erweiterung zu tiefen Frequenzen hin), 3.4 kHz - 7 kHz (Erweiterung von Telefonsprache), 4 kHz - 7 kHz (Anwendung in der hierarchischen Sprachcodierung) oder auch 8 kHz - 15 kHz (hochqualitative Sprachübertragung) entwickelt.
Grundsätzlich lassen sich die entsprechenden Algorithmen mit oder auch ganz ohne Nebeninformation realisieren.
Bandbreitenerweiterung ohne Nebeninformation (stand-alone) lässt sich mit Hilfe statistischer Schätzverfahren realisieren. Dabei werden aus dem schmalbandigen Sprachsignal sog. "Features" extrahiert, welche dazu beitragen, die Modellparameter eines breitbandigen Spracherzeugungsmodells zu identifizieren. Diese Modellparameter betreffen typischerweise die spektrale (ggf. auch die zeitliche) Einhüllende des Sprachsignals. Die entsprechende Feinstruktur der Sprache lässt sich entweder aus dem Schmalbandsignal oder auch vollständig synthetisch erzeugen.
Die Leistungsfähigkeit einer "stand-alone BWE" ist naturgemäß begrenzt, mittlerweile lässt sich mit solchen Verfahren jedoch trotzdem eine beachtliche Qualitätssteigerung erzielen.
Hierbei werden die Breitband-Parameter aus a) nicht mehr (ausschließlich) geschätzt, sondern in codierter Form übertragen. Deshalb ist Bandbreitenerweiterung mit Nebeninformation eng verwandt mit der sog. parametrischen Sprachcodierung. Die erzielbare Sprachqualität ist dabei gut bis sehr gut. Ein entsprechender vom IND entwickelter Algorithmus wurde im Frühjahr 2006 von der ITU als Teil des neuen VoIP Sprachcodecs G.729.1 standardisiert.
Die Übertragung von zusätzlicher Seiteninformation verletzt die Forderung nach Rückwärtskompatibilität mit bestehenden Kommunikationssystemen. Um diese auch weiterhin zu wahren, werden vom IND Verfahren untersucht, die eben diese Nebeninformation als digitales Wasserzeichen im schmalbandigen Sprachsignal oder -bitstrom verstecken.
Ein Empfänger ohne Kenntnis dieses Wasserzeichens kann immer noch das Schmalbandsignal (ggf. bei geringen Qualitätsverlusten) decodieren, während ein Empfänger, der die im Wasserzeichen enthaltene Information verwertet, ein breitbandiges Signal beachtlicher Qualität erzeugen kann.