Im Folgenden werden einige Beispiele der Algorithmen aus dem vorherigen Abschnitt anhand von Spektrogrammen und Audio-Dateien demonstriert. Die Prozessierung wurde bei einer Abtastrate von 16 kHz durchgeführt und die Dateien anschließend im .wav Format abgespeichert.
Für die Demonstration wurde eine kurze Sprachsequenz mit Störgeräuschen eines PKWs gemischt, wobei das Signal-zu-Rausch Verhältnis 5 dB betrug. Durch einen Klick auf das jeweilige Spektrogramm wird die entsprechende Audio-Datei geöffnet.
Das Spektrogramm des reinen Sprachsignals läßt sowohl die Formanten als auch kurze Sprachpausen klar erkennen.
Das Mikrofon-Eingangssignal ist eine Mischung aus Sprache und PKW Störgeräusch. Die Störung ist relativ stationär und zeigt ihren größten Energieanteil in den unteren Frequenzbändern.
Das Spektrogramm zeigt das Ergebnis nach Spektraler Subtraktion. Besonders in den Bereichen ohne Sprachaktivität ist im Vergleich zu dem gestörten Signal eine Dämpfung der Störung zu erkennen. Wie in Abschnitt III beschrieben, verbleiben aber durch die Subtraktion zahlreiche kurze spektrale Peaks, welche sich im Ausgangssignal als 'musical noise' bemerkbar machen.
Das Spektrogramm zeigt das Ergebnis nach Anwendung einer der Gewichtungsregeln nach Ephraim und Malah. Es ist zu erkennen, dass die verbleibende Reststörung im Ausgangssignal dem ursprünglichen Störsignal deutlich ähnlicher sieht.
Das Spektrogramm zeigt das Ergebnis nach Anwendung der psychoakustischen Gewichtungsregel nach [Gustafsson et al.-02]. Auch hier verbleibt eine natürlich klingende Restörung im Ausgangssignal. Im Vergleich zu dem Ansatz von Ephraim und Malah besitzt diese aufgrund der Ausnutzung des Maskierungseffekts allerdings eine höhere Energie und führt so zu einer reduzierten Sprachverzerrung.
|
127 K |
|
|
127 K |
|
|
127 K |
|
|
127 K |
|
|
127 K |