Blinde Quellentrennung

Besonders dann, wenn mehrere Sprecher gleichzeitig reden, kann die Spracherkennung stark vom Einsatz der sogenannten „Blinden Quellentrennung“ profitieren.

Dabei werden mehrere Mikrophonsignale aufgezeichnet, und als gewichtete, gefaltete Summe der einzelnen Sprachsignale interpretiert. Unter der Annahme der statistischen Unabhängigkeit einer Signale können oft die Mischungsparameter geschätzt und so die Originalsignale rekonstruiert werden.

Die Qualität dieser Signaltrennung hängt von der räumlichen Anordnung der Sprecher, Störquellen und Mikrophone und von der Nachhallzeit des Raumes ab. In anechoischen Räumen lassen sich besonders gute Ergebnisse erzielen:

Mischung1.wav Mischung2.wav
Trennung1.wav Trennung2.wav

während die Trennung in realistischen Umgebungen, wie hier in einem Kfz

Mischung3.wav Mischung4.wav
Trennung3.wav Trennung4.wav

Gegenstand vieler Arbeiten ist.

Details, auch zur Anbindung an automatische Spracherkennungssysteme, sind beschrieben in Buchkapitel_ICA.pdf (in: „Robust Speech Recognition of Uncertain or Missing Data - Theory and Applications“, Springer Verlag, erscheint August 2011).