Robuste Spracherkennung

Implementierung
Erkennung unter Merkmalsunsicherheit
Statistische Sprachsignalverarbeitung
Blinde Quellentrennung
Audiovisuelle Spracherkennung

erkennung unter merkmalsunsicherheit

Wenn Sprache in schwierigen Umgebungen, zum Beispiel in halligen Räumen oder bei starken Umgebungsgeräuschen, erkannt werden soll, ist es wichtig, die akustischen Störungen möglichst genau zu modellieren.

Damit kann das Audiosignal zuerst direkt verbessert werden (Statistische Sprachverarbeitung). Es bleiben allerdings, je nach Umgebung, oft Artefakte auch im verbesserten Signal. Um trotzdem im Spracherkenner selbst möglichst robust zu bleiben, ist es wichtig, die verbleibenden Fehler des geschätzten Sprachsignals an den Erkenner zu übermitteln, um dort die zuverlässigeren Signalkomponenten anteilig mehr gewichten zu können als die stärker gestörten.

Eine Möglichkeit, solche robusten Erkennungssysteme zu realisieren, beschreibt Buchkapitel_Uncertainty.pdf (in: „Robust Speech Recognition of Uncertain or Missing Data - Theory and Applications“, Springer Verlag, erscheint August 2011).