Robuste Spracherkennung

Implementierung

Das JASPER-System beruht für rein akustische Spracherkennung und für das Lippenlesen auf einer Token-Passing-Architektur, die hybride Modelle aus Hidden Markov Modellen und tiefen neuronalen Netzen einsetzt.

Robuste Erkennung

Wenn Sprache in schwierigen Umgebungen, zum Beispiel in halligen Räumen oder bei starken Umgebungsgeräuschen, erkannt werden soll, ist es wichtig, die akustischen Störungen möglichst genau zu modellieren.

Damit kann das Audiosignal zuerst direkt verbessert werden https://ieeexplore.ieee.org/document/7602938/. Es bleiben allerdings, je nach Umgebung, oft Artefakte auch im verbesserten Signal.

Zur optimalen Integration der Informationen über die Zeit und die Modalität verwenden wir hierbei das Prinzip des Turbo-Decoding https://ieeexplore.ieee.org/document/7472187/.

Das System setzt außerdem Techniken der adaptiven Streamgewichtung ein, um bei Störungen von Audio- und Videomerkmalen die Informationen aus den beiden Merkmalsströmen entsprechend ihrer aktuellen Zuverlässigkeit gewichten zu können https://ieeexplore.ieee.org/document/7953172/.

Blinde Quellentrennung

Besonders dann, wenn mehrere Sprecher gleichzeitig reden, kann die Spracherkennung stark vom Einsatz der sogenannten „Blinden Quellentrennung“ profitieren.

Dabei werden mehrere Mikrophonsignale aufgezeichnet, und als gewichtete, gefaltete Summe der einzelnen Sprachsignale interpretiert. Unter der Annahme der statistischen Unabhängigkeit einer Signale können oft die Mischungsparameter geschätzt und so die Originalsignale rekonstruiert werden.

Die Qualität dieser Signaltrennung hängt von der räumlichen Anordnung der Sprecher, Störquellen und Mikrophone und von der Nachhallzeit des Raumes ab. In anechoischen Räumen lassen sich besonders gute Ergebnisse erzielen:

Mischung1.wav Mischung2.wav
Trennung1.wav Trennung2.wav

während die Trennung in realistischen Umgebungen, wie hier in einem Kfz

Mischung3.wav Mischung4.wav
Trennung3.wav Trennung4.wav

Gegenstand vieler Arbeiten ist.

Details, auch zur Anbindung an automatische Spracherkennungssysteme, sind beschrieben in Buchkapitel_ICA.pdf (in: „Robust Speech Recognition of Uncertain or Missing Data - Theory and Applications“, Springer Verlag, erscheint August 2011).

Audiovisuelle Spracherkennung

Der audiovisuelle Spracherkenner JASPER (Java Audiovisueller SPrachERkenner) und seine rechenzeitoptimierte Erweiterung CASPER (CUDA Audiovisueller SPrachERkenner) beruhen auf gekoppelten HMMs in einer effizienten Token-Passing-Implementierung. Verglichen mit einer akustischen Spracherkennung oder mit reinem Lippenlesen lässt sich so die Fehlerrate, verglichen mit der jeweils besten der beiden Einzelmodalitäten, oft halbieren, gleichzeitig fällt die Erkennungsleistung auch unter den am stärksten gestörten akustischen Bedingungen nie unter die des reinen Lippenlesens ab.

Für die aktuellen Arbeiten wird die GRID-Datenbasis verwendet, Videoaufnahmen von Sätzen einer einfachen Kommandosprache, die von Jon Barker, Martin Cooke, Stuart Cunningham und Xu Shao unter http://www.dcs.shef.ac.uk/spandh/gridcorpus/#credits zur Verfügung gestellt werden.

Im nachfolgenden Video ist ein Beispiel für die audiovisuelle Erkennung mit künstlich gestörten Audiodaten gezeigt. Dazu wurde weisses Rauschen mit 10dB SNR zum Sprachsignal addiert:

Video-Beispiel (WMV, 366,3 KB)

Hiermit ergibt sich im Mittel eine audiovisuelle Erkennungsrate von 81.1%, was verglichen mit 57.5% unter ausschließlicher Verwendung des Audiosignals. In ungestörten Bedingungen erreicht der Erkenner für die Grid-Daten eine Erkennungsleistung von 99.7%.