Arbeitsgruppe KOGNITIVE SIGNALVERARBEITUNG

Forschung

Nach wie vor sind automatische Spracherkenner zu anfällig gegenüber akustischen Störungen, um zuverlässig in beliebigen Umgebungen einsetzbar zu sein. Um eine robustere Spracherkennung zu erzielen, werden drei wesentliche Methoden angewendet:

Idealerweise werden mehrere Audiokanäle (zur Blinden Quellentrennung)  und mehrere Modalitäten (bei der audiovisuellen Spracherkennung) verwendet, um auch in stark gestörten Umgebungen eine geeignete, akustische Mensch-Maschine-Schnittstelle anbieten zu können.

Auch im einkanaligen Fall wird der Spracherkennung mittels statistischer Sprachsignalverarbeitung ein saubereres Sprachsignal zur Verfügung gestellt. Dieses Signal ist von Nachhall sowie von Rauschen und möglichen Störsprechern so weit wie möglich befreit, und kann so zu deutlich besseren Erkennungsergebnissen führen.

In allen Fällen werden zudem Informationen über die Zuverlässigkeit der Sprachmerkmale aus der Vorverarbeitung an die Spracherkennung übermittelt, um dort die zuverlässigeren Signalanteile und Modalitäten anteilig stärker zu berücksichtigen als die weniger gut geschätzten. Von solch einer Spracherkennung unter Merkmalsunsicherheit kann einerseits die mehrkanalige und multimodale Erkennung profitieren, es kann aber auch die Erkennung einkanaliger Audiosignalen robuster dadurch werden, dass die gut geschätzten Komponenten der Merkmalsvektoren stärker in die Erkennung einfließen als die von Störungen dominierten Anteile des Signals.


Weitere Themen

Lehre

Veröffentlichungen

 

Foto Robots