RUB 

Verbesserung von Sprachsignalen

Problembeschreibung und Aufgabenstellung

Beim Telefonieren in der Mensa oder in der Bahn, bei der Verwendung eines digitalen Assistenten im Wohnzimmer oder bei Nutzung eines Hörgeräts – fast immer sind die dabei aufgenommenen Sprachsignale durch Umgebungsgeräusche gestört. Das Ziel der Sprachsignalverbesserung (engl. „speech enhancement“) besteht darin, diese Geräusche und andere aufnahmebedingte Verzerrungen zu reduzieren, so dass die Signale in besserer Qualität und mit besserer Verständlichkeit dargeboten werden können.

Die Algorithmen der Sprachsignalverbesserung beruhen oft auf statistischen Schätzverfahren. Das Zielsignal und die Störungen werden dabei mit statistischen Verteilungen modelliert. Es wird dann eine Kostenfunktion festgelegt und diese wird entweder durch analytische Rechnung oder mit numerischen Verfahren optimiert. In neuerer Zeit kommen dabei auch tiefe neuronal Netze („Deep Neural Networks – DNNs“) zum Einsatz. Zur Gewährleistung der Sprachkommunikation in Echtzeit ist es zudem wichtig, dass die Algorithmen keine große Verzögerung zwischen dem gestörten Eingangssignal und dem verarbeiteten Ausgangssignal einfügen. Die Algorithmen müssen daher auch unter Verwendung sehr kurzer Segmentlängen (z.B. 20 ms) gute Ergebnisse liefern („online Verarbeitung“).

Die Bachelor-/Masterarbeiten richten sich in erster Linie auf die Verbesserung vorhandener Algorithmen und die Entwicklung und Implementierung neuer Algorithmen nach eigenen Ideen oder nach neueren Vorschlägen aus der Literatur.

Werkzeuge und Methoden

Die Problemstellungen werden mit den Algorithmen der Audiosignalverbreitung, der statistische Signalverarbeitung und dem maschinelles Lernen bearbeitet. Die Implementierung erfolgt mittels Matlab oder Python. 

Was kann man lernen?

Im Rahmen einer Bachelor-/Masterarbeit werden Grundlagen der Audiosignalverarbeitung und der statistischen Signalverarbeitung erlangt. Zu dem werden Programmierkenntnisse und die effiziente Implementierung von Algorithmen vertieft. 

Voraussetzungen:

Bereitschaft sich grundlegende Kenntnisse der Audiosignalverarbeitung, der statistischen Schätztheorie und des maschinellen Lernens anzueignen.  Programmierkenntnisse in Matlab, Kenntnisse in C++ und Python sind von Vorteil.

Beispiele abgeschlossener Arbeiten:

  • Verbesserung der Sprachverständlichkeit mit Verfahren der einkanaligen Geräuschreduktion
  • Entwicklung, Implementation und Evaluation von Algorithmen für die Sprachsignalverbesserung in der Freisprechtelefonie
  • Verbesserung der Sprachverständlichkeit durch spektrale Maskierung

Ansprechpartner:

Prof. Dr.-Ing. Rainer Martin PD Dr.-Ing. Gerald Enzner
ID 2/233 ID 2/227
0234 32 22495 0234 32 25392
rainer.martin@rub.de gerald.enzner@rub.de