Qualitätsschätzung
von Sprachdialogsystemen
Computer
lernen sprechen
Seit fast einem halben Jahrhundert versuchen die
Menschen, Computern das Sprechen beizubringen. Mittlerweile
sind Dialoge mit Maschinen zwar möglich - aber
bis wir natürliche Gespräche mit ihnen führen
können, müssen die Systeme noch weiter verbessert
werden. Wie aber lässt sich die Qualitätseinschätzung
der zukünftigen Nutzer im Vorhinein abschätzen?
Ein Modell dafür entwickelte Janto Skowronek
in seiner Diplomarbeit.
Früher interagierten die Menschen mit ihren Maschinen
über Schalthebel, Knöpfe und einfache Anzeigen.
Die Dampfmaschine ist ein klassisches Beispiel dafür.
Heute jedoch dominiert der Computer, das heißt,
unsere Mittel für den Umgang mit Technik sind vorwiegend
Maus, Tastatur und Bildschirm. Ein Blick in die Zukunft
verheißt, dass sog. sprachverarbeitende Systeme
immer mehr an Bedeutung gewinnen werden. Der Grund dafür
ist einfach: Die Sprache ist das Mittel zur Kommunikation,
das uns Menschen am meisten vertraut ist - sprechen
lernen wir eher als lesen und schreiben.
Eine Kategorie von heutigen sprachverarbeitenden Systemen
sind die natürlichsprachlichen Dialogsysteme (kurz:
Sprachdialogsysteme). Sie zeichnen sich dadurch aus,
dass sie eine zweiseitige Interaktion zwischen Mensch
und Maschine mittels gesprochener Sprache erlauben.
Im Klartext heißt das, dass sowohl der Mensch
als auch die Maschine dem jeweiligen Gesprächspartner
Fragen stellen und diese auch sinnvoll beantworten kann.
Das funktioniert gegenwärtig aber noch sehr eingeschränkt,
denn solche Systeme können lediglich eine bestimmte
Aufgabe, z.B. Fahrplanauskunft per Telefon, durchführen.
Um diese Systeme zu verbessern, interessieren sich die
Entwickler solcher Systeme vor allem für eine Frage:
Wie wird die Qualität des Systems aus Sicht des
Benutzers sein? Denn nur, wenn der Benutzer das System
für ausreichend "gut" hält, ist
er bereit, es noch einmal zu benutzen.
Qualitätskriterien
Die gängige Methode zur Qualitätsuntersuchung
ist, eine Testreihe durchzuführen, bei der Versuchspersonen
mehrere Gespräche mit einem Sprachdialogsystem
führen. Anschließend sollen sie die Gespräche
und das System anhand von Fragebögen bewerten.
Während der Dialoge werden außerdem verschiedene
technische Daten gemessen, z.B. die Dauer der Gespräche.
Darüber hinaus bewertet ein Experte die Dialoge
nach bestimmten Kriterien; z.B. wie oft das System richtig
auf die Fragen der Versuchsperson geantwortet hat.
Nun möchte man natürlich nicht nur die Qualität
eines bereits fertigen Sprachdialogsystems untersuchen,
sondern schon während des Entwicklungsprozesses
Vorhersagen über die Qualität des zukünftigen
Systems machen. In meiner Diplomarbeit entwickelte ich
einen ersten Ansatz für ein Modell, das die Qualität
mit Hilfe der technischen Daten des zukünftigen
Systems einschätzbar macht. Ein Fernziel ist, dass
der Entwickler nur die technischen Rahmenbedingungen
des Sprachdialogsystems in das Modell eingeben muss,
um eine Schätzung zu erhalten, wie die Benutzer
später das System bewerten werden.
BoRIS getestet
Es zeigte sich, dass solche Vorhersagen schwierig sein
werden: Auf Grundlage einer Testreihe, bei der 40 Versuchspersonen
das "Bochumer Restaurant-Informations-System BoRIS"
benutzten, versuchte ich, die Beurteilungen der Probanden
statistisch vorher zu sagen. Es ließen sich aber
nur 30 Prozent der Benutzerantworten beschreiben. Zwei
Gründe sind für dieses geringe Ergebnis verantwortlich:
1.) BoRIS wurde in verschiedenen Versionen dargeboten.
Beobachtungen in der Vergangenheit zeigten aber, dass
solche Modelle besser sind, wenn sie nur auf ein bestimmtes
System bzw. eine bestimmte Systemversion angewendet
werden.
2.) Es zeigte sich, dass es große Unterschiede
zwischen technischen Parametern und den Beurteilungen
der Testpersonen gibt. So beurteilten die Versuchspersonen
die Dialoge von sehr kurz bis sehr lang, selbst wenn
die tatsächlich gemessene Zeitdauer ungefähr
die selbe war (ca. 200 Sekunden).
Besonders der zweite Grund ist eine wesentliche Erkenntnis
für die Qualitätsforschung, denn er zeigt,
wie sehr die Wahrnehmung des Menschen von der technisch
physikalischen Realität abweicht. Dieser Zusammenhang
zwischen Wahrnehmung und Realität beim Umgang mit
der Technik ist nach wie vor unzureichend erklärt.
Wenn wir auch in Zukunft die immer komplexer werdende
Technik für unsere Zwecke nutzen wollen, müssen
wir besser verstehen, wie wir mit ihr in Verbindung
treten. Dazu sind weitere solche Forschungen zur Mensch-Maschine-Schnittstelle
nötig.
Info: Dem gleichen Thema nähert sich Andrea
Niculescu in ihrer Magisterarbeit aus kommunikationswissenschaftlicher
Sicht; ihre überraschenden Ergebnisse veröffentlicht
sie in Junior RUBIN (s. nebenstehenden
Text).
Janto
Skowronek, Institut für Kommunikationsakustik
|