ARC/DAAD Projekt "Versuchsplanung fuer polynomiale Spline-Modelle in mehreren Variablen"
Lehrstuhl Stochastik » Forschungsschwerpunkten » Drittmittelprojekte

ARC/DAAD Projekt - Versuchsplanung für polynomiale Spline-Modelle in mehreren Variablen

Zeitraum: 1.7.2007-30.6.2009, gemeinsames Forschungsprojekt mit Dr Dave Woods und Dr Stefanie Biedermann, University of Southampton.

Hintergrund: In der statistischen Analyse zahlreicher Experimente in den Natur- und Ingenieurswissenschaften werden häufig polynomiale Modelle angepasst, um den Einfluss der Regressorvariablen auf die Responsevariable zu beschreiben. Die Verwendung solcher Modelle ist oft nicht gerechtfertigt. Einerseits können Polynome niedrigen Grades im allgemeinen viele wichtige Eigenschaften der Responsekurve nicht richtig reflektieren, andererseits sind Polynome hohen Grades zu unflexibel, um Kurven anzupassen, die in verschiedenen Regionen verschieden glatt sind. Es bietet sich daher an, stattdessen bestimmte Stützstellen (Knoten) zu wählen (oder aus den Daten zu schätzen) und zwischen diesen Knoten Polynome niedrigen Grades (oft kubisch) anzupassen, die in den Knoten stetig (und oft auch differenzierbar) zusammen gesetzt werden. Das Ergebnis einer solchen Approximation ist ein Spline. Wie viele nichtparametrische Modelle bieten Splines ein hohes Maß an Flexibilität, sind aber - im Gegensatz zu vielen anderen Ansätzen (wie z.B. der Kernschätzung) - für den Anwender gut interpretierbar.

Anwendungen: Splines werden prinzipiell in allen Bereichen der Natur- und Ingenieurswissenschaften eingesetzt. Groove, Woods & Lewis (2004) beschreiben die Versuchsplanung für ein Beispiel aus der Automobilindustrie, bei dem es um die Einstellung eines Motorreglers in Abhängigkeit von der Motorgeschwindigkeit geht. Auch in der Epidemiologie werden Splines verwendet, um die Abhängigkeit des Phänotypen von der Exposition mit möglichen krankheitsauslösenden Stoffen zu modellieren (Boucher et al., 1998). Auf Splines basierende Modelle erweisen sich hier als flexibler als kategorielle Modelle, wenn Treatment- oder Block-Effekte groß sind und/oder sich schnell ändern. Weitere Anwendungen gibt es unter anderem in den Materialwissenschaften, z.B. zur Evaluation des Einflusses von Nanomanipulation (Vogl et al., 2004), in der Genetik zur Schätzung von genetischen Parametern (White et al., 1999, Iwaisaki et al., 2005) sowie in der Analyse von Microarrays (Joo et al., 2007), in der Chemie (Kaisheva et al., 1984, Frey, 1993) sowie in der Computer gestützten Bildgebung (Bartels et al., 1987), z.B. Computer Aided Design zur Entwicklung von Karosserien. Hierbei kommen Tensor Splines zum Einsatz (siehe z.B. Stone, 1994, oder Stone et al., 1997).

Stand der Forschung: Aufgrund der zahlreichen Anwendungen von Splines beschäftigten sich verschiedene Autoren mit der Planung solcher Experimente; siehe u.a. Studden (1971), Kaishev (1989) und Gaffke & Heiligers (2000). In diesen Arbeiten geht man davon aus, dass die Knoten datenunabhängig gewählt werden. Unter dieser Annahme können optimale Versuchspläne mit Hilfe von Standardtechniken zur Versuchsplanung linearer Regressionsmodelle ermittelt werden. Woods (2005) und Dette, Melas & Pepelyshev (2007) beschäftigen sich erstmalig mit dem Problem der Versuchsplanung für Modelle mit Knoten, welche datenabhängig gewählt werden. Woods (2005) legt dabei den Schwerpunkt auf die Vorhersage der Regressions-Kurve in Bereichen, in denen keine Messung erfolgt ist. Dette, Melas & Pepelyshev (2007) behandeln die unbekannten Knotenstellen als weitere Parameter, die ebenfalls geschätzt werden müssen, und erhalten ein Optimierungsproblem für nicht-lineare Modelle, da die optimalen Versuchspläne noch von den zu schätzenden Knoten abhängen (man spricht auch von lokaler Optimalität). Als robuster Ansatz wird ein Versuchsplan vorgeschlagen, der für viele verschiedene (sinnvolle) Knoten effizient ist. Dette, Melas & Pepelyshev (2007) nutzen dafür ein Maximin Kriterium, bei dem derjenige Plan optimal ist, der die größte minimale Effizienz aufweist, wobei das Minimum über eine Menge verschiedener Knoten gebildet wird. Als weitere projektrelevante Vorarbeit des Projektleiters Woods ist hier noch die Arbeit von Woods & Lewis (2006) zu nennen. Die hier betrachteten Modelle beinhalten jeweils eine Regressorvariable.

In vielen Situationen hängen die Beobachtungen allerdings von mehreren erklärenden Variablen ab, und es werden mehrdimensionale Splines für die Modellierung betrachtet. Eine Möglichkeit ist es, sogenannte Tensor Splines einzusetzen. Hier wird die Basis aus Tensor Produkten eindimensionaler Spline Basen gebildet, wodurch die Anzahl der Basis Funktionen und damit der aus den Daten zu schätzenden Koeffizienten exponentiell bzgl. der Dimension ansteigt (Fluch der Dimension). Es gibt bis heute keine zufrieden stellenden Ergebnisse zur Versuchsplanung in solchen mehrdimensionalen Modellen. Erste Ansätze sind in Stone et al. (1997) und Woods (2003) zu finden.

Das Ziel des beantragten Forschungsprojekts besteht darin, optimale Versuchspläne für mehrdimensionale Splines zu bestimmen. Die Antragsteller wollen dafür die auf britischer und deutscher Seite bisher unabhängig voneinander erzielten Vorarbeiten nutzen, um erstmalig in diesem anspruchsvollen Bereich der optimalen Versuchsplanung substantielle Ergebnisse zu erzielen.