How does Eye-Tracking Work?
Hendrik Richter
richterh@cip.ifi.lmu.de
Eye-Tracking ist eine Technik zur Messung von Augenbewegungen des Menschen relativ zum Kopf oder die Bestimmung des Blickziels. Vorliegender Essay fasst grundlegende physiologisch-anatomische Eigenschaften des Auges zusammen, beschreibt Techniken zur Messung von Augen- und Blickbewegungen und erläutert einige Anwendungen und Möglichkeiten des Eye-Tracking unter anderem in der Mensch-Computer-Interaktion und den Kommunikationstechnologien.1 - Augenbewegungen
Der Mensch ist in der Lage, mit den Augen eine sehr hohe Anzahl von Bewegungen auszuführen. Hierbei kann man zwischen Bewegungen des Augapfels selber und Pupillen- sowie Lidschlußmotorik unterscheiden. Für das Eye-Tracking ist hauptsächlich die Bewegung des Augapfels durch die sechs äußerlich angreifenden Muskeln von Bedeutung.[1] Man kann zwischen drei Klassen von Augenbewegungen unterscheiden:- Ausgleichs-Bewegungen, die ein Verrutschen der Bildinformation auf der Netzhaut verhindern. Sie finden statt als Reaktion auf eine Bewegung des ganzen Körpers, der gesamten Umgebung oder des zu fixierenden Objekts.
- Bewegungen, die die Sehgrube (den Bereich des schärfsten Sehens auf der Netzhaut) auf neue Sehobjekte ausrichten.
- Mikrobewegungen des Auges.
1.1 --- Bewegungen zum Ausgleich von Bewegungen des Kopfes und des Körpers
Die sogenannten vestibulären Augenbewegungen dienen der anhaltenden Fixierung eines Punktes bei Kopf- und Körperbewegungen. Durch Informationen, die vom Gleichgewichtsorgan im Ohr stammen, sind diese Bewegungen unabhängig von visuellen Reizen. Langsame Gleitbewegungen wechseln sich mit schnellen Rückstellbewegungen ab. Die langsamen Bewegungen werden unwillkürlich gesteuert und von bewegten Blickobjekten ausgelöst. Bei schnellen Bewegungen des Objekts wechselt das Auge zwischen sehr schnellen Rückstellbewegungen und Gleitbewegungen hin- und her.[1]1.2 --- Ausrichtung des Auges auf das Sehobjekt
Das Blickfeld eines Auges umfasst einen Kegel von etwa 100°, der Bereich, in dem man wirklich scharf sehen kann, ist aber viel kleiner. In der Mitte der Netzhaut befindet sich die Seh- oder Zentralgrube, ein etwas vertieftes Gebiet, der "Brennpunkt" des Auges. Das scharfe Sehen ist in einem Winkel von cirka 1° um den fixierten Blickpunkt möglich. Objekte, die nicht in diesem "Brennpunkt" liegen, werden nur peripher wahrgenommen und dienen dazu, ein grobes Schema der Umgebung aufzubauen. Es gibt drei Arten von Bewegungen, die dazu führen, dass das Auge auf ein Objekt gerichtet ist und bleibt:- Blickwechsel von einem Objekt zum nächsten: Sakkaden
- Bewegungen, die dazu dienen, einem bewegten Objekt zu folgen. Wenn sich das Objekt langsam bewegt, folgt das Auge mit "pursuit movements" (Folgebewegungen). Bei schnelleren Bewegungen des Ziels werden Sakkaden notwendig
- Körper und Kopf bewegen sich, das Auge gleicht diese Bewegung aus (s.oben)
Visuelle Informationen werden während der Fixation wahrgenommen. Eine Fixation ist mindestens 100ms lang und grundsätzlich kann eine Übereinstimmung zwischen dem Ort der Fixation und dem Fokus der Aufmerksamkeit angenommen werden.[3]
1.3 --- Mikrobewegungen
Mikrobewegungen haben eine eher geringe Amplitude, sie treten bei jeder Fixation auf. Unterschieden werden hier Drift, Tremor und Mikrosakkaden, jeweils mit unter 10 Winkelminuten.Beim Drift gleitet das Auge stetig und minimal vom Fixationsort ab, das auf der Netzhaut einfallende Licht trifft also immer neue und andere Sehzellen, eine Ermüdung dieser Zellen wird so vermieden. Die gleiche Funktion hat der Tremor, eine minimale Zitterbewegung mit Frequenzen von etwa 50 Hz.
Die Mikrosakkaden korrigieren die durch den Drift hervorgerufenen Verschiebungen und refixieren das Objekt, sie treten auch regellos auf und führen das Auge weg vom fixierten Objekt.
2 - Erfassung der Augenbewegung
Die Augen bieten also eine sehr schnelle und "bandbreitenintensive" Möglichkeit, die Aufmerksamkeit und Wahrnehmung einer Person zu messen. Beim Eye-Tracking können also Sakkaden, Fixationen, den Abstand der Augen zum Ziel, der Durchmesser der Pupille und viele andere Daten erfasst werden. Wichtige Einheiten sind hier der "scan-path" (Sequenz der Fixationen), die Anzahl der aufeinanderfolgenden Fixationen auf ein Gebiet, anteilige Aufmerksamkeit für ein Gebiet sowie die Zeit, die benötigt wird, um ein Objekt zu finden und zu fixieren.Die Nutzer müssen vor der Anwendung nicht trainiert oder instruiert werden, das Auge zeigt im Gegensatz zu anderen Eingabegeräten die Verschiebung der Aufmerksamkeit direkt an.
2.1 --- Entwicklung des Eye-Tracking
Rayner [2] benennt drei Phasen der Eye-Tracking-Forschung: in der ersten Phase (ca. 1879-1920) wurden die physiologisch-anatomischen Gegebenheiten des Auges untersucht, unter anderem also Sakkaden, Fixationen und die Wechselwirkung zwischen beiden. Die zweite Phase (ca.1930-1958) ist von psychologischen Untersuchungen (Experimente) geprägt. In der dritten Phase (ca. 1970-1998) verbesserten sich die Messmethoden und der technische Fortschritt führte zu weiteren Möglichkeiten beim Eye-Tracking, so zum Beispiel die Video-basierte Augenbewegungsanalyse.Heute existieren eine Vielzahl von Eye-Tracking-Anwendungen, die grob in zwei Kategorien eingeteilt werden können: Diagnose und Interaktion. Bei der Diagnose liefert der Eye-Tracker objektive und quantitative Nachweise über die Aufmerksamkeit des Nutzers und deren Veränderung. Der gezeigte optische Stimulus reagiert nicht auf die Augenbewegung des Nutzers. Der Eye-Tracker liefert Daten, die nach dem Experiment offline ausgewertet werden können. Ergebnisse sind "Hotspots" (symbolisieren das Verhalten mehrerer Nutzer), "Gaze plots" (Blickpfade, zeigen anschaulich den Verlauf eines kompletten Tests) und "Gaze replays" (Wiederholungen, dadurch kann das Wahrnehmungs-/ Blickverhalten einer Testperson reproduziert und genau analysiert werden).
Durch wachsende Computerleistung und Grafikfähigkeiten heutiger Computersysteme bietet der Eye-Tracker auch die Möglichkeit, als Eingabegerät bei der Mensch-Maschine-Interaktion genutzt zu werden. Das System muss also auf den User bzw. dessen Augenbewegung reagieren. Hier bietet sich die Möglichkeit, das Wahrnehmungszentrum wie einen Mauszeiger zu nutzen oder aber abhängig vom Mittelpunkt der Wahrnehmung komplexe Grafikumgebungen zu verändern. Ein Problem bei der Interaktion durch Augen-Bewegung ist der "Midas-Touch"[4]. Die Nutzer sind es nicht gewoht, eine Eingabe nur mit einem Blick zu tätigen. Normalerweise betrachtet man einen Gegenstand, ohne gleich mit ihm zu interagieren, das selbe gilt für Schaltflächen bei der Mensch-Computer-Interaktion. Bei der Eingabe durch Eye-Tracking wird jeder Blick zu einer Eingabe, man kann nichts betrachten, ohne eine Aktion zu starten. Der Nutzer sollte idealerweise die Möglichkeit haben, nur dann Befehl mit den Augen zu tätigen, wenn er es will. Darin liegt ein Problem beim interaktiven Eye-Tracking.
2.2 --- Techniken zur Erfassung von Augenbewegungen
Bei der technischen Erfassung der Augenbewegung werden anatomisch-physiologische und technisch erfassbare Gegebenheiten des Auges verwendet. Zur Erfassung der Augenbewegung können Eigenschaften der Netzhaut oder der Pupille (wie Krümmung oder Wölbung), die Potentialdifferenz zwischen Hornhaut und Netzhaut und die Reflexion an diversen Teilen des Auges herangezogen werden.Man unterscheidet zwischen berührungsfreien und kopfbasierten Systemen, wobei bei den kopfbasierten Systeme Kopfbewegungssensoren zur Anwendung kommen können, um zwischen rotierenden Bewegungen der Augen selbst und Veränderung der Augenposition auf Grund von Kopf- und Körperbewegungen unterscheiden zu können. Bietet das Eye-Tracking-Gerät diese Kopfbewegungssensoren nicht, sind Kopfbewegungen durch Beißplatte oder Kinnstütze zu unterbinden.[1]
Folgende technische Möglichkeiten bieten sich also für das Eye-Tracking:
Die Augenbewegung kann subjektiv durch den Nutzer selbst oder durch einen Beobachter erfasst werden. Probanden können z.B. die Position von so genannten Nachbildern benennen, die entstehen, wenn ein starker Lichtreiz auf die Netzhaut trifft und das Auge währenddessen bewegt wird. Durch die Beschreibung der Nachbild-Position durch den Probanden kann auf die Augenbewegung gschlossen werden. Dieses Vorgehen hat viele Nachteile, es funktioniert nur bei Dunkelheit und der Proband wird mit starken Lichtreizen konfrontiert. Nachbilder klingen schnell ab und liefern dadurch und auch durch die evtl. ungenaue Beschreibung des Probanden nur ungenügend genaue Ergebnisse.
Die technisch einfachste und wohl auch älteste Methode zur Untersuchung von Augenbewegungen ist die direkte Beobachtung des Auges. Bewegungen ab 1° sind eindeutig feststellbar. Trotzdem gilt diese Methode als sehr ungenau, wird aber besonders im medizinischen Bereich zum Testen von Reflexen eingesetzt.[1]
Das Zusammenspiel von Fixationen und Sakkaden, die "scanpaths" können auch durch analoge Technik registriert werden. Die Abtastrate der Analog/Digital-Wandler bestimmt dann die zeitliche Auflösung der Daten.
Beim EOG (Elektrookulogramm) macht sich des Eye-Tracking eine Potentialdifferenz zwischen Hornhaut und Netzhaut des Auges zu Nutze. Diese kann bis zu 20mV betragen und schwankt leicht. Das Auge kann also als Dipol aufgefasst werden, wodurch Elektroden die Veränderung des elektrischen Feldes während Augenbewegung messen können. Zur Messung der horizontalen Bewegung befinden sich zwei Elektroden links und rechts neben dem Auge, zur Erfassung vertikaler Bewegungen zwei Elektroden dicht über und unter dem Auge. Probleme resultieren unter anderem aus den Schwankungen des Potentials, der Abweichung durch Lidschläge sowie elektrisches Rauschen. Das Blickfeld des Probanden wird nicht eingeschränkt, außerdem stellen Brillen sowie Kontaktlinsen für das EOG kein Problem dar.[1]
Eine weitere, aber noch kompliziertere Möglichkeit zur Messung von Augenbewegungen ist die analoge Kontaktlinsenmethode. Hierbei wird eine genau angepasste Kontaktlinse auf der Hornhaut des Nutzers angepasst, sie soll auch bei schnellen Augenbewegungen nicht verrutschen, das Auge darf nicht geschädigt werden.
Zum einen kann man einen Spiegel auf der Kontaktlinse befestigen, einfallendes Licht wird so in einem bestimmten Winkel reflektiert, diese Reflektion kann durch z.B. eine Kamera aufgezeichnet werden. Auf der anderen Seite ist es auch möglich, an der Kontaktlinse kleine Spulen anzubringen. Durch ein Wechselfeld, erzeugt durch Spulen am Kopf oder in einem Rahmen um den Kopf des Probanden und für jede Raumrichtung anders, wird den Kontaktlinsen-Spulen Spannung indiziert. Diese verändert sich proportional zur Lage der kleinen Spulen im Feld und kann gemessen werden ("search coil").[1]
Auch physiologisch-anatomische Gegebenheiten des Auges können zur Bewegungsregistrierung herangezogen werden. So kann z.B. an der Auswölbung des Augenlids, die durch die hervorgewölbte Linse entsteht, die vertikale und horizontale Augenbewegung gemessen werden. Durch Videokameras oder photoelektronische Sensoren wird diese Bewegung erkannt.
Bei der videobasierten Bewegungserfassung wird ein Bild des Auges elektronisch aufgezeichnet, das Signal wird anschließend von einem Rechner ausgewertet, um gewünschte Informationen zu extrahieren. Diese Systeme sind auf Grund der geringen Bildwiederholfrequenz von Standard-Videonormen zu langsam, um schnelle Augenbewegungen korrekt zu registrieren. Hochgeschwindigkeits-Systeme sind inzwischen kommerziell erhältlich.
Ein Messverfahren, das mit Hilfe von Videotechnik durchgeführt wird, ist die Blickachsenmessung mit Hilfe von Infrarotlicht. Hierbei wird die Distanz zwischen der Spiegelung des einfallenden Lichts auf der feuchten Hornhaut und dem Mittelpunkt der Pupille gemessen. Dieser kleine Abstand verändert sich durch eine Augenbewegung und wird durch das Bildverarbeitungssystem erfasst. Eine kontaktfreie Messung ist dadurch möglich.
Die bereits erwähnte Kontaktlinsenmethode kann auch Video-gestützt durchgeführt werden. Hierbei wird die punktförmige Reflektion eines auf der Kontaktlinse befestigten Spiegels aufgezeichnet, eine höhere optische Aufzeichnung wird dadurch erzeugt, daß der der Reflex sich doppelt so stark wie das Auge im Winkel bewegt.
Eine kontaktfreie Messmethode in Echtzeit ganz ohne spezielle Beleuchtung oder Markierungen wird von Stiefelhagen, Yang und Waibel vorgestellt [5]. Im ersten Schritt wird im Kamerabild nach dem größten zusammenhängenden Bereich in Hautfarben gesucht, danach wird mit Hilfe eines iterativen Schwellenwert-Algorithmus nach zwei dunklen Arealen in einem bestimmten Bereich des Gesichts gesucht - den Pupillen. Das Bild wird mehrfach durchlaufen, bis zwei passende Gebiete gefunden sind. Sich verändernden Lichtverhältnissen wird so Rechnung getragen. In den zeitlich folgenden Kamerabildern wird nur noch nach den dunkelsten Bereichen in dem Gebiet gesucht, in dem sich vorher die Pupillen befanden. Durch die zusätzliche Registrierung von Lippen und Nasenlöchern können Tracking-Fehler verhindert und Kopfbewegungen erkannt werden.
2.3 --- Anwendungsgebiete
In [6] werden ein Vielzahl von Anwendungsgebieten für das Eye-Tracking genannt: In der Neurologie werden kognitive und physiologische Prozesse sowie die Informationsverarbeitung im Gehirn untersucht. Auch die Aufmerksamkeit wird erforscht, dem Menschen ist es z.B. möglich, einen Punkt zu fixieren, die Aufmerksamkeit aber gleichzeitig anderen Objekten zuzuordnen.Die Psychologie untersucht schon länger informationsverarbeitende Prozesse wie das Lesen.[2] Auch bei Untersuchung zukünftiger Arbeitsumgebungen kann das Eye-Tracking gute Dienste leisten. Messungen der Reaktionszeit oder Genauigkeit können durch genauere Analysen der einzelnen Arbeitsschritte ergänzt werden.
Eine große Rolle spielt das Eye-Tracking auch im "Usability-Egineering", im Fahrzeugbau, in Simulationen. Webseiten können auf verwirrende Elemente und Blickfänger hin untersucht werden. Effizienz, Werbewirkung, Benutzerfreundlichkeit etc. werden mit Hilfe der so gewonnenen Ergebnisse gesteigert.
Es existieren sehr viele weitere Möglichkeiten auf wissenschaftlichem und kommerziellem Gebiet.
3 --- Schluss
Augen- und Blickbewegungen gehören zu den einfachsten physischen Aktionen des Menschen. Es sind perzeptive und komplexe kognitive Prozesse involviert. Die über 100 Jahre alte Eye-Tracking-Forschung untersucht schon lange nicht mehr die simple Reaktion des Auges auf einen Stimulus, vielmehr wurde das vorrauseilende Verhalten der optischen Wahrnehmung erkannt. Der Mensch verwendet sie aktiv zur Untersuchung seiner Umgebung.Die hohe Geschwindigkeit und sowohl bewusst als auch unbewusst mögliche Bewegung macht das Auge zu einem sehr interessanten Eingabegerät für die Mensch-Computer-Interaktion. Leider gilt diese Technologie schon seit 50 Jahren als vielversprechend, konnte sich aber auf Grund von technischen Hürden sowie schwieriger Datenerhebung und -auswertung noch nicht durchsetzen. Im Zuge der Bedienerfreundlichkeits-Forschung und der Vernetzung und Verallgegenwärtigung der Computertechnik und der damit verbundenen Suche nach alternativen Eingabetechniken wird das Interesse am Eye-Tracking wohl weiter wachsen.
4 --- References
[1] Joos, M., Rötting, M., & Velichkovsky, B. M. (2002). Die Bewegungen des menschlichen Auges: Fakten, Methoden, innovative Anwendungen. In T. Herrmann, S. Deutsch & G. Rickheit (Eds.), Handbuch der Psycholinguistik (pp. 142-168). Berlin/NY: De Greyter[2]Rayner, K. (1998). Eye Movements in Reading and Information Processing: 20 Years of Research. Psychological Bulletin, 124(3)
[3] Just, M.A. & Carpenter, P.A. (1976). Eye Fixation and cognitive processes. Cognitive Psychology, 8 (4)
[4] Jacob, R. J. K. & Karn, K. S. (2003). Eye Tracking in Human-Computer Interaction and Usability Research: Ready to Deliver the Promises. In R. Radach, J. Hyona, & H. Deubel (eds.), The mind's eye: cognitive and applied aspects of eye movement research (pp.573-605). Boston: North-Holland/Elsevier.
[5]Stiefelhagen, R., Yang, J., and Waibel, A. Tracking Eyes and Monitoring Eye Gaze. Proceedings of the Workshop on Perceptual User Interfaces (PUI'97). Alberta, Canada. pp.98-100. 1997.
[6] Duchowski A.T. (2002) A breadth-first survey of eye-tracking applications, Behavior Research Methods, Instruments, & Computers, Volume 34, Number 4, 1 November 2002