Interview mit Rolf Pfeifer, Labor für Künstliche Intelligenz, Universität Zürich

Künstliche Intelligenz, Heft 1/2003

Rolf Pfeifer schrieb zusammen mit Christian Scheier „Understanding Intelligence – eine auch für Nichtinformatiker leicht lesbare Gesamtdarstellung der „Neuen künstlichen Intelligenz“.
Jörg Auf dem Hövel:
Biologie und Biorobotik arbeiten im Zürichicher AI-Lab eng zusammen, wobei die Künstliche Intelligenz viel von der Natur lernen kann. Was aber kann denn die Biologie von ihnen lernen?

Rolf Pfeifer:
Ein Beispiel: Die Wüstenameise Cataglyphis orientiert sich am Polarisationsmuster der Sonne. Im Aufnahmeapparat der Ameise existiert Rezeptoren, die das Licht in unterschiedlicher Richtung polarisieren. Der eine Rezeptor oder Polarisationsfilter arbeitet also beispielsweise nach vorne, der andere zur Seite. Die Theorie der Biologen besagte nun folgendes: Wenn man nun die verknüpften Polarisationssensoren dreht, dann ändert sich in systematischer Weise der Output des betreffenden Neurons. Während die Ameise sich also dreht, ändert sich der Output. Sie muss das Maximum des Output suchen um eine Referenzrichtung zu erhalten. Als wir diese Konstruktion auf einem Roboter implementierten sahen wir, die Richtung des Maximums einen relativ grossen Fehler aufweist. Mit dieser Unschärfe würde die Ameise aber nicht so geradlinig zum Nest zurückkommen, wie sie das in der Realität tut. Als wir einen Roboter mit diesem Mechanismus zu bauen versuchten, bemerkten wir, wie unpräzise er mit diesem Verfahren fährt. Dann haben wir ein wenig rumgespielt und hin und her versucht. Schließlich versuchten wir es mit drei Sensorsystemen, die auf 0 Grad, 60 Grad und 120 Grad ausgerichtet sind, so wie das von der Ameise bekannt ist. Wenn man die Outputs dieser drei Systeme miteinander verknüpft, und die absolute Differenz von zwei Systemen vom Wert des ersten System abzieht, dann ergibt sich eine hohe Schärfe der Orientierung. Dies stellt nun eine Hypothese dar für die Biologen – gibt es tatsächlich bei den Ameisen oder den Bienen, die ebenfalls diese Orientierungsmöglichkeit besitzen, Neuronen, die diese Art der Berechnung durchführen? Es scheint gewisse Hinweise darauf zu geben, aber ob man das tatsächlich gefunden hat oder nicht ist mir zur Zeit nicht bekannt.

Rolf Pfeifer

Haben Sie noch ein anderes Beispiel?

Sicher. Dimitri Lambrinos und Ralf Möller haben überlegt, ob es ausreicht, wenn der Sahabot in der nahen Umgebung des Nests nicht einen kompletten Snapshot, sondern nur einen Mittelwert über alle Landmarken bildet und damit nur einen Vektor abspeichert. Erstaunlicherweise findet der Roboter in den meisten Fällen genauso gut zum Eingang des Nestes zurück. Das funktioniert ebenfalls, wenn man statt weniger Markierungen hunderte von Markern setzt, an denen der Roboter sich orientieren kann. Später testeten wir das in normalen Büroumgebungen und das funktionierte ebenfalls. Das ist natürlich Wahnsinn, denn es müssen nur zwei Zahlen gespeichert werden, um eine komplexe Umgebung im Körper zu repräsentieren. Wenn man das zudem analog macht, dann kostet das praktisch nichts. Ein gutes Beispiel für cheap design, welches sich in der Natur so häufig durchsetzt. Die Biologen testen zur Zeit, ob die Ameise nach dem Snapshot-Modell oder dem Average-Landmark Modell vorgeht. So kann die Robotik Hypothesen aufstellen und die Biologen können sie überprüfen.

Trotz der Verkörperung und der damit beabsichtigten Verabschiedung der symbolverarbeitenden Maschine, arbeiten ihre Roboter ja gleichwohl mit Prozessoren, die Algorithmen ausführen. Wie passt das zusammen?

Das ist ein guter Punkt und bleibt ein Problem, obwohl ich es eher in den philosophischen Bereich rücken würde. Zum einen arbeiten wir mit Neuronalen Netzen, die zwar letztlich auch in einem Mikroprozessor ablaufen, die aber vom Konzept her natürlichen Neuronen nachempfunden sind. Die Idee dabei ist, das man auf einer gewissen Abstraktionsebene von künstlichen Neuronen spricht und nicht von ihrer digitalen Simulation. Wenn man die Auflösung genügend fein macht, dann hat das weithin analogen Charakter. Zum anderen haben wir tatsächlich Roboter gebaut, die ganz ohne Software auskommen. Diese bestehen nur aus analogen Schaltkreisen. Den Analog-Robot hat Ralf Möller entwickelt, der jetzt beim Max-Planck-Institut in München ist.

Das wirft auch ein anderes Licht auf den Begriff der Wahrnehmung.

Die Leute denken immer an Input bei Wahrnehmung. Und ich mache meine Mitarbeiter in den Diskussionen fast wahnsinnig, weil ich immer wieder darauf hinweise, dass es sensormotorische Kopplungen sind, die das Erleben bestimmen. Um das zu zeigen haben wir einen analog-VLSI Chip entwickelt, diesen an die Peripherie des Roboters geschoben und dort eine komplette sensormotorische Schleife konstruiert. Von den lichtsensitiven Zellen über das „attentional processing“ bis zum Berechnen des Steuersignals für die Motoren ist bei diesem Analog-Roboter alles auf einem analog-VLSO-Chip implementiert. Es ist also durchaus möglich ganz ohne digitale Simulation des neuronalen Netzes auszukommen.

Ein Kernpunkt der Neuen KI ist Emergenz. Wie kam man in der Neuen KI darauf, dass Intelligenz aus dem Zusammenspiel einfacher, an und für sich unintelligenten Teile, entstehen, halt emergieren kann? Was führte zu der Einsicht, dass der symbolverarbeitende Ansatz allein nicht ausreicht, um intelligentes Verhalten zu entwickeln?

Das ergab sich zum einen sicherlich aus dem Betrachten evolutionärer Vorgänge. Aus einfachen Elementen entstehen komplexe Komponenten, die wiederum Teil von größeren Einheiten sind. Aus toter Materie ist schließlich auch der Mensch entstanden. Auf der anderen Seite erkannte man Anfang der 80er Jahre, dass der symbolverarbeitenden Ansatz an seine Grenzen gestoßen war. Es existierte ein Haufen von KI-Gebieten, von Expertensystemen, Wissensrepräsentationen, Problemlösen, Theorembeweisen. Viele von uns interessierte damals aber nicht nur das Schreiben von Computerprogramme, die eine Aufgabe erfüllen, sondern wir wollten etwas über natürliche Intelligenz lernen. Wenn man die klassische KI anschaut, dann erkennt man sehr wohl die wertvollen Beiträge, die sie beispielsweise für die mathematische Logik und die Algorithmik geleistet hat. Aber sie hat sehr wenig zum Verständnis natürlicher Intelligenz beigetragen und stieß aus diesem Grund an eine Grenze. Das hat viele Forscher frustriert. Den Paradigmenwechsel eingeleitet hat dann sicherlich die Theorie der Neuronalen Netze…

Christoph von der Marlsburg…

Genau. Der Mann ist immer noch einer der originellsten Köpfe in dem Gebiet. Nun, auf alle Fälle haben viele Forscher darin eine Antwort auf die Frage gesehen, wie ich Symbolen Bedeutung geben kann. Ein weiterer Punkt für den Wechsel war sicherlich das Scheitern, mit den bisherigen Ansätzen intelligent handelnde Roboter zu bauen. Man merkte damals nämlich, dass man nicht einfach ein symbolverarbeitenden Programm nehmen, eine Kamera anhängen und einen Pixel-Array auf die internen Symbole abbilden kann. Wenn man mal reale Kamerabilder angesehen hat und diese mit sich bewegenden Kamerabildern vergleicht, dann sieht man, dass das nicht funktionieren kann. Es wurde also langsam klar, dass dies eine völlig falsche Sicht der Dinge ist. Rodney Brooks hat seine Dissertation im Bereich der klassischen Computer-Vision gemacht und war frustriert, mutmaßte, dass der bisherige Ansatz salopp gesprochen völliger Quatsch ist.

Da war er nicht der Einzige.

Sicher. Schon Hubert L. und Stuart E. Dreyfus haben das kritisiert. Terry Winograd schrieb Anfang der 70er Jahre das Programm SHRDLU und fing Anfang der 80er Jahre an, über diese Dinge vertieft nachzudenken und den Ansatz der klassischen KI zu kritisieren. In den Insiderkreisen zirkulierten damals schon Manuskripte, später kam sein Buch „Understanding Computers and Cognition“ heraus. Im Rotbuch-Verlag erschienen, erlangte es schnell Kult-Status. Ebenfalls mit dabei war William J. Clancey, der an medizinischen Expertensystemen arbeitete und alle paar Jahre einen Artikel veröffentliche, der die scientific community schockierte.

Zentral für ihre Arbeit ist ebenfalls der Begriff der Emergenz. Was verstehen sie darunter?

Ein gutes Beispiel für Emergenz ist das Vehikel I von Braitenberg. Das hat vorne einen Sensor, hinten einen Antrieb und ein die beiden Elemente verbindendes „Gehirn“, welches aus einem einzigen künstlichen Neuron besteht. Je mehr Qualität der Sensor liefert, umso schneller läuft der Motor. Die Beschaffenheit des Sensors ist dabei beliebig wählbar. Der kann Temperatur, Lichtintensität oder chemische Konzentration messen. Nehmen wir einen Temperatursensor und angenommen, dass Vehikel ist im Wasser, dann fährt es nicht einfach gleichmäßig geradeaus. Dort existieren Strömungen, Wirbel, andere Fische, Temperaturschwankungen und so fährt es an einem Ort schneller, an einem anderen langsamer. Da kann der Beobachter leicht zu der Annahme kommen, dass es sich lieber im kalten Wasser aufhält. Dabei macht das Gehirn nichts anderes, als den Sensor mit dem Motor zu verbinden. Schon bei zwei Sensoren und zwei Motoren wird das Verhalten enorm komplex. Der Punkt von Braitenberg ist der, dass man die Mechanismen genau erklären kann, es ist aber sehr schwierig, aus dem Verhalten zurück auf die Mechanismen zu schließen. Verhalten, welches kompliziert aussieht, lässt sich häufig viel einfacher erklären. Das ist die Idee der Emergenz.

Aber den umgekehrten Fall gibt es auch.

Wenn ich mit dem Finger von meiner Nase weg geradeaus fahre, dann ist das eine sehr viel schwierigere Bewegungen als eine kreisförmige mit dem ganzen Arm.

Deswegen ist das auch der Trunkenheitstest bei der Polizei. In us-amerikanischer Tradition versucht Brooks sich wieder am Nachbau des Menschen.

Der Brooks ist wahrscheinlich viel intelligenter als die Leute glauben. Er hat wahnsinnig gute Intuitionen, die er leider nicht theoretisch weiter verfolgt. Wenn man mit ihm über theoretische Dinge reden will, dann sagt er meistens: „Ah, forget about the theory.“

That´s the american way.

Der Mann ist nicht Amerikaner, sondern Australier. Er lebt nur seit 20 Jahren in den USA.

Dann ist er konvertiert.

Seine Argumentation ist im Grunde folgende: Der Schritt von den Einzellern zu mehrbeinigen Insekten war der wichtige in der Evolution. Von den Insekten zu den Menschen war es dann nur noch ein vergleichsweise kleiner Schritt. Wir müssen also erst einmal verstehen, wie und warum sich Einzeller zu komplexen Lebewesen entwickelt haben, dann wird der Rest recht einfach.

Und wie ist der Erkenntnisstand der Neue KI zur Zeit? Nach Dennet befindet sich die Robotik ja noch im Stadium des Bakteriums. Robocteria?

Ich bin nicht ganz sicher. Natürlich haben Bakterien schon eine enorme Komplexität. Sensorik, Motorik, interne Verarbeitung, Stoffwechsel…

Selbstreproduktion…

…richtig, sie hat genetisches Material. Insgesamt enorme Komplexität. Wir versuchen heute in erste Linie das Verhalten von Insekten zu verstehen, machen aber auch Experimente, die in Richtung des Verständnis´ menschlicher Intelligenz gehen. Brooks liebt es Roboter zu bauen, und letztlich wollte er einen humanoiden Roboter bauen, weil das spektakulärer ist. Aber auch hier hat er wieder die richtigen Ideen gehabt und sehr viel Wert auf die Sensormotorik gelegt. Er ist ohnehin ein ungewöhnlicher Forschertyp. Sein Onkel ist der Regisseur Mel Brooks, wie er einmal erzählte. Ich weiß nicht genau, ob das stimmt.

So oder so hat er anscheinend Humor.

Rolf Pfeifer AI Lab Zürich

Rolf Pfeifer Copyright AI Lab Zürich

Der kann die Leute nach belieben verarschen. Und wenn er sagt, dass sie einen Roboter bauen werden, der die Intelligenz eines 4jährigen Kindes hat, dann darf man das nicht allzu ernst nehmen. Ich erinnere mich, dass er auf einem Vortrag einmal die erste Folie auflegte auf der stand nur: „THINK BIG“.

In der Neuen KI kommen die Gedanken der Systemtheorie, eigentlich schon in den 60 Jahren entworfen, zu später Ehre. Rückkopplungsschleifen, stabile Eigenwerte, Selbstorganisation. Was bedeuten diese Begriffe für die Neue KI? Und wie hängen Rückkopplungsschleifen und sensormotorische Kopplung zusammen?

Feedbackschleifen sind mittlerweile überall entdeckt und nutzbar gemacht worden. Die alten Kybernetiker, wie beispielsweise Norbert Wiener, waren ja zugleich an den Entwicklungen der ersten Digitalcomputer beteiligt. Man muss die damalige Euphorieverstehen, denn plötzlich stand eine anscheinend alles könnende Maschine zur Verfügung. Die Kybernetik geriet so in den Sog der Bestrebung, alles zu digitalisieren. Parallel dazu entwickelte sich die Idee, dass auch das natürliche Denken wie ein Computer funktioniert. So kam es zum Ausdruck des „Elektronengehirns“ und der Idee, dass auch der Mensch nach dem Schema von Input, Verarbeitung und Output arbeitet. Viele Talente der Kybernetik und des systemischen Denkens wanderten zur klassischen KI. Die frühen Kybernetiker formulierten Grundlegendes, die Ideen eines Heinz von Foerster sind beispielsweise so aktuell wie nie. Dann schlief die Bewegung ein und erst durch das Aufkommen der Neuronalen Netze wurden die Ideen wiederbelebt. Ich erinnere mich an eine Zeit, da war es in der klassischen KI verpönt, überhaupt von reellen Zahlen zu reden. Man unterhielt sich in Form von abstrakten Symbolen, welche die Essenz der Intelligenz darstellen sollten. Durch die Neuronalen Netze kam eine neue Qualität in Bezug auf Feedback ins Spiel. Bei diesen hat man eben nicht mehr nur einen Wert und eine Rückkopplungsschleife, sondern man hat eine enorme Menge von Rückkopplungsdaten. Deswegen spricht man heute auch eher von rekurrenten Netzen. Edelmann fing damit an, von Re-Entry und nicht von Rückkopplung zu sprechen. Die dichte Verknüpfung der Netze untereinander und Rückkopplungen in diesen Verknüpfungen stellen die neue Dimension da, die nicht mehr allein durch das Prinzip von „set-value – Feststellung einer Abweichung vom effektiven Wert – Fehlerkorrektur“ bestimmt werden kann.

Roboterbau bedeutet ja aber auch heute noch nicht, dass auf sensormotorische Kopplung und Situatedness gesetzt wird.

Leider nicht. Im Forschungszentrum eines grossen Automobilkonzerns brachte mir im Jahr 2000 ein Roboter eine Tasse Kaffee. Er rollte zunächst zum Kaffee-Automaten, scannte mit einem enorm teuren Laser den Abstand für ein Distanzprofil, sodann setzte er seinen Path-Planer ein, der den Pfad für die weitere Aktion berechnet hat. Während der dann folgenden Ausführung des Pfads fand keine Kopplung mit der Umwelt da. Leider lag aber die Tasse etwas schräg im Greifarm des Roboters, so dass er fast das Rohr, aus dem der Kaffee strömen sollte, abgebrochen hat. Wenn er eine sensormotorische Kopplung gehabt hätte, wäre das gar kein Problem gewesen, weil er das sofort bemerkt hätte.

Ein Problem beim Aufbau komplexer Systeme besteht ja offen sichtlich darin, dass sich die einzelnen Elementarverhalten gegenseitig beeinflussen. Wie wollen Sie das Scaling-Up-Problem lösen?

Wenn man unter verhaltensbasierter Robotik die Grundidee versteht verschiedenen Verhalten parallel laufen zu lassen, dann ergeben sich da tatsächlich Probleme der Interaktion. Unbedingt zu berücksichtigen ist aber, dass sich die lose gekoppelte Prozesse weitgehend über den Körper und die Interaktion mit der Umwelt selbst koordinieren. Brooks mit seinem Ansatz der Subsumption hatte da mal wieder eine gute Intuition. Wer das ganz brillant in seine Arbeit einbezogen hat, ist der Holk Cruse aus Bielefeld. Als Beispiel: Wenn man klassisch denkt, dann geht man immer davon aus, dass alles von einem neuronalen Zentrum koordiniert werden muss. Cruse hat für gewisse Stabinsekten herausgefunden, dass diese beim Gehen kein Zentrum benötigen, welches die Bewegung der Beine koordiniert.

Wie geht das?

Zum einen ändert sich die Kraft auf allen anderen Beinen, wenn das Insekt ein Bein vom Boden abhebt. Also brauche ich lediglich noch Kraftsensoren in den Beinen, die diese Veränderung messen und ich habe globale Kommunikation der Beine untereinander, aber nicht über das neuronale System, sondern über die Interaktion mit der Umwelt. Und diese Kommunikation kann nun zur koordinierten Fortbewegung verwendet werden. Die sechs Beine sind untereinander neuronal gekoppelt, wobei nicht einmal eine Verbindungen zwischen allen Beinen besteht, sondern die benachbarten und gegenüber liegenden Beine verbunden sind. Wenn das Insekt mit seinen sechs Beinen auf dem Boden steht und ein Bein hebt, dann ändert sich in diesem Moment die Kraftverteilung auf den anderen Beinen und diese werden leicht in die angedeutete Richtung mitgezogen. Dann braucht es nur noch einer positiven Feedbackschleife in den Gelenken, um die Bewegung zu verstärken und das Insekt läuft. Der Witz ist: Die Beine kommunizieren global miteinander, aber eben nicht über neuronale Verbindungen, sondern über die Umwelt! Zugleich nutzen sie ihr Embodiment aus. Es ist hilfreich, sich dieser beiden Vorgänge bei der Konstruktion komplexerer Systeme bewusst zu sein.

Zugleich ein wunderbares Beispiel für „cheap design“.

Ich sage immer: „Die Physik ist gratis.“ Von der Bewegungsabläufen von Insekten ist enorm viel zu lernen. Wenn man einen Schritt weiter denkt, dann kann die Natur gar nicht immer mit zentralen Steuerungen arbeiten. Um bei dem Beispiel zu bleiben: Das sechsbeinige Insekt hat pro Bein drei Gelenke. Wenn zentral die Pfade und Trajektorien von 18 Gelenken berechnet werden müssten, dann wäre das Gehirn des armen Insekts hoffnungslos überlastet. Da ist es viel intelligenter, dass Embodiment auszunutzen.

Funktionieren Gliederbewegungen beim Mensch ebenso?

Wenn von Embodiment gesprochen wird, dann denken viele, dass Steuerung noch viel komplizierte wird, weil ich dann zusätzlich noch physikalische Gesetze berücksichtigen muss und somit mehr Parameter zu optimieren habe. Wenn man das Hand-Arm-Schulter System beim Menschen anschaut, dann fallen zunächst die enorm vielen Freiheitsgrade auf – über 30 Stück. Für einen Control-Engineer ist die Steuerung eines solchen Systems ein Albtraum. Wenn ich aber die Gegebenheiten des Körpers und seine Dynamik ausnutze, dann führt das zu überraschenden Ergebnissen. Lässt man beispielsweise die Hand im Gelenk abknicken, so dass die Fingerspitzen nach unten zeigen, und greift dann zu, dann treibt es die fünf Fingerspitzen automatisch in die Mitte zusammen, was nur durch die natürliche Formung der Gelenkschalen und der Hand bedingt ist. Genauso eine simple Funktion kann man zum Bau einer Robotergreifhand nutzen. Ergo: Wenn die Anatomie stimmt, wir nennen es in der Robotik die Morphologie, dann ist die Steuerung fast trivial, auf jeden Fall viel einfacher.

Die meisten Roboterhände sind aber nicht so konstruiert.

Dass ist ja der Fehler, denn die Steuerung der Finger wird dadurch wahnsinnig kompliziert. Viele Erbauer berücksichtigen die Morphologie der Körper nicht. Warum beispielsweise greifen Sie eine Tasse nicht mit den Handrücken zu Ihnen gekehrt, sondern immer so, wie man eine Tasse halt greift?

Es erscheint mir als die natürliche Bewegung.

Eben. Das Muskel-Sehnen-System hat Eigenschaften wie eine aufgezogene Feder, wenn sie den Arm bewusst nach außen drehen und sie lassen dann los, dann dreht der Arm sich automatisch wieder in die natürliche Position zurück. Und zwar nicht, weil ich das vom Hirn aus steuere, sondern aufgrund der Materialeigenschaften des Muskel-Sehnen-Systems. Dieses System übernimmt für mich eine dezentrale Steuerungsfunktion. Unter Berücksichtigung der Materialeigenschaften wird ein Problem, welches auf den ersten Blick enorm kompliziert aussah, plötzlich ganz einfach.

Bei der Erforschung des Menschen wird ja auch immer mehr fest gestellt, dass der Körper nicht allein vom Gehirn gesteuert wird, sondern Körper und Geist zwei Seiten einer Medaille sind. Nicht alle Vorgänge werden berechnet…

…und sind auch nicht berechenbar! Die klassische KI wurde oft kritisiert, weil gewisse Dinge, zum Beispiel Lernen, als „computationally intractable“ galten, eben schlicht aufgrund ihrer Komplexität in ihrer Gesamtheit als nicht berechenbar. Das ist genau der Punkt: Wenn man alles als reine Rechenaufgaben ansieht, dann führt das schnell an Grenzen. In der realen Welt haben wir anatomische und materielle, halt physikalische Einbettungen, deren Berücksichtigung zu Konvergenzen führt. Wenn ich mich in der Umwelt bewege, dann verarbeite ich ja nicht irgendwelche Inputvektoren mit ihren dazugehörigen Merkmalen, sondern ich habe Sensorstimulationen, die sich kontinuierlich verändern. Zudem ändert sich die Sensorstimulation enorm, je nachdem was ich tue. Der Witz ist der: Wenn ich Wahrnehmung als etwas ansehe, was passiv ist, wo ich passiv dasitze, dann muss ich aus diesem Strom irgendwie Information herausholen. Bei der visuellen Wahrnehmung hieße das dann, den auf mich einflutenden Pixelwust zu verarbeiten. Wenn ich das aber umdrehe und sage, „o.k., ich bin ja ein Akteur, ich kann mit der Umwelt interagieren“, dann komme ich dazu, dass ich durch die Interaktion mit der Umwelt meine Sensorstimulation strukturieren kann.

Ein Beispiel, bitte.

Bleiben wir bei der Tasse. Wenn ich eine Tasse fasse und zum Mund führe, dann passiert enorm viel. Erst einmal habe ich visuelle Stimulation, zudem haptische an den Fingerspitzen, dann Stimulation an den Lippen…

…und wenn Sie dabei reden, verändert sich auch die akustische Stimulation durch die Nähe der Tasse…

Richtig. Dieses Muster ist für einen Moment stabil und normiert. Das ist ja, nebenbei gesagt, eines der großen Probleme der cognitive science. Die proximale Stimulation auf der Retina ist zwanzig Zentimeter vor meiner Nase völlig anders als fünf Zentimeter davor. Trotzdem ist es immer ein und dasselbe Objekt. Wenn man die Ähnlichkeiten zwischen diesen Mustern statistisch analysiert, dann ist die praktisch Null. Irgendwie muss der Mensch das transformieren und wie tut er das? Eben durch die verkörperte Interaktion mit der Umwelt, welche die Sensordaten gewissermassen vortransformiert und damit das Problem um Grössenordnungen vereinfacht. Ich bringe das Objekt in das visuelle Feld, erzeuge multimodale Sensorstimulation und diese Stimulation ist korreliert. Mit der Zeit, das heißt der Übung dieser Bewegung, wird aus der extrahierten Information aus einem Sensorkanal ein partieller Prädiktor für die Sensorinformationen, die ich aus anderen Kanälen extrahiere. So lernen auch Kinder: Erst mit der Übung kann es alleine aus der visuellen Sensorextraktion das Objekt rekonstruieren. Die Anatomie und die Interaktion tragen gewissermaßen gratis zur Lösung bei und das vereinfacht das Lernproblem ungemein. Dies kann ein Schlüssel, wohlgemerkt kann, ein Schlüssel zum Scaling-Up Problem sein.

Nun hatte bei uns die Evolution lange Zeit.

Sicher, deswegen können wir gewisse Bewegung halt nicht machen. Einer Maschine wird es immer besser gelingen eine Schraube einzudrehen als einem Menschen.

Ihre Aufgabe ist also der Bau von Robotern, die mit ihrer ganz eigenen Morphologie, die nicht immer an die menschliche Anatomie angelehnt sein muss, Aufgaben in eng begrenzten Bereichen lösen.

Exakt. Die spezifische Morphologie ist anders, aber das Prinzip der sensormotorischen Koordination gilt genau so. Und das auch mit unterschiedlichen Sensoren, sogar welchen, die in der Natur nicht existieren. Das ist dann Artificial Intelligence.

Die Natur arbeitet ja wohl nicht mit der Trennung von Hardware und Software. Muss diese Begriffsspaltung auch in der Robotik überwunden werden?

Ich bin überzeugt davon, dass die Trennung von Hard- und Software eine artifizielle ist. Die liegt uns aber einfach im Blut, weil man die Software mit dem Denken, die Hardware mit dem Körper assoziiert. Eigentlich ein völliger Blödsinn.

Ich erinnere mich an trinkfeste Wochenenden der Jugend, die ein Freund stets mit der Bemerkung „Format C:/“ einläutete. Seine Festplatte sollte formatiert werden. Die bildgebende Kraft des Computers.

Die Computermetapher wird nicht nur von den Forschern der Künstlichen Intelligenz und der Psychologie verbreitet. Auch die Menschen auf der Straße denkt in dieser Metapher. Wie sollte es denn anders sein, so diese Vorstellung, als nach dem Schema Input-Verarbeitung-Output? Oder, wenn man es verfeinert, Sense-Model-Plan-Act? Wir müssen uns von dem Bild verabschieden, dass natürliche wie technische Systeme Informationen verarbeiten, die von außen reinkommen, dann verarbeiten werden und dann erst ein Handeln erfolgen kann. Aber wie gesagt: Das Erzeugen der Sensorstimulation wird durch die verkörperte Interaktion mit der Umwelt bestimmt. Schon bei den Neuronalen Netzen gibt es auf der konzeptionellen Ebene keine Trennung von Programm und Daten mehr. Auch unsere Gehirn funktioniert nicht so. Wo im Gehirn sind die Programme, wo die Daten? Künstliche Neuronale Netze sind ein Schritt in die richtige Richtung, aber das Embodiment muss dazu kommen. Wenn jemand zu mir kommt und von einem Modell mit Neuronalen Netzen spricht, dann will ich das immer in einem Roboter sehen. In dem von uns entwickelten Analog-Robot existiert diese Trennung eben darum auch nicht.

Spielt die Erforschung des Bewusstseins des Menschen eine Rolle in Ihrer Arbeit? Könnte das Sinn machen, dass ein Roboter ein Selbstbild hat, ein Körperbild von sich? Ist Bewusstsein die Super-Instanz, die über alles wacht oder eher ein Nebenprodukt von dem, was vorher abgelaufen ist?

Ein Philosoph sagte uns einmal, wir hätten das Problem des Bewusstsein in unserem Buch „Understanding Intelligence“ clever umschifft. In der Forschung haben wir uns effektiv damit noch nicht befasst. Ich bin mir aber sicher, dass es wichtig für die zukünftige Arbeit ist, dass Roboter eine „Vorstellung“ von ihren Körpern haben sollten. Wenn sie eine Bewegung ausführen, dann sollten sie eine Verhaltensprognose machen können. Wenn eine Roboter eine sensormotorische Kopplung und stabile Sensormuster hat, dann gibt es gute Gründe dafür, dass dieser Roboter selbst die Sensormuster analysieren und nutzen kann. So kommt man langsam auf eine Ebene, wo man dem Roboter so etwas wie Bewusstsein zuschreiben könnte, wenn man das möchte. Das ist natürlich eine nüchterne Sicht, aber wir Schweizer tendieren dazu. Die Amerikaner würden das wahrscheinlich anders ausdrücken und behaupten, „ja klar, wir haben längst Roboter mit Bewusstsein“. Ein Schweizer würde sagen, dass jetzt „feed-forward Netzwerke für Verhaltensprognosen“ existieren. Die Frage ist zudem, was man meint mit einem Körperbild.

Beim Menschen ist ein Körperbild eine möglichst vollständige Ausdehnung des Ich auf den gesamten Körper.

Dann bleibt die Frage, ob das Ich als zentrale Instanz einen Überblick über den gesamten Körper hat oder ob es keine zentrale Lokalisation des Körperbilds gibt. Die zweite Variante scheint mir plausibler und wenn Roboter in Zukunft wirklich gut sein sollen, dann brauchen sie so ein Körperbild.

Welche Rolle spielt die Parallelität von Sensormotorik und kognitiver Leistung?

Wir haben viel mit Kategorisierungen gearbeitet, die ja die elementarste kognitive Operation ist. Wenn ich keine Unterscheidungen in der realen Welt mache, dann kann ich nicht viel, dann überlebe ich nicht lange. Die Idee dabei war, dass über die Sensormotorik Kategorisierung geleistet wird und darauf aufbauend Kognition gewissermaßen „gebootstrapt“ wird. Rizolatti hat da interessante Experimente mit Primaten durchgeführt, später wurde das auch bei Menschen nachgewiesen. Zwei Menschen sitzen sich dabei gegenüber. Wenn der eine die Hand auf dem Tisch liegen hat und einen Finger hebt, dann soll die zweite Person ebenfalls den Finger heben oder nicht. Im prämotorischen Kortex sind dann bei der zweiten Person gewisse neuronale Areale aktiv und zwar unabhängig davon, ob diese die Bewegung selbst ausführt oder nur anschaut. Das gibt zu Spekulationen Anlass, wie sich so ein Verhalten evolutionär entwickelt haben könnte. Die Hypothese dahinter ist, dass die sensormotorische Entwicklung die Grundlage für die kognitive Entwicklung bildet. Spekulativ, aber hoch interessant.

Ein Hinweis darauf, dass Gehirn und Körper sich evolutionär parallel entwickelt haben?

Sicher. Es ist ja nicht so, dass ich die Morphologie habe und sich das Gehirn dann daran anpasst. In der Natur gibt es immer eine Koevolution von Morphologie und neuronalem Substrat. Wie macht das die Natur? Die Struktur des Gehirns ist ja nicht vorkodiert, denn der Informationsgehalt des Genoms ist dafür viel zu klein. Was allerdings im Genom kodiert ist, sind die Wachstumsprozesse. Und wir versuchen nun diesen Prozess künstlich in Gang zu setzen.

Vielen Dank für das Gespräch.

Gerne, und jetzt machen wir eine kurze Tour durch das Lab.

Das Interview führte Jörg Auf dem Hövel.

Von Jörg Auf dem Hövel ist im discorsi Verlag jüngst das Buch „Abenteuer Künstliche Intelligenz. Auf der Suche nach dem Geist in der Maschine“ erschienen.

Rolf Pfeifer

Prof. Dr. Rolf Pfeifer hat seinen Magister der Physik und Mathematik und seinen Doktorgrad in Computerwissenschaften an der Eidgenössischen Technischen Hochschule in Zürich (ETH), Schweiz, erworben. Nach seiner Promotion arbeitete er drei Jahre an der Carnegie-Mellon University und der Yale University in den USA. Seit 1987 ist er Professor für Computerwissenschaften am Institut für Informationstechnologie der Universität Zürich und Direktor des Labors für künstliche Intelligenz. Sein Forschungsinteresse gilt der „embodied artificial intelligence“, der Biorobotik, autonomen Agenten/mobilen Robotern, der Bildungstechnologie, der künstlichen Evolution und Morphogenese sowie der Emotion.

Schreibe einen Kommentar

Pflichtfelder sind mit * markiert.


*