Wie verändert der Durchbruch bei den LLMs unsere Sicht auf diese Beziehung? Was bedeutet diese Beziehung für die Zukunft der KI und das Geschäft mit ihr? Wissen Sie, was noch verblüffender ist als LLMs? Gespaltene Gehirne, wie das, das Spalthirn Joe hat.
Sprache und Intelligenz: Es ist kompliziert
Die beiden Hälften des menschlichen Gehirns sind normalerweise durch eine "Brücke", das Corpus callosum, verbunden. Zur Behandlung von Epilepsie wurde Joes Brücke chirurgisch durchtrennt, wodurch er zwei unabhängige Gehirne erhielt. Das machte ihn zu einem wertvollen Objekt für wichtige neurologische Experimente. Und genau das hat Michael Gazzaniga getan. Es gibt eine Menge faszinierender Dinge , die hier geschehen, aber dieses Video behandelt den Teil, der für die Diskussion über das LLM relevant ist.
- In dem Experiment präsentierte Michael Gazzaniga ein Bild (eine Säge) in Joes linkem Gesichtsfeld und ein anderes (einen Hammer) in seinem rechten Gesichtsfeld. Diese Bilder flossen zur gegenüberliegenden Seite des Gehirns, d. h. das linke Bild zur rechten Hemisphäre und umgekehrt.
- Michael fragte Joe dann: "Was hast du gesehen?". Interessanterweise antwortete Joe, dass er nur das sah, was in sein rechtes Auge projiziert wurde: "einen Hammer". Er war sich nicht bewusst, dass es ein Bild in seinem linken Auge gab. Denken Sie daran, dass die linke Hemisphäre die Sprachzentren des Gehirns beherbergt. Da sie nun von der rechten Hemisphäre getrennt ist, verarbeitet sie nur Informationen aus dem rechten Gesichtsfeld, dem Hammer. Daher war sie in der Lage, ihn zu artikulieren. Joe war sich nur dessen bewusst, was er zu artikulieren vermochte.
- Michael gab Joe dann einen Stift in jede Hand und bat ihn zu zeichnen, was er sah. Die rechte Hand ist mit der linken Hemisphäre verbunden. Mit seiner rechten Hand zeichnete er den Hammer, den er mit seinem rechten Auge sah.
- Hier wird es faszinierend: Mit der linken Hand hat er die Säge gezeichnet, die er mit dem rechten Auge gesehen hat ( 🙂 ), obwohl er sich nicht bewusst war, dass er sie gesehen hat. Hier ist es wieder.
- Joe war überrascht, dass er eine Säge gezeichnet hatte, obwohl er einen Hammer gesehen hatte. Auf die Frage "Warum hast du eine Säge gezeichnet?", konnte Joe nur ausrufen: "Ich weiß es nicht!". Michael interpretierte, dass die Information über die Säge zwar in Joes Gehirn war, aber nicht zu seinem Bewusstsein gehörte. Er konnte immer noch auf diese Information reagieren (das Bild zeichnen), aber er war sich dessen nicht bewusst.
Diese Experimente haben gezeigt, dass es eine enge Verbindung zwischen Sprache und Bewusstsein gibt. Von den beiden Hemisphären war diejenige, die kommunizieren konnte, diejenige mit dem Bewusstsein. Die andere Hemisphäre war genauso intelligent, sie verfügte nur nicht über ein Sprachzentrum. Die Split-Brain-Experimente lieferten eine wertvolle experimentelle Grundlage für die jahrhundertealte philosophische Debatte über die Natur des Bewusstseins. Sie brachten das Bewusstsein mit der Sprachfähigkeit in Verbindung. Andererseits entkoppelten sie das Bewusstsein von der Intelligenz.
Die Fähigkeit zur menschenähnlichen Kommunikation war in unserer kollektiven Vorstellung schon immer ein Schummelcode, um den Status der Intelligenz zu erlangen.
Das ist für uns nur schwer zu begreifen. Wie können wir uns nur dessen bewusst sein, was wir kommunizieren können? Wie können wir intelligent sein, ohne bewusst zu sein? Was ist mit Dingen, die kommunizieren können? Sind sie bewusst? Sind sie intelligent?
Überspringen des Kaninchenbaus des Bewusstseins.
Wir lieben es, Sprachkenntnisse mit Intelligenz gleichzusetzen
Wir haben eine lange Tradition in diesem Bereich. Koko, der Gorilla, hat die Öffentlichkeit mit seiner Fähigkeit, die menschliche Zeichensprache zu verwenden, in seinen Bann gezogen. Krähen hingegen wurden jahrzehntelang von der neurowissenschaftlichen Gemeinschaft ignoriert, obwohl sie erstaunliche kognitive Fähigkeiten zeigten, die denen von Gorillas in nichts nachstanden. Wir sind so gepolt, dass wir authentischer Kommunikation einen hohen Stellenwert beimessen und überall, wo wir diese Fähigkeit finden, Intelligenz vermuten. Sobald wir in der Lage waren, Computer zu bauen, legten wir die Sprachfähigkeit als Maßstab für die Intelligenz von KI-Systemen fest. Alan Turing hat das getan.
Nachdem Alan Turing in den 1930er Jahren den Startschuss für die moderne Computertechnik gegeben hatte, stellte er sich die Frage, wie ein "intelligenter Computer" aussehen würde. In dem später so genannten "Turing-Test" schlug er vor, dass ein intelligenter Computer über Kommunikationsfähigkeiten verfügen sollte, die von denen eines Menschen nicht zu unterscheiden sind. In der ursprünglichen Formulierung des Tests führt ein Befrager ein textbasiertes Gespräch mit einem menschlichen Teilnehmer und einer Maschine (allgemein als "Turing-Maschine" oder "KI-Einheit" bezeichnet). Der Befrager weiß nicht, ob er mit einem Menschen oder einer Maschine kommuniziert. Ziel des Tests ist es, dass die Maschine Antworten gibt, die so überzeugend menschenähnlich sind, dass der Befrager nicht zuverlässig zwischen Maschine und Mensch unterscheiden kann. Gelingt es der Maschine, dem Fragesteller vorzugaukeln, sie sei ein Mensch, so hat sie den Turing-Test bestanden.
Ob bei Tieren oder Computern, wir verherrlichen die Sprache. Die Fähigkeit zur menschenähnlichen Kommunikation war in unserer kollektiven Vorstellung schon immer ein Schummelcode, um den Status der Intelligenz zu erlangen. Sprache und Intelligenz sind oft eng miteinander verwoben. Die Tatsache, dass ein Algorithmus, der das nächste Wort in einem Satz vorhersagt, nun scheinbar über hohe Denkfähigkeiten verfügt, zeigt dies. Aber es gibt Intelligenz, wo es keine Sprache gibt, und es gibt nicht immer Intelligenz, wo es Sprache gibt.
Sprache, wo es keine Intelligenz gibt
...und das scheint der zentrale Punkt in solchen Debatten zu sein: ob ein Akteur tatsächlich versteht, was er sagt, oder ob er nur den Anschein von Verständnis hat. Das philosophische Kaninchenloch ist hier bodenlos. Der technische Aspekt dieser Frage ist für die Zukunft der künstlichen Intelligenz von großer Bedeutung: Worin besteht der Unterschied zwischen der Entwicklung eines Systems, das wirklich versteht, und dem bloßen Anschein von Verständnis? Ist der Anschein von Verständnis von Wert? Welchen Wert hat wahres Verstehen?
Wo Sprache und Intelligenz aufeinander treffen
Den Anschein des Verstehens zu erwecken, ist an sich schon ein technischer Durchbruch. Das Prinzip hinter großen Sprachmodellen hat einen täuschend einfachen Namen: Vorhersage des nächsten Wortes. Mithilfe bestimmter KI-Magie (Transformatoren) werden diese Modelle darauf trainiert, das nächste Wort aus einer Reihe von Wörtern vorherzusagen. Mit astronomischen Datenmengen und noch mehr KI-Magie würden diese Modelle ein fast makelloses Verständnis erzeugen.
Die Sprache ist eine stark verdichtete Form nicht nur unseres Wissens, sondern auch unseres Intellekts.
In einer kürzlich veröffentlichten Arbeit haben Microsoft-Forscher nachgewiesen, dass GPT4 über hohe Denkfähigkeiten in den Bereichen Mathematik, Codierung und Physik verfügt. Das Erstaunliche daran war, dass das Modell in der Lage war, Probleme zu lösen, die es (wahrscheinlich) noch nie gesehen hatte. Denkfähigkeit ist schließlich die Fähigkeit, aus vorhandenem Wissen neues Wissen zu schaffen. Dieses Verhalten scheint weit über den bloßen "Schein" des Verstehens und alles hinauszugehen, was wir bisher von einem KI-System gesehen haben. Die Forscher nannten die Arbeit "Sparks of A.G.I." und verkündeten damit die Anfänge der Künstlichen Allgemeinen Intelligenz.
Aber wie kann das sein? Wie kann ein System, das nur auf Sprache trainiert ist, so gut im allgemeinen Denken werden? Könnte es sein, dass die Sprache viel mehr von unserem Denkvermögen enthält, als wir dachten? Ist es möglich, dass ein großer Teil unseres Denkens und unserer kognitiven Fähigkeiten in all der Sprache, die wir produzieren, kodiert ist? LLMs merken sich nicht nur riesige Datenmengen, sie entschlüsseln und erlernen auch die zugrunde liegende Struktur der Sprache. Diese Struktur ermöglicht es ihnen, eine menschenähnliche Sprache zu erzeugen.
Aber es scheint, dass diese Modelle durch das Erlernen der Sprachstruktur einige unserer kognitiven und logischen Mechanismen gelernt haben, die in ihnen kodiert sind. Wenn die Forscher ihm neue Probleme vorlegten, scheint GPT4 diese Mechanismen zu nutzen, um sie zu lösen und so "neues Wissen" zu produzieren. Sprache ist eine stark verdichtete Form nicht nur unseres Wissens, sondern auch unseres Intellekts. GPT4 hat sich dieses Wissen gemerkt, einen Teil dieses Intellekts verinnerlicht und wendet es auf neue Probleme an, für die es nicht trainiert wurde. Unabhängig davon, ob es sich um eine künstliche Intelligenz (AGI) handelt oder nicht, ist dies ein großer Fortschritt gegenüber dem, was wir bisher von KI-Systemen gesehen haben.
Aber einige Linguisten wussten das schon immer. Noam Chomsky stellte die Theorie auf, dass alle menschlichen Sprachen eine solche universelle Struktur aufweisen. Er nannte sie "Universelle Grammatik". Er argumentierte, dass Babys mit dieser Struktur fest verdrahtet sind, was es ihnen ermöglicht, Sprachen so schnell und genau zu lernen. Vielleicht ist es genau das, was GPT4 erfasst hat, und vielleicht ist die universelle Grammatik das, was einen Großteil (aber sicher nicht alles) unserer Denkfähigkeiten kodiert. Wie die Forscher es ausdrücken: " Eine allgemeine Hypothese ist, dass die große Menge an Daten (insbesondere die Vielfalt des Inhalts) neuronale Netze dazu zwingt, allgemeine und nützliche "neuronale Schaltkreise" zu erlernen.
Jedes Mal, wenn wir mit einem System konfrontiert werden, das seine Intelligenz prüft, scheinen wir uns selbst als unscharfen Maßstab zu setzen, die menschliche Sprachfähigkeit zu fetischisieren und alles abzulehnen, was eine statistische Grundlage hat.
Die Fähigkeiten von GPT4 könnten der Beweis für die Existenz der zugrunde liegenden Universalgrammatik sein. Ironischerweise ist Chomsky selbst nicht sehr beeindruckt von ChatGPT. Im Grunde ist er der Meinung, dass es sich dabei nur um Statistiken handelt (was es auch ist) und dass Statistiken die Tiefe unseres Geistes nicht erfassen können. Entweder unterschätzen wir, wie viel von unserem Verstand durch die Sprache durchgesickert ist, oder wir halten unseren Verstand in romantischer Weise für der Statistik ewig überlegen. Wir mögen es einfach nicht, auf Statistiken reduziert zu werden.
So oder so, wir sind nicht einmal annähernd in der Nähe von AGI. Das Papier bietet eine eingehende Analyse und Beispiele für die Unzulänglichkeiten von GPT4 (und LLMs im Allgemeinen) in dieser Hinsicht. Wir haben nicht einmal einen Konsens über die Definition von Intelligenz, geschweige denn von AGI. Jedes Mal, wenn wir mit einem System konfrontiert werden, das seine Intelligenz prüft, scheinen wir uns selbst als unscharfen Standard zu setzen, die menschliche Sprachfähigkeit zu fetischisieren und alles abzulehnen, was eine statistische Grundlage hat.
Das ist zu restriktiv. Was ist mit Joes rechter Gehirnhälfte? Was ist mit den Krähen? Ein gemeinsamer Nenner vieler Definitionen von Intelligenz (oder AGI) ist die Fähigkeit, die Umwelt wahrzunehmen und darin neue Probleme auf neuartige Weise zu lösen, um Bedürfnisse oder Ziele zu erfüllen, ohne dass diese explizit für alle verschiedenen Zustände der Umwelt definiert sind. Diese Art von Intelligenz ist offensichtlich nicht auf den Menschen beschränkt, warum sollte das bei AGI der Fall sein? Wenn überhaupt, dann befreit die Entwicklung von künstlicher Intelligenz weg von unserer Umwelt das Vorhaben von jeglichen selbstverliebten Missverständnissen über Intelligenz, Schummelcodes, Fehlinformationen und vielen anderen Schwierigkeiten, die mit der Menschenähnlichkeit eines künstlichen Agenten einhergehen.
Die Neuroethologie (Tierneurologie) bietet eine gute Möglichkeit, darüber nachzudenken.
Intelligenz, wo es keine Sprache gibt
Es ist schwierig zu verstehen, wie intelligent Tiere wirklich sind. Zunächst einmal können wir nicht vollständig mit ihnen kommunizieren. Noch wichtiger ist, dass wir die Art und Weise, wie viele von ihnen die Welt wahrnehmen und auf sie reagieren, weder vollständig verstehen noch uns vorstellen können.
Der deutsche Biologe Jakob Johann von Uexküll war neugierig darauf, wie Tiere ihre Umwelt wahrnehmen. Im Jahr 1909 prägte er den Begriff "Umwelt", um die sensorische Welt eines Tieres zu beschreiben (im Gegensatz zur wörtlichen deutschen Übersetzung "Umwelt"). Die Umwelt eines Tieres ist eine Verschmelzung aller seiner Sinne, die seine Erfahrung mit seiner Umwelt bildet. Das kürzlich erschienene fantastische Buch "Eine unermessliche Welt" von Ed Yong beschreibt auf unterhaltsame Weise, wie vielfältig und seltsam die Umwelten verschiedener Tiere sind.
Fledermäuse nehmen ihre Umwelt bekanntlich durch Echos wahr. Hummeln nutzen elektrische Felder, um ihre Umwelt aufzubauen. Luftströmungen sind ein wichtiger Teil der Umwelt eines Pfaus. Der ganze Körper eines Welses ist eine "Zunge", die ähnlich funktioniert wie der Tastsinn beim Menschen. Die Umwelt der Fangschreckenkrebse ist so fremdartig, dass ich nicht einmal versuchen würde, sie zu beschreiben.
Eine Umwelt ist nicht nur das, was das Tier wahrnimmt; sie ist das Modell der Welt, in der es handelt, in der es sich bewegt, in der es Probleme löst und in der es mit anderen Lebewesen zusammenlebt. Eine Umwelt ist der Ort, an dem ein Tier seine Intelligenz ausübt. Es geht nicht nur um fremde Wahrnehmungssysteme und Körper. Viele dieser Umwelten sind für uns nicht beschreibbar. Wir können uns nicht vorstellen, was wir nicht wahrnehmen können, und wir können sicherlich nicht darüber kommunizieren.
In der Natur ist unsere Umwelt also nicht die einzige Umwelt mit Intelligenz. Es gibt Intelligenz, wo es keine menschliche Sprache gibt. Wie steht es dann mit AGI? Warum sollten wir uns darauf beschränken, AGI nur in unserer Umwelt zu entwickeln? (Das heißt, wenn wir überhaupt AGI entwickeln sollten... aber das ist ein anderes Thema...., aber wir sollten es tun). Eine "tierähnliche" AGI ist genauso interessant, wenn nicht sogar noch interessanter, als eine menschenähnliche AGI.
AGI für andere Umwelten: Hypothetische Übung
Richtig.
Zuallererst müssen wir eine Umwelt entwerfen. Wir müssen entscheiden, in welcher Art von Umwelt unsere AGI existieren soll. Mit anderen Worten, welche Art von Sinnesorganen soll unsere AGI haben (z. B. Sensoren) und wie soll sie ihre Umgebung beeinflussen (z. B. Aktoren oder das, was die Ingenieure "Agency" nennen). Wir sind gut in solchen Dingen. Wir haben uns so viele Möglichkeiten ausgedacht, Dinge wahrzunehmen, die unseren natürlichen Sinnen nicht zugänglich sind, und haben Wege gefunden, Dinge in der Welt zu tun, die über unseren Körper hinausgehen. Die Entscheidung für die Umwelt ist auch eine "Produkt"-Entscheidung: Sie hängt davon ab, wo wir den Wert einer AGI sehen, die für uns arbeitet. Eine AGI könnte in der Umwelt der Finanzmärkte leben, in der Umwelt der biometrischen Daten eines Patienten, in der Umwelt der physikalischen Gesetze und der entsprechenden Messungen, in der Umwelt des computergestützten Designs in Verbindung mit Produktnutzungsdaten, usw.
Dann müssen wir das Wissen über die Umwelt in das System kodieren und ihm gleichzeitig die Möglichkeit geben, es auf der Grundlage seiner eigenen Erfahrungen in der Umwelt ständig zu aktualisieren. Wir werden in dieser Hinsicht immer besser. Die LLMs sind eine fantastische Grundlage für diese Aufgabe. Sie werden definitiv bessere Schnittstellen haben, Schnittstellen, die unser AGI-System in Echtzeit nutzen kann, und sie werden billiger zu trainieren sein.
Hier wird es knifflig. Die eigentliche Definition von AGI setzt voraus, dass das System in der Lage ist, in unterschiedlichen und neuartigen Situationen intelligent zu handeln. Neue Situationen erfordern neue Zieldefinitionen. Da der Konstrukteur nicht alle Ziele im Voraus explizit festlegen kann, müsste das System sein Ziel jedes Mal neu definieren, wenn es mit einer neuen Situation konfrontiert wird. Es muss sich einige übergeordnete Ziele setzen (wie bei Tieren: fressen, sich fortpflanzen, wiederholen) und herausfinden, was sie in einer bestimmten Situation bedeuten. Die Definition der übergeordneten Ziele wäre eng mit der Wahl der Umwelt verknüpft (z. B. muss unser Finanzmarktagent eher Gewinne erzielen als essen). Wir brauchen "nur" eine Möglichkeit, die Wahrnehmung einer bestimmten Situation zu nehmen, sie zu einem Verständnis zu entwickeln, indem wir sie mit dem Wissen über die Umwelt und den übergeordneten Zielen abgleichen, und dann situationsspezifische Ziele abzuleiten. In diesem Bereich gibt es eine Menge Forschung.
AGI in anderen Umwelten kann unsere Existenz, unser Verständnis und unsere Handlungsfähigkeit auf andere Umwelten ausdehnen, die über unseren Körper hinausgehen. Sie muss aber nicht unbedingt sprachfähig sein. Es kann eine Art Intelligenz der rechten Hemisphäre von Joe sein.
Zwei Seiten einer nicht ganz gleichen Medaille
Die Spaltung von Joes Gehirn hat uns gezeigt, wie eng Sprache und Intelligenz in seiner linken Hemisphäre miteinander verwoben sind. Seine rechte Hemisphäre zeigte uns, wie getrennt Sprache und Intelligenz sein können. ChatGPT und das Argument mit dem chinesischen Zimmer zeigen, dass die Sprachfähigkeit nicht immer die Intelligenz vorhersagt. GPT4 und Chomskys Universalgrammatik zeigen, wie Sprachfähigkeit Intelligenz schaffen kann. Tiere und ihre sehr unterschiedlichen Umwelten inspirieren zu verschiedenen Denkweisen über AGI und unterstreichen die Argumente für Intelligenz ohne Sprache. Sprache und Intelligenz liegen sehr nahe beieinander, sind aber unterschiedlich. Sie sind zwei Seiten einer Medaille, die nicht exakt dieselbe ist.