Künstliche Intelligenz

Leiter der Forschung für Amazon Alexa argumentiert, dass der Turing-Test veraltet ist

Veröffentlicht am 3. Januar 2021

Aktualisiert am 25. Mai 2026

Von

Daniel Nelson

Rohit Prasad, Vizepräsident und Leiter der Wissenschaft bei Alexa von Amazon, hat kürzlich argumentiert, dass der Turing-Test, der lange Zeit verwendet wurde, um die Komplexität von KI-Modellen zu messen, als Benchmark für KI in den Ruhestand gehen sollte.

Der Computerwissenschaftler und Mathematiker Alan Turing hat das Konzept des Turing-Tests vor über 70 Jahren ursprünglich eingeführt. Die Absicht des Turing-Tests war es, bei der Beantwortung der Frage nach der Maschinenintelligenz zu helfen, zu bestimmen, ob eine Maschine in der Lage war, “Gedanken” im menschlichen Sinne zu haben. Um diese Frage zu beantworten, argumentierte Turing, dass wenn Maschinen konversationelles Verhalten so komplex zeigen könnten, dass ein menschlicher Beobachter nicht zwischen dem Dialog des Computers und dem eines Menschen unterscheiden könnte, die Maschine als in der Lage angesehen werden sollte, Gedanken zu haben.

Einschränkungen des Turing-Tests

Prasad argumentierte, dass der Turing-Test auf viele Weise eingeschränkt ist und dass Turing selbst einige dieser Einschränkungen in seinem ursprünglichen Artikel erwähnt hat. Da KI immer mehr in jeden Aspekt unseres Lebens integriert wird, interessieren sich die Menschen weniger dafür, ob es von einem Menschen nicht zu unterscheiden ist, und mehr dafür, dass ihre Interaktionen mit KI reibungslos verlaufen, argumentiert Prasad. Aus diesem Grund sollte der Turing-Test als veraltet angesehen und durch nützlichere Benchmarks ersetzt werden.

Prasad bemerkte, dass viele frühe Chatbots so konzipiert wurden, dass sie den Turing-Test bestehen konnten, und dass in den letzten Jahren einige Chatbots es geschafft haben, mehr als ein Drittel der menschlichen Richter zu täuschen (die Schwelle, die zum Bestehen des Turing-Tests erforderlich war). Es bedeutet jedoch nicht, dass eine Maschine wirklich als “intelligent” angesehen werden kann, nur weil sie die Sprachmuster von Menschen nachahmen kann. KI-Modelle können in einem Bereich extrem kompetent und in anderen extrem unzureichend sein, ohne irgendeine Form von allgemeiner Intelligenz zu besitzen. Trotzdem bleibt der Turing-Test ein häufig verwendetes Benchmark für Chatbots und digitale Assistenten, wobei Prasad bemerkt, dass Geschäftsleiter und Journalisten ständig fragen, wann Alexa in der Lage sein wird, den Turing-Test zu bestehen.

Laut Prasad ist eines der Hauptprobleme bei der Verwendung des Turing-Tests zur Bewertung der Maschinenintelligenz, dass er fast vollständig die Fähigkeit von Maschinen ignoriert, Informationen nachzuschlagen und blitzschnelle Berechnungen durchzuführen. KI-Programme injizieren künstliche Pausen in die Antwort auf komplexe mathematische und geografische Fragen, um Menschen zu täuschen, aber sie haben eine Antwort auf solche Fragen fast sofort. Darüber hinaus berücksichtigt der Turing-Test nicht die zunehmende Fähigkeit von KI, Daten zu verwenden, die von externen Sensoren gesammelt werden, und ignoriert, wie KI mit der Welt um sie herum interagieren kann, indem sie Algorithmen für Sehen und Bewegung verwendet, und verlässt sich nur auf Textkommunikation.

Erstellung neuer Benchmarks

Prasad argumentierte, dass neue Formen der Intelligenzmessung erstellt werden sollten, Methoden, die besser geeignet sind, um eine allgemeine Art von Intelligenz zu bewerten. Diese Tests sollten die Art und Weise widerspiegeln, wie KI in der modernen Gesellschaft tatsächlich verwendet wird, und die Ziele der Menschen bei der Verwendung von KI. Die Tests sollten in der Lage sein, zu bestimmen, wie gut eine KI die menschliche Intelligenz ergänzt und wie gut die KI das tägliche Leben der Menschen verbessert. Darüber hinaus sollte ein Test verstehen, wie eine KI menschliche Intelligenzmerkmale wie Sprachkompetenz, Selbstüberwachung und “gesunden Menschenverstand” manifestiert.

Die aktuellen und wichtigen Bereiche der KI-Forschung, wie Reasoning, Fairness, Konversation und sensorisches Verständnis, werden vom Turing-Test nicht bewertet, können aber auf verschiedene Weise gemessen werden. Prasad erklärte, dass eine Möglichkeit, diese Intelligenzmerkmale zu messen, darin besteht, Herausforderungen in ihre Bestandteile zu zerlegen. Eine andere Methode zur Bewertung besteht darin, eine groß angelegte realweltliche Herausforderung für die Mensch-Computer-Interaktion zu erstellen.

Als Amazon den Alexa-Preis schuf, erstellte es eine Bewertungsrichtlinie, die erforderte, dass soziale Bots 20 Minuten lang mit einem Menschen sprechen. Die Bots wurden auf ihre Fähigkeit bewertet, kohärent über eine breite Palette von Themen wie Technologie, Sport, Politik und Unterhaltung zu sprechen. Kunden waren während der Entwicklungsphase für die Bewertung der Bots verantwortlich und wiesen ihnen Punkte zu, basierend auf ihrem Wunsch, erneut mit dem Bot zu sprechen. Während der finalen Runde waren unabhängige Richter für die Bewertung der Bots mit einer 5-Punkte-Skala verantwortlich. Die von den Richtern verwendete Bewertungsrichtlinie basierte auf Methoden, die es KI ermöglichten, wichtige menschliche Attribute wie Empathie zu zeigen, wo dies angebracht war.

Schließlich argumentierte Prasad, dass die zunehmende Verbreitung von KI-gesteuerten Geräten wie Alexa eine wichtige Gelegenheit darstellt, den Fortschritt von KI zu messen, aber wir werden unterschiedliche Metriken benötigen, um diese neue Gelegenheit zu nutzen.

„Solche KI-Systeme müssen in einer großen, ständig wachsenden Anzahl von Aufgaben Experten sein, was nur mit einer generalisierten Lernfähigkeit möglich ist, anstatt mit einer Aufgaben-spezifischen Intelligenz“, erklärte Prasad. „Daher sind für das nächste Jahrzehnt und darüber hinaus die Nutzen von KI-Diensten mit ihren konversationellen und proaktiven Assistenzfähigkeiten auf umgebenden Geräten ein würdiger Test.”

Daniel Nelson

Blogger und Programmierer mit Spezialisierungen in Machine Learning und Deep Learning Themen. Daniel hofft, anderen zu helfen, die Macht von KI für das soziale Wohl zu nutzen.

Unite.AI

Leiter der Forschung für Amazon Alexa argumentiert, dass der Turing-Test veraltet ist

Einschränkungen des Turing-Tests

Erstellung neuer Benchmarks

You may like