Künstliche Intelligenz

Anthropics Projekt Deal ermöglicht es Claude-Agents, reale Güter zu handeln

mm

Anthropic veröffentlichte am 24. April die Ergebnisse von “Project Deal“, einem einwöchigen internen Experiment, bei dem Claude-Agents im Auftrag von 69 Mitarbeitern im San Francisco-Büro der Firma reale Artikel kauften und verkauften.

Die Agenten schlossen 186 Geschäfte im Wert von knapp über 4.000 Dollar ab – und die Studie ergab, dass Teilnehmer, die von stärkeren Modellen vertreten wurden, messbar bessere Ergebnisse erzielten, die ihre menschlichen Counterparts nicht bemerkten.

Die Ergebnisse, die von den Anthropic-Forschern Kevin K. Troy, Dylan Shields, Keir Bradwell und Peter McCrory verfasst wurden, liefern das klarste Bild davon, wie ein AI-vermittelter Markt tatsächlich funktionieren könnte, wenn Agenten auf beiden Seiten einer Transaktion verhandeln.

Sie werfen auch eine “unbequeme Implikation” auf, die das Unternehmen sagt, dass die Branche, die Regulierungsbehörden und die Nutzer konfrontieren müssen, bevor agentic commerce mainstream wird.

Wie Projekt Deal funktionierte

Das Experiment lief über eine Woche im Dezember 2025.

Anthropic rekrutierte 69 Mitarbeiter, gab jedem ein “Budget” von 100 Dollar (das nach dem Experiment in Form eines Geschenkgutscheins ausgezahlt wurde, plus/minus dem Wert dessen, was sie kauften oder verkauften) und ließ Claude ein kurzes Interview mit jedem Freiwilligen führen, um herauszufinden, was sie verkaufen wollten, zu welchem Preis, was sie kaufen wollten und welchen Verhandlungsstil ihr Agent verwenden sollte. Anthropic verwandelte dann diese Antworten in eine benutzerdefinierte Systemanweisung für jeden Agenten.

Anthropic führte dann vier parallele Märkte in Slack-Kanälen durch.

“In Run A und Run D basierte jedes Agenten-Modell auf Claude Opus 4.5, unserem damaligen Frontier-Modell”, sagte das Team. “In den anderen beiden Läufen (Runs B und C) hatten die Teilnehmer eine 50-prozentige Chance, Claude Haiku 4.5 zugeteilt zu bekommen, einem weniger leistungsfähigen Modell.”

Nur Run A war der “echte” Lauf, bei dem tatsächlich Waren gehandelt wurden; die anderen drei waren Studienbedingungen, und die Teilnehmer wurden nicht darüber informiert, welcher Lauf der echte war, bis nach einer postexperimentellen Umfrage.

Es gab keine menschliche Intervention, sobald die Agenten eingesetzt waren.

Das Projekt-Slack-Channel scrollte zufällig durch die Agenten, sodass sie ein Artikel zum Verkauf anbieten, ein Angebot für die Ware eines anderen machen oder ein Geschäft abschließen konnten. Wesentlich war, dass es keine menschliche Intervention gab, sobald das Experiment begann.

Über 500 gelistete Artikel identifizierten die Agenten Matches, schlugen Preise vor und schlossen Geschäfte autonom ab. Menschen kamen nur am Ende wieder ins Spiel, um die Waren physisch auszutauschen, über die ihre Agenten einig geworden waren.

Stärkere Modelle verhandeln leise bessere Deals

Die Schlagzeile ist einfach: Die Agentenqualität ist wichtig, und sie ist wichtig in Dollar.

Über 161 Artikel, die in mindestens zwei der vier Läufe verkauft wurden, erzielte ein Opus-Verkäufer im Durchschnitt 2,68 Dollar mehr, während ein Opus-Käufer 2,45 Dollar weniger bezahlte. Wenn ein Opus-Verkäufer auf einen Haiku-Käufer traf, lag der durchschnittliche Preis bei 24,18 Dollar, im Vergleich zu 18,63 Dollar für Opus-zu-Opus-Geschäfte. Mit einem Medianpreis von 12 Dollar und einem Durchschnitt von 20,05 Dollar über alle Läufe hinweg sagt Anthropic, dass diese Lücken nicht trivial seien.

Einzelne Fälle waren schärfer.

Das gleiche gebrochene Faltrad, gleicher Käufer, gleicher Verkäufer: Der Opus-Agent erzielte 65 Dollar, der Haiku-Agent nur 38 Dollar.

Ein in einem Labor gezüchteter Rubin, der für 65 Dollar verkauft wurde, als Haiku die Liste führte, nur 35 Dollar.

Der Haken ist, was die Teilnehmer nicht wahrgenommen haben.

Trotz des klaren Preisabstands bewerteten die Teilnehmer mit Haiku-Agents die Fairness ihrer Geschäfte fast gleich wie die Opus-Nutzer: 4,06 gegenüber 4,05 auf der Fairnessskala.

“Achtundzwanzig unserer Teilnehmer hatten Haiku in einem Haiku- und Opus-Laufen und Opus in dem anderen. Und obwohl 17 von ihnen ihren Opus-Laufen über ihren Haiku-Laufen bewerteten, taten 11 das Gegenteil”, schrieb das Unternehmen.

Ein zweites, kontraintuitives Ergebnis: Die Verhandlungsstile, die die Teilnehmer in ihren Eingangsinterviews angefordert hatten, hatten kaum Auswirkungen auf die Ergebnisse.

Aggressive Verkäufer erzielten höhere Preise, aber nur, weil sie höhere Eröffnungspreise zu Beginn festgelegt hatten, sagt Anthropic.

Aggressive Anweisungen produzierten keine statistisch signifikante Steigerung der Verkaufswahrscheinlichkeit, des Verkaufspreises oder des Kaufpreises, sobald die höheren Angebotspreise, die diese Nutzer festgelegt hatten, kontrolliert wurden. Die Modellwahl war wichtiger als die Anweisung.

Was es für agentic commerce bedeutet

Project Deal ist ein Pilot, kein Produkt, und Anthropic ist vorsichtig, die Grenzen zu markieren – ein selbstausgewählter Mitarbeiterstichprobenpool, geringe Einsätze und keine adversativen Akteure. Trotzdem sagten 46 Prozent der Teilnehmer, sie würden für einen solchen Service bezahlen, was Anthropic als Beweis dafür ansieht, dass agentenvermittelte Peer-to-Peer-Handel nicht weit entfernt ist.

Diese Zeit ist wichtig, weil Anthropic Claude offensichtlich auf Consumer-Transaktionen ausgerichtet hat. Das Unternehmen veröffentlichte kürzlich einen Blog-Beitrag, in dem es sich verpflichtet, Claude-Gespräche werbefrei zu halten, während es ausdrücklich agentic commerce befürwortet, und es hat Unternehmensinfrastruktur wie Managed Agents aufgebaut, um Claude aufseiten der Nutzer über Drittanbieter-Dienste handeln zu lassen. Project Deal landet als Forschungsartefakt, das stillschweigend die Fehlermodi dieser Zukunft kartiert.

Anthropic hebt drei Bedenken hervor, die aus dem Experiment resultieren. Erstens würden in einer Welt mit Unternehmen anstelle von Freiwilligen die Anreize sehr unterschiedlich aussehen. Die Optimierung für AI-Agenten-Aufmerksamkeit könnte zu einem mächtigen Werkzeug werden, das nicht unbedingt im Interesse der Menschen arbeitet.

Zweitens könnte die Optimierung von Systemen für AI-Agenten-Aufmerksamkeit – anstelle von menschlicher Aufmerksamkeit – neue Manipulationsflächen einführen, einschließlich Jailbreaking und Prompt-Injection.

Drittens “existieren die politischen und rechtlichen Rahmenbedingungen für AI-Modelle, die in unserem Auftrag transaktieren, noch nicht”, schreibt das Unternehmen.

Die unbeantwortete Frage ist, ob die Offenlegung die Wahrnehmungslücke schließen kann. Die Teilnehmer von Project Deal wussten nicht, welches Modell sie vertrat, was in etwa der Situation entspricht, die Nutzer in jedem Consumer-Rollout vorfinden werden. Wenn eine Fairnesslücke zwischen Opus und Haiku unsichtbar ist innerhalb einer selbstausgewählten Anthropic-Belegschaft, die ein einwöchiges Experiment mit 100-Dollar-Einsätzen durchführt, wird sie wahrscheinlich unsichtbar bleiben – es sei denn, Märkte sind verpflichtet, zu offenbaren, welcher Agent für wen und auf welcher Fähigkeitsstufe handelt. Das ist die Art von regulatorischer Frage, die Anthropic jetzt öffentlich einlädt, und es ist diejenige, die am wahrscheinlichsten zuerst auftreten wird, wenn agentenvermittelter Handel über einen Slack-Kanal in San Francisco hinausgeht.

Alex McFarland ist ein KI-Journalist und Schriftsteller, der die neuesten Entwicklungen im Bereich der künstlichen Intelligenz erforscht. Er hat mit zahlreichen KI-Startups und Veröffentlichungen weltweit zusammengearbeitet.