Connect with us

Auto-GPT & GPT-Engineer: Ein detaillierter Leitfaden zu den führenden KI-Agentsen von heute

Künstliche Intelligenz

Auto-GPT & GPT-Engineer: Ein detaillierter Leitfaden zu den führenden KI-Agentsen von heute

mm

Wenn man ChatGPT mit autonomen KI-Agents wie Auto-GPT und GPT-Engineer vergleicht, zeigt sich ein deutlicher Unterschied im Entscheidungsprozess. Während ChatGPT eine aktive menschliche Beteiligung erfordert, um die Konversation zu steuern und auf Basis von Benutzereingaben Anweisungen zu geben, ist der Planungsprozess überwiegend von menschlicher Intervention abhängig.

Generative AI-Modelle wie Transformer sind die State-of-the-Art-Kerntechnologie, die diese autonomen KI-Agents antreibt. Diese Transformer werden auf großen Datensätzen trainiert, sodass sie komplexe Denk- und Entscheidungsprozesse simulieren können.

Open-Source-Ursprünge autonomer Agents: Auto-GPT und GPT-Engineer

Viele dieser autonomen KI-Agents stammen aus Open-Source-Initiativen, die von innovativen Personen angeführt werden, die herkömmliche Arbeitsabläufe transformieren. Anstatt nur Vorschläge zu machen, können Agents wie Auto-GPT unabhängig Aufgaben ausführen, von Online-Shopping bis hin zur Erstellung von Grundanwendungen. OpenAI’s Code Interpreter zielt darauf ab, ChatGPT von der bloßen Vorschlaggebung zu einer aktiven Problemlösung mit diesen Ideen zu upgraden.

Sowohl Auto-GPT als auch GPT-Engineer sind mit der Kraft von GPT 3.5 und GPT-4 ausgestattet. Es erfasst Code-Logik, kombiniert mehrere Dateien und beschleunigt den Entwicklungsprozess.

Der Kern von Auto-GPTs Funktionalität liegt in seinen KI-Agents. Diese Agents sind programmiert, um spezifische Aufgaben auszuführen, von alltäglichen Aufgaben wie der Terminplanung bis hin zu komplexen Aufgaben, die strategische Entscheidungen erfordern. Diese KI-Agents operieren jedoch innerhalb der von den Benutzern festgelegten Grenzen. Durch die Kontrolle ihres Zugriffs über APIs können Benutzer die Tiefe und den Umfang der Aktionen bestimmen, die die KI ausführen kann.

Wenn beispielsweise die Aufgabe besteht, eine Chat-Web-App zu erstellen, die in ChatGPT integriert ist, bricht Auto-GPT das Ziel autonom in handhabbare Schritte auf, wie die Erstellung einer HTML-Oberfläche oder das Skripten einer Python-Back-End. Während die Anwendung diese Vorschläge autonom erzeugt, können Benutzer sie dennoch überwachen und modifizieren. Wie der Ersteller von AutoGPT @SigGravitas zeigt, kann es ein Testprogramm auf Basis von Python erstellen und ausführen.

https://twitter.com/SigGravitas/status/1642181498278408193

Obwohl das folgende Diagramm eine allgemeinere Architektur eines autonomen KI-Agents beschreibt, bietet es wertvolle Einblicke in die Prozesse im Hintergrund.

KI-Agent-Architektur wie Autogpt, GPT-Engineer

KI-Agent-Architektur

Der Prozess beginnt mit der Überprüfung des OpenAI-API-Schlüssels und der Initialisierung verschiedener Parameter, einschließlich Kurzzeitgedächtnis und Datenbankinhalten. Sobald die Schlüsseldaten an den Agent übergeben werden, interagiert das Modell mit GPT3.5/GPT4, um eine Antwort abzurufen. Diese Antwort wird dann in ein JSON-Format umgewandelt, das der Agent interpretiert, um verschiedene Funktionen auszuführen, wie z.B. die Durchführung von Online-Suchen, das Lesen oder Schreiben von Dateien oder sogar das Ausführen von Code. Auto-GPT verwendet ein vorge trainiertes Modell, um diese Antworten in einer Datenbank zu speichern, und zukünftige Interaktionen verwenden diese gespeicherten Informationen als Referenz. Der Kreislauf setzt sich fort, bis die Aufgabe als abgeschlossen gilt.

Einrichtungsanleitung für Auto-GPT und GPT-Engineer

Die Einrichtung von Cutting-Edge-Tools wie GPT-Engineer und Auto-GPT kann Ihren Entwicklungsprozess optimieren. Im Folgenden finden Sie eine strukturierte Anleitung, um beide Tools zu installieren und zu konfigurieren.

Auto-GPT

Die Einrichtung von Auto-GPT kann komplex erscheinen, aber mit den richtigen Schritten wird es einfach. Diese Anleitung deckt das Verfahren zur Einrichtung von Auto-GPT ab und bietet Einblicke in seine vielfältigen Szenarien.

1. Voraussetzungen:

  1. Python-Umgebung: Stellen Sie sicher, dass Sie Python 3.8 oder höher installiert haben. Sie können Python von der offiziellen Website herunterladen.
  2. Wenn Sie Repositorys klonen möchten, installieren Sie Git.
  3. OpenAI-API-Schlüssel: Um mit OpenAI zu interagieren, benötigen Sie einen API-Schlüssel. Erhalten Sie den Schlüssel aus Ihrem OpenAI-Konto
Open AI API-Schlüssel

Open AI API-Schlüssel-Generierung

Speicher-Backend-Optionen: Ein Speicher-Backend dient als Speichermechanismus für AutoGPT, um auf wesentliche Daten für seine Operationen zuzugreifen. AutoGPT verwendet sowohl Kurzzeit- als auch Langzeit-Speicherfähigkeiten. Pinecone, Milvus, Redis und andere sind einige verfügbare Optionen.

2. Einrichten Ihres Arbeitsbereichs:

  1. Erstellen Sie eine virtuelle Umgebung: python3 -m venv myenv
  2. Aktivieren Sie die Umgebung:
    1. MacOS oder Linux: source myenv/bin/activate

3. Installation:

  1. Klonen Sie das Auto-GPT-Repository (stellen Sie sicher, dass Git installiert ist): git clone https://github.com/Significant-Gravitas/Auto-GPT.git
  2. Um sicherzustellen, dass Sie mit Version 0.2.2 von Auto-GPT arbeiten, möchten Sie checkout zu dieser bestimmten Version ausführen: git checkout stable-0.2.2
  3. Navigieren Sie zum heruntergeladenen Repository: cd Auto-GPT
  4. Installieren Sie die erforderlichen Abhängigkeiten: pip install -r requirements.txt

4. Konfiguration:

  1. Finden Sie .env.template im Hauptverzeichnis /Auto-GPT. Duplizieren und benennen Sie es in .env um
  2. Öffnen Sie .env und setzen Sie Ihren OpenAI-API-Schlüssel neben OPENAI_API_KEY=
  3. Ähnlich wie bei der Verwendung von Pinecone oder anderen Speicher-Backends aktualisieren Sie die .env-Datei mit Ihrem Pinecone-API-Schlüssel und der Region.

5. Befehlszeilenanweisungen:

Auto-GPT bietet eine umfangreiche Reihe von Befehlszeilenargumenten, um sein Verhalten anzupassen:

  • Allgemeine Verwendung:
    • Anzeigen der Hilfe: python -m autogpt --help
    • Anpassen der KI-Einstellungen: python -m autogpt --ai-settings <Dateiname>
    • Spezifizieren eines Speicher-Backends: python -m autogpt --use-memory <Speicher-Backend>
AutoGPT-CLI

AutoGPT in CLI

6. Starten von Auto-GPT:

Sobald die Konfigurationen abgeschlossen sind, initiieren Sie Auto-GPT mit:

  • Linux oder Mac: ./run.sh start
  • Windows: .run.bat

Docker-Integration (empfohlene Einrichtungsansatz)

Für diejenigen, die Auto-GPT containerisieren möchten, bietet Docker einen optimierten Ansatz. Beachten Sie jedoch, dass die anfängliche Einrichtung von Docker leicht kompliziert sein kann. Verweisen Sie auf Docker’s Installationshandbuch für Unterstützung.

Führen Sie die folgenden Schritte aus, um den OpenAI-API-Schlüssel zu modifizieren. Stellen Sie sicher, dass Docker im Hintergrund läuft. Gehen Sie nun zum Hauptverzeichnis von AutoGPT und folgen Sie den folgenden Schritten auf Ihrem Terminal

  • Erstellen Sie das Docker-Image: docker build -t autogpt .
  • Führen Sie nun aus: docker run -it --env-file=./.env -v$PWD/auto_gpt_workspace:/app/auto_gpt_workspace autogpt

Mit docker-compose:

  • Führen Sie aus: docker-compose run --build --rm auto-gpt
  • Für zusätzliche Anpassungen können Sie zusätzliche Argumente integrieren. Zum Beispiel, um mit –gpt3only und –continuous zu laufen: docker-compose run --rm auto-gpt --gpt3only--continuous
  • Angesichts der umfassenden Autonomie, die Auto-GPT bei der Erstellung von Inhalten aus großen Datensätzen besitzt, besteht ein potenzielles Risiko, dass es unbeabsichtigt auf schädliche Webquellen zugreift.
  • </ul)

    Um Risiken zu minimieren, betreiben Sie Auto-GPT innerhalb eines virtuellen Containers wie Docker. Dies stellt sicher, dass möglicherweise schädlicher Inhalt innerhalb des virtuellen Raums bleibt und Ihre externen Dateien und Ihr System unberührt bleiben. Alternativ ist Windows Sandbox eine Option, obwohl sie nach jeder Sitzung zurückgesetzt wird und ihren Zustand nicht beibehält.

    Aus Sicherheitsgründen führen Sie Auto-GPT immer in einer virtuellen Umgebung aus, um sicherzustellen, dass Ihr System vor unerwarteten Ausgaben geschützt bleibt.

    Angesichts all dessen besteht immer noch die Möglichkeit, dass Sie Ihre gewünschten Ergebnisse nicht erzielen. Auto-GPT-Benutzer berichteten über wiederkehrende Probleme, als sie versuchten, in eine Datei zu schreiben, und häufig fehlgeschlagene Versuche aufgrund problematischer Dateinamen erlebten. Hier ist ein solcher Fehler: Auto-GPT (Release 0.2.2) fügt den Text nicht hinzu, nachdem der Fehler "write_to_file" zurückgegeben wurde: Fehler: Die Datei wurde bereits aktualisiert

    Verschiedene Lösungen, um dieses Problem zu beheben, wurden auf dem zugehörigen GitHub-Thread diskutiert.

    GPT-Engineer

    GPT-Engineer-Workflow:

    1. Prompt-Definition: Erstellen Sie eine detaillierte Beschreibung Ihres Projekts mit natürlicher Sprache.
    2. Code-Generierung: Basierend auf Ihrem Prompt generiert GPT-Engineer Code-Snippets, Funktionen oder sogar vollständige Anwendungen.
    3. Verfeinerung und Optimierung: Nach der Generierung gibt es immer Raum für Verbesserungen. Entwickler können den generierten Code modifizieren, um spezifische Anforderungen zu erfüllen und sicherzustellen, dass die Qualität erstklassig ist.

    Der Prozess der Einrichtung von GPT-Engineer wurde in eine leicht zu befolgende Anleitung kondensiert. Hier ist eine Schritt-für-Schritt-Anleitung:

    1. Vorbereitung der Umgebung: Bevor Sie beginnen, stellen Sie sicher, dass Sie Ihr Projektverzeichnis bereit haben. Öffnen Sie ein Terminal und führen Sie den folgenden Befehl aus

    • Erstellen Sie ein neues Verzeichnis namens ‘website’: mkdir website
    • Wechseln Sie in das Verzeichnis: cd website

    2. Klonen des Repositorys:  git clone https://github.com/AntonOsika/gpt-engineer.git .

    3. Navigieren und Installieren von Abhängigkeiten: Nach dem Klonen wechseln Sie in das Verzeichnis cd gpt-engineer und installieren alle notwendigen Abhängigkeiten make install

    4. Aktivieren der virtuellen Umgebung: Je nach Betriebssystem aktivieren Sie die erstellte virtuelle Umgebung.

    • Für macOS/Linux: source venv/bin/activate
    • Für Windows, ist es aufgrund der API-Schlüssel-Einrichtung etwas anders: set OPENAI_API_KEY=[Ihr API-Schlüssel]

    5. Konfiguration – API-Schlüssel-Einrichtung: Um mit OpenAI zu interagieren, benötigen Sie einen API-Schlüssel. Wenn Sie noch keinen haben, melden Sie sich auf der OpenAI-Plattform an und:

    • Für macOS/Linux: export OPENAI_API_KEY=[Ihr API-Schlüssel]
    • Für Windows (wie oben erwähnt): set OPENAI_API_KEY=[Ihr API-Schlüssel]

    6. Projektinitialisierung und Code-Generierung: GPT-Engineers Magie beginnt mit der main_prompt -Datei, die sich im projects -Verzeichnis befindet.

    • Wenn Sie ein neues Projekt starten möchten: cp -r projects/example/ projects/website

    Hier ersetzen Sie ‘website’ durch den Namen Ihres Projekts.

    • Bearbeiten Sie die main_prompt -Datei mit einem Texteditor Ihrer Wahl und schreiben Sie die Anforderungen Ihres Projekts auf.

    • Sobald Sie mit dem Prompt zufrieden sind, führen Sie aus: gpt-engineer projects/website

    Ihr generierter Code befindet sich im workspace -Verzeichnis innerhalb des Projektverzeichnisses.

    7. Nach der Generierung: Obwohl GPT-Engineer leistungsstark ist, muss es nicht immer perfekt sein. Überprüfen Sie den generierten Code, machen Sie manuelle Änderungen, wenn nötig, und stellen Sie sicher, dass alles reibungslos läuft.

    Beispiel-Lauf

    Prompt:

    “Ich möchte eine grundlegende Streamlit-App in Python entwickeln, die Benutzerdaten durch interaktive Diagramme visualisiert. Die App sollte es Benutzern ermöglichen, eine CSV-Datei hochzuladen, den Diagrammtyp (z.B. Balken, Pie, Linie) auszuwählen und die Daten dynamisch zu visualisieren. Sie kann Bibliotheken wie Pandas für die Datenmanipulation und Plotly für die Visualisierung verwenden.”

    Einrichten und Ausführen von Engineering-GPT

    Einrichten und Ausführen von GPT-Engineer

    Ähnlich wie Auto-GPT kann GPT-Engineer manchmal Fehler anzeigen, auch nach einer vollständigen Einrichtung. Nach meinem dritten Versuch konnte ich jedoch erfolgreich auf die folgende Streamlit-Webseite zugreifen. Stellen Sie sicher, dass Sie alle Fehler auf der offiziellen GPT-Engineer-Repository-Seite überprüfen.

    Streamlit-App, die mit GPT-Engineer generiert wurde

    Streamlit-App, die mit GPT-Engineer generiert wurde

    Aktuelle Engpässe von KI-Agents

    Betriebskosten

    Eine einzelne von Auto-GPT ausgeführte Aufgabe kann zahlreiche Schritte umfassen. Jeder dieser Schritte kann individuell berechnet werden, was die Kosten erhöht. Auto-GPT kann in wiederkehrende Schleifen geraten und die versprochenen Ergebnisse nicht liefern. Solche Vorfälle gefährden seine Zuverlässigkeit und untergraben die Investition.

    Stellen Sie sich vor, Sie möchten eine kurze Abhandlung mit Auto-GPT erstellen. Die ideale Länge der Abhandlung beträgt 8K Token, aber während des Erstellungsprozesses geht das Modell auf zahlreiche Zwischenschritte ein, um den Inhalt zu finalisieren. Wenn Sie GPT-4 mit 8k Kontextlänge verwenden, würden Sie für die Eingabe 0,03 $ berechnet. Und für die Ausgabe würde die Kosten 0,06 $ betragen. Nun sagen wir, das Modell läuft in eine unvorhergesehene Schleife und wiederholt bestimmte Teile mehrmals. Nicht nur wird der Prozess länger, sondern jede Wiederholung addiert auch zu den Kosten.

    Um sich davor zu schützen:

    Setzen Sie Nutzungsbeschränkungen bei OpenAI Billing & Limits:

    • Harte Grenze: Beschränkt die Nutzung über Ihren festgelegten Schwellenwert hinaus.
    • Weiche Grenze: Sendet Ihnen eine E-Mail-Benachrichtigung, sobald der Schwellenwert erreicht ist.

    Funktionsbeschränkungen

    Die Fähigkeiten von Auto-GPT, wie in seinem Quellcode dargestellt, haben bestimmte Grenzen. Seine Problemlösungsstrategien werden von seinen inhärenten Funktionen und der Zugänglichkeit, die durch GPT-4s API bereitgestellt wird, bestimmt. Für tiefergehende Diskussionen und mögliche Workarounds besuchen Sie: Auto-GPT-Diskussion.

    Der Einfluss von KI auf den Arbeitsmarkt

    Die Dynamik zwischen KI und Arbeitsmärkten ist ständig im Wandel und wird in diesem Forschungspapier ausführlich dokumentiert. Ein wichtiger Punkt ist, dass technologischer Fortschritt oft qualifizierte Arbeitnehmer begünstigt, aber für diejenigen, die in Routineaufgaben beschäftigt sind, Risiken birgt. Tatsächlich können technologische Fortschritte bestimmte Aufgaben verdrängen, gleichzeitig aber den Weg für vielfältige, arbeitsintensive Aufgaben ebnen.

    KI-Arbeitsmarkt - Autonome Agents übernehmen

    Etwa 80 % der amerikanischen Arbeitnehmer könnten feststellen, dass LLMs (Language Learning Models) etwa 10 % ihrer täglichen Aufgaben beeinflussen. Diese Statistik unterstreicht die Verschmelzung von KI- und menschlichen Rollen.

    Die zweifache Rolle von KI im Arbeitsmarkt:

    • Positive Aspekte: KI kann viele Aufgaben automatisieren, von Kundenservice bis hin zu Finanzberatung, und kleinen Unternehmen, die keine Mittel für dedizierte Teams haben, Erleichterung verschaffen.
    • Bedenken: Der Segen der Automatisierung wirft Fragen über mögliche Arbeitsplatzverluste auf, insbesondere in Branchen, in denen menschliche Beteiligung von entscheidender Bedeutung ist, wie z.B. Kundensupport. Neben diesem besteht die ethische Herausforderung, die mit dem Zugriff von KI auf vertrauliche Daten verbunden ist. Dies erfordert eine starke Infrastruktur, die Transparenz, Rechenschaftspflicht und ethische Nutzung von KI sicherstellt.

    Schlussfolgerung

    Offensichtlich stehen Tools wie ChatGPT, Auto-GPT und GPT-Engineer an der Spitze der Neugestaltung der Interaktion zwischen Technologie und ihren Nutzern. Mit Wurzeln in Open-Source-Bewegungen manifestieren diese KI-Agents die Möglichkeiten der Maschinenautonomie und optimieren Aufgaben von der Terminplanung bis hin zur Softwareentwicklung.

    Wenn wir in eine Zukunft eintauchen, in der KI tiefer in unseren täglichen Routinen integriert wird, wird es entscheidend, ein Gleichgewicht zwischen der Nutzung der Fähigkeiten von KI und dem Schutz menschlicher Rollen zu finden. Im weiteren Sinne malt die KI-Arbeitsmarkt-Dynamik ein zweifaches Bild von Wachstumschancen und Herausforderungen, die eine bewusste Integration von Technikethik und Transparenz erfordert.

Ich habe die letzten fünf Jahre damit verbracht, mich in die faszinierende Welt des Machine Learning und Deep Learning zu vertiefen. Meine Leidenschaft und mein Fachwissen haben mich dazu geführt, an über 50 verschiedenen Software-Entwicklungsprojekten mitzuwirken, mit einem besonderen Fokus auf KI/ML. Meine anhaltende Neugier hat mich auch zum Natural Language Processing hingezogen, ein Feld, das ich weiter erforschen möchte.