Python, OpenAI API, mss, pyautogui advanced coding 98% Usefulness

Agenten-Loop für autonome Aufgaben implementieren (Wahrnehmung, Planung, Aktion, Reflexion)

Strukturieren Sie Ihren KI-Agenten in einem kontinuierlichen Loop, der Screenshots aufnimmt, GPT-4o um einen Plan bittet, den Plan ausführt und das Ergebnis reflektiert, bis die Aufgabe abgeschlossen ist.

Originalvideo ansehen: Keine Erbschaftsteuer unter € 10 Mio. (12x Freibetrag & Güte...

5 Schritte

Haupt-Agenten-Loop definieren

Erstellen Sie eine `while`-Schleife, die läuft, bis der Agent die Aufgabe als 'DONE' meldet oder ein Timeout erreicht wird.

def run_agent(task_description):
    max_iterations = 10 # Schutz vor Endlosschleifen
    current_iteration = 0
    while current_iteration < max_iterations:
        print(f"\n--- Iteration {current_iteration + 1} ---")
        # ... (Schritte 2-5 hier einfügen)
        current_iteration += 1
    print("Agent beendet oder Timeout erreicht.")

Tipp: Implementieren Sie eine Abbruchbedingung, um Endlosschleifen zu vermeiden. Dies kann ein 'DONE'-Signal von GPT-4o oder eine maximale Anzahl von Iterationen sein.

Warnung: Ein unkontrollierter Agent kann unerwünschte Aktionen auf Ihrem System ausführen.

Wahrnehmung: Screenshot erstellen und kodieren

Innerhalb des Loops, erstellen Sie einen aktuellen Screenshot und kodieren Sie ihn in Base64. Dies ist die 'Sehfähigkeit' des Agenten.

# ... (Code von Playbook 2, Schritt 2 und 4 hier einfügen)
image_base64 = encode_image('screenshot.png')

Tipp: Speichern Sie Screenshots mit Zeitstempeln, um den Verlauf der Agenten-Interaktionen zu debuggen.

Planung: GPT-4o um Code bitten

Senden Sie den Screenshot und die Aufgabenbeschreibung an GPT-4o und fordern Sie den nächsten Python-Code-Block an.

# ... (Code von Playbook 3, Schritt 2 und 3 hier einfügen)
response = client.chat.completions.create(model="gpt-4o", messages=prompt_messages, max_tokens=1000)
generated_code = response.choices[0].message.content

Tipp: Fügen Sie den bisherigen Verlauf der Aktionen und Beobachtungen in den Prompt ein, um dem Agenten Kontext zu geben (kurzfristiges Gedächtnis).

Warnung: Die Kosten für die API-Aufrufe können bei vielen Iterationen schnell steigen.

Aktion: Generierten Code ausführen

Führen Sie den von GPT-4o erhaltenen Python-Code aus, um mit der GUI zu interagieren.

# ... (Code von Playbook 4, Schritt 2 hier einfügen)
if "DONE" in generated_code:
    print("Aufgabe abgeschlossen!")
    break
exec(generated_code)

Tipp: Fügen Sie eine Verzögerung nach jeder Aktion ein (`time.sleep(1)`), damit die GUI Zeit zum Aktualisieren hat.

Warnung: Überwachen Sie den Agenten während der Ausführung, um unerwünschtes Verhalten zu erkennen.

Reflexion/Statusprüfung

Nach der Aktion kehrt der Loop zu Schritt 2 zurück, um einen neuen Screenshot zu erstellen und den Zustand neu zu bewerten. Der Prompt sollte GPT-4o anweisen, den Fortschritt zu bewerten und den Plan bei Bedarf anzupassen.

# Die Reflexion ist implizit, da der Agent in der nächsten Iteration einen neuen Screenshot erhält und seinen Plan basierend darauf anpasst.

Tipp: Sie können explizite 'Reflexions'-Prompts hinzufügen, wenn der Agent Schwierigkeiten hat, um ihn zur Selbstkorrektur anzuregen.

← Alle Playbooks anzeigen