Skip to content

Google Whitepaper „Agents“

Die Welt der künstlichen Intelligenz (KI) entwickelt sich rasant, nach den Sprachmodellen in 2022-2024 sind es im Jahr 2025 wohl die KI-Agenten, die uns auf Trab halten werden beziehungsweise Arbeit abnehmen sollen. Google hat nun ein Whitepaper zu KI-Agenten veröffentlicht. Schauen wir uns das kurz an!

Was sind KI-Agenten?

KI-Agenten (englisch AI Agent) sind autonome Anwendungen, die darauf ausgelegt sind, bestimmte Ziele zu erreichen. Sie beobachten ihre Umgebung und interagieren mit ihr durch den Einsatz von Werkzeugen. Im Gegensatz zu traditionellen KI-Modellen, die auf ihre Trainingsdaten beschränkt sind, können KI-Agenten selbstständig Entscheidungen treffen und Aufgaben ausführen, oft ohne direkte menschliche Intervention.

Die Architektur von KI-Agenten

Ein KI-Agent besteht im Wesentlichen aus drei Hauptkomponenten:

  • Das Sprachmodell (LM): Es dient als zentrale Entscheidungseinheit und ist in der Lage, Anweisungen zu befolgen, Logik anzuwenden und Schlussfolgerungen zu ziehen. Das Modell kann auf spezifische Aufgaben zugeschnitten sein und multimodal arbeiten.
  • Die Orchestrierungsschicht: Diese Schicht steuert den Prozess der Informationsaufnahme, Informationsverarbeitung und Entscheidungsfindung. Sie ist verantwortlich für das Management des Speichers, des Zustands und der Planung des Agenten und nutzt Prompt-Engineering-Frameworks, um das Verhalten des Agenten zu lenken.
  • Werkzeuge (Tools): Sie ermöglichen dem Agenten, mit der Außenwelt zu interagieren und auf externe Daten und Dienste zuzugreifen. Dazu gehören Erweiterungen, Funktionen und Datenspeicher.
Googles Darstellung zur Architektur von KI-Agenten mit den drei Ebenen Werkzeug, Sprachmodell und Orchestrierungsschicht.
Eine Darstellung aus Googles Whitepaper zur Architektur von KI-Agenten (Quelle: Google Whitepaper „Agents“)

Der Unterschied zu Sprachmodellen

Der Hauptunterschied zwischen KI-Agenten und traditionellen KI-Modellen liegt in ihrer Fähigkeit, mit der realen Welt zu interagieren. Traditionelle Sprachmodelle (englisch LLM für large language model) sind in ihrem Wissen auf die Trainingsdaten beschränkt und führen meist nur einzelne Inferenzaufgaben aus. Agenten hingegen erweitern ihr Wissen durch die Nutzung externer Systeme und können Sitzungshistorien verwalten.

Es ist schon bemerkenswert, dass ChatGPT oder Gemini als „traditionell“ bezeichnet werden. Das zeigt, wie schnell und immer schneller sich die Zeit rund um das aufkommende KI-Zeitalter dreht.

Wie KI-Agenten arbeiten

KI-Agenten nutzen kognitive Architekturen, um ihre Ziele zu erreichen. Sie verarbeiten Informationen iterativ, treffen Entscheidungen und verfeinern ihre Handlungen basierend auf früheren Ergebnissen. Diese Architekturen umfassen verschiedene Frameworks für Prompt-Engineering:

  • ReAct (Reason and Act): Hierbei kombiniert der Agent das Denken (Reasoning) mit dem Handeln (Acting).
  • Chain-of-Thought (CoT): Dieses Framework ermöglicht es dem Modell, seine Schlussfolgerungen durch Zwischenschritte darzustellen.
  • Tree-of-Thoughts (ToT): Es erlaubt dem Modell, verschiedene Denkketten zu untersuchen, um zu einer Lösung zu gelangen.

Werkzeuge: Die Verbindung zur Außenwelt

Werkzeuge sind der Schlüssel zur Interaktion von Agenten mit der realen Welt. Ohne Werkzeuge sind die KI-Agenten also entweder nutzlos oder „nur“ herkömmliche Sprachmodelle.

  • Erweiterungen (Extensions): Sie dienen als Schnittstellen zu APIs und ermöglichen es dem Agenten, diese unabhängig von ihrer Implementierung anzusprechen.
  • Funktionen (Functions): Code-Module, die clientseitig ausgeführt werden und dem Entwickler mehr Kontrolle über den Datenfluss geben.
  • Datenspeicher (Data Stores): Sie ermöglichen den Zugriff auf dynamische und aktuelle Informationen, die über die ursprünglichen Trainingsdaten hinausgehen. Dies ist besonders wichtig für Retrieval-Augmented Generation (RAG) Anwendungen.

Lernmethoden von KI-Agenten

KI-Agenten nutzen verschiedene Lernmethoden, um ihre Fähigkeiten zu verbessern:

  • In-Kontext-Lernen: Agenten lernen durch Beispiele und Anweisungen, die sie während der Laufzeit erhalten.
  • Retrieval-basiertes In-Kontext-Lernen: Der Prompt wird dynamisch mit relevanten Informationen angereichert.
  • Fine-Tuning: Agenten werden auf spezifische Aufgaben trainiert, um ihr Verständnis für den Einsatz von Werkzeugen zu verbessern.

Praktische Anwendungen und Entwicklung

Die Entwicklung von KI-Agenten wird durch verschiedene Frameworks und Plattformen unterstützt:

  • LangChain: Ein Open-Source-Framework, das die Verkettung von Reasoning-Schritten und Tool-Aufrufen ermöglicht.
  • Vertex AI: Eine verwaltete Plattform für die Bereitstellung von Agenten, die Werkzeuge zum Testen, Debuggen und zur Leistungsbewertung bietet.
  • Agent Chaining: Eine Methode, bei der mehrere Agenten zusammenarbeiten, um komplexe Aufgaben zu bewältigen.

Die Auswirkungen auf die Arbeitswelt

Natürlich haben auch die KI-Agenten das Potenzial, die Arbeitswelt grundlegend zu verändern. Google zählt konkret folgende Aspekte auf. KI-Agenten können wohl …

  • Aufgaben automatisieren, die zuvor menschliche Rollen erforderten.
  • Effizienz und Produktivität steigern.
  • komplexe Arbeitsabläufe bewältigen.
  • mit anderen Agenten zusammenarbeiten.
  • Genauigkeit und Zuverlässigkeit verbessern, indem sie ihre Antworten auf realen Daten basieren.

Herausforderungen und Überlegungen

Trotz des großen Potenzials gibt es auch Herausforderungen und wichtige Überlegungen bei der Implementierung von KI-Agenten:

  • Die Definition von „Agent“ variiert.
  • Ein Agent muss nicht unbedingt ein LLM verwenden.
  • Die Implementierung erfordert sorgfältige Planung und Experimente.
  • Es gilt, die Balance zwischen Effizienzgewinn und ethischen Aspekten zu finden.

Fazit

Der Hype ist riesig. Dass die KI-Agenten diesem auch gerecht werden, bezweifle ich kein bisschen. Die Frage ist nur, wann. Als SEO-Freelancer freue ich mich aber darauf, diese neue Technologie in der SEO-Arbeit für meine Kunden einzusetzen.

Besonders Kunden, die ihrerseits beraten, könnten davon profitieren. Ich denke da an eine ganz neue Art, SEO für Anwälte oder auch SEO für Steuerberater zu bespielen. Denn diese sind auf das Wissen aus großen Datensätzen angewiesen und könnten entsprechend profitieren.

Wenn Sie sich tiefergehend mit den Agenten beschäftigen wollen, geht es hier zum Google-Whitepaper für KI-Agenten.