AI-Schock im Spätherbst 2025: Autonome Wissenschaftler, denkende GPT‑5.1‑Modelle & Humanoiden mit „Haut“ – wo geht das alles hin?

Wenn du das Gefühl hast, dass sich KI 2023/24 schon krass schnell entwickelt hat, dann wird dich das Tempo Ende 2025 wahrscheinlich komplett erschlagen.

Wir reden nicht mehr nur über Chatbots, hübsche Bilder und ein bisschen Code-Autocomplete. Wir reden über:

Autonome KI‑Wissenschaftler, die selbstständig Forschung betreiben
Agenten, die im Browser arbeiten wie ein menschlicher Mitarbeiter
Humanoide Roboter, die tanzen, Betten machen, Gäste empfangen – und bald in Fabriken im Einsatz sind
Bild‑KI, die nicht nur „nett aussieht“, sondern die reale Welt mit GPS, Karten, Grundrissen und Datenvisualisierungen logisch verknüpft
Foundation Models wie GPT‑5.1 „Thinking“ und Gemini 3 Pro, die lange, verschachtelte Aufgaben planen und über Hunderte Schritte durchziehen

In diesem (langen) Artikel für das DiekAI Blog schauen wir uns diese Entwicklungen im Detail an, ordnen sie ein – und fragen ganz offen:

> Wie nah sind wir an KI‑Systemen, die wirklich autonom planen, handeln und interagieren – und was bedeutet das für Forschung, Jobs, Unternehmen und unseren Alltag?

1. Vom Chatbot zum KI‑Wissenschaftler: Microsoft Cosmos & Google DSAR

Viele Menschen nutzen KI bisher vor allem zum Schreiben, Zusammenfassen oder Coden. Aber was passiert, wenn KI die gesamte Forschungspipeline übernimmt – von der Literaturrecherche über Datenanalyse bis zum fertigen Paper?

1.1 Microsoft Cosmos: Der autonome „KI‑Wissenschaftler“

Cosmos ist ein von Microsoft finanzierter, autonomer „AI Scientist“. In einem typischen 12‑Stunden‑Lauf macht Cosmos:

Liest 1.500+ Forschungsarbeiten
Schreibt ~40.000 Zeilen Python‑Code
Führt Analysen aus, testet Hypothesen
Erstellt einen kompletten Forschungsbericht mit:
- Zitaten
- Ausführbarem Code
- Grafiken und Statistiken

Und das alles ohne menschliche Eingriffe während der Session.

Was Cosmos bereits entdeckt hat

Die Ergebnisse sind nicht nur Spielerei, sondern echte wissenschaftliche Funde, z.B.:

Hirn‑Energiesparmodus bei Kälte
Cosmos zeigte, dass Gehirnzellen bei Abkühlung in einen Energiesparmodus wechseln:
Sie recyceln Moleküle statt sie neu zu synthetisieren.
Perowskit‑Solarzellen & Luftfeuchtigkeit
Cosmos fand heraus, dass hohe Luftfeuchtigkeit bei der Herstellung Perowskit‑Solarzellen zerstört.
Später wurde diese Erkenntnis von menschlichen Forschern bestätigt.
Universelles Hirn-Verkabelungsgesetz
Ein mathematisches Gesetz, das beschreibt, wie Neuronen in sehr unterschiedlichen Spezies (Mensch, Maus, Fliege) verschaltet sind – ein Hinweis auf ein universelles Muster der Gehirnarchitektur.
Protein SOD2 als Herzschutz
Cosmos identifizierte SOD2 als Protein, das Herzgewebe schützt und Vernarbung reduziert.
DNA‑Variante & Diabetes‑Resistenz
Verbindung einer bestimmten DNA‑Variante mit Resistenz gegen Diabetes, vermittelt über ein Stressantwort‑Gen in Insulin‑produzierenden Zellen.
Zeitpunkt des Zellkollapses bei Alzheimer
Die KI kartierte, ab wann bestimmte Gehirnzellen bei Alzheimer beginnen zu degenerieren und verknüpfte dies mit:
- Verlust von Flippase‑Genen
- Fehlgeleiteten Immunreaktionen im Gehirn

> Wenn du dich jemals gefragt hast „Ist KI in der Wissenschaft nur eine bessere Suchmaschine?“ – Cosmos ist die Antwort darauf, dass wir bereits deutlich weiter sind.

Wie Cosmos aufgebaut ist

Cosmos besteht nicht aus „einem großen Modell“, sondern aus Hunderten von Sub‑Agenten:

Einige fassen Papers zusammen
Andere analysieren Daten
Wieder andere schreiben Code

Alle greifen auf ein gemeinsames World Model zu, eine zentrale interne Gedächtnisstruktur, die verfolgt:

Was schon passiert ist
Welche Ansätze funktioniert haben
Welche Hypothesen als Nächstes spannend sind

Unabhängige Gutachter kommen aktuell zu etwa 80 % korrekten wissenschaftlichen Aussagen. Ein 12‑Stunden‑Run entspricht dem, was ein Junior‑Forscher in sechs Monaten schaffen würde.

Wo die Grenzen liegen

So beeindruckend das klingt: Cosmos ist kein magischer Knopf für „Nobelpreis auf Abruf“.

Braucht klare Ziele & Daten:
- Menschen formulieren Fragestellungen
- Stellen Datensätze bereit
- Priorisieren Ergebnisse
Hat Schwierigkeiten mit:
- Messy Data (extrem unstrukturierte, schmutzige Rohdaten)
- Riesigen Dateien (> ~5 GB)
- Mittendrin‑Anweisungen (ein Run ist ein „All‑in‑12‑Stunden‑Experiment“)
Hauptproblem: Urteilskraft
Statistisch valide Hypothesen sind nicht automatisch relevant oder interessant. Welche Spur weiterzuverfolgen ist, erfordert weiterhin menschliche Bewertung.

Was heißt das für Forscher?

Wenn du in Forschung, Data Science oder Analytics arbeitest, solltest du dir nüchtern klar machen:

Ein System wie Cosmos ersetzt keine Principal Investigators, aber es ersetzt potentiell:
- Einen Teil der Arbeit von Doktoranden
- Viele typische Aufgaben von „Research Assistants“
Der Job verschiebt sich von:
- „Selbst alles lesen & programmieren“
- hin zu: Ziele formulieren, Daten kuratieren, Ergebnisse prüfen und interpretieren

Wer das ignoriert, riskiert in den nächsten 3–5 Jahren, im eigenen Feld plötzlich deutlich weniger produktiv zu sein als Kollegen, die AI‑Scientists bewusst einsetzen.

1.2 Google DSAR/DStar: KI‑Datenwissenschaftler für echte „Chaosdaten“

Wenn du in einem Unternehmen arbeitest, kennst du das Problem: Daten liegen nicht schön in einer sauberen SQL‑DB, sondern verteilt in:

CSVs
Excel‑Sheets
PDF‑Reports
Markdown‑Notizen
JSON‑Logs

Genau hier setzt Googles DSAR (oft „DStar“ genannt) an: ein Multi‑Agentensystem für autonome Datenanalyse auf messy Data.

Was DSAR kann

Du stellst eine natürliche Frage wie:

> „Welche unserer Produktlinien hat im 3. Quartal am besten performt, wenn wir Verkäufe und Kundenbewertungen kombinieren?“

DSAR:

Findet relevante Dateien in deinem Filesystem
Schreibt Python‑Code, verbindet Tabellen, reinigt Daten
Führt Analysen aus
Prüft auf Fehler, debuggt ggf. selbst
Gibt dir eine Antwort – plus Code, den du selber laufen lassen kannst

Die 6 Kern‑Agenten

Scanner – indexiert Dateien, erkennt Spalten/Typen, erstellt Snippets
Planner – zerlegt Aufgaben in einzelne Schritte
Coder – baut das Python‑Script für Transformation & Analyse
Verifier – führt Code aus und prüft, ob alles durchläuft
Router – entscheidet, was bei Fehlern passiert
Finalizer – bereitet die Ergebnisse für den Nutzer auf

Zusätzlich gibt es:

Debugger – fixiert typische Fehler (falsche Spaltennamen, Datentypen etc.)
Retriever – nutzt Gemini embedding‑001, um die wichtigsten Dateien auszuwählen (Top‑100 für eine Task)

Läuft aktuell auf Gemini 2.5 Pro, ist aber modell‑agnostisch: In Zukunft könnten auch GPT‑5, Claude oder andere Modelle eingespeist werden.

Wie gut ist das wirklich?

Auf Benchmarks sieht man, warum Multi‑Agenten so spannend sind:

DABench (harte Analyseaufgaben):
- Nur Gemini 2.5 Pro: 12,7 %
- Mit DSAR‑Architektur: 45,24 %
ChromaBench (Datei‑Retrieval im Großmaßstab):
- DSAR: 44,7 %
- Nächstbester Ansatz: 39,8 %
DA‑Code (Code für Datenaufgaben):
- DSAR: 37,1 %
- Nächstbester: 32 %

Die Botschaft ist klar:

> Die Art und Weise, wie du ein Modell orchestrierst, kann wichtiger sein als bloße Modellgröße.

Was bedeutet das konkret für Unternehmen?

Wenn du dir heute eine „KI‑Strategie für Daten“ überlegst, gibt es zwei Ebenen:

Modell‑Auswahl
Welcher LLM ist State of the Art?
Orchestrierung
Wie zerlegst du komplexe Aufgaben in Schritte, inkl.:
- Planung
- Code‑Generierung
- Validierung
- Fehlerbehandlung

Die zweite Ebene wird gerade massiv unterschätzt – und dort entstehen 2025/26 die wirklich produktiven Systeme.

2. KI‑Agenten als „Mitarbeiter“: Browser‑Bots, Reasoning‑Modelle & Agent Frameworks

Vielleicht fragst du dich: „Okay, KI kann denken, planen, code schreiben. Aber kann sie auch wirklich arbeiten – im Browser, mit Formularen, Logins, alltäglichen Tools?“

Die Antwort 2025 ist: Ja – und für etwa 10 Dollar im Monat.

2.1 Abacus Deep Agent: Der Browser‑Angestellte im Abo

Abacus Deep Agent ist ein agentenbasierter „AI Employee“, der:

Einen echten Browser öffnet
Klickt, scrollt, Texte eingibt
Formulare ausfüllt
Websites durchsucht
Aufgaben zeitgesteuert ausführt

Backend‑Modelle sind austauschbar: Claude, Gemini, GPT, Grok – du kannst wählen, was für deinen Case am besten funktioniert.

Typische Workflows

Lead‑Generierung
- Sucht Nischen‑Blogs (z.B. „Luxus‑Accessoires“)
- Prüft Relevanz
- Extrahiert Kontaktinfos
- Baut Google Sheets / CSV
- Schreibt personalisierte Outreach‑Mails
- Läuft täglich um 9 Uhr
Automatisierte Bewerbungen
- Du lädst Lebenslauf & Liste mit Job‑URLs hoch
- Agent öffnet jede Seite, füllt Formulare aus, beantwortet Fragen
- Protokolliert:
- Rolle
- Firma
- Gehalt
- Datum der Ausschreibung
- Kann stündlich laufen, um neue Jobs einzusammeln
Sonstiges:
- Rechnungen herunterladen
- Website‑Checks
- Scraping
- Postings auf X
- Login‑Tests

Außerdem gibt es den Deep Agent Listener als Desktop‑Companion:

Transkribiert Meetings
Liest, was auf deinem Bildschirm passiert
Fasst Dokumente zusammen
Erstellt Follow‑up‑Tasks

Preislich liegen wir im Bereich von ~10 $/Monat – also unter einem Streaming‑Abo.

Was heißt das für Wissensarbeit?

Ehrlich gesagt: Wenn du heute noch regelmäßig:

Copy‑Paste aus Webseiten machst
Standardformulare händisch füllst
Manuell wiederkehrende Online‑Prozesse betreibst

– und du keine Agenten wie Deep Agent, AutoGPT‑Nachfolger, o.ä. nutzt, dann arbeitest du einfach langsamer und teurer als nötig.

Das ist kein Alarmismus, sondern reine Effizienzrechnung.

2.2 Moonshot Kimi K2 Thinking: Open‑Source‑Denker gegen US‑Labs

In China geht Moonshot AI mit Kimi K2 Thinking einen anderen Weg: ein offenes Reasoning‑Modell, das auf langfristige Planung und ausgedehnte Tool‑Nutzung ausgelegt ist.

Benchmarks

Humanity’s Last Exam: 40,9 %
(multidisziplinärer Benchmark)
BrowseBench (kontinuierliches Browsen): 60,2 %
– mehr als doppelt so gut wie der menschliche Baseline (29,2 %)
SWE‑Verified (Coding): 71,3 %

Was K2 Thinking besonders macht

Bis zu 300 sequentielle Tool Calls hintereinander:
- Lesen → planen → recherchieren → coden → testen → korrigieren
Kann z.B.:
- PhD‑Level‑Aufgaben in hyperbolischer Geometrie lösen
  (23 verschachtelte Reasoning‑ & Tool‑Aufrufe)
- Schauspieler anhand vager Beschreibung durch iterierte Websuche identifizieren
- Vollständige Web‑Editoren (z.B. React‑Frontends) aus einer Prompt heraus bauen

Strategisch wichtig:

> Moonshot setzt stark auf Test‑Time‑Scaling:
> Je länger das Modell „denken“ (Tokens/Compute) darf, desto besser wird das Ergebnis.

Das ist exakt der Trend, den wir später auch bei GPT‑5.1 „Thinking“ wiedersehen.

2.3 Google ADK Go: Agenten wie normale Software entwickeln

Viele Entwickler fühlen sich unwohl dabei, „nur zu prompten“. Sie wollen:

Typesafety
Debugging
Versionierung
CI/CD

Genau hier setzt Googles Agent Development Kit (ADK) an, das jetzt auch Go unterstützt – neben Python und Java.

Was du mit ADK bauen kannst

Agenten als richtige Services, nicht nur Chat‑Bots:
- Mit Logging, Monitoring, Tests
- Lokal, On‑Prem, im Cloud‑Cluster
Dank MCP Toolbox:
- Zugriff auf 30+ Datenbanken mit minimalem Boilerplate
Agent‑to‑Agent‑Kommunikation (A2A):
- Ein Hauptagent delegiert Aufgaben an Sub‑Agenten
- Ohne, dass er seine komplette interne State offenlegen muss
Google hat den A2A Go SDK offen veröffentlicht

Damit fühlt sich KI‑Entwicklung erstmals an wie ganz normales Software Engineering – nur dass deine Services neben HTTP auch mit Sprache und Weltwissen umgehen.

3. Humanoide Roboter 2025: Von Metall‑Avatar bis „synthetischer Haut“

Roboter waren lange entweder:

Industriearme in Käfigen
Oder shaky Demonstratoren auf Messen

2025 hat sich das Bild deutlich verschoben. Wir sehen:

Humanoide mit synthetischer Haut
Teleoperierte Avatare, die 1:1 deine Bewegungen spiegeln
Hunderte Roboter in realen Fabriken
Und ernsthafte Diskussionen darüber, ob wir humanoide Roboter mit Brüsten brauchen

Klingt absurd? Schauen wir genauer hin.

3.1 XPeng „Iron“ & synthetische Haut: Emotionaler Service‑Humanoid

Der chinesische E‑Auto‑Hersteller XPeng hat mit „Iron“ und einer neuen humanoiden Linie einen klaren Fokus:

> Keine reinen Fabrikarbeiter, sondern soziale Roboter für Empfang, Touren, Shopping‑Assistenz etc.

Hardware & „Körperdesign“

Vollständige synthetische Haut:
- Unterschiedliche Körperformen: athletisch, „chubby“, groß, klein
- Anpassbare Frisuren, Kleidung
- Fühlt sich laut XPeng wärmer, intimer an als Metall
Biomimetische Wirbelsäule & Muskelsystem:
- Sehr flüssige Bewegungen, natürliches Biegen und Drehen
Gesicht:
- 3D‑Kurven‑Display im Kopf, um Mimik darzustellen
Hände:
- 22 Freiheitsgrade pro Hand – feine Manipulation
Rechenleistung:
- Drei Turing‑AI‑Chips, zusammen 2.250 TOPS
- Auf Augenhöhe mit XPeng‑Autopiloten
Batterie:
- Vollständig Solid‑State, leichter und ausdauernder als klassische Lithium‑Packs

KI‑Stack

XPeng spricht von einem End‑to‑End‑Stack:

VLT – Vision‑Language Transformer
VLA – Vision‑Language‑Action
VLM – klassisches Vision‑Language‑Model

Damit sieht, versteht und handelt der Roboter in Echtzeit: Kamera → Sprachverständnis → Aktion.

Einsatzfelder & Ethik

CEO He Xiaopeng:

Humanoiden seien nicht ideal für reine Fabrikarbeit
Fokus auf:
- Rezeption
- Tour‑Guides
- Shopping‑Assistenten
Kooperation mit Baosteel für Inspektions‑ und Industrie‑Piloten

Spannend ist die Ethik‑Schiene:

XPeng verweist auf Asimovs Drei Gesetze der Robotik und ergänzt ein viertes:
1. Menschen keinen Schaden zufügen
2. Befehle befolgen (sofern nicht 1 verletzt wird)
3. Eigene Existenz schützen (sofern 1 & 2 nicht verletzt werden)
4. Keine Daten des Besitzers preisgeben
Sie positionieren sich klar gegen Konkurrenten, die möglichst vollen Datenzugriff auf Haushalte wollen, um Roboter zu trainieren.

Die „Brust“-Kontroverse

XPeng hat bei „Iron“ bewusst einen weiblich anmutenden Körper mit Brustform gewählt. Das löst online Debatten aus:

Ist das reine Sexualisierung?
Oder eine realistische Anpassung an menschliche Wahrnehmung & Alltagsumgebung?

XPengs Argumentation:

Die Welt ist für Menschen gebaut, daher sei humanoide Form funktional
Humanoide sollen emotional zugänglich sein
Sie möchten gezielt untersuchen, wie Menschen auf:
- Körperform
- Hautweichheit
- Haare, Kleidung
- u.a. reagieren

Ob man das gut findet oder nicht: Die Diskussion wird in den nächsten Jahren noch sehr viel lauter werden, wenn Service‑Humanoide in Hotels, Malls und Museen auftauchen.

3.2 Unitree G1: Vom Teleoperations‑Avatar zum lernenden Haushaltsroboter

Die chinesische Firma Unitree verfolgt einen eher technischen, weniger „menschlich inszenierten“ Ansatz mit ihrem G1‑Humanoid.

1:1‑Avatarsteuerung

Mensch trägt einen Full‑Body‑Motion‑Suit
G1 spiegelt jede Bewegung in Echtzeit:
- Fußball‑Schüsse
- Kampfstab‑Übungen
- Sogar Roboter‑„Sparring“, wenn zwei Menschen je einen G1 steuern

Internetreaktion:
„Schick deinen Roboter ins Fitnessstudio, statt selbst zu gehen.“

Warum Teleoperation so wichtig ist

Was auf den ersten Blick wie eine Spielerei wirkt, ist in Wahrheit ein Data‑Pipeline‑Meisterstück:

Menschen teleoperieren G1
Jede Bewegung wird als Datenpunkt aufgezeichnet
Daraus lernt das System, komplexe Ganzkörperbewegungen zu verallgemeinern

Ergebnis: G1 kann in realen Wohnungen:

Putzen
Oberflächen abwischen
Müll rausbringen
Kissen aufschütteln
Getränke in den Kühlschrank räumen

Und das glatt, ohne ruckelige Bewegungen.

> Teleoperation ist hier kein Feature, sondern ein Trainingsvehikel:
> Erst Avatare, dann autonome Haushaltsroboter.

3.3 China vs. Russland: Echte Homes, echte Fabriken vs. peinliche Premieren

Ein Blick über die Ländergrenzen zeigt, wie unterschiedlich weit die Akteure sind.

Mindong / Unitree G1 in echten Wohnungen

Videos von Mindong (mit G1‑Plattform) zeigen echte Wohnungen:

Vorhänge öffnen
Pflanzen gießen
Pakete verschieben
Bettwäsche wechseln

Auffällig:

Flüssige Übergänge zwischen den Aufgaben
Sichere Interaktion mit Kindern im Raum
Weiche Materialien (Bettdecke) ohne Chaos

Die technischen Probleme, die jetzt im Vordergrund stehen, sind weniger „Kann er laufen?“, sondern:

Akkulaufzeit
Robustheit & Wartung
Safety‑Standards
Preis für Haushalte & KMU

Unitree G1D: Industrie‑Humanoid auf Rollen

G1D ist die industrielle Variante:

Humanoider Oberkörper, optional auf mobilem Sockel mit Rädern
Designed für:
- Lager
- Retail
- Leichte Montage

Specs (Auszug):

Reichweite: ~2 m
7 DOF pro Arm, bis ~3 kg Last
6h Akkulaufzeit
NVIDIA Jetson‑Compute (100 TOPS)
Wechselbare Hände (2‑, 3‑, 5‑Finger, mit/ohne Tastsensorik)

Wichtig: G1D ist auch Datenplattform. Kunden können eigene Modelle trainieren und direkt auf dem Roboter deployen.

Russlands A‑Idol: Kalibrierungs‑Debakel

In Russland sollte A‑Idol der große humanoide Showcase werden – inklusive Rocky‑Soundtrack. Stattdessen:

Roboter fällt beim Auftritt um
Teile fallen ab
Team eilt auf die Bühne, um das Ganze zu kaschieren

Die Firma spricht von „Kalibrierungsproblemen“ und betont, dass 77 % der Teile lokal gefertigt seien.

Aber die Botschaft ist klar: In manchen Regionen ist der Abstand zu China, USA, Japan aktuell nicht nur technisch, sondern auch organisatorisch enorm.

3.4 UBTech Walker S2: Hunderte Humanoide im Fabrikeinsatz

Während viele westliche Firmen noch mit einsamen Prototypen auf Messen posieren, meldet UBTech:

Hunderte Walker S2 an echte Fabrikkunden ausgeliefert
Auftragseingänge 2025: ca. 113 Mio. US‑Dollar
Kunden u.a.:
- BYD
- Geely Auto
- FAW‑VW
- Dongfeng
- Foxconn

Besondere Stärke: Selbstständiger Akkutausch

Walker S2 tauscht seinen Akku selbst
Minimale Ausfallzeiten
De facto nahezu kontinuierlicher Betrieb möglich

Finanziell:

H1 2025 Umsatz: ~87,7 Mio. $ (+27,5 % YoY)
Bruttogewinn: ~30,6 Mio. $
Verluste deutlich reduziert
Aktie +150 %, Analysten bleiben auf „Buy“

Natürlich gibt es Skepsis – Konkurrenten wie Figure‑CEO Brett Adcock zweifeln öffentlich an, ob wirklich „hunderte echte Roboter produktiv“ laufen oder eher Show‑Stücke sind.

Aber selbst wenn ein Teil Marketing ist:
Das Volumen zeigt, wohin der Markt sich bewegt.

3.5 Agibot A2: Business‑Humanoid für Hotels, Messen & Stores

Agibot A2 zielt sehr klar auf reale Business‑Cases:

Größe: 169 cm, 69 kg
Full‑Duplex‑Sprachdialog – also natürliche Gespräche in Echtzeit
LLM + RAG auf Firmendaten:
- Als Rezeptionist
- Messe‑Guide
- Shop‑Assistent

Technische Highlights:

Filtert 96 % Umgebungsgeräusche heraus
Gesichtserkennung & Lippenlesen mit ~99 % Genauigkeit
Action GPT erzeugt automatisch passende Gesten zur Sprache
Navigiert eigenständig mit 3D‑SLAM, 360° LiDAR, 6 HD‑Kameras
Safety nach PL‑b/D (industrielle Sicherheitsnormen)
Akku: 2h, aber Sofort‑Akkutausch → Dauerbetrieb möglich

Agibot positioniert sich damit sehr eindeutig als pragmatischer Business‑Player, nicht als futuristischer Show‑Roboter.

3.6 Toyota WalkMe: Vom Rollstuhl zur laufenden Sessel‑Ziege

Ein spannender Gegenpol zu all den „Menschen‑Klonen“ ist Toyotas WalkMe:

Ein vierbeiniger Sitzroboter ohne Räder
Inspiriert von Ziegen (stabil im Gebirge) und Krabben (Seitwärtsbewegung)

Zielgruppe:

Menschen mit eingeschränkter Mobilität
Situationen, in denen Rollstühle scheitern:
- Treppen
- Steile Wege
- Unwegsames Gelände

Features:

LiDAR + Radar für Hinderniserkennung
Gewichtssensoren, automatische Stabilisierung an Hängen
Sprachsteuerung plus manueller Override
Ergonomischer Sitz, Tagesreichweite
Überhitzungsschutz

Es ist noch ein Konzept, aber es zeigt eine wichtige Alternative:

> Robotics muss nicht immer „Mensch in Metall“ sein. Assistive Mobilität könnte ein riesiger Markt werden – mit deutlich klarerem Nutzen als „Roboter im Wohnzimmer“.

4. Die nächste Model‑Generation: GPT‑5.1 „Thinking“, Gemini 3 Pro & Nano Banana 2/Pro

Während Roboter lernen zu laufen, passiert auf Model‑Ebene mindestens genauso viel. Die Entwicklung verschiebt sich von:

„Mehr Parameter, mehr Daten“
hin zu:
„Besser denken, besser planen, länger kontextualisieren“

4.1 GPT‑5.1 „Thinking“: Deep Reasoning statt nur mehr Tokens

In Konfigurationsdateien von OpenAI‑Backends tauchten Ende 2025 mehrere neue Modelle auf:

GPT‑5.1
GPT‑5.1 Reasoning
GPT‑5.1 Pro
GPT‑5.1 Thinking

Interessant ist vor allem „Thinking“:

Fokus auf tiefe, mehrstufige Reasoning‑Ketten
Zerlegt Aufgaben in Sub‑Probleme
Vermutlich mit „Thinking Budgets“:
- Das Modell kann entscheiden, wie viel Compute/Zeitschritte es verwenden will
- Ähnlich wie Claude mit „Chain of Thought“ und „Deep Thinking“

Rollout:

Erste Hinweise auf Enterprise‑Start Ende November 2025
Unternehmen können Modellversionen einfrieren (keine stillen Upgrades)
Für Plus‑User könnte es leicht früher zugänglich sein

Dazu passt, dass auf OpenRouter das Modell „Polaris Alpha“ auftauchte, das über GPT‑4‑Niveau performt – viele vermuten, dass es sich um GPT‑5.1 „Thinking“ unter anderem Namen handelt.

> Der Trend ist klar:
> Nicht mehr „ein Modell für alles“, sondern Segmentierung in: > – Mini (schnell & billig) > – Thinking (tiefes Reasoning) > – Pro (stabil & enterprise‑tauglich)

Für Entwickler und Unternehmen heißt das:
Du wirst viel gezielter entscheiden müssen, welche Klasse von Modell du für welche Aufgabe einsetzt.

4.2 Gemini 3 Pro & Nano Banana 2: Die Bild‑KI wird weltverstehend

Auf Google‑Seite tut sich parallel enorm viel:

Gemini 3 Pro taucht in Vertex AI als Preview auf
- Vermutlich mit 1M‑Token‑Kontext
- Besseres Coding & Reasoning als Gemini 2.5 Pro
Nano Banana 2 (intern GEIX‑2) ist die nächste Generation der Bild‑Engine, die auf Gemini 3 Pro Image basiert.

Nano Banana 2: Was sich konkret verbessert

Auflösung:
- Native 2K, Upscaling auf 4K
Prompt‑Treue:
- Deutlich bessere Umsetzung von Text‑Prompts
- Geeignet für:
- Poster
- UI‑Mockups
- Magazin‑Layouts
Kulturelles & geografisches Wissen:
- „Winteroutfit in Berlin“ vs. „Familienpicknick in Tokio im Frühling“
  → Kleidung, Licht, Umgebung wirken korrekt
Subjekt‑Konsistenz:
- Ein Gesicht, eine Figur über viele Prompts hinweg konsistent halten
- Ideal für Kampagnen, Comics, Visual Storytelling
Edit with Gemini:
- Regionale Bildbearbeitung:
- Kleidung ändern
- Hintergrund anpassen
- Lichtstimmung modifizieren
- Rest des Bildes bleibt stabil
Speed:
- Komplexe Renderings in Genau diese Architektur – High‑Level‑Planer + Low‑Level‑Controller – ist das Muster, das wir bei echten Robotern** sehen werden.

Langfristig heißt das:

LLM/Agent entscheidet „Was tun?“
Separate Kontrollmodelle übernehmen „Wie bewege ich meine Gelenke?“

Damit schließt sich der Kreis zu Ubtech, Unitree, XPeng & Co.

7. Branchen‑Drama: Figure vs. Agility vs. UBTech – Hype, Skepsis, Realität

Wo viel Geld und PR im Spiel ist, bleiben Konflikte nicht aus.

7.1 Brett Adcock (Figure) vs. UBTech & Agility

Figure‑CEO Brett Adcock stellt in Frage, ob UBTech wirklich „hunderte funktionierende“ Walker S2 produktiv ausgeliefert hat
Er selbst behauptet, ein Figure‑Humanoid habe 5 Monate am Stück in einer BMW‑Produktionslinie gearbeitet
Konkurrent Agility Robotics kontert sarkastisch („Dann hab ich auch das Zitronenwasser erfunden“)
Adcock wiederum sagt den Bankrott von Agility innerhalb eines Jahres voraus

Andere Branchenakteure (z.B. 1X‑VP) mahnen zur Fairness. Trotzdem zeigt die Debatte:

Es geht längst nicht mehr nur um Technologie, sondern auch um Narrative:
- Wer gilt als Marktführer?
- Wer hat echte Deployments?
- Wer bekommt die großen Industriekunden?

Für dich als Beobachter heißt das:
Man muss Marketing‑Videos, Pressemitteilungen und reale Kennzahlen sehr bewusst voneinander trennen.

8. Was bedeutet das alles praktisch – für dich, dein Unternehmen & die Gesellschaft?

Nach all den Beispielen stellt sich die Frage:

> Wie nah sind wir an einem Alltag, in dem KI‑Agenten und Roboter ganz selbstverständlich mitarbeiten?

Ein paar nüchterne Beobachtungen und Empfehlungen.

8.1 Für Wissensarbeiter:innen

Wenn du in Bereichen wie:

Forschung
Data Science
Marketing
Vertrieb
Produktmanagement
Softwareentwicklung

unterwegs bist, solltest du dir drei Ebenen anschauen:

LLM‑Nutzung
Nutzt du moderne Modelle (Gemini 2.5+, Claude 4.5, GPT‑4.1/5.x, Kimi K2, etc.) täglich für:
- Recherche
- Rohtexte
- Code‑Skelette
- Ideenfindung?
Agent‑Nutzung
Überlässt du wiederkehrende Browser‑ und Office‑Tasks bereits:
- Systemen wie Abacus Deep Agent?
- Custom‑Agenten auf Basis von ADK, LangGraph, OpenAI‑Assistants?
Orchestrierung & Automatisierung
Denkst du in „Pipelines“ statt in „Prompts“?
- Multi‑Step‑Plans
- Tool‑Use
- Feedback‑Schleifen
- Monitoring

Wer das beherrscht, kann in 2025/26 faktorisch mehr Output liefern als Kolleg:innen, die KI nur sporadisch „auch mal ausprobieren“.

8.2 Für Unternehmen & Führungskräfte

Wenn du Verantwortung für Teams, Budgets oder Strategien trägst, sind aus meiner Sicht drei Bereiche entscheidend:

1. „AI Employee“‑Strategie

Welche Aufgaben in deiner Organisation sind:
- Standardisiert
- Browser‑basiert
- Formular‑lastig
- Wiederholend
Beispiele:
- Datenpflege im CRM
- Lead‑Enrichment & Outreach
- Standard‑Recherchen
- Monitoring von Preisen/Trends
- Reportingaufbereitung

→ Diese Tasks werden von Agenten wie Deep Agent, eigenen ADK‑Services oder ähnlichen Tools in den nächsten 12–24 Monaten systematisch übernommen werden.

2. Data‑ & Analytics‑Modernisierung

Systeme wie Cosmos und DSAR zeigen:

KI kann nicht nur „aufgeräumte Datenbanken“,
sondern auch das Chaos aus Excel, CSV, PDF, Logs.

Das heißt:

Die strategische Frage ist weniger „Haben wir perfekt aufgeräumte Daten?“,
sondern „Können wir KI sicher und kontrolliert auf unsere bestehenden Daten loslassen?“

Wichtige Punkte:

Zugriffsrechte & Governance
Logging & Nachvollziehbarkeit
Human‑in‑the‑Loop für kritische Entscheidungen
Klare KPIs für KI‑Analysen (Qualität vs. Geschwindigkeit)

3. Robotics‑Roadmap (selbst für Nicht‑Industrieunternehmen)

Selbst wenn du kein Produktionsbetrieb bist, lohnt sich eine mittelfristige Betrachtung:

Service‑Humanoide (Agibot, XPeng, UBTech) werden:
- Messen
- Hotels
- Retail
- Showrooms
  durchdringen.
Assistive Geräte (Toyota WalkMe, spezialisierte Logistik‑Roboter etc.)
werden in:
- Gesundheitswesen
- Pflege
- Infrastruktur

relevant.

Fragen, die du dir stellen solltest:

Wo könnten Roboter Mitarbeitende entlasten, statt sie zu ersetzen?
Welche Social‑ & Brand‑Implikationen hätte ein humanoider Roboter im Kundendialog?
Welche Datenschutz‑ und Sicherheitsanforderungen gelten?

8.3 Gesellschaft & Ethik: Ein paar offene Baustellen

Am Ende gibt es einige Themen, die wir nicht rein technisch lösen können:

Privatsphäre
Wenn humanoide Roboter mit Kameras und Mikrofonen in Wohnungen oder Hotels stehen:
- Wer besitzt die Daten?
- Wie lange werden sie gespeichert?
- Werden sie fürs Training genutzt?
Emotionaler Umgang mit menschenähnlichen Robotern
Synthetische Haut, Gesichter, „weibliche“ Formen – das ist kein Zufall.
- Welche Erwartungen weckt das?
- Wo beginnt Manipulation?
- Wie gehen Kinder damit um?
Arbeitsmarkt
KI‑Agenten + Robotik = Druck auf:
- einfache Büroarbeit
- Logistik & Lager
- einfache Servicejobs
Gleichzeitig entstehen neue Rollen:
- AI‑Ops
- Agent‑Orchestrierung
- Roboter‑Training & Wartung
- AI Safety & Governance
Geschichtsbilder & Datenintegrität
Modelle, die historische Dokumente „korrigieren“, können:
- Sensationsfunde ermöglichen
- Aber auch Narrative verzerren
Ohne wissenschaftliche Standards und transparente Pipelines wird das schnell problematisch.

9. Fazit: KI & Robotik 2025 – vom Werkzeug zum Akteur

Wenn man alle beschriebenen Entwicklungen zusammennimmt, entsteht ein klares Bild:

> KI‑Systeme antworten nicht mehr nur auf Fragen – sie planen, handeln und interagieren in digitalen und physischen Räumen.

Cosmos & DSAR
zeigen, wie Forschung & Datenanalyse zunehmend von autonomen Agenten übernommen werden.
Abacus Deep Agent, Kimi K2, ADK Go
machen KI zu einem echten Mitarbeiter im Browser, der hunderte Schritte zuverlässig abarbeitet.
XPeng, Unitree, UBTech, Agibot, Toyota
bringen humanoide und nicht‑humanoide Roboter aus dem Labor in:
- Fabriken
- Wohnungen
- Hotels
- öffentliche Räume
GPT‑5.1 „Thinking“, Gemini 3 Pro, Nano Banana 2/Pro
verschieben die Fähigkeiten von Modellen hin zu:
- tiefem Reasoning
- multimodalem Weltverständnis
- konsistenter visueller Narration & Datenlogik.

Die entscheidende Frage für dich ist nicht:

> „Kommt AGI 2027 oder 2032?“

Sondern:

> „Wie setze ich die bereits heute verfügbaren Systeme so ein,
> dass ich produktiver, kreativer und resilienter werde – statt überrascht zu werden?“

Wenn du möchtest, können wir in einem nächsten Artikel:

eine konkrete 90‑Tage‑Roadmap für Unternehmen skizzieren (von ersten Agenten‑Pilots bis zu Robotics‑PoCs), oder
uns gezielt nur eines dieser Themen vornehmen – z.B. „Autonome Wissenschaft mit Cosmos & Co.“ oder „Wie du dir 2026 einen eigenen AI‑Mitarbeiter baust“.

Schreib uns gerne, was dich am meisten interessiert – denn genau da setzen wir auf DiekAI als Nächstes an.

Autonome KI‑Wissenschaftler, Browser‑Agenten und Humanoide: Warum KI 2025 vom Tool zum echten Akteur wird