Drücke „Enter”, um zum Inhalt zu springen.

Autonome KI‑Wissenschaftler, Browser‑Agenten und Humanoide: Warum KI 2025 vom Tool zum echten Akteur wird

0

AI-Schock im Spätherbst 2025: Autonome Wissenschaftler, denkende GPT‑5.1‑Modelle & Humanoiden mit „Haut“ – wo geht das alles hin?

Wenn du das Gefühl hast, dass sich KI 2023/24 schon krass schnell entwickelt hat, dann wird dich das Tempo Ende 2025 wahrscheinlich komplett erschlagen.

Wir reden nicht mehr nur über Chatbots, hübsche Bilder und ein bisschen Code-Autocomplete. Wir reden über:

  • Autonome KI‑Wissenschaftler, die selbstständig Forschung betreiben
  • Agenten, die im Browser arbeiten wie ein menschlicher Mitarbeiter
  • Humanoide Roboter, die tanzen, Betten machen, Gäste empfangen – und bald in Fabriken im Einsatz sind
  • Bild‑KI, die nicht nur „nett aussieht“, sondern die reale Welt mit GPS, Karten, Grundrissen und Datenvisualisierungen logisch verknüpft
  • Foundation Models wie GPT‑5.1 „Thinking“ und Gemini 3 Pro, die lange, verschachtelte Aufgaben planen und über Hunderte Schritte durchziehen

In diesem (langen) Artikel für das DiekAI Blog schauen wir uns diese Entwicklungen im Detail an, ordnen sie ein – und fragen ganz offen:

> Wie nah sind wir an KI‑Systemen, die wirklich autonom planen, handeln und interagieren – und was bedeutet das für Forschung, Jobs, Unternehmen und unseren Alltag?


1. Vom Chatbot zum KI‑Wissenschaftler: Microsoft Cosmos & Google DSAR

Viele Menschen nutzen KI bisher vor allem zum Schreiben, Zusammenfassen oder Coden. Aber was passiert, wenn KI die gesamte Forschungspipeline übernimmt – von der Literaturrecherche über Datenanalyse bis zum fertigen Paper?

1.1 Microsoft Cosmos: Der autonome „KI‑Wissenschaftler“

Cosmos ist ein von Microsoft finanzierter, autonomer „AI Scientist“. In einem typischen 12‑Stunden‑Lauf macht Cosmos:

  • Liest 1.500+ Forschungsarbeiten
  • Schreibt ~40.000 Zeilen Python‑Code
  • Führt Analysen aus, testet Hypothesen
  • Erstellt einen kompletten Forschungsbericht mit:
    • Zitaten
    • Ausführbarem Code
    • Grafiken und Statistiken

Und das alles ohne menschliche Eingriffe während der Session.

Was Cosmos bereits entdeckt hat

Die Ergebnisse sind nicht nur Spielerei, sondern echte wissenschaftliche Funde, z.B.:

  • Hirn‑Energiesparmodus bei Kälte
    Cosmos zeigte, dass Gehirnzellen bei Abkühlung in einen Energiesparmodus wechseln:
    Sie recyceln Moleküle statt sie neu zu synthetisieren.

  • Perowskit‑Solarzellen & Luftfeuchtigkeit
    Cosmos fand heraus, dass hohe Luftfeuchtigkeit bei der Herstellung Perowskit‑Solarzellen zerstört.
    Später wurde diese Erkenntnis von menschlichen Forschern bestätigt.

  • Universelles Hirn-Verkabelungsgesetz
    Ein mathematisches Gesetz, das beschreibt, wie Neuronen in sehr unterschiedlichen Spezies (Mensch, Maus, Fliege) verschaltet sind – ein Hinweis auf ein universelles Muster der Gehirnarchitektur.

  • Protein SOD2 als Herzschutz
    Cosmos identifizierte SOD2 als Protein, das Herzgewebe schützt und Vernarbung reduziert.

  • DNA‑Variante & Diabetes‑Resistenz
    Verbindung einer bestimmten DNA‑Variante mit Resistenz gegen Diabetes, vermittelt über ein Stressantwort‑Gen in Insulin‑produzierenden Zellen.

  • Zeitpunkt des Zellkollapses bei Alzheimer
    Die KI kartierte, ab wann bestimmte Gehirnzellen bei Alzheimer beginnen zu degenerieren und verknüpfte dies mit:

    • Verlust von Flippase‑Genen
    • Fehlgeleiteten Immunreaktionen im Gehirn

> Wenn du dich jemals gefragt hast „Ist KI in der Wissenschaft nur eine bessere Suchmaschine?“ – Cosmos ist die Antwort darauf, dass wir bereits deutlich weiter sind.

Wie Cosmos aufgebaut ist

Cosmos besteht nicht aus „einem großen Modell“, sondern aus Hunderten von Sub‑Agenten:

  • Einige fassen Papers zusammen
  • Andere analysieren Daten
  • Wieder andere schreiben Code

Alle greifen auf ein gemeinsames World Model zu, eine zentrale interne Gedächtnisstruktur, die verfolgt:

  • Was schon passiert ist
  • Welche Ansätze funktioniert haben
  • Welche Hypothesen als Nächstes spannend sind

Unabhängige Gutachter kommen aktuell zu etwa 80 % korrekten wissenschaftlichen Aussagen. Ein 12‑Stunden‑Run entspricht dem, was ein Junior‑Forscher in sechs Monaten schaffen würde.

Wo die Grenzen liegen

So beeindruckend das klingt: Cosmos ist kein magischer Knopf für „Nobelpreis auf Abruf“.

  • Braucht klare Ziele & Daten:

    • Menschen formulieren Fragestellungen
    • Stellen Datensätze bereit
    • Priorisieren Ergebnisse
  • Hat Schwierigkeiten mit:

    • Messy Data (extrem unstrukturierte, schmutzige Rohdaten)
    • Riesigen Dateien (> ~5 GB)
    • Mittendrin‑Anweisungen (ein Run ist ein „All‑in‑12‑Stunden‑Experiment“)
  • Hauptproblem: Urteilskraft
    Statistisch valide Hypothesen sind nicht automatisch relevant oder interessant. Welche Spur weiterzuverfolgen ist, erfordert weiterhin menschliche Bewertung.

Was heißt das für Forscher?

Wenn du in Forschung, Data Science oder Analytics arbeitest, solltest du dir nüchtern klar machen:

  • Ein System wie Cosmos ersetzt keine Principal Investigators, aber es ersetzt potentiell:
    • Einen Teil der Arbeit von Doktoranden
    • Viele typische Aufgaben von „Research Assistants“
  • Der Job verschiebt sich von:
    • „Selbst alles lesen & programmieren“
    • hin zu: Ziele formulieren, Daten kuratieren, Ergebnisse prüfen und interpretieren

Wer das ignoriert, riskiert in den nächsten 3–5 Jahren, im eigenen Feld plötzlich deutlich weniger produktiv zu sein als Kollegen, die AI‑Scientists bewusst einsetzen.


1.2 Google DSAR/DStar: KI‑Datenwissenschaftler für echte „Chaosdaten“

Wenn du in einem Unternehmen arbeitest, kennst du das Problem: Daten liegen nicht schön in einer sauberen SQL‑DB, sondern verteilt in:

  • CSVs
  • Excel‑Sheets
  • PDF‑Reports
  • Markdown‑Notizen
  • JSON‑Logs

Genau hier setzt Googles DSAR (oft „DStar“ genannt) an: ein Multi‑Agentensystem für autonome Datenanalyse auf messy Data.

Was DSAR kann

Du stellst eine natürliche Frage wie:

> „Welche unserer Produktlinien hat im 3. Quartal am besten performt, wenn wir Verkäufe und Kundenbewertungen kombinieren?“

DSAR:

  1. Findet relevante Dateien in deinem Filesystem
  2. Schreibt Python‑Code, verbindet Tabellen, reinigt Daten
  3. Führt Analysen aus
  4. Prüft auf Fehler, debuggt ggf. selbst
  5. Gibt dir eine Antwort – plus Code, den du selber laufen lassen kannst

Die 6 Kern‑Agenten

  1. Scanner – indexiert Dateien, erkennt Spalten/Typen, erstellt Snippets
  2. Planner – zerlegt Aufgaben in einzelne Schritte
  3. Coder – baut das Python‑Script für Transformation & Analyse
  4. Verifier – führt Code aus und prüft, ob alles durchläuft
  5. Router – entscheidet, was bei Fehlern passiert
  6. Finalizer – bereitet die Ergebnisse für den Nutzer auf

Zusätzlich gibt es:

  • Debugger – fixiert typische Fehler (falsche Spaltennamen, Datentypen etc.)
  • Retriever – nutzt Gemini embedding‑001, um die wichtigsten Dateien auszuwählen (Top‑100 für eine Task)

Läuft aktuell auf Gemini 2.5 Pro, ist aber modell‑agnostisch: In Zukunft könnten auch GPT‑5, Claude oder andere Modelle eingespeist werden.

Wie gut ist das wirklich?

Auf Benchmarks sieht man, warum Multi‑Agenten so spannend sind:

  • DABench (harte Analyseaufgaben):

    • Nur Gemini 2.5 Pro: 12,7 %
    • Mit DSAR‑Architektur: 45,24 %
  • ChromaBench (Datei‑Retrieval im Großmaßstab):

    • DSAR: 44,7 %
    • Nächstbester Ansatz: 39,8 %
  • DA‑Code (Code für Datenaufgaben):

    • DSAR: 37,1 %
    • Nächstbester: 32 %

Die Botschaft ist klar:

> Die Art und Weise, wie du ein Modell orchestrierst, kann wichtiger sein als bloße Modellgröße.

Was bedeutet das konkret für Unternehmen?

Wenn du dir heute eine „KI‑Strategie für Daten“ überlegst, gibt es zwei Ebenen:

  1. Modell‑Auswahl
    Welcher LLM ist State of the Art?

  2. Orchestrierung
    Wie zerlegst du komplexe Aufgaben in Schritte, inkl.:

    • Planung
    • Code‑Generierung
    • Validierung
    • Fehlerbehandlung

Die zweite Ebene wird gerade massiv unterschätzt – und dort entstehen 2025/26 die wirklich produktiven Systeme.


2. KI‑Agenten als „Mitarbeiter“: Browser‑Bots, Reasoning‑Modelle & Agent Frameworks

Vielleicht fragst du dich: „Okay, KI kann denken, planen, code schreiben. Aber kann sie auch wirklich arbeiten – im Browser, mit Formularen, Logins, alltäglichen Tools?“

Die Antwort 2025 ist: Ja – und für etwa 10 Dollar im Monat.

2.1 Abacus Deep Agent: Der Browser‑Angestellte im Abo

Abacus Deep Agent ist ein agentenbasierter „AI Employee“, der:

  • Einen echten Browser öffnet
  • Klickt, scrollt, Texte eingibt
  • Formulare ausfüllt
  • Websites durchsucht
  • Aufgaben zeitgesteuert ausführt

Backend‑Modelle sind austauschbar: Claude, Gemini, GPT, Grok – du kannst wählen, was für deinen Case am besten funktioniert.

Typische Workflows

  • Lead‑Generierung

    • Sucht Nischen‑Blogs (z.B. „Luxus‑Accessoires“)
    • Prüft Relevanz
    • Extrahiert Kontaktinfos
    • Baut Google Sheets / CSV
    • Schreibt personalisierte Outreach‑Mails
    • Läuft täglich um 9 Uhr
  • Automatisierte Bewerbungen

    • Du lädst Lebenslauf & Liste mit Job‑URLs hoch
    • Agent öffnet jede Seite, füllt Formulare aus, beantwortet Fragen
    • Protokolliert:
    • Rolle
    • Firma
    • Gehalt
    • Datum der Ausschreibung
    • Kann stündlich laufen, um neue Jobs einzusammeln
  • Sonstiges:

    • Rechnungen herunterladen
    • Website‑Checks
    • Scraping
    • Postings auf X
    • Login‑Tests

Außerdem gibt es den Deep Agent Listener als Desktop‑Companion:

  • Transkribiert Meetings
  • Liest, was auf deinem Bildschirm passiert
  • Fasst Dokumente zusammen
  • Erstellt Follow‑up‑Tasks

Preislich liegen wir im Bereich von ~10 $/Monat – also unter einem Streaming‑Abo.

Was heißt das für Wissensarbeit?

Ehrlich gesagt: Wenn du heute noch regelmäßig:

  • Copy‑Paste aus Webseiten machst
  • Standardformulare händisch füllst
  • Manuell wiederkehrende Online‑Prozesse betreibst

– und du keine Agenten wie Deep Agent, AutoGPT‑Nachfolger, o.ä. nutzt, dann arbeitest du einfach langsamer und teurer als nötig.

Das ist kein Alarmismus, sondern reine Effizienzrechnung.


2.2 Moonshot Kimi K2 Thinking: Open‑Source‑Denker gegen US‑Labs

In China geht Moonshot AI mit Kimi K2 Thinking einen anderen Weg: ein offenes Reasoning‑Modell, das auf langfristige Planung und ausgedehnte Tool‑Nutzung ausgelegt ist.

Benchmarks

  • Humanity’s Last Exam: 40,9 %
    (multidisziplinärer Benchmark)

  • BrowseBench (kontinuierliches Browsen): 60,2 %
    – mehr als doppelt so gut wie der menschliche Baseline (29,2 %)

  • SWE‑Verified (Coding): 71,3 %

Was K2 Thinking besonders macht

  • Bis zu 300 sequentielle Tool Calls hintereinander:
    • Lesen → planen → recherchieren → coden → testen → korrigieren
  • Kann z.B.:
    • PhD‑Level‑Aufgaben in hyperbolischer Geometrie lösen
      (23 verschachtelte Reasoning‑ & Tool‑Aufrufe)
    • Schauspieler anhand vager Beschreibung durch iterierte Websuche identifizieren
    • Vollständige Web‑Editoren (z.B. React‑Frontends) aus einer Prompt heraus bauen

Strategisch wichtig:

> Moonshot setzt stark auf Test‑Time‑Scaling:
> Je länger das Modell „denken“ (Tokens/Compute) darf, desto besser wird das Ergebnis.

Das ist exakt der Trend, den wir später auch bei GPT‑5.1 „Thinking“ wiedersehen.


2.3 Google ADK Go: Agenten wie normale Software entwickeln

Viele Entwickler fühlen sich unwohl dabei, „nur zu prompten“. Sie wollen:

  • Typesafety
  • Debugging
  • Versionierung
  • CI/CD

Genau hier setzt Googles Agent Development Kit (ADK) an, das jetzt auch Go unterstützt – neben Python und Java.

Was du mit ADK bauen kannst

  • Agenten als richtige Services, nicht nur Chat‑Bots:
    • Mit Logging, Monitoring, Tests
    • Lokal, On‑Prem, im Cloud‑Cluster
  • Dank MCP Toolbox:
    • Zugriff auf 30+ Datenbanken mit minimalem Boilerplate
  • Agent‑to‑Agent‑Kommunikation (A2A):
    • Ein Hauptagent delegiert Aufgaben an Sub‑Agenten
    • Ohne, dass er seine komplette interne State offenlegen muss
  • Google hat den A2A Go SDK offen veröffentlicht

Damit fühlt sich KI‑Entwicklung erstmals an wie ganz normales Software Engineering – nur dass deine Services neben HTTP auch mit Sprache und Weltwissen umgehen.


3. Humanoide Roboter 2025: Von Metall‑Avatar bis „synthetischer Haut“

Roboter waren lange entweder:

  • Industriearme in Käfigen
  • Oder shaky Demonstratoren auf Messen

2025 hat sich das Bild deutlich verschoben. Wir sehen:

  • Humanoide mit synthetischer Haut
  • Teleoperierte Avatare, die 1:1 deine Bewegungen spiegeln
  • Hunderte Roboter in realen Fabriken
  • Und ernsthafte Diskussionen darüber, ob wir humanoide Roboter mit Brüsten brauchen

Klingt absurd? Schauen wir genauer hin.


3.1 XPeng „Iron“ & synthetische Haut: Emotionaler Service‑Humanoid

Der chinesische E‑Auto‑Hersteller XPeng hat mit „Iron“ und einer neuen humanoiden Linie einen klaren Fokus:

> Keine reinen Fabrikarbeiter, sondern soziale Roboter für Empfang, Touren, Shopping‑Assistenz etc.

Hardware & „Körperdesign“

  • Vollständige synthetische Haut:

    • Unterschiedliche Körperformen: athletisch, „chubby“, groß, klein
    • Anpassbare Frisuren, Kleidung
    • Fühlt sich laut XPeng wärmer, intimer an als Metall
  • Biomimetische Wirbelsäule & Muskelsystem:

    • Sehr flüssige Bewegungen, natürliches Biegen und Drehen
  • Gesicht:

    • 3D‑Kurven‑Display im Kopf, um Mimik darzustellen
  • Hände:

    • 22 Freiheitsgrade pro Hand – feine Manipulation
  • Rechenleistung:

    • Drei Turing‑AI‑Chips, zusammen 2.250 TOPS
    • Auf Augenhöhe mit XPeng‑Autopiloten
  • Batterie:

    • Vollständig Solid‑State, leichter und ausdauernder als klassische Lithium‑Packs

KI‑Stack

XPeng spricht von einem End‑to‑End‑Stack:

  • VLT – Vision‑Language Transformer
  • VLA – Vision‑Language‑Action
  • VLM – klassisches Vision‑Language‑Model

Damit sieht, versteht und handelt der Roboter in Echtzeit: Kamera → Sprachverständnis → Aktion.

Einsatzfelder & Ethik

CEO He Xiaopeng:

  • Humanoiden seien nicht ideal für reine Fabrikarbeit
  • Fokus auf:
    • Rezeption
    • Tour‑Guides
    • Shopping‑Assistenten
  • Kooperation mit Baosteel für Inspektions‑ und Industrie‑Piloten

Spannend ist die Ethik‑Schiene:

  • XPeng verweist auf Asimovs Drei Gesetze der Robotik und ergänzt ein viertes:

    1. Menschen keinen Schaden zufügen
    2. Befehle befolgen (sofern nicht 1 verletzt wird)
    3. Eigene Existenz schützen (sofern 1 & 2 nicht verletzt werden)
    4. Keine Daten des Besitzers preisgeben
  • Sie positionieren sich klar gegen Konkurrenten, die möglichst vollen Datenzugriff auf Haushalte wollen, um Roboter zu trainieren.

Die „Brust“-Kontroverse

XPeng hat bei „Iron“ bewusst einen weiblich anmutenden Körper mit Brustform gewählt. Das löst online Debatten aus:

  • Ist das reine Sexualisierung?
  • Oder eine realistische Anpassung an menschliche Wahrnehmung & Alltagsumgebung?

XPengs Argumentation:

  • Die Welt ist für Menschen gebaut, daher sei humanoide Form funktional
  • Humanoide sollen emotional zugänglich sein
  • Sie möchten gezielt untersuchen, wie Menschen auf:
    • Körperform
    • Hautweichheit
    • Haare, Kleidung
    • u.a. reagieren

Ob man das gut findet oder nicht: Die Diskussion wird in den nächsten Jahren noch sehr viel lauter werden, wenn Service‑Humanoide in Hotels, Malls und Museen auftauchen.


3.2 Unitree G1: Vom Teleoperations‑Avatar zum lernenden Haushaltsroboter

Die chinesische Firma Unitree verfolgt einen eher technischen, weniger „menschlich inszenierten“ Ansatz mit ihrem G1‑Humanoid.

1:1‑Avatarsteuerung

  • Mensch trägt einen Full‑Body‑Motion‑Suit
  • G1 spiegelt jede Bewegung in Echtzeit:
    • Fußball‑Schüsse
    • Kampfstab‑Übungen
    • Sogar Roboter‑„Sparring“, wenn zwei Menschen je einen G1 steuern

Internetreaktion:
„Schick deinen Roboter ins Fitnessstudio, statt selbst zu gehen.“

Warum Teleoperation so wichtig ist

Was auf den ersten Blick wie eine Spielerei wirkt, ist in Wahrheit ein Data‑Pipeline‑Meisterstück:

  • Menschen teleoperieren G1
  • Jede Bewegung wird als Datenpunkt aufgezeichnet
  • Daraus lernt das System, komplexe Ganzkörperbewegungen zu verallgemeinern

Ergebnis: G1 kann in realen Wohnungen:

  • Putzen
  • Oberflächen abwischen
  • Müll rausbringen
  • Kissen aufschütteln
  • Getränke in den Kühlschrank räumen

Und das glatt, ohne ruckelige Bewegungen.

> Teleoperation ist hier kein Feature, sondern ein Trainingsvehikel:
> Erst Avatare, dann autonome Haushaltsroboter.


3.3 China vs. Russland: Echte Homes, echte Fabriken vs. peinliche Premieren

Ein Blick über die Ländergrenzen zeigt, wie unterschiedlich weit die Akteure sind.

Mindong / Unitree G1 in echten Wohnungen

Videos von Mindong (mit G1‑Plattform) zeigen echte Wohnungen:

  • Vorhänge öffnen
  • Pflanzen gießen
  • Pakete verschieben
  • Bettwäsche wechseln

Auffällig:

  • Flüssige Übergänge zwischen den Aufgaben
  • Sichere Interaktion mit Kindern im Raum
  • Weiche Materialien (Bettdecke) ohne Chaos

Die technischen Probleme, die jetzt im Vordergrund stehen, sind weniger „Kann er laufen?“, sondern:

  • Akkulaufzeit
  • Robustheit & Wartung
  • Safety‑Standards
  • Preis für Haushalte & KMU

Unitree G1D: Industrie‑Humanoid auf Rollen

G1D ist die industrielle Variante:

  • Humanoider Oberkörper, optional auf mobilem Sockel mit Rädern
  • Designed für:
    • Lager
    • Retail
    • Leichte Montage

Specs (Auszug):

  • Reichweite: ~2 m
  • 7 DOF pro Arm, bis ~3 kg Last
  • 6h Akkulaufzeit
  • NVIDIA Jetson‑Compute (100 TOPS)
  • Wechselbare Hände (2‑, 3‑, 5‑Finger, mit/ohne Tastsensorik)

Wichtig: G1D ist auch Datenplattform. Kunden können eigene Modelle trainieren und direkt auf dem Roboter deployen.

Russlands A‑Idol: Kalibrierungs‑Debakel

In Russland sollte A‑Idol der große humanoide Showcase werden – inklusive Rocky‑Soundtrack. Stattdessen:

  • Roboter fällt beim Auftritt um
  • Teile fallen ab
  • Team eilt auf die Bühne, um das Ganze zu kaschieren

Die Firma spricht von „Kalibrierungsproblemen“ und betont, dass 77 % der Teile lokal gefertigt seien.

Aber die Botschaft ist klar: In manchen Regionen ist der Abstand zu China, USA, Japan aktuell nicht nur technisch, sondern auch organisatorisch enorm.


3.4 UBTech Walker S2: Hunderte Humanoide im Fabrikeinsatz

Während viele westliche Firmen noch mit einsamen Prototypen auf Messen posieren, meldet UBTech:

  • Hunderte Walker S2 an echte Fabrikkunden ausgeliefert
  • Auftragseingänge 2025: ca. 113 Mio. US‑Dollar
  • Kunden u.a.:
    • BYD
    • Geely Auto
    • FAW‑VW
    • Dongfeng
    • Foxconn

Besondere Stärke: Selbstständiger Akkutausch

  • Walker S2 tauscht seinen Akku selbst
  • Minimale Ausfallzeiten
  • De facto nahezu kontinuierlicher Betrieb möglich

Finanziell:

  • H1 2025 Umsatz: ~87,7 Mio. $ (+27,5 % YoY)
  • Bruttogewinn: ~30,6 Mio. $
  • Verluste deutlich reduziert
  • Aktie +150 %, Analysten bleiben auf „Buy“

Natürlich gibt es Skepsis – Konkurrenten wie Figure‑CEO Brett Adcock zweifeln öffentlich an, ob wirklich „hunderte echte Roboter produktiv“ laufen oder eher Show‑Stücke sind.

Aber selbst wenn ein Teil Marketing ist:
Das Volumen zeigt, wohin der Markt sich bewegt.


3.5 Agibot A2: Business‑Humanoid für Hotels, Messen & Stores

Agibot A2 zielt sehr klar auf reale Business‑Cases:

  • Größe: 169 cm, 69 kg
  • Full‑Duplex‑Sprachdialog – also natürliche Gespräche in Echtzeit
  • LLM + RAG auf Firmendaten:
    • Als Rezeptionist
    • Messe‑Guide
    • Shop‑Assistent

Technische Highlights:

  • Filtert 96 % Umgebungsgeräusche heraus
  • Gesichtserkennung & Lippenlesen mit ~99 % Genauigkeit
  • Action GPT erzeugt automatisch passende Gesten zur Sprache
  • Navigiert eigenständig mit 3D‑SLAM, 360° LiDAR, 6 HD‑Kameras
  • Safety nach PL‑b/D (industrielle Sicherheitsnormen)
  • Akku: 2h, aber Sofort‑Akkutausch → Dauerbetrieb möglich

Agibot positioniert sich damit sehr eindeutig als pragmatischer Business‑Player, nicht als futuristischer Show‑Roboter.


3.6 Toyota WalkMe: Vom Rollstuhl zur laufenden Sessel‑Ziege

Ein spannender Gegenpol zu all den „Menschen‑Klonen“ ist Toyotas WalkMe:

  • Ein vierbeiniger Sitzroboter ohne Räder
  • Inspiriert von Ziegen (stabil im Gebirge) und Krabben (Seitwärtsbewegung)

Zielgruppe:

  • Menschen mit eingeschränkter Mobilität
  • Situationen, in denen Rollstühle scheitern:
    • Treppen
    • Steile Wege
    • Unwegsames Gelände

Features:

  • LiDAR + Radar für Hinderniserkennung
  • Gewichtssensoren, automatische Stabilisierung an Hängen
  • Sprachsteuerung plus manueller Override
  • Ergonomischer Sitz, Tagesreichweite
  • Überhitzungsschutz

Es ist noch ein Konzept, aber es zeigt eine wichtige Alternative:

> Robotics muss nicht immer „Mensch in Metall“ sein. Assistive Mobilität könnte ein riesiger Markt werden – mit deutlich klarerem Nutzen als „Roboter im Wohnzimmer“.


4. Die nächste Model‑Generation: GPT‑5.1 „Thinking“, Gemini 3 Pro & Nano Banana 2/Pro

Während Roboter lernen zu laufen, passiert auf Model‑Ebene mindestens genauso viel. Die Entwicklung verschiebt sich von:

  • „Mehr Parameter, mehr Daten“
    hin zu:
  • „Besser denken, besser planen, länger kontextualisieren“

4.1 GPT‑5.1 „Thinking“: Deep Reasoning statt nur mehr Tokens

In Konfigurationsdateien von OpenAI‑Backends tauchten Ende 2025 mehrere neue Modelle auf:

  • GPT‑5.1
  • GPT‑5.1 Reasoning
  • GPT‑5.1 Pro
  • GPT‑5.1 Thinking

Interessant ist vor allem „Thinking“:

  • Fokus auf tiefe, mehrstufige Reasoning‑Ketten
  • Zerlegt Aufgaben in Sub‑Probleme
  • Vermutlich mit „Thinking Budgets“:
    • Das Modell kann entscheiden, wie viel Compute/Zeitschritte es verwenden will
    • Ähnlich wie Claude mit „Chain of Thought“ und „Deep Thinking“

Rollout:

  • Erste Hinweise auf Enterprise‑Start Ende November 2025
  • Unternehmen können Modellversionen einfrieren (keine stillen Upgrades)
  • Für Plus‑User könnte es leicht früher zugänglich sein

Dazu passt, dass auf OpenRouter das Modell „Polaris Alpha“ auftauchte, das über GPT‑4‑Niveau performt – viele vermuten, dass es sich um GPT‑5.1 „Thinking“ unter anderem Namen handelt.

> Der Trend ist klar:
> Nicht mehr „ein Modell für alles“, sondern Segmentierung in: > – Mini (schnell & billig) > – Thinking (tiefes Reasoning) > – Pro (stabil & enterprise‑tauglich)

Für Entwickler und Unternehmen heißt das:
Du wirst viel gezielter entscheiden müssen, welche Klasse von Modell du für welche Aufgabe einsetzt.


4.2 Gemini 3 Pro & Nano Banana 2: Die Bild‑KI wird weltverstehend

Auf Google‑Seite tut sich parallel enorm viel:

  • Gemini 3 Pro taucht in Vertex AI als Preview auf

    • Vermutlich mit 1M‑Token‑Kontext
    • Besseres Coding & Reasoning als Gemini 2.5 Pro
  • Nano Banana 2 (intern GEIX‑2) ist die nächste Generation der Bild‑Engine, die auf Gemini 3 Pro Image basiert.

Nano Banana 2: Was sich konkret verbessert

  • Auflösung:

    • Native 2K, Upscaling auf 4K
  • Prompt‑Treue:

    • Deutlich bessere Umsetzung von Text‑Prompts
    • Geeignet für:
    • Poster
    • UI‑Mockups
    • Magazin‑Layouts
  • Kulturelles & geografisches Wissen:

    • „Winteroutfit in Berlin“ vs. „Familienpicknick in Tokio im Frühling“
      → Kleidung, Licht, Umgebung wirken korrekt
  • Subjekt‑Konsistenz:

    • Ein Gesicht, eine Figur über viele Prompts hinweg konsistent halten
    • Ideal für Kampagnen, Comics, Visual Storytelling
  • Edit with Gemini:

    • Regionale Bildbearbeitung:
    • Kleidung ändern
    • Hintergrund anpassen
    • Lichtstimmung modifizieren
    • Rest des Bildes bleibt stabil
  • Speed:

    • Komplexe Renderings in Genau diese Architektur – High‑Level‑Planer + Low‑Level‑Controller – ist das Muster, das wir bei echten Robotern** sehen werden.

Langfristig heißt das:

  • LLM/Agent entscheidet „Was tun?“
  • Separate Kontrollmodelle übernehmen „Wie bewege ich meine Gelenke?“

Damit schließt sich der Kreis zu Ubtech, Unitree, XPeng & Co.


7. Branchen‑Drama: Figure vs. Agility vs. UBTech – Hype, Skepsis, Realität

Wo viel Geld und PR im Spiel ist, bleiben Konflikte nicht aus.

7.1 Brett Adcock (Figure) vs. UBTech & Agility

  • Figure‑CEO Brett Adcock stellt in Frage, ob UBTech wirklich „hunderte funktionierende“ Walker S2 produktiv ausgeliefert hat
  • Er selbst behauptet, ein Figure‑Humanoid habe 5 Monate am Stück in einer BMW‑Produktionslinie gearbeitet
  • Konkurrent Agility Robotics kontert sarkastisch („Dann hab ich auch das Zitronenwasser erfunden“)
  • Adcock wiederum sagt den Bankrott von Agility innerhalb eines Jahres voraus

Andere Branchenakteure (z.B. 1X‑VP) mahnen zur Fairness. Trotzdem zeigt die Debatte:

  • Es geht längst nicht mehr nur um Technologie, sondern auch um Narrative:
    • Wer gilt als Marktführer?
    • Wer hat echte Deployments?
    • Wer bekommt die großen Industriekunden?

Für dich als Beobachter heißt das:
Man muss Marketing‑Videos, Pressemitteilungen und reale Kennzahlen sehr bewusst voneinander trennen.


8. Was bedeutet das alles praktisch – für dich, dein Unternehmen & die Gesellschaft?

Nach all den Beispielen stellt sich die Frage:

> Wie nah sind wir an einem Alltag, in dem KI‑Agenten und Roboter ganz selbstverständlich mitarbeiten?

Ein paar nüchterne Beobachtungen und Empfehlungen.

8.1 Für Wissensarbeiter:innen

Wenn du in Bereichen wie:

  • Forschung
  • Data Science
  • Marketing
  • Vertrieb
  • Produktmanagement
  • Softwareentwicklung

unterwegs bist, solltest du dir drei Ebenen anschauen:

  1. LLM‑Nutzung
    Nutzt du moderne Modelle (Gemini 2.5+, Claude 4.5, GPT‑4.1/5.x, Kimi K2, etc.) täglich für:

    • Recherche
    • Rohtexte
    • Code‑Skelette
    • Ideenfindung?
  2. Agent‑Nutzung
    Überlässt du wiederkehrende Browser‑ und Office‑Tasks bereits:

    • Systemen wie Abacus Deep Agent?
    • Custom‑Agenten auf Basis von ADK, LangGraph, OpenAI‑Assistants?
  3. Orchestrierung & Automatisierung
    Denkst du in „Pipelines“ statt in „Prompts“?

    • Multi‑Step‑Plans
    • Tool‑Use
    • Feedback‑Schleifen
    • Monitoring

Wer das beherrscht, kann in 2025/26 faktorisch mehr Output liefern als Kolleg:innen, die KI nur sporadisch „auch mal ausprobieren“.


8.2 Für Unternehmen & Führungskräfte

Wenn du Verantwortung für Teams, Budgets oder Strategien trägst, sind aus meiner Sicht drei Bereiche entscheidend:

1. „AI Employee“‑Strategie

  • Welche Aufgaben in deiner Organisation sind:

    • Standardisiert
    • Browser‑basiert
    • Formular‑lastig
    • Wiederholend
  • Beispiele:

    • Datenpflege im CRM
    • Lead‑Enrichment & Outreach
    • Standard‑Recherchen
    • Monitoring von Preisen/Trends
    • Reportingaufbereitung

→ Diese Tasks werden von Agenten wie Deep Agent, eigenen ADK‑Services oder ähnlichen Tools in den nächsten 12–24 Monaten systematisch übernommen werden.

2. Data‑ & Analytics‑Modernisierung

Systeme wie Cosmos und DSAR zeigen:

  • KI kann nicht nur „aufgeräumte Datenbanken“,
  • sondern auch das Chaos aus Excel, CSV, PDF, Logs.

Das heißt:

  • Die strategische Frage ist weniger „Haben wir perfekt aufgeräumte Daten?“,
  • sondern „Können wir KI sicher und kontrolliert auf unsere bestehenden Daten loslassen?“

Wichtige Punkte:

  • Zugriffsrechte & Governance
  • Logging & Nachvollziehbarkeit
  • Human‑in‑the‑Loop für kritische Entscheidungen
  • Klare KPIs für KI‑Analysen (Qualität vs. Geschwindigkeit)

3. Robotics‑Roadmap (selbst für Nicht‑Industrieunternehmen)

Selbst wenn du kein Produktionsbetrieb bist, lohnt sich eine mittelfristige Betrachtung:

  • Service‑Humanoide (Agibot, XPeng, UBTech) werden:

    • Messen
    • Hotels
    • Retail
    • Showrooms
      durchdringen.
  • Assistive Geräte (Toyota WalkMe, spezialisierte Logistik‑Roboter etc.)
    werden in:

    • Gesundheitswesen
    • Pflege
    • Infrastruktur

relevant.

Fragen, die du dir stellen solltest:

  • Wo könnten Roboter Mitarbeitende entlasten, statt sie zu ersetzen?
  • Welche Social‑ & Brand‑Implikationen hätte ein humanoider Roboter im Kundendialog?
  • Welche Datenschutz‑ und Sicherheitsanforderungen gelten?

8.3 Gesellschaft & Ethik: Ein paar offene Baustellen

Am Ende gibt es einige Themen, die wir nicht rein technisch lösen können:

  • Privatsphäre
    Wenn humanoide Roboter mit Kameras und Mikrofonen in Wohnungen oder Hotels stehen:

    • Wer besitzt die Daten?
    • Wie lange werden sie gespeichert?
    • Werden sie fürs Training genutzt?
  • Emotionaler Umgang mit menschenähnlichen Robotern
    Synthetische Haut, Gesichter, „weibliche“ Formen – das ist kein Zufall.

    • Welche Erwartungen weckt das?
    • Wo beginnt Manipulation?
    • Wie gehen Kinder damit um?
  • Arbeitsmarkt
    KI‑Agenten + Robotik = Druck auf:

    • einfache Büroarbeit
    • Logistik & Lager
    • einfache Servicejobs

    Gleichzeitig entstehen neue Rollen:

    • AI‑Ops
    • Agent‑Orchestrierung
    • Roboter‑Training & Wartung
    • AI Safety & Governance
  • Geschichtsbilder & Datenintegrität
    Modelle, die historische Dokumente „korrigieren“, können:

    • Sensationsfunde ermöglichen
    • Aber auch Narrative verzerren

    Ohne wissenschaftliche Standards und transparente Pipelines wird das schnell problematisch.


9. Fazit: KI & Robotik 2025 – vom Werkzeug zum Akteur

Wenn man alle beschriebenen Entwicklungen zusammennimmt, entsteht ein klares Bild:

> KI‑Systeme antworten nicht mehr nur auf Fragen – sie planen, handeln und interagieren in digitalen und physischen Räumen.

  • Cosmos & DSAR
    zeigen, wie Forschung & Datenanalyse zunehmend von autonomen Agenten übernommen werden.

  • Abacus Deep Agent, Kimi K2, ADK Go
    machen KI zu einem echten Mitarbeiter im Browser, der hunderte Schritte zuverlässig abarbeitet.

  • XPeng, Unitree, UBTech, Agibot, Toyota
    bringen humanoide und nicht‑humanoide Roboter aus dem Labor in:

    • Fabriken
    • Wohnungen
    • Hotels
    • öffentliche Räume
  • GPT‑5.1 „Thinking“, Gemini 3 Pro, Nano Banana 2/Pro
    verschieben die Fähigkeiten von Modellen hin zu:

    • tiefem Reasoning
    • multimodalem Weltverständnis
    • konsistenter visueller Narration & Datenlogik.

Die entscheidende Frage für dich ist nicht:

> „Kommt AGI 2027 oder 2032?“

Sondern:

> „Wie setze ich die bereits heute verfügbaren Systeme so ein,
> dass ich produktiver, kreativer und resilienter werde – statt überrascht zu werden?“

Wenn du möchtest, können wir in einem nächsten Artikel:

  • eine konkrete 90‑Tage‑Roadmap für Unternehmen skizzieren (von ersten Agenten‑Pilots bis zu Robotics‑PoCs), oder
  • uns gezielt nur eines dieser Themen vornehmen – z.B. „Autonome Wissenschaft mit Cosmos & Co.“ oder „Wie du dir 2026 einen eigenen AI‑Mitarbeiter baust“.

Schreib uns gerne, was dich am meisten interessiert – denn genau da setzen wir auf DiekAI als Nächstes an.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert