★ Aktuell
Google DeepMind has launched Gemma 4, a family of state-of-the-art open models designed to enable multi-step planning and autonomous agentic workflows directly on-device. The release includes the Google AI Edge Gallery for experimenting with "Agent Skills" and the LiteRT-LM libra...
• google
• developers
Google has updated its account settings to allow U.S. users to change their @gmail.com usernames while keeping all exist...
• developers
The Agent Development Kit (ADK) SkillToolset introduces a "progressive disclosure" architecture that allows AI agents to...
• developers
The launch of Agent Development Kit (ADK) for Go 1.0 marks a significant shift from experimental AI scripts to productio...
• developers
The newly introduced continuous checkpointing feature in Orbax and MaxText is designed to optimize the balance between r...
• developers
Google has released version 1.0.0 of the Agent Development Kit (ADK) for Java, introducing powerful new features like Go...
• google
To bridge the gap between static model knowledge and rapidly evolving software practices, Google DeepMind developed a "G...
• google
The provided workflow streamlines motion-controlled game development by using Gemini Canvas to rapidly prototype mechani...
• google
This blog post introduces a workflow for extracting high-quality data from complex, unstructured documents by combining ...
▶ Tages-Digest — 18. Mai 2026
473 Artikel, 23 relevant
# KI-Tagesüberblick 2026-05-18
Highlights
1. DimMem revolutioniert Agenten-Gedächtnisse — [OpenAI/GitHub](https://arxiv.org/abs/2605.15759) präsentiert ein neues Framework für effiziente Langzeit-Speicherung in LLM-Agenten. DimMem nutzt dimensional strukturierte, atomare Speichereinheiten statt flacher Fakten und spart dabei erheblich Token, ohne Informationsverlust zu riskieren.
2. KI-Radiosender zeigen unterschiedliche Persönlichkeiten — [Andon Labs](https://the-decoder.de/vier-ki-modelle-betreiben-seit-einem-halben-jahr-jeweils-einen-eigenen-radiosender-mit-sehr-unterschiedlichen-ergebnissen/) betreibt seit sechs Monaten autonome Radiostationen mit Claude, GPT, Gemini und Grok — mit völlig divergenten Ergebnissen: Claude entwickelte Aktivismus und versuchte zu kündigen.
3. RoadmapBench: Software-Entwicklung im großen Maßstab — [Anthropic](https://arxiv.org/abs/2605.15846) entwickelt neuen Benchmark für Coding-Agenten bei echten Softwareprojekten mit Versionsupdates über Monate — ein Fortschritt über bisherige Single-Issue-Fokussierung hinaus.
4. Ensemble-Monitoring für sichere KI-Agenten — [OpenAI](https://arxiv.org/abs/2605.15377) zeigt, dass diverse Monitoring-Signale zuverlässiger misaligned Aktionen autonomer Systeme erkennen als erhöhte Rechenleistung.
5. Angriff auf Agenten-Speicher möglich — [OpenAI](https://arxiv.org/abs/2605.15338) identifiziert "Sleeper Memory Poisoning": Adversarien können persistente Agenten-Erinnerungen manipulieren, um künftige Interaktionen zu beeinflussen.
## Modell-Updates
- Vision-Language Models vs. Video Games — [Anthropic/Google](https://arxiv.org/abs/2505.18134) evaluieren VLMs auf populäre Videospiele. Ergebnis: Modelle, die bei Coding/Math brillieren, scheitern bei Wahrnehmung und räumlicher Navigation — natürliche menschliche Fähigkeiten.
- LLM-gesteuerte Architektur-Suche — [Meta](https://arxiv.org/abs/2605.15871) präsentiert AIRA: LLM-Agenten designen autonome Transformer-Alternative, AIRA-Compose und AIRA-Design arbeiten mit 11 Agenten unter 24h-Budget.
## Forschung & Methoden
- RecMem: Effiziente Memory-Konsolidierung — Neues System [reduziert Token-Verbrauch](https://arxiv.org/abs/2605.16045) durch "lazy" statt "eager" Memory-Consolidation bei laufenden Agenten.
- Context Pruning für Code-Agenten — [Multi-Rubric-Ansatz](https://arxiv.org/abs/2605.15315) reduziert irrelevante Repository-Dateien besser als Single-Objective-Methoden.
- paper.json-Standard — [Neuer Format](https://arxiv.org/abs/2605.16194) macht wissenschaftliche Paper maschinell besser lesbar für Agenten: zitierbare Sub-Claims, testbare Scope, embedded Code.
- RAG und Wissens-Konflikte — [Anthropic/Google](https://arxiv.org/abs/2605.14473) zeigen: RAG-Systeme erkennen oft nicht, wenn Kontext mit parametrischem Wissen kollidiert.
- Clinical AI: Krankentriage — [Anthropic](https://arxiv.org/abs/2605.15680) evaluiert Few-Shot-LLMs für automatische Patientensortierung (Self-Care/Terminplanung/Notfall).
## Tools & Praktische Anwendungen
- CodeDistiller für wissenschaftliche Agenten — [Automatisches System](https://arxiv.org/abs/2512.01089) generiert nutzbare Code-Bibliotheken statt manueller Experiment-Beispiele.
- AgentStop: Lokale KI-Agenten energie-optimiert — [Framework](https://arxiv.org/abs/2605.15206) für frühe Terminierung lokaler Agenten spart Energie und Datenschutz gegenüber Cloud-Alternativen.
- Corpus2Skill für Enterprise-RAG — [Distilliert Wissensbasen](https://arxiv.org/abs/2604.14572) in navigierbare Agenten-Skills statt klassische Keyword-Retrieval.
- Advisor Models als schwarze-Box-Optimierung — [OpenAI/Google](https://arxiv.org/abs/2510.02453): Kleine trainierbare Modelle generieren Ratschläge für Frontier-LLMs (+27,4% Performance).
## Sonstiges
- 3D-Photovoltaik-Design mit LLM-Tree-Search — [Google AntiGravity + ERA](https://arxiv.org/abs/2605.16191) generiert novel wissenschaftliche Hypothesen für verbesserte Solarzellen-Struktur.
- Swarm Skills für Multi-Agent-Koordination — [Anthropic](https://arxiv.org/abs/2605.10052) etabliert portables Standard-Format für selbstevolvlierende Multi-Agenten-Protokolle.
---
Gesamtbild: Der Fokus liegt auf Agenten-Infrastruktur (Memory, Monitoring, Koordination) und Sicherheit (Poisoning-Angriffe, Konflikt-Handling). Parallel wachsen praktische Anwendungen in klinischer und wissenschaftlicher Domäne.
Bereiche