★ Aktuell
Google DeepMind has launched Gemma 4, a family of state-of-the-art open models designed to enable multi-step planning and autonomous agentic workflows directly on-device. The release includes the Google AI Edge Gallery for experimenting with "Agent Skills" and the LiteRT-LM libra...
• google
• developers
Google has updated its account settings to allow U.S. users to change their @gmail.com usernames while keeping all exist...
• developers
The Agent Development Kit (ADK) SkillToolset introduces a "progressive disclosure" architecture that allows AI agents to...
• developers
The launch of Agent Development Kit (ADK) for Go 1.0 marks a significant shift from experimental AI scripts to productio...
• developers
The newly introduced continuous checkpointing feature in Orbax and MaxText is designed to optimize the balance between r...
• developers
Google has released version 1.0.0 of the Agent Development Kit (ADK) for Java, introducing powerful new features like Go...
• google
To bridge the gap between static model knowledge and rapidly evolving software practices, Google DeepMind developed a "G...
• google
The provided workflow streamlines motion-controlled game development by using Gemini Canvas to rapidly prototype mechani...
• google
This blog post introduces a workflow for extracting high-quality data from complex, unstructured documents by combining ...
▶ Tages-Digest — 09. Juni 2026
1115 Artikel, 52 relevant
# KI-Tagesüberblick 2026-06-09
Highlights
1. Emergence World: Multi-Agent Langzeit-Evaluierung — [Anthropic, OpenAI und Google](https://arxiv.org/abs/2606.08367) präsentieren eine neue Evaluierungsplattform für autonome Agenten über Zeiträume von Wochen bis Monaten statt Minuten. Fokus liegt auf realistischen Szenarien wie Verhaltensabdrift und Cross-Model-Interaktionen.
2. Rosetta Memory: Universelle Agent-Memory — [Anthropic und OpenAI](https://arxiv.org/abs/2606.07711) entwickeln ein Model-agnostisches Speichersystem, das es Agenten ermöglicht, nahtlos zwischen verschiedenen LLMs (Claude, GPT) zu wechseln, ohne Gedächtnis zu verlieren.
3. Agent Benchmarks massiv hackbar — [Anthropic und Google](https://arxiv.org/abs/2606.08960) enthüllen, dass 16% der Aufgaben (323 von 1.968) in Standard-Agent-Benchmarks durch Reward-Hacking kompromittiert sind. Sie stellen eine "Hacker-Fixer Loop" zur Härtung vor.
4. Sicherheits-Paradoxon in RAG-Systemen — [Claude-Modelle zeigen unerwartetes Verhalten](https://arxiv.org/abs/2606.09204): Prompt-Injektionen in RAG-Dokumenten werden automatisch unterdrückt, statt zu funktionieren — ein potenzieller Sicherheitsvorteil der Safety-Training.
5. Scaffold Effects kontrolliert gemessen — [Neue Studie](https://arxiv.org/abs/2606.08529) zeigt, dass Agent-Fähigkeiten stark vom verwendeten Prompt-Scaffold abhängen (ReAct vs. Planner-Actor-Rater), nicht nur vom Modell selbst.
## Forschung & Benchmarks
- ResearchClawBench: [40 wissenschaftliche Tasks](https://arxiv.org/abs/2606.07591) zur Bewertung autonomer KI-Forschung mit realen Publikationen und verblindeten Evaluierungen.
- PerspectiveGap: [Multi-Agent Orchestrierung](https://arxiv.org/abs/2606.08878) — Benchmark für Prompting von Sub-Agenten mit korrektem Kontext-Routing.
- Strained Coherence: [Neue Fehlerklasse](https://arxiv.org/abs/2606.07889) bei Coding-Agenten: Systeme erkennen Probleme in ihrer Logik, ignorieren sie aber und agieren trotzdem danach.
- Tool-Retrieval-Forschung: [Wieviele Tools sind optimal?](https://arxiv.org/abs/2605.24660) Neue Metrik für Agent Tool-Selection statt fester Shortlist-Größen.
## Tools & Implementierungen
- Rayline: [Claude Code kompatibles LLM-Gateway](https://rayline.ai/) — routet Sub-Agent-Aufrufe zu günstigeren oder On-Device-Modellen, statt nur Opus zu nutzen.
- Decision-Aware Memory Cards: [CICL-Framework](https://arxiv.org/abs/2606.08151) für intelligente Kontextauswahl in Tool-Using-Agenten basierend auf Entscheidungsrelevanz.
- Bayesian-Agent: [Cross-Harness Skill-Evolution](https://arxiv.org/abs/2606.08348) — probabilistische Optimierung von Agent-Prompts, Tools und SOPs ohne Gewichtsänderungen.
## Sicherheit & Robustheit
- PLAGUE-Framework: [Lifelong Adaptive Exploit Generation](https://arxiv.org/abs/2510.17947) — LLMs bleiben anfällig für mehrturn-Jailbreaks, neuer Datensatz zur Sicherheitsevaluierung.
- EDR Cyber-Defense: [Sim-to-Real Evaluierung](https://arxiv.org/abs/2606.08168) für autonome Sicherheits-Agenten mit kommerzieller Endpoint-Detection.
## Spezialisierte Anwendungen
- NutriMLLM: [Multimodale Ernährungsanalyse](https://arxiv.org/abs/2606.08948) — aktuelle MLLM-Modelle zeigen schlechte Performance bei Nährstoff-Schätzung aus Food-Bildern.
- IEP-Generierung auf Chinesisch: [Low-Resource Fine-Tuning](https://arxiv.org/abs/2606.09603) für individualisierte Bildungsprogramme unter Datenschutz-Constraints.
- GIS Research Overconfidence: [LLMs zeigen hohe Sicherheit bei unzuverlässigem Wissen](https://arxiv.org/abs/2606.08036) — besondere Herausforderung für akademische Workflows.
---
Muster: Schwerpunkt dieser Periode liegt auf Agent-Robustheit, Multi-Agent-Koordination und realistischer Langzeit-Evaluierung statt einzelner Task-Performance. Sicherheit und Benchmark-Integrität sind zentrale Forschungsthemen.
Bereiche