★ Aktuell
Google DeepMind has launched Gemma 4, a family of state-of-the-art open models designed to enable multi-step planning and autonomous agentic workflows directly on-device. The release includes the Google AI Edge Gallery for experimenting with "Agent Skills" and the LiteRT-LM libra...
• google
• developers
Google has updated its account settings to allow U.S. users to change their @gmail.com usernames while keeping all exist...
• developers
The Agent Development Kit (ADK) SkillToolset introduces a "progressive disclosure" architecture that allows AI agents to...
• developers
The launch of Agent Development Kit (ADK) for Go 1.0 marks a significant shift from experimental AI scripts to productio...
• developers
The newly introduced continuous checkpointing feature in Orbax and MaxText is designed to optimize the balance between r...
• developers
Google has released version 1.0.0 of the Agent Development Kit (ADK) for Java, introducing powerful new features like Go...
• google
To bridge the gap between static model knowledge and rapidly evolving software practices, Google DeepMind developed a "G...
• google
The provided workflow streamlines motion-controlled game development by using Gemini Canvas to rapidly prototype mechani...
• google
This blog post introduces a workflow for extracting high-quality data from complex, unstructured documents by combining ...
▶ Tages-Digest — 01. Juni 2026
604 Artikel, 26 relevant
# KI-Tagesüberblick 2026-06-01
Highlights
1. LLM-Bias-Studien zeigen persistente Fairness-Probleme — Umfassende Evaluierungen von Claude, GPT und Gemini enthüllen gender-, rassen- und altersbezogene Disparitäten in Entscheidungsszenarien. Die Debiasing-Bemühungen führen oft zu neuen Fairness-Trade-offs statt echte Lösungen zu bieten. Cross-linguistischen Tests (Englisch, Koreanisch, Chinesisch, Japanisch) zeigen, dass östliche Sprachmodelle teilweise andere Bias-Muster aufweisen.
2. Sicherheitslücken bei Tool-basierten LLM-Agenten — Forschung zu indirekten Prompt-Injections offenbart kritische Verwundbarkeiten in ReAct-Agenten: Adversaries können über kontrollierte Tool-Outputs die Agent-Ziele umlenken. Besonders problematisch sind Tool-Beschreibungen, die bei jedem Turn gelesen werden und als zusätzliche Angriffsfläche dienen.
3. Multimodale Modelle scheitern bei physikalischem Reasoning — Das neue BilliardPhys-Bench-Benchmark zeigt, dass führende Multimodal-LLMs intuitive physikalische Vorhersagen aus statischen Bildern nicht zuverlässig treffen können — ein erhebliches Defizit für Robotik- und Simulationsanwendungen.
4. Memory-Management für langfristige Agent-Sessionen — Neue Systeme wie [Eywa](https://arxiv.org/abs/2605.30771) und [VikingMem](https://arxiv.org/abs/2605.29640) adressieren das Context-Window-Problem durch provenance-grounded Memory mit Audit- und Löschfunktionen sowie generalisierbare Speicherextraktionsmethoden.
5. Anthropic dominiert agentic-AI-Implementierungen — Claude Code outperformte OpenAIs Codex in einer head-to-head Gravitationswellen-Datenanalyse und zeigt Fortschritte bei autonomer Code-Execution ohne menschliche Intervention.
## Forschung
- [Experience Learning für Agents](https://arxiv.org/abs/2605.30712) — ExpGraph ermöglicht modell-agnostisches Lernen aus prior experience mit graph-strukturiertem Memory; Agent-Fehler werden als Lernquelle systematisch genutzt.
- [Social AI Safety Framework](https://arxiv.org/abs/2605.30654) — EUDAIMONIA evaluiert unerwünschte soziale Dynamiken bei LLM-Companion-Anwendungen (Emotional Disclosure, parasoziale Beziehungen).
- [Klinische NLP in Non-English-Sprachen](https://arxiv.org/abs/2605.30529) — Generische Embedding-Modelle schneiden bei ICD-10-Kodierung in Nicht-Englisch-Sprachen deutlich schlechter ab; Large Generative Models können diese Lücke als Data Factories schließen.
- [Safety für embodied Agents](https://arxiv.org/abs/2605.30924) — EMBGuard entkoppelt physische Risiko-Erkennung von Agent-Policy zur Prävention unsicherer Robot-Aktionen.
## Modell-Updates
- [Mellum 2 Release](https://arxiv.org/abs/2605.31268) — Open-weight 12B-Parameter Mixture-of-Experts Modell (2.5B aktive Parameter) mit Spezialisierung auf Software Engineering, Code-Editing und agentic Coding.
## Business & Markt
- Anthropic's starker Monat — Laut Simon Willisons Mai-Newsletter hatte Anthropic einen besonders erfolgreichen Monat; KI-Kosten sind gestiegen, während "Model Releases etwas enttäuschend" ausfallen.
## Sonstiges
- [Benchmark für visuelle Assistenz](https://arxiv.org/abs/2605.31351) — VIABLE ist das erste Benchmark-Set für VLM-as-Judge Evaluation in Anwendungen für Sehbehinderte.
- [Vulnerability Task Generation](https://arxiv.org/abs/2602.03012) — CVE-Factory automatisiert die Transformation von CVE-Metadaten in ausführbare Agent-Tasks auf Expert-Level zur Evaluierung von Code-Security-Fähigkeiten.
Bereiche