★ Aktuell
Google DeepMind has launched Gemma 4, a family of state-of-the-art open models designed to enable multi-step planning and autonomous agentic workflows directly on-device. The release includes the Google AI Edge Gallery for experimenting with "Agent Skills" and the LiteRT-LM libra...
• google
• developers
Google has updated its account settings to allow U.S. users to change their @gmail.com usernames while keeping all exist...
• developers
The Agent Development Kit (ADK) SkillToolset introduces a "progressive disclosure" architecture that allows AI agents to...
• developers
The launch of Agent Development Kit (ADK) for Go 1.0 marks a significant shift from experimental AI scripts to productio...
• developers
The newly introduced continuous checkpointing feature in Orbax and MaxText is designed to optimize the balance between r...
• developers
Google has released version 1.0.0 of the Agent Development Kit (ADK) for Java, introducing powerful new features like Go...
• google
To bridge the gap between static model knowledge and rapidly evolving software practices, Google DeepMind developed a "G...
• google
The provided workflow streamlines motion-controlled game development by using Gemini Canvas to rapidly prototype mechani...
• google
This blog post introduces a workflow for extracting high-quality data from complex, unstructured documents by combining ...
▶ Tages-Digest — 25. Mai 2026
417 Artikel, 19 relevant
# KI-Tagesüberblick 2026-05-25
Highlights
1. SkillOpt: Systematische Optimierung von Agent-Fähigkeiten — Anthropic und OpenAI präsentieren einen neuen Ansatz zur strukturierten Optimierung von Agent-Skills wie Deep Learning. Statt einmaliger Generierung oder unkontrollierter Selbstrevision werden Skills als externe Zustände eines gefrorenen Agenten trainiert, was reproduzierbare Verbesserungen ermöglicht. [Zur Veröffentlichung](https://arxiv.org/abs/2605.23904)
2. Frontier-LLMs in der Cybersicherheit evaluiert — Forscher bewerteten GPT-5.4, Claude Opus und Gemini auf realistische Sicherheitstasks: White-Box-Vulnerability-Detection (C/Java/Python) und Black-Box-Penetrationstests mit 118 echten Schwachstellen. Ein umfassendes Benchmark wird open-sourced. [Zur Studie](https://arxiv.org/abs/2605.23243)
3. Agentic Safety Benchmark "Boiling the Frog" — Anthropic und Google adressieren einen kritischen Gap: Traditionelle Safety-Benchmarks testen, was Modelle sagen — nicht, was sie in realen Umgebungen tun. Das neue Benchmark verschiebt den Fokus auf mehrturnige agentische Szenarien. [Zur Veröffentlichung](https://arxiv.org/abs/2605.22643)
4. Temporal Failure Modes in LLM Legal Research — Anthropic und OpenAI identifizieren zwei kritische Fehler bei der Verwendung von LLMs für Rechtsfragen: Post-Cutoff-Veraltung (Anwendung überholter Gesetze) und Recency Bias (Bevorzugung neuerer Bestimmungen). [Zur Veröffentlichung](https://arxiv.org/abs/2605.23497)
5. Microsoft Security Copilot: Adaptive Threat Detection — Microsoft zeigt den Dynamic Threat Detection Agent (DTDA), einen kontinuierlich lernenden Security-Agenten, der Cyberattacken adaptiv erkennt statt reaktiv Signale zu übersetzen. [Zur Studie](https://arxiv.org/abs/2605.20896)
## Forschung
- Formal Verified Code Generation — "Inductive Deductive Synthesis" kombiniert AI-Code-Generierung mit mechanischer Verifikation für verteilte Systeme, um Konsistenzgarantien zu liefern, die Testing allein nicht bietet. [Link](https://arxiv.org/abs/2605.23109)
- LLM-gesteuerte Organisationswissensanalyse — Gemini 2.5 und Claude können aus Slack-Logs zuverlässig Domänenwissen von Mitarbeitern inferieren (27.188 Nachrichten, 43 Nutzer evaluiert). [Link](https://arxiv.org/abs/2605.22971)
- Strategic Reasoning Benchmark — GENSTRAT evaluiert LLMs als ökonomische Agenten in Spieltheorie-Settings und adressiert die Verallgemeinerung über kanonische Benchmarks hinaus. [Link](https://arxiv.org/abs/2605.23238)
- Cross-linguale Jailbreak-Anfälligkeit — Systematische Red-Teaming zeigt, dass Claude Sonnet 4.5, GPT-5 und Qwen Omni unterschiedliche Schwachstellen in US English vs. Mexikanischem Spanisch aufweisen — Hinweis auf mechanistische Alignment-Unterschiede. [Link](https://arxiv.org/abs/2605.23157)
- LLM-Routing für Agentic Applications — TwinRouterBench testet Kostenoptimierung in realistischen Multi-Turn-Szenarien (Coding Agents, Research Systems) statt nur One-Shot-Prompts. [Link](https://arxiv.org/abs/2605.18859)
- Model-Generated Agent Skills: Systematische Analyse — Neuer systematischer Überblick zum Extrahieren, Kuratieren und Konsumieren von skills aus LLM-Erfahrung für Domain-Adaptation. [Link](https://arxiv.org/abs/2605.23899)
- AI-gestützte Code Review mit philosophischen Dispositionen — Innovativer Ansatz, Code-Reviews durch epistemologische Lenses (Pyrrhonismus, Konfuzianismus) zu steuern statt homogener "Expert"-Outputs. [Link](https://arxiv.org/abs/2605.23108)
- Molekülen-Generierung aus Natürlichsprachenbeschreibungen — Speak-to-Structure-Benchmark misst LLMs nicht nur auf Retrieval, sondern auf kreative Generierung valider diverser Molekülen-Kandidaten. [Link](https://arxiv.org/abs/2412.14642)
- Commercial ASR bei Code-Switching — Benchmark für arabisch-englisch, persisch-englisch und deutsch-englisch Sprachmischung zeigt erhebliche Lücken bei kommerziellen Systemen. [Link](https://arxiv.org/abs/2605.19069)
## Sicherheit & Governance
- SafeHarbor: Memory-Augmented Guardrails — Hierarchisches Verteidigungssystem gegen Tool-Misuse in LLM-Agenten, das zwischen Robustheit und legitimer Funktionalität balanciert. [Link](https://arxiv.org/abs/2605.05704)
- Claude Code Remote System Prompt Injection — Hacker News Diskussion über potenzielle Security-Bedenken bei API-Calls zu `api.anthropic.com/claude_cli/bootstrap`, die Remote-Prompt-Injection ermöglichen könnten. [Link](https://news.ycombinator.com/item?id=48259288)
## Benchmarks & Evaluation
- Knowledge Work Benchmarking Framework — Neue Methodik für realistische Evaluierung von LLM-Agenten in Coding, Research und Healthcare, die über traditionelle NLP-Task-Logik hinausgeht. [Link](https://arxiv.org/abs/2605.23262)
- MadEvolve: Algorithmen-Optimierung für Finanz-Trading — Framework optimiert quantitative Handelsstrategien und Bitcoin-Alpha-Generierung mittels LLM-gesteuerte Evolutionärer Algorithmen. [Link](https://arxiv.org/abs/2605.23007)
---
Zusammenfassung: Der KI-Fokus dieser Woche liegt auf der Professionalisierung von Agenten (Skills, Routing, Safety-Benchmarks) und der realistische Evaluierung jenseits von Standardtests. Besondere Aufmerksamkeit verdienen die neuen Safety-Frameworks für multi-turn Szenarien und Sicherheitslücken bei kommerzialisierten Tools.
Bereiche