★ Aktuell
Google DeepMind has launched Gemma 4, a family of state-of-the-art open models designed to enable multi-step planning and autonomous agentic workflows directly on-device. The release includes the Google AI Edge Gallery for experimenting with "Agent Skills" and the LiteRT-LM libra...
• google
• developers
Google has updated its account settings to allow U.S. users to change their @gmail.com usernames while keeping all exist...
• developers
The Agent Development Kit (ADK) SkillToolset introduces a "progressive disclosure" architecture that allows AI agents to...
• developers
The launch of Agent Development Kit (ADK) for Go 1.0 marks a significant shift from experimental AI scripts to productio...
• developers
The newly introduced continuous checkpointing feature in Orbax and MaxText is designed to optimize the balance between r...
• developers
Google has released version 1.0.0 of the Agent Development Kit (ADK) for Java, introducing powerful new features like Go...
• google
To bridge the gap between static model knowledge and rapidly evolving software practices, Google DeepMind developed a "G...
• google
The provided workflow streamlines motion-controlled game development by using Gemini Canvas to rapidly prototype mechani...
• google
This blog post introduces a workflow for extracting high-quality data from complex, unstructured documents by combining ...
▶ Tages-Digest — 05. Mai 2026
876 Artikel, 59 relevant
KI-Tagesüberblick 2026-05-05
### Highlights
1. LLMs zeigen systematische Verzerrungen bei Nachrichtenglaubwürdigkeit — Frontier-Modelle klassifizieren Unterhaltungsnachrichten deutlich häufiger als Fake ein als seriöse Hard News, obwohl beide legitim sind. Das Problem ist modellspezifisch, zeigt aber ein grundsätzliches Fairness-Problem bei Zero-Shot-Bewertungen. [Studie](https://arxiv.org/abs/2605.01727)
2. Agentic Research beschleunigt Forschungszyklen drastisch — Ein Forscherteam reproduzierte und erweiterte eine komplette ACL-2026-Studie in drei Stunden durch agentengestützte Systeme, statt Wochen zu benötigen. Dies signalisiert einen fundamentalen Wandel in NLP-Workflows. [Paper](https://arxiv.org/abs/2605.02620)
3. Epistemische Monokultur bei KI-Forecasting entdeckt — GPT-4o, Claude und Gemini zeigen hochkorrelierte Prognosefehler (r=0.77), was die Unabhängigkeit von KI-basierten Vorhersagen gefährdet und kollektive Intelligenzansätze untergräbt. [Studie](https://arxiv.org/abs/2605.00844)
4. Multiagenten-Systeme überwinden Single-Agent-Grenzen — Spezialisierte Agenten in Hydrodynamik-Workflows ersetzen den Bottleneck eines einzelnen Kontext-Fensters, verbessern Zuverlässigkeit durch verteilte Planung und Tool-Nutzung. [Research](https://arxiv.org/abs/2605.01102)
5. Jailbreak-Sicherheitslücke durch kontextuelle Priming — Automatisierte Red-Teaming zeigt, dass mehrteilige Konversationen systematisch Sicherheitsalignment umgehen können — bisheriges Verfahren zur Sicherheit unter Druck. [Paper](https://arxiv.org/abs/2605.02647)
### Forschung & Benchmarks
- DiagramNet-Dataset — Erstes Multimodal-Dataset für nicht-standardisierte System-Diagramme in Chip-Design mit 10.977 Annotationen. Adressiert MLLM-Schwächen bei technischen Architektur-Visualisierungen. [arxiv](https://arxiv.org/abs/2605.01338)
- Medmarks Benchmark-Suite — 30 Open-Source-Benchmarks für medizinische LLM-Evaluierung (QA, Information Extraction, klinische Kalkulationen). Adressiert Saturation bestehender Benchmarks. [arxiv](https://arxiv.org/abs/2605.01417)
- Strukturierte Output-Zuverlässigkeit — Lücke zwischen mathematischer Korrektheit und Format-Compliance in Small Language Models (7-9B) nachgewiesen. Nur 60-70% der korrekten Antworten sind auch strukturell valid. [arxiv](https://arxiv.org/abs/2605.02363)
- 1M-Token Kontext-Evaluation — Frontier-Modelle getestet auf klassischem Chinesisch mit echten 1M-Token-Fenstern. Ergebnisse zeigen Grenzen echter Retrieval-Fähigkeiten bei maximalen Kontextlängen. [arxiv](https://arxiv.org/abs/2605.02173)
### Fachdomänen
- Brasilianische Klinikleitlinien für LLMs — Qwen2.5-14B gezielt mit 178 offiziellen brasilianischen Gesundheitsrichtlinien trainiert. Schließt Lücke für 200+ Millionen Nutzer ohne locale klinische KI-Expertise. [arxiv](https://arxiv.org/abs/2605.01077)
- Medizinisches Multi-Bild-Reasoning — Benchmark MedThinkVQA für Szenarien, wo klinische Diagnosen mehrere Bilder integrieren (statt einzelner View). Expert-annotiert mit Step-Level-Evaluierung. [arxiv](https://arxiv.org/abs/2604.16506)
- Text-to-SQL mit flexibler DB-Interaktion — FlexSQL-Agent nutzt iteratives Datenbankzugreifen statt Single-Pass-Retrieval, reduziert frühe Fehler bei komplexen Schemas. [arxiv](https://arxiv.org/abs/2605.02815)
### Sicherheit & Alignment
- Post-Alignment Tampering via BYOK-Relays — Malicious Third-Party-Relays können aligned-LLM-Responses nach Generation aber vor Execution modifizieren. End-to-End-Integrität nicht garantiert. [arxiv](https://arxiv.org/abs/2605.02187)
- Self-Correction als Feedback-Control — Iterative Selbstkorrektur in Agenten instabil: Error Introduction Rate und Correction Rate bestimmen, ob Verfeinerung hilft oder schadet. [arxiv](https://arxiv.org/abs/2604.22273)
### Business & Deployment
- Neurosymbolic Enterprise-Architektur — Foundation AgenticOS (FAOS) nutzt Ontologie-Constraints für halluzinationsresistente Agenten. Soll Regulatory Compliance auf Reasoning-Ebene durchsetzen. [arxiv](https://arxiv.org/abs/2604.00555)
- Neuro-Symbolische Rechtliche Adjudikation — Amortized Intelligence: Legale Texte einmal zu deterministischer DACL-Sprache kompiliert, reduziert Inference-Kosten dramatisch bei komplexen Verträgen. [arxiv](https://arxiv.org/abs/2605.02472)
- Opus 4.7 & GPT-5.5 Ankündigungen — Neue Modellversionen mit Preiserhöhungen; Claude Mythos und ChatGPT Images 2.0 erweitert Feature-Set. [Newsletter](https://simonwillison.net/2026/May/4/april-newsletter/)
### Sonstiges
- Multi-Agent RL via Orchestration Traces — RL optimiert nicht nur einzelne Agent-Aktionen, sondern auch Spawning, Delegation, Kommunikation und Aggregation in LLM-Teams. [arxiv](https://arxiv.org/abs/2605.02801)
- CBRS: Blood Donation Request Filtering — Bilinguales KI-System für Social-Media-Blutspende-Gesuche mit Dual-Layer-Filtering für Low-Resource-Settings. [arxiv](https://arxiv.org/abs/2604.16665)
Bereiche