★ Aktuell
Google DeepMind has launched Gemma 4, a family of state-of-the-art open models designed to enable multi-step planning and autonomous agentic workflows directly on-device. The release includes the Google AI Edge Gallery for experimenting with "Agent Skills" and the LiteRT-LM libra...
• google
• developers
Google has updated its account settings to allow U.S. users to change their @gmail.com usernames while keeping all exist...
• developers
The Agent Development Kit (ADK) SkillToolset introduces a "progressive disclosure" architecture that allows AI agents to...
• developers
The launch of Agent Development Kit (ADK) for Go 1.0 marks a significant shift from experimental AI scripts to productio...
• developers
The newly introduced continuous checkpointing feature in Orbax and MaxText is designed to optimize the balance between r...
• developers
Google has released version 1.0.0 of the Agent Development Kit (ADK) for Java, introducing powerful new features like Go...
• google
To bridge the gap between static model knowledge and rapidly evolving software practices, Google DeepMind developed a "G...
• google
The provided workflow streamlines motion-controlled game development by using Gemini Canvas to rapidly prototype mechani...
• google
This blog post introduces a workflow for extracting high-quality data from complex, unstructured documents by combining ...
▶ Tages-Digest — 14. Mai 2026
668 Artikel, 32 relevant
KI-Tagesüberblick 2026-05-14
### Highlights
1. Torrix: Self-Hosted LLM-Observability ohne Infrastruktur-Overhead — Ein neues Open-Source-Tool ermöglicht LLM-Observability in einer einzelnen Docker-Container mit SQLite-Backend statt komplexer PostgreSQL/Redis-Setups. Ziel ist die Senkung von Adoptionsbarrieren für Production-Monitoring von AI-Agenten. [(GitHub)](https://github.com/torrix-ai/install)
2. Grid-Orch: LLM-gesteuerte Simulationen für Stromnetze — Ein Framework verbindet Large Language Models mit Power-Distribution-Simulationen über das Model Context Protocol. Ermöglicht Ingenieuren komplexe Netzwerk-Analysen per Natursprache – adressiert Fachkräftemangel in der Energiewirtschaft. [(arXiv)](https://arxiv.org/abs/2605.12728)
3. RTLC-Prompting verbessert LLM-as-Judge-Genauigkeit — Ein dreistufiges Prompting-Schema (Research-Teach-to-Learn-Critique) erhöht die Urteilsgenauigkeit von LLMs beim Benchmarking ohne Fine-Tuning. Basiert auf der Feynman-Lernmethode. [(arXiv)](https://arxiv.org/abs/2605.13695)
4. Agentick: Einheitlicher Benchmark für Sequential Decision-Making — Erste Benchmark-Suite zur fairen Vergleichbarkeit von RL-, LLM-, VLM- und Hybrid-Agenten auf gemeinsamer Grundlage. [(arXiv)](https://arxiv.org/abs/2605.06869)
5. Sicherheitslücke bei Omnimodalen LLMs erkannt — Neue Studien zeigen, dass Multimodal-Modelle textliche Widersprüche zu ihren eigenen Sinneseingaben (Video/Audio) nicht konsistent erkennen. [(arXiv)](https://arxiv.org/abs/2605.13737)
### Tool-Releases
- OpenCode AI-Agent für Python — Open-Source Terminal-Agent für Code-Analyse und Refactoring mit freiem Google-Gemini-API-Zugang. [(Real Python Guide)](https://realpython.com/opencode-guide/)
- Claude Agent SDK v0.2.141 & Claude Code v2.1.141 — Neue Versionen mit erweiterten Task-Management-Exports und verbesserter Desktop-Integration (Notifications, Workspace Identity Federation). [(GitHub)](https://github.com/anthropics/claude-agent-sdk-typescript/releases/tag/v0.2.141)
### Forschung
- LLM-Zielwahl divergiert von menschlichen Präferenzen — Empirische Studie zeigt, dass Sprachmodelle bei der autonomen Zielauswahl nicht zuverlässig menschliche Präferenzen abbilden. [(arXiv)](https://arxiv.org/abs/2603.03295)
- Interpretierbarkeit von Agent-Verhalten — Neue Methoden zur Strukturierung von Reasoning-Trajektorien und Execution-Traces für bessere Diagnose von Agent-Ineffizienzen. [(arXiv)](https://arxiv.org/abs/2605.13625)
- Multimodale LLM-Agenten in der Wissenschaftlichen Visualisierung — Vergleichende Evaluierung verschiedener Agent-Paradigmen (domain-spezifisch vs. Computer-Use vs. Coding-Agenten) auf SciVis-Aufgaben. [(arXiv)](https://arxiv.org/abs/2604.27996)
- SimWorld Studio: Automatische 3D-Environment-Generierung — LLM-basierte Kodierungs-Agenten generieren diverse, interaktive 3D-Szenen für das Training von embodied Agents. [(arXiv)](https://arxiv.org/abs/2605.09423)
- VERA-MH: KI-Sicherheit in psychischer Gesundheit — Automatisierte Evaluierung von Chatbot-Sicherheit in Mental-Health-Kontexten mit klinischer Expertise. [(arXiv)](https://arxiv.org/abs/2510.15297)
- PII-Redaction mit On-Device Small Language Models — Neue Technik zur konsistenten Ersetzung von persönlichen Daten mit typ-erhaltenden Fake-Werten auf Edge-Devices. [(arXiv)](https://arxiv.org/abs/2605.13538)
### Business & Markt
- Codex und Claude unter Wettbewerbsdruck — Post-GPT-5.5-Phase zeigt divergente Narrative: Finance-Sektor fokussiert auf Anthropic-Wachstum (Richtung Oktober-IPO), während Engineer-Community verstärkt zu OpenAI Codex greift. [(Latent Space)](https://www.latent.space/p/ainews-codex-rises-claude-meters)
### Sonstiges
- GUIGuard-Bench: Privacy-Schutz für GUI-Agenten — Neue Benchmark-Suite zur Evaluierung von Datenschutz-Risiken bei Screenshot-basierten Desktop-Agenten. [(arXiv)](https://arxiv.org/abs/2601.18842)
- Generate-Verify-Workflows: Statistisches Release-Problem — Forschung zu optimalen Stopppunkten in iterativen Agent-Schleifen mit adaptiven Evaluator-Scores. [(arXiv)](https://arxiv.org/abs/2605.12947)
- Move-Prover-Integration mit Agentic Coding — Kombination von Weakest-Precondition-Analyse mit Claude Code für automatisierte Smart-Contract-Spezifikation. [(arXiv)](https://arxiv.org/abs/2605.10005)
Bereiche