Live
Bring state-of-the-art agentic skills to the edge with Gemma 4Supporting Google Account username change in your appDeveloper’s Guide to Building ADK Agents with SkillsADK Go 1.0 Arrives!Boost Training Goodput: How Continuous Checkpointing Optimizes Reliability in Orbax and Ma...Announcing ADK for Java 1.0.0: Building the Future of AI Agents in JavaClosing the knowledge gap with agent skillsJump to play: Building with Gemini & MediaPipeBuild a smart financial assistant with LlamaParse and Gemini 3.1Developer’s Guide to AI Agent ProtocolsAnnouncing the Colab MCP Server: Connect Any AI Agent to Google ColabPlan mode is now available in Gemini CLIIntroducing Finish Changes and Outlines, now available in Gemini Code Assist extensions on...Unleash Your Development Superpowers: Refining the Core Coding ExperienceIntroducing Wednesday Build HourWhat's new in TensorFlow 2.21You can't stream the energy: A developer's guide to Google Cloud Next '26 in VegasHow we built the Google I/O 2026 Save the Date experienceSupercharge your AI agents: The New ADK Integrations EcosystemOn-Device Function Calling in Google AI Edge GalleryTorchTPU: Running PyTorch Natively on TPUs at Google ScaleGet ready for Google I/O: Livestream schedule revealedNew enhancements for merchant initiated transactions with the Google Pay APIBuild Better AI Agents: 5 Developer Tips from the Agent Bake-OffBuilding with Gemini Embedding 2: Agentic multimodal RAG and beyondProduction-Ready AI Agents: 5 Lessons from Refactoring a MonolithSubagents have arrived in Gemini CLIMaxText Expands Post-Training Capabilities: Introducing SFT and RL on Single-Host TPUsAgents CLI in Agent Platform: create to production in one CLIA2UI v0.9: The New Standard for Portable, Framework-Agnostic Generative UIBring state-of-the-art agentic skills to the edge with Gemma 4Supporting Google Account username change in your appDeveloper’s Guide to Building ADK Agents with SkillsADK Go 1.0 Arrives!Boost Training Goodput: How Continuous Checkpointing Optimizes Reliability in Orbax and Ma...Announcing ADK for Java 1.0.0: Building the Future of AI Agents in JavaClosing the knowledge gap with agent skillsJump to play: Building with Gemini & MediaPipeBuild a smart financial assistant with LlamaParse and Gemini 3.1Developer’s Guide to AI Agent ProtocolsAnnouncing the Colab MCP Server: Connect Any AI Agent to Google ColabPlan mode is now available in Gemini CLIIntroducing Finish Changes and Outlines, now available in Gemini Code Assist extensions on...Unleash Your Development Superpowers: Refining the Core Coding ExperienceIntroducing Wednesday Build HourWhat's new in TensorFlow 2.21You can't stream the energy: A developer's guide to Google Cloud Next '26 in VegasHow we built the Google I/O 2026 Save the Date experienceSupercharge your AI agents: The New ADK Integrations EcosystemOn-Device Function Calling in Google AI Edge GalleryTorchTPU: Running PyTorch Natively on TPUs at Google ScaleGet ready for Google I/O: Livestream schedule revealedNew enhancements for merchant initiated transactions with the Google Pay APIBuild Better AI Agents: 5 Developer Tips from the Agent Bake-OffBuilding with Gemini Embedding 2: Agentic multimodal RAG and beyondProduction-Ready AI Agents: 5 Lessons from Refactoring a MonolithSubagents have arrived in Gemini CLIMaxText Expands Post-Training Capabilities: Introducing SFT and RL on Single-Host TPUsAgents CLI in Agent Platform: create to production in one CLIA2UI v0.9: The New Standard for Portable, Framework-Agnostic Generative UI

KI Force — Die deutsche KI-Wissensreferenz

18 Anbieter · 123+ Quellen · 26512+ Artikel

★ Aktuell Alle News →

Bring state-of-the-art agentic skills to the edge with Gemma 4

Google DeepMind has launched Gemma 4, a family of state-of-the-art open models designed to enable multi-step planning and autonomous agentic workflows directly on-device. The release includes the Google AI Edge Gallery for experimenting with "Agent Skills" and the LiteRT-LM libra...

Neueste Artikel Mehr ansehen →
• developers

ADK Go 1.0 Arrives!

The launch of Agent Development Kit (ADK) for Go 1.0 marks a significant shift from experimental AI scripts to productio...

▶ Tages-Digest — 12. Mai 2026 1405 Artikel, 70 relevant
KI-Tagesüberblick 2026-05-12

### Highlights

1. Nautilus Compass: Persona-Drift-Erkennung für produktive LLM-Agenten — Anthropic und OpenAI präsentieren ein Black-Box-System zur Erkennung von Verhaltensabweichungen bei Coding-Agenten in langen Sessions. Das Tool funktioniert mit geschlossenen APIs (Claude, GPT-4) und behebt das Problem des "Vergessens" von Nutzervorgaben ohne Zugriff auf Modellgewichte. [arXiv:2605.09863](https://arxiv.org/abs/2605.09863)

2. Forschung-Level-Mathematik-Benchmark "Soohak" veröffentlicht — Nach IMO-Gold-Medaillen durch frontier LLMs entsteht ein neuer Benchmark für research-level mathematische Probleme, der die Fähigkeit zur Wissenserweiterung statt nur Schrittlogik misst. [arXiv:2605.09063](https://arxiv.org/abs/2605.09063)

3. OpenAI startet "Daybreak"-Initiative für Sicherheitslücken-Erkennung — OpenAI antwortet auf Anthropics Mythos-Sicherheitsforschung mit eigenem Programm zur proaktiven Vulnerabilitätserkennung mittels Codex Security AI. [The Verge](https://www.theverge.com/ai-artificial-intelligence/928342/openai-daybreak-security-ai)

4. Recursive Language Models für extrem lange Prompts — LLMs können nun Eingaben bis zu 100x länger verarbeiten durch selbstrekursives Zerlegen und Aufrufen über Prompt-Snippets. [arXiv:2512.24601](https://arxiv.org/abs/2512.24601)

5. AgentHER: Failed Trajectories für Agenten-Training recyceln — Neuer Ansatz mit Hindsight Experience Replay macht fehlgeschlagene Agent-Pfade nutzbar, da diese oft für andere Ziele korrekt sind. Besonders relevant bei Erfolgsquoten von nur 14-55%. [arXiv:2603.21357](https://arxiv.org/abs/2603.21357)

### Forschung

- Beyond Accuracy: Framework zur Evaluierung von Strategien-Vielfalt statt nur Genauigkeit bei mathematischem Reasoning mit dual-AI-Annotation. [arXiv:2605.09292](https://arxiv.org/abs/2605.09292)

- MathConstraint: Adaptive Benchmark für kombinatorisches Reasoning mittels Constraint-Satisfaction-Problemen mit Solver-basierter Verifizierung. [arXiv:2605.08498](https://arxiv.org/abs/2605.08498)

- GUARD: Guideline-Compliance-Test durch adaptive Rollenspiele und Jailbreak-Diagnostik für ethische LLM-Bewertung. [arXiv:2508.20325](https://arxiv.org/abs/2508.20325)

- Process vs. Output: Kognitionswissenschaftlicher Ansatz zur Mensch-Maschine-Unterscheidung basierend auf Problemlösungsprozess statt nur Output. [arXiv:2605.06524](https://arxiv.org/abs/2605.06524)

- CrackMeBench: Benchmark für Binary-Reverse-Engineering durch Agenten ohne Quellcode. [arXiv:2605.10597](https://arxiv.org/abs/2605.10597)

- Faithful Autoformalization: Roundtrip-Verifizierung zur Überprüfung treuer Formalisierung natürlichsprachlicher Aussagen. [arXiv:2604.25031](https://arxiv.org/abs/2604.25031)

### Tool & Infrastruktur

- Metal-Sci Benchmark: 10-Task-Benchmark für wissenschaftliche Apple-Silicon-Kernel-Optimierung mit automatisierter Kernel-Suche. [arXiv:2605.09708](https://arxiv.org/abs/2605.09708)

- Continual Harness: Online-Lernrahmen für self-improving embodied Agents — Gemini schaffte als erstes KI-System Pokémon Blue/Yellow/Crystal im Hard-Mode fehlerfrei. [arXiv:2605.09998](https://arxiv.org/abs/2605.09998)

- MemPrivacy: Datenschutz-erhaltende Speicher-Verwaltung für Edge-Cloud-Agenten mit semantischer Utility-Erhaltung. [arXiv:2605.09530](https://arxiv.org/abs/2605.09530)

### Business & Anwendungen

- Fashion Florence: Fine-tuned Vision-Language-Modell für strukturierte Mode-Attributs-Extraktion aus Bildern (JSON-Output). [arXiv:2605.09827](https://arxiv.org/abs/2605.09827)

- ConFit v3: Resume-Job-Matching mit LLM-basiertem Re-Ranking für bessere Kontrollierbarkeit und Erklärbarkeit. [arXiv:2605.09760](https://arxiv.org/abs/2605.09760)

### Monitoring & Qualitätssicherung

- AgentForesight: Online-Auditing zur frühen Fehlererkennung in Multi-Agent-Systemen, bevor Fehler kaskadieren. [arXiv:2605.08715](https://arxiv.org/abs/2605.08715)

- Byte-Exact Deduplication in RAG: Empirische Analyse von Chunk-Deduplizierung zeigt kontextabhängige Reduktion (0,16% akademisch, 80% Konversation). [arXiv:2605.09611](https://arxiv.org/abs/2605.09611)

- Überconfidence bei visuellen Details: APL-Methode gegen Prompt-Insensitivität bei Vision-LLMs (z.B. 5-beiniger Hund). [arXiv:2510.09887](https://arxiv.org/abs/2510.09887)
▶ Top Playbooks Alle Playbooks →
Bereiche