Live
Bring state-of-the-art agentic skills to the edge with Gemma 4Supporting Google Account username change in your appDeveloper’s Guide to Building ADK Agents with SkillsADK Go 1.0 Arrives!Boost Training Goodput: How Continuous Checkpointing Optimizes Reliability in Orbax and Ma...Announcing ADK for Java 1.0.0: Building the Future of AI Agents in JavaClosing the knowledge gap with agent skillsJump to play: Building with Gemini & MediaPipeBuild a smart financial assistant with LlamaParse and Gemini 3.1Developer’s Guide to AI Agent ProtocolsAnnouncing the Colab MCP Server: Connect Any AI Agent to Google ColabPlan mode is now available in Gemini CLIIntroducing Finish Changes and Outlines, now available in Gemini Code Assist extensions on...Unleash Your Development Superpowers: Refining the Core Coding ExperienceIntroducing Wednesday Build HourWhat's new in TensorFlow 2.21You can't stream the energy: A developer's guide to Google Cloud Next '26 in VegasHow we built the Google I/O 2026 Save the Date experienceSupercharge your AI agents: The New ADK Integrations EcosystemOn-Device Function Calling in Google AI Edge GalleryTorchTPU: Running PyTorch Natively on TPUs at Google ScaleGet ready for Google I/O: Livestream schedule revealedNew enhancements for merchant initiated transactions with the Google Pay APIBuild Better AI Agents: 5 Developer Tips from the Agent Bake-OffBuilding with Gemini Embedding 2: Agentic multimodal RAG and beyondProduction-Ready AI Agents: 5 Lessons from Refactoring a MonolithSubagents have arrived in Gemini CLIMaxText Expands Post-Training Capabilities: Introducing SFT and RL on Single-Host TPUsAgents CLI in Agent Platform: create to production in one CLIA2UI v0.9: The New Standard for Portable, Framework-Agnostic Generative UIBring state-of-the-art agentic skills to the edge with Gemma 4Supporting Google Account username change in your appDeveloper’s Guide to Building ADK Agents with SkillsADK Go 1.0 Arrives!Boost Training Goodput: How Continuous Checkpointing Optimizes Reliability in Orbax and Ma...Announcing ADK for Java 1.0.0: Building the Future of AI Agents in JavaClosing the knowledge gap with agent skillsJump to play: Building with Gemini & MediaPipeBuild a smart financial assistant with LlamaParse and Gemini 3.1Developer’s Guide to AI Agent ProtocolsAnnouncing the Colab MCP Server: Connect Any AI Agent to Google ColabPlan mode is now available in Gemini CLIIntroducing Finish Changes and Outlines, now available in Gemini Code Assist extensions on...Unleash Your Development Superpowers: Refining the Core Coding ExperienceIntroducing Wednesday Build HourWhat's new in TensorFlow 2.21You can't stream the energy: A developer's guide to Google Cloud Next '26 in VegasHow we built the Google I/O 2026 Save the Date experienceSupercharge your AI agents: The New ADK Integrations EcosystemOn-Device Function Calling in Google AI Edge GalleryTorchTPU: Running PyTorch Natively on TPUs at Google ScaleGet ready for Google I/O: Livestream schedule revealedNew enhancements for merchant initiated transactions with the Google Pay APIBuild Better AI Agents: 5 Developer Tips from the Agent Bake-OffBuilding with Gemini Embedding 2: Agentic multimodal RAG and beyondProduction-Ready AI Agents: 5 Lessons from Refactoring a MonolithSubagents have arrived in Gemini CLIMaxText Expands Post-Training Capabilities: Introducing SFT and RL on Single-Host TPUsAgents CLI in Agent Platform: create to production in one CLIA2UI v0.9: The New Standard for Portable, Framework-Agnostic Generative UI

KI Force — Die deutsche KI-Wissensreferenz

18 Anbieter · 123+ Quellen · 25109+ Artikel

★ Aktuell Alle News →

Bring state-of-the-art agentic skills to the edge with Gemma 4

Google DeepMind has launched Gemma 4, a family of state-of-the-art open models designed to enable multi-step planning and autonomous agentic workflows directly on-device. The release includes the Google AI Edge Gallery for experimenting with "Agent Skills" and the LiteRT-LM libra...

Neueste Artikel Mehr ansehen →
• developers

ADK Go 1.0 Arrives!

The launch of Agent Development Kit (ADK) for Go 1.0 marks a significant shift from experimental AI scripts to productio...

▶ Tages-Digest — 11. Mai 2026 668 Artikel, 28 relevant
# KI-Tagesüberblick 2026-05-11

Highlights

1. GPT-5.5 deutlich teurer als Vorgänger — OpenAI hat die [Listenpreise für GPT-5.5 verdoppelt](https://the-decoder.de/gpt-5-5-kostet-je-nach-eingabelaenge-49-bis-92-prozent-mehr-als-der-vorgaenger/). Analysen zeigen: Trotz kürzerer Antworten steigen die tatsächlichen Nutzungskosten je nach Eingabelänge um 49–92 Prozent. Auch Anthropic erhöht Preise.

2. LLM-Agenten scheitern bei Architektur-Refactoring — [SmellBench](https://arxiv.org/abs/2605.07001) zeigt erstmals: Während LLM-Agenten bei lokalen Bug-Fixes gut abschneiden, können sie architektonische Code-Probleme, die Cross-Module-Reasoning erfordern, nur bedingt reparieren.

3. Position-Curse-Phänomen identifiziert — [Neue Forschung](https://arxiv.org/abs/2605.07127) deckt auf, dass selbst moderne LLMs (z.B. Claude) regelmäßig die letzten Items in kurzen Listen übersehen – ein systematischer Fehler trotz exzellenter „Needle-in-Haystack"-Performance.

4. Globale Arzneistoff-Scouting mit KI-Agenten — [Hunt Globally](https://arxiv.org/abs/2602.15019) zeigt, dass über 85% neuer Pharma-Patent-Filings außerhalb der USA in regionalen, nicht-englischen Kanälen entstehen – KI-Agenten könnten hier Wettbewerbsintelligenz automatisieren.

5. Intent-Verständnis-Benchmark veröffentlicht — [IntentGrasp](https://arxiv.org/abs/2605.06832) ist ein neuer Benchmark aus 49 Korpora über 12 Domänen zur Bewertung, wie gut LLMs Absichten in Sprache und Text verstehen.

## Forschung

- Multi-Agent Learning Discovery: [Forscher nutzen LLMs, um neue MARL-Algorithmen automatisch zu entdecken](https://arxiv.org/abs/2602.16928) – ein Ansatz zur Automatisierung von Algorithmus-Design.

- Halluzinations-Erkennung: [Proxy-Analyzer-Framework](https://arxiv.org/abs/2605.07209) erkennt Halluzinationen durch kleine lokale Modelle, funktioniert auch bei geschlossenen APIs wie GPT-4.

- Soziale Normen in Gruppen-Chats: [SCENE-Benchmark](https://arxiv.org/abs/2605.07823) prüft, ob LLM-Agenten implizite Verhaltensregeln in Multi-Party-Chats erkennen und einhalten.

- Domain-spezifische Metacognition: [33-Modell-Atlas](https://arxiv.org/abs/2605.06673) zeigt erhebliche Variation in Selbstbewusstsein (Confidence-Calibration) je nach Fachbereich – nicht nur aggregierte Scores sind relevant.

- CLI-Agent-Training: [Neue Methode mit strukturiertem Action-Credit Learning](https://arxiv.org/abs/2605.08013) für Agenten, die mit Dateisystemen und Command-Line-Befehlen interagieren.

## Tools & Benchmarks

- ScrapeGraphAI-100k Dataset: [93.695 Schema-Constrained Extraction-Events](https://arxiv.org/abs/2602.15189) für Training von LLMs auf strukturierte Datenextraktion aus echten Web-Inhalten.

- Agentick Benchmark: [Einheitlicher Benchmark](https://arxiv.org/abs/2605.06869) zum Vergleich von RL-, LLM-, VLM- und Hybrid-Agenten im Sequential Decision-Making.

- NSMQ Riddles: [Neuer Benchmark mit wissenschaftlichen Rätseln](https://arxiv.org/abs/2605.07051) aus dem Global South für LLM-Bewertung – mit Open-Ended-Answers statt Multiple-Choice.

## Anwendungen & Evals

- HTML-Generation im Vergleich: [8-Wochen-Studie](https://arxiv.org/abs/2605.06707) von 68 Single-File-HTML-Generationen zeigt Performance-Unterschiede zwischen GPT, Gemini, Grok und Claude unter standardisierten Bedingungen.

- Qualitative Coding-Unterstützung: [Studie zu Prompt-Engineering](https://arxiv.org/abs/2605.07422) für LLM-basierte qualitative Analyse (z.B. psychologische Sicherheit in Engineering-Teams) zeigt: Methodische Choices beeinflussen Ergebnisse massiv.

- Automated Short Answer Scoring: [Forschung](https://arxiv.org/abs/2605.07647) zur LLM-Bewertung von Kurz-Antworten – Few-Shot-Ansätze funktionieren, verlieren aber an Präzision bei teilweise korrekten, nuancierten Antworten.

- Bengali Social Media Annotation: [MultiSoc-4D Benchmark](https://arxiv.org/abs/2605.06940) zeigt „Label Collapse"-Problem: Geschlossene Instruktionen führen bei LLMs in Low-Resource-Sprachen zu Bias.
▶ Top Playbooks Alle Playbooks →
Bereiche