Die deutsche
KI-Wissensreferenz

18 LLM-Anbieter · 123+ Quellen · 8038+ Artikel · Alles an einem Ort.

18
LLM-Anbieter
123+
Quellen
8038+
Artikel archiviert

Relevant fuer dich

Neueste Updates zu deinen Tools und Workflows

• google

Plan mode is now available in Gemini CLI

Gemini CLI now features Plan Mode, a read-only environment that allows the AI to analyze complex codebases and map out architectural changes without the risk of accidental execution. By leveraging the...

Gemini
06. April 2026 • anthropic

Anthropic is burning more and more dev goodwill

Article URL: https://twitter.com/GergelyOrosz/status/2041133254586122605 Comments URL: https://news.ycombinator.com/item?id=47662350 Points: 36 # Comments: 20

Claude
06. April 2026 • anthropic

Claude Code Down

https://www.reddit.com/r/ClaudeCode/comments/1se1p30/broken_again/ https://www.reddit.com/r/ClaudeCode/comments/1se1vn1/oauth_api_key_expiring_daily/ https://www.reddit.com/r/ClaudeCode/comments/1se1u...

Claude
06. April 2026 • anthropic

Claude Code Down

https://www.reddit.com/r/ClaudeCode/comments/1se1p30/broken_again/ https://www.reddit.com/r/ClaudeCode/comments/1se1vn1/oauth_api_key_expiring_daily/ https://www.reddit.com/r/ClaudeCode/comments/1se1u...

Claude

Was gerade in der KI-Welt passiert

Alle News ansehen →
• developers

ADK Go 1.0 Arrives!

The launch of Agent Development Kit (ADK) for Go 1.0 marks a significant shift from experimental AI scripts to production-ready services by prioritizing observability, security, an...

Tages-Digest

06. April 2026 — 366 Artikel, 25 mit hoher Relevanz
# KI-Tagesüberblick 2026-04-06

Highlights

1. Multi-Turn Reinforcement Learning für Tool-Calling Agents — [Anthropic und OpenAI](https://arxiv.org/abs/2604.02869) präsentieren erstmals MT-GRPO kombiniert mit GTPO für Training von Agenten bei mehrstufigen Aufgaben. Das neue Verfahren löst das Problem der dünnen Outcome-Rewards und schwierigen Credit Assignment über Gesprächsturns hinweg.

2. GrandCode erreicht Großmeister-Level in Wettbewerbsprogrammierung — [Googles Multi-Agent RL-System](https://arxiv.org/abs/2604.02721) übertrifft erstmals Gemini 3 Deep Think und nähert sich menschlichem Großmeister-Niveau in kompetitiver Programmierung, bisher ein KI-Schwachpunkt.

3. Automatische Formalisierung von 500-Seiten-Lehrbuch — [Anthropic-Forschung](https://arxiv.org/abs/2604.03071) formalisiert erstmals ein komplettes Graduierten-Algebraik-Lehrbuch zu Lean (130K Zeilen Code) — neuer Meilenstein für Textformalisierungsumfang.

4. Konsistenz bestimmt Agent-Zuverlässigkeit — [Analyse von Claude 4.5, GPT-5 und Llama-3.1](https://arxiv.org/abs/2603.25764) zeigt: Behavioral Variance ist kritischer Faktor für Production-Zuverlässigkeit von LLM-Agenten, nicht nur Durchschnittsleistung.

5. Safety-Evaluation für Kimi K2.5 — [Unabhängige Sicherheitsbewertung](https://arxiv.org/abs/2604.03121) des Open-Weight-Modells deckt Lücken bei CBRNE-Missbrauchsrisiken und Cybersecurity-Anfälligkeit auf.

## Modell-Updates

- Kimi K2.5 rivalisiert mit geschlossenen Modellen in Coding/Multimodal/Agentic Benchmarks, benötigte aber begleitende Safety-Evaluation

## Tool-Releases

- Cabinet — [LLM+Knowledge-Base-Tool](https://runcabinet.com) auf Claude Code (open source, lokal laufbar, npm-installierbar) für CSV/PDF-Integration mit Agent-Heartbeats und Jobs

## Forschung

- BibTeX-Halluzinationen in Publishing-Agenten — [Benchmark von 931 Papers](https://arxiv.org/abs/2604.03159) zeigt persistente Field-Level-Fehler bei Web-Search-LLMs, nicht nur in Basismodellen
- Prompt-Injection Staging-Analyse — [Kill-Chain-Canaries-Framework](https://arxiv.org/abs/2603.28013) lokalisiert Verteidigungsphasen in LLM-Agent-Pipelines über fünf Frontier-Modelle
- Supply-Chain-Poisoning gegen Agent-Skills — [Neue Angriffsklasse](https://arxiv.org/abs/2604.03081) auf Open-Marketplace-Skills mit Systemzugriff identifiziert
- LLMs als Messinstrumente — [Labor-Economics-Studie](https://arxiv.org/abs/2604.02403) etabliert theoretische Grundlagen für LLM-basierte Messung latenter kognitiver Variablen
- Domain-Adapted RAG für Pädagogische Annotation — Lightweight Embedding-Modelle ersetzen Fine-Tuning für High-Stakes-Tutoring-Dialoge
- Image-Prompt-Packaging — [Token-Effizienz-Methode](https://arxiv.org/abs/2604.02492) reduziert Text-Token-Overhead durch strukturierte In-Image-Embeddings
- AgentHazard-Benchmark — Neu: Safety-Framework für Computer-Use-Agents, da Harm durch Sequenzen lokal akzeptabler Schritte entstehen kann
- ProdCodeBench — [Production-Benchmark](https://arxiv.org/abs/2604.01527) aus echten Developer-Agent-Sessions, realistischer als akademische Benchmarks
- GBQA-Benchmark — 30 Spiele mit 124 verifizierten Bugs für QA-Agent-Evaluation

## Business

- Investor-Verschiebung zu Anthropic — [LA Times-Bericht](https://www.latimes.com/business/story/2026-04-01/openais-shocking-fall-from-grace-as-investors-race-to-anthropic) dokumentiert Kapitalfluss von OpenAI zu Anthropic

---

Datengrundlage: 366 gesammelte Quellen, top 20 nach Relevanz-Score bewertet

KI Playbooks

Umsetzbare Anleitungen sofort in der Praxis anwenden.

Alle Playbooks →