Claude Opus 4.8: Analyse, Benchmarks und Neuerungen

Am 28. Mai 2026 veröffentlichte Anthropic mit Claude Opus 4.8 die bislang leistungsfähigste Version seines Flaggschiff-Modells. Während das Unternehmen selbst von einer „bescheidenen, aber spürbaren Verbesserung" spricht, zeigen die unabhängigen Benchmark-Ergebnisse ein differenzierteres Bild: Opus 4.8 übertrifft seinen Vorgänger in fast allen gemessenen Kategorien, führt den Artificial Analysis Intelligence Index mit 61,4 Punkten an und bringt gleich mehrere neue Funktionen mit, die besonders für Teams mit langlaufenden agentischen Workloads relevant sind.

Dieser Artikel fasst die wichtigsten Neuerungen, Benchmark-Ergebnisse und praktischen Auswirkungen zusammen – basierend auf Anthropics offizieller Ankündigung, dem System Card und unabhängigen Analysen.

Die wichtigsten Neuerungen im Überblick

Claude Opus 4.8 ist kein grundlegend neues Modell, sondern eine konsequente Weiterentwicklung von Opus 4.7. Der Fokus liegt auf höherer Zuverlässigkeit, besserer Zusammenarbeit und neuen API-Fähigkeiten für anspruchsvolle agentische Arbeitsabläufe.

Fast Mode (Research Preview)

Mit dem Parameter `speed: "fast"` erreicht Opus 4.8 bis zu 2,5-mal mehr Output-Tokens pro Sekunde – bei gleichbleibender Modellqualität. Der Fast Mode wird über die Claude API bereitgestellt und kostet das Doppelte des regulären Preises. Anthropic bezeichnet dies als „Research Preview\", was darauf hindeutet, dass der Modus noch nicht als vollständig ausgereift gilt.

Effort Control

Neu ist ein Regler auf `claude.ai` und in Cowork, mit dem Nutzer den Reasoning-Aufwand des Modells steuern können:

Lower effort: Schnellere Antworten, geringerer Rate-Limit-Verbrauch
High effort (Standard): Der neue Default auf allen Oberflächen – ausgewogenes Verhältnis von Geschwindigkeit und Tiefe
Extra / Max (xhigh): Für besonders schwierige Aufgaben und langlaufende asynchrone Workflows

In Claude Code wurden die Rate Limits erhöht, um den höheren Token-Verbrauch auf den maximalen Stufen abzubilden.

Dynamic Workflows in Claude Code (Research Preview)

Die vielleicht spannendste Neuerung: Claude Code kann komplexe Aufgaben in einem Plan zerlegen, hunderte parallele Sub-Agenten in einer einzigen Sitzung ausführen und die Ergebnisse vor der Rückmeldung verifizieren.

Anwendungsbeispiele sind Codebase-weite Migrationen über Hunderttausende Zeilen Code – vom Kickoff bis zum Merge. Verfügbar auf den Plänen Enterprise, Team und Max.

Mid-Conversation System Messages

Die API akzeptiert jetzt `role: "system"`-Einträge innerhalb des Messages-Arrays – auch nach einem User-Turn. Das erlaubt es, die Instruktionen von Claude während einer laufenden Aufgabe zu aktualisieren, ohne den System-Prompt neu aufbauen zu müssen. Der Prompt-Cache auf früheren Turns bleibt erhalten, was die Input-Kosten in agentischen Schleifen senkt.

Weitere API-Verbesserungen

Prompt Cache Minimum auf 1.024 Tokens gesenkt (vorher höher) – kurze Prompts, die bisher nie gecached wurden, qualifizieren sich jetzt ohne Code-Änderungen
Refusal Stop Details – das `stop_details`-Objekt ist jetzt öffentlich dokumentiert und erlaubt Anwendungen, zwischen verschiedenen Arten von abgelehnten Anfragen zu unterscheiden
Adaptive Thinking – Opus 4.8 aktiviert Reasoning nur dann, wenn es der Turn tatsächlich benötigt. Einfache Lookups und kurze Schritte antworten direkt, komplexe Probleme lösen einen Reasoning-Prozess aus. Das reduziert verschwendete Thinking-Tokens

Benchmark-Ergebnisse: Wo Opus 4.8 führt

Anthropic hat eine umfassende Reihe von Benchmarks veröffentlicht. Die folgende Tabelle zeigt die Werte im Vergleich zu Opus 4.7 und den Wettbewerbern GPT-5.5 und Gemini 3.1 Pro:

Agentic Coding (SWE-Bench Pro): 69,2 % (Opus 4.7: 64,3 %, GPT-5.5: 58,6 %, Gemini 3.1 Pro: 54,2 %)
Agentic Terminal Coding (Terminal-Bench 2.1): 74,6 % (Opus 4.7: 66,1 %, GPT-5.5: 78,2 %, Gemini: 70,3 %)
Multidisciplinary Reasoning, no tools (Humanity's Last Exam): 49,8 % (Opus 4.7: 46,9 %, GPT-5.5: 41,4 %)
Multidisciplinary Reasoning, with tools: 57,9 % (Opus 4.7: 54,7 %, GPT-5.5: 52,2 %)
Agentic Computer Use (OSWorld Verified): 83,4 % (Opus 4.7: 82,8 %, GPT-5.5: 78,7 %)
Knowledge Work (GDPval-AA): 1.890 Punkte (Opus 4.7: 1.753, GPT-5.5: 1.769)
Agentic Financial Analysis (Finance Agent v2): 53,9 % (Opus 4.7: 51,5 %, GPT-5.5: 51,8 %)

Opus 4.8 führt in sechs von sieben Kategorien – die einzige Ausnahme ist Terminal-Bench 2.1, wo GPT-5.5 mit 78,2 % knapp vorn liegt. Der größte relative Sprung gegenüber Opus 4.7 ist im Agentic Terminal Coding (+8,5 Prozentpunkte) und im Agentic Coding (+4,9 Prozentpunkte) zu beobachten.

Unabhängige Bestätigung durch Artificial Analysis

Der unabhängige Benchmark-Anbieter Artificial Analysis bestätigt den Führungsanspruch: Claude Opus 4.8 erreicht 61,4 Punkte auf dem Artificial Analysis Intelligence Index und liegt damit vor allen Wettbewerbern. Besonders hervorzuheben ist der GDPval-AA-Wert von 1.890 – das sind +137 Punkte gegenüber Opus 4.7 und +121 Punkte vor dem nächstbesten Modell GPT-5.5. Dieser Wert impliziert eine Siegrate von etwa 67 % gegen GPT-5.5 bei direktem Vergleich, und das bei 15 % weniger Turns pro Task und 35 % weniger Output-Tokens als Opus 4.7.

Ehrlichkeit und Alignment: Der unsichtbare Fortschritt

Ein häufig übersehener Aspekt des Updates sind die substanziellen Verbesserungen bei Honesty und Alignment. Anthropic betont:

„Opus 4.8 ist etwa viermal weniger wahrscheinlich als sein Vorgänger, Fehler in selbst geschriebenem Code unerwähnt zu lassen."

Das Modell ist signifikant häufiger bereit, Unsicherheiten zu signalisieren und eigene Fehler zu benennen. In den internen Alignment-Assessments erreichte Opus 4.8 „neue Höchstwerte bei prosozialen Eigenschaften wie der Unterstützung von Nutzerautonomie und dem Handeln im besten Interesse des Nutzers". Die Raten von fehlgeleitetem Verhalten (Täuschung, Kooperation mit Missbrauch) liegen deutlich unter denen von Opus 4.7 und auf dem Niveau des sicherheitsoptimierten Claude Mythos Preview.

Preise und Verfügbarkeit

Die Preise bleiben unverändert zu Opus 4.7:

Standard: $5 / Million Input-Tokens, $25 / Million Output-Tokens
Fast Mode: $10 / Million Input-Tokens, $50 / Million Output-Tokens (2,5× Geschwindigkeit)
Fast Mode ist 3× günstiger als bei früheren Opus-Modellen bei gleicher oder höherer Geschwindigkeit

Das Modell ist verfügbar über:

Claude API (Modell-ID: `claude-opus-4-8`)
Amazon Bedrock
Google Vertex AI
GitHub Copilot (ab 28. Mai 2026)

Der Context Window beträgt 1 Million Tokens (200k auf Microsoft Foundry), die maximale Output-Länge liegt bei 128k Tokens.

Technische Einschränkungen

Für Entwickler, die von Opus 4.7 migrieren, gibt es einige wichtige Hinweise:

Keine Sampling-Parameter: `temperature`, `top_p` und `top_k` lösen einen 400-Fehler aus, wenn sie auf einen nicht-standardmäßigen Wert gesetzt werden. Stattdessen sollte über Prompting gesteuert werden.
Adaptive Thinking ist der einzige Thinking-Mode: Extended Thinking Budgets (`budget_tokens`) werden nicht unterstützt.
Effort-Default ist `high` auf allen Oberflächen – bisherige explizite Einstellungen bleiben erhalten.

Die API-Beschränkungen sind unverändert von Opus 4.7 – Code, der bereits auf Opus 4.7 läuft, benötigt keine Änderungen.

Fazit: Mehr als ein „bescheidenes" Update

Anthropic selbst bezeichnet Opus 4.8 als „eine bescheidene, aber spürbare Verbesserung". Diese Formulierung ist typisch für das Unternehmen – und unterschätzt, was das Update tatsächlich bietet:

Die Kombination aus neuen API-Features (Fast Mode, Mid-Conversation System Messages, gesenktes Prompt-Cache-Minimum), produktseitigen Neuerungen (Dynamic Workflows, Effort Control) und substanziellen Benchmark-Verbesserungen macht Opus 4.8 zum derzeit leistungsfähigsten allgemein verfügbaren KI-Modell. Besonders die Fortschritte bei agentischen Coding-Aufgaben und die signifikant gesteigerte Ehrlichkeit des Modells sind praktisch relevante Verbesserungen, die über marginale Benchmark-Steigerungen hinausgehen.

Für Unternehmen, die bereits auf Claude setzen, ist die Migration aufgrund der abwärtskompatiblen API und der identischen Preisstruktur praktisch risikofrei. Wer mit dem Gedanken spielt, auf Claude umzusteigen, hat mit Opus 4.8 den denkbar besten Zeitpunkt.

← Zurück zum Blog Beratung anfragen