OpenAI GPT-5.4: Erstes Reasoning-Modell mit Coding, Computer Use und Thinking in einem
OpenAI veröffentlicht GPT-5.4 Thinking und Pro — das erste allgemeine Reasoning-Modell mit nativer Computerbedienung, integriertem Coding und deutlich verbesserter Wissensarbeit. ARC-AGI-2: 83,3 % (Pro), GDPval: 83,0 %.
GPT-5.4: Erstes allgemeines Reasoning-Modell mit nativer Computerbedienung
OpenAI hat GPT-5.4 veröffentlicht — das bislang leistungsfähigste Modell des Unternehmens und das erste allgemeine Reasoning-Modell mit nativ integrierter Computerbedienung (Computer Use). Das Modell vereint erstmals die Coding-Stärken von GPT-5.3-Codex mit verbessertem Reasoning und agentischen Workflows in einer einzigen Architektur.
Technisch bemerkenswert: Auf dem OSWorld-Verified-Benchmark, der Desktop-Navigation über Screenshots, Maus- und Tastatureingaben misst, erreicht GPT-5.4 eine Erfolgsrate von 75,0 % — gegenüber 47,3 % beim Vorgänger GPT-5.2 und erstmals über der menschlichen Vergleichsgruppe (72,4 %). Auf ARC-AGI-2 erzielt die Pro-Variante 83,3 % (GPT-5.2 Pro: 54,2 %).
Neu in der API ist das Konzept „Tool Search": Statt alle Tool-Definitionen vollständig in den Prompt zu laden, erhält GPT-5.4 zunächst nur eine leichtgewichtige Liste und ruft Details erst bei Bedarf ab. In einem Test mit 250 Aufgaben aus dem MCP-Atlas-Benchmark reduzierte dies den Token-Verbrauch um 47 % bei gleichbleibender Genauigkeit — relevant für Systeme mit großen Tool-Ökosystemen. Zusätzlich unterstützt das Modell in Codex experimentell ein Kontextfenster von bis zu einer Million Tokens.
Beim Pricing steigen die Kosten: Input-Tokens kosten nun $2,50/M (GPT-5.2: $1,75/M), Output $15/M (GPT-5.2: $14/M). OpenAI argumentiert, dass GPT-5.4 als „token-effizientestes Reasoning-Modell" in der Praxis trotzdem günstiger kommt. Die Cybersicherheits-Einstufung wurde auf „High Capability" angehoben — erstmals für ein allgemeines Modell.
Quelle: The Decoder