Zurück zur Übersicht
Ein am 24. März veröffentlichter Benchmark testet agentische KI in turn-basierten Umgebungen statt mit kurzen Einzelantworten. Laut der Arbeit lösen Menschen alle Aufgaben, während Frontier-Modelle unter 1 Prozent bleiben.
ARC-AGI-3 ist ein neuer Benchmark für agentische KI, der am 24. März veröffentlicht wurde. Im Mittelpunkt stehen offene, mehrstufige Aufgaben in turn-basierten Umgebungen.
Die Arbeit zielt damit auf einen anderen Testtyp als klassische Kurzprompt-Benchmarks. Gemessen werden soll, wie gut Systeme Probleme über mehrere Schritte hinweg ausführen und an veränderte Zustände anpassen.
Nach Angaben der Autoren lösen Menschen 100 Prozent der Aufgaben. Frontier-KI-Systeme bleiben demnach unter 1 Prozent.
Die Veröffentlichung setzt damit einen neuen Referenzpunkt für die Bewertung agentischer Systeme. Der Fokus verschiebt sich von punktueller Demo-Leistung auf robuste mehrstufige Problemlösung unter realistischeren Bedingungen.
Weiterlesen
Die Vereinten Nationen führen vom 15. bis 17. Juni 2026 im Palais des Nations informelle Sitzungen zum Thema 'Artificial intelligence in the military domain and its implications for international peace and security' durch. Die Treffen bringen Staaten, internationale Organisationen, Wissenschaft und Zivilgesellschaft zusammen und behandeln Rechtsfragen, Lebenszyklusbetrachtungen sowie Vertrauens‑ und Kontrollmaßnahmen.
Salesforce erweitert im Summer 2026 Release Agentforce um native Unterstützung für Googles Modell Gemini 3.5 Flash sowie Multi‑Agent‑Orchestrierung und Slack‑first‑Workflows. Die Neuerungen verknüpfen Agentforce enger mit Tableau und Google Cloud und bauen auf der im April angekündigten Partnerschaft mit Google Cloud auf.
Mehrere US-Bundesstaaten verhandeln oder verabschieden eigene Regeln für den Einsatz von KI, von Beschränkungen bei Kindern und Werbung bis zu Verboten automatisierter Personalentscheidungen. Die Initiative steht im Widerspruch zur Forderung des Weißen Hauses nach einer einheitlichen bundesweiten Regelung.
Apple stellte auf der WWDC am 8. Juni Siri AI und die neue Generation von Apple Intelligence vor. Wegen Vorgaben des Digital Markets Act liefert Apple die Funktion bei Markteinführung in der EU nicht auf iPhone und iPad; macOS, visionOS und watchOS sollen die KI-Funktion zunächst erhalten.
KKR hat mit Partnern die Gesellschaft Helix Digital Infrastructure angekündigt. Helix will über 10 Milliarden US-Dollar in Rechenzentren, Energie und Netz investieren, um Engpässe für großskalige KI Modelle zu beheben.