Community-Test: GPT-5.5 erreicht ohne Hilfsmittel eine Genauigkeit von 99,46 % bei Multiplikationsaufgaben mit 20-stelligen Zahlen

Der X-Nutzer @cozyblaze265065 veröffentlichte am 22. Mai informelle Testergebnisse zu einer Multiplikations-Benchmark: Ohne Einsatz externer Werkzeuge absolvierte GPT-5.5 im Modus „Medium Reasoning“ (mit jeweils 7 Abtastungen pro Zelle) insgesamt 400 Multiplikationsaufgaben (20×20; maximal 20 Stellen pro Faktor). Die Trefferquote lag bei 99,46 %; lediglich bei wenigen Kombinationen mit sehr vielen Ziffern gab es Fehler. Ein Heatmap zeigt, dass die Trefferquote unter dem „Medium Reasoning“-Modus deutlich höher ausfällt als bei niedrigeren Reasoning-Stufen – dies belegt, dass mehr Schritte der Kettenschlussfolgerung die Genauigkeit bei Mehrstellenrechnungen spürbar verbessern. Der KI-Forscher Raphaël Millière kommentierte dazu: „Ich höre immer noch gelegentlich Leute behaupten, LLMs könnten überhaupt keine Rechenoperationen durchführen – das ist ein weiterer Beweis dafür, dass wir mittlerweile nicht mehr im Jahr 2022 leben.“ Diese Tests wurden von der Community initiiert und sind keine offiziellen OpenAI-Benchmarks; dennoch ist die Methodik klar strukturiert, weshalb die Ergebnisse große Aufmerksamkeit erregten.

X (@cozyblaze265065)