Der X-Nutzer @cozyblaze265065 veröffentlichte am 22. Mai informelle Testergebnisse zu einer Multiplikations-Benchmark: Ohne Einsatz externer Werkzeuge absolvierte GPT-5.5 im Modus „Medium Reasoning“ (mit jeweils 7 Abtastungen pro Zelle) insgesamt 400 Multiplikationsaufgaben (20×20; maximal 20 Stellen pro Faktor). Die Trefferquote lag bei 99,46 %; lediglich bei wenigen Kombinationen mit sehr vielen Ziffern gab es Fehler. Ein Heatmap zeigt, dass die Trefferquote unter dem „Medium Reasoning“-Modus deutlich höher ausfällt als bei niedrigeren Reasoning-Stufen – dies belegt, dass mehr Schritte der Kettenschlussfolgerung die Genauigkeit bei Mehrstellenrechnungen spürbar verbessern. Der KI-Forscher Raphaël Millière kommentierte dazu: „Ich höre immer noch gelegentlich Leute behaupten, LLMs könnten überhaupt keine Rechenoperationen durchführen – das ist ein weiterer Beweis dafür, dass wir mittlerweile nicht mehr im Jahr 2022 leben.“ Diese Tests wurden von der Community initiiert und sind keine offiziellen OpenAI-Benchmarks; dennoch ist die Methodik klar strukturiert, weshalb die Ergebnisse große Aufmerksamkeit erregten.
Verwandte Themen
| Thema | Antworten | Aufrufe | Aktivität | |
|---|---|---|---|---|
| OpenAI 内部通用模型推翻 80 年艾狄胥猜想,数学界里程碑 | 0 | 6 | 21. Mai 2026 | |
| 北大团队发布全球首个 AI 学术诚信基准,整体问题率达 34% | 0 | 4 | 20. Mai 2026 | |
| Google DeepMind AI agent resolves 9 open Erdős problems and proves 44 OEIS conjectures at hundreds of dollars per proof | 0 | 6 | 25. Mai 2026 | |
| GRAM:将递归推理概率化,10M 参数 ARC-AGI-1 达 52% | 0 | 5 | 20. Mai 2026 | |
| OpenAI's Codex engineering lead floats "slow mode" batch compute for long-running coding tasks | 0 | 8 | 24. Mai 2026 |