Trotz der häufigen Behauptungen der Anbieter von Sprachmodellen, ihre Modelle seien besonders gut im sogenannten Reasoning, zeigt die Forschung, dass dies nicht immer zutrifft.
Die Studie, veröffentlicht von Kim et al. (2024) auf arxiv, stellt fest, dass GPT-4 zwar die Standardaufgaben nahezu alle lösen kann, bei abgewandelten Aufgaben jedoch deutlich schlechter abschneidet. Die Forscher betonen jedoch, dass die Modelle eine gewisse Fähigkeit zur Verallgemeinerung besitzen und innerhalb eines bestimmten Rahmens logisch denken können, was sich in der Häufigkeit der richtigen Antworten zeigt.
Dennoch sind die Ergebnisse weit entfernt von den Erwartungen der Anbieter und gängiger Benchmarks. Das Resultat legt nahe, dass die Sprachmodelle zwar viel auswendig lernen und wiedergeben, jedoch auch einen kleinen Teil erschließen können.
Die Ergebnisse der Studie zeigen, dass beim Auftreten von unvorhergesehenen Problemen zur Lösung dieser immer noch Menschen benötigt werden, die über logisches Denken und Abstraktionsvermögen verfügen.